Stockholm-Umeå Corpus
Stockholm-Umeå Corpus - SUC skapades under 1990-talet och är en samling av texter bestående av 1 miljon ord.
Korpusens innehåll
Texterna kommer från olika genrer som reportage, recensioner, biografier, vetenskapliga artiklar mm, och förekommer i genre-ordning. Dessa texter av blivit ordklassmärkt och annoterade med ordklasstillhörighet, morfologisk böjningsform och lemma.
SUC skapades som grund för utveckling, träning och testning av olika analyserare för obegränsad svensk text men får enbart användas för forskningsändamål[1].
Versioner
SUC 1.0
Version 1.0 utvecklades genom projektet Korpusbaserad utveckling av modeller för datoranalys av löpande svensk text som bedrevs i samarbete mellan Gunnel Källgren vid Stockholms Universitet och Eva Ejerhed vid Umeå universitet och gjordes tillgängligt 1997 av institutionen för lingvistik på Stockholms universitet.[2]
SUC 2.0
Version 2.0 gjordes tillgänglig 2006 av Sofia Gustafson-Capková och Britt Hartmann vid institutionen för lingvistik på Stockholms universitet. Den innehåller samma texter som SUC 1.0 men är utökad med annotering på punkter, citattecken, förkortningar och namngivna enheter annoterade. Dessutom innehåller SUC 2.0, TIGERSUC, en konvertering till TIGERxml samt STORSUC, extra textmaterial.[3]
Källor
- ^ ”The Stockholm Umeå Corpus”. Arkiverad från originalet den 4 augusti 2010. https://web.archive.org/web/20100804212751/http://www.ling.su.se/staff/sofia/suc/suc.html.
- ^ Ejerhed, Et al., 1997, SUC 1.0
- ^ Källgren, Gunnel, 2006, SUC 2.0 (ed.) Sofia Gustafson-Capková och Britt Hartmann