Sidkarta   |   Kontakt
 
Större textMindre text

Talko - korpus över den talade svenskan i Finland

Resning av midsommarstång, Iniö.
Talko är en talspråkskorpus som upprätthålls av Språkarkivet vid Svenska litteratursällskapet i Finland. Korpusen innehåller inspelningar och tillhörande sökbara utskrifter. Utskrifterna har försetts med ordklasstaggar och en del morfologisk information. Talko 0.1 innehåller inspelningar gjorda inom projektet Spara det finlandssvenska talet och i framtiden kommer korpusen att kompletteras med både äldre och nyare inspelningar.

Ordet talko är finlandssvenska och avser arbete som man utför frivilligt tillsammans med andra.


  Logga in i Talko

Är du ny användare? Registrera dig och skapa eget användarkonto.  

 

Registrering

Sökningar 

Inspelningarna

Transkriptioner

Taggning

Kontakt

 

Registrering

Talspråkskorpusen Talko är avsedd för lingvistisk forskning. Korpusen ligger vid Tekstlaboratoriet vid Oslo universitet och för få tillgång till Talko måste du registrera dig som användare vid Tekstlaboratoriet.

Via länken kommer du till ett formulär där du kan ansöka om användartillstånd. Fyll i blanketten och följ instruktionerna så kommer du att få ett personligt användarkonto så att du kan logga in i korpusen.

Referenser till korpusen kan skrivas enligt följande: Talko - korpus över den talade svenskan i Finland. Svenska litteratursällskapet i Finland.

 

Sökningar i Talko

Talko använder korpusgränssnittet Glossa. Det finns en kort användarguide på svenska men för utförligare instruktioner (på engelska) kan du läsa användarhandledningen för Nordic Dialect Corpus. Valmöjligheterna i menyn Criteria är andra i Nordic Dialect Corpus än i Talko eftersom materialet taggats med olika taggare men visningsalternativen för sökresultaten är de samma.

 Talko användarguide    (uppdaterad oktober 2014)

 

Inspelningarna

I Talko ingår ett urval av inspelningarna från projektet Spara det finlandssvenska talet 2005-2009. Materialet i korpusen består av ca 20 minuter långa avsnitt ur intervjuerna, som i sin helhet är 40-60 minuter långa. Inspelningarna i Talko är utvalda för att få spridning på talarnas ålder, kön och hemort. I de flesta intervjuer deltar en person men det finns också intervjuer med två personer samtidigt.

Målet är att ca 10 % av Spara talet-materialet, dvs. omkring 100 h av de totalt ca 1 000 h inspelningar som gjordes inom projektet, ska ingå i Talko. I Talko 0.1 som öppnades i augusti 2014 ingår ca en tredjedel av det planerade materialet, dvs utdrag ur 100 inspelningar av 300 planerade.

Talko 0.1 Materialöversikt

 

Transkriptioner

I korpusen ingår två typer av utskrifter: en ljudenlig utskrift och en ortografisk utskrift. Gemensamt för dem båda är att de ord för ord följer det som sägs på inspelningen.

Den ljudenliga utskriften är gjord med ett slags grov ljudskrift. I utskriften används endast alfabetets vanliga bokstäver men långa vokaler markeras med kolon, t.ex. bana:n. I transkriptionsnyckeln beskrivs den ljudenliga utskriften närmare.

Transkriptionsnyckel

Skapandet av den ortografiska utskriften har skett halvautomatiskt, med hjälp av den dialekttranslitterator som utvecklats vid Tekstlaboratoriet vid Oslo universitet. Med utgångspunkt i den ljudenliga utskriften gör dialekttranslitteratorn en ortografisk utskrift, som sedan korrigeras manuellt. 

Den ortografiska utskriften följer standardsvensk stavning enligt Svenska Akademiens Ordlista (SAOL). För ord som inte ingår i SAOL används huvudsakligen Ordbok över Finlands svenska folkmål och Finlandssvensk ordbok som referenser. Utförligare beskrivning finns i instruktionerna för ortografisk utskrift.

Instruktioner för ortografisk utskrift

Taggning

De ortografiska utskrifterna har försetts med taggar som består av ordklass och viss morfologisk information (se utförligare beskrivning i användarguiden för Talko). Vid taggningen har den statistiska taggaren TreeTagger (Schmid 1994, 1995) använts. Stockholm-Umeå korpus (SUC) har använts som träningsmaterial för TreeTaggern. Eftersom det material som ingår i Talko dels är utskrivet talspråk, dels är finlandssvenska, var en del bearbetningar nödvändiga. I träningsmaterialet ingår därför i tillägg till SUC3, 8 manuellt taggade talspråksfiler. Antalet manuellt taggade filer kommer att utökas vilket även förbättrar korrektheten i materialet. Taggningskorrektheten mellan olika dialektområden varierar.

I Talko ingår följande 8 filer som är manuellt korrigerade:

abo_om04*
abo_ym13
esse_om01
helsingfors_om01-helsingfors_ow03
houtskar_yw01
korpo_ow01
narpes_ym03
vasa_ym06

Taggsettet som använts i Talko bygger på taggsettet i SUC men har kompletterats för att passa talspråksmaterial. Eftersom den ortografiska utskriften är gjord ord för ord utgående från den ljudnära utskriften innebär det att taggar som fogats till den ortografiska utskriften också gäller för den ljudnära utskriften.

*Filnamnen består av ort och en kod för ålder (äldre eller yngre: o/y) och kön (man eller kvinna: m/w). För att åtskilja personer från samma ort och samma informantkategori tilldelas alla dessutom ett nummer. 

Översikt över taggsettet i Talko  


 

Kontakt

Om du har frågor och synpunkter eller om du helt enkelt stöter på problem när du använder Talko får du gärna kontakta Språkarkivet, Lisa Södergård eller Janina Öhman (fornamn.efternamn@sls.fi). 

 


 

Skriv ut
Svenska litteratursällskapet i Finland | PB 158, 00171 Helsingfors | Tfn (09) 618 777 | info(a)sls.fi |