Språkstatistik

Språkstatistik kan syfta på antingen statistik om enskilda språk^[1] eller statistik inriktad på lingvistiska data.

Statistik om modersmål och språkkunskaper ingår i vissa länders folkbokföringar eller kan kartläggas genom olika undersökningar.

Statistik om lingvistiska data används bland annat vid stilistiska undersökningar, som bakgrund för språkpsykologiska undersökningar och vid framställande av läroböcker i främmande språk. Syftet med språkstatistiken är då att undersöka sådant som ordlängd, meningslängd, antalet ord av viss typ med mera.^[2] Mycket av den typen av språkstatistik som finns idag är insamlad med hjälp av språkforskare men också av exempelvis pedagoger vars uppgift är att fastställa vilka ord som barn i första hand behöver lära sig. Idag genomförs undersökningarna av ord mycket snabbare med datorer. George Zipf var en föregångare till språkstatistiken och han har formulerat en egen språklag.^[3]

Statistik om språk

Ett sätt att presentera statistiska uppgifter om språkkunskaper: En karta som visar andelen i olika EU-stater som talar franska.

Flera länder i världen, exempelvis Finland och Kanada, för offentlig statistik om invånarnas språk/modersmål. Många andra länder, som Sverige och Danmark, gör det inte. EU har låtit genomföra flera undersökningar om andraspråkskunskaper i sina medlemsstater.

Användningen av och syftet med språkstatistiken kan variera mycket mellan olika länder. I Finland används uppgifter om invånarnas modersmål till att avgöra om kommuner ska betraktas som en- eller tvåspråkiga, vilket i sin tur avgör bland annat skyltning och om kommunens handlingar ska skrivas på finska, svenska eller båda språken.^[4]

Statistik om lingvistiska data

Zipfs lag

Huvudartikel: Zipfs lag

Zipfs lag säger att det råder omvänd proportionalitet mellan ords rankning och frekvens. Det innebär att det vanligaste ordet i ett språk (det ord som har rang 1) approximativt påträffas dubbelt så ofta som det näst vanligaste ordet i ett språk (rang 2), och tre gånger så ofta som det tredje vanligaste ordet (rang 3) och så vidare.^[5] Idag formuleras Zipfs lag ofta så att frekvensen approximativt är omvänt proportionerlig mot rankingen upphöjt med en exponent som är nära 1.^[6]

Zipf konstaterade även att korta ord är vanligare än långa.^[7] Det leder till att ord förkortas om de blir vanliga, som till exempel bil i stället för automobil.

Statistik om svenska språket

Vid undersökningar av svenska texter har man kunnat konstatera att de vanligaste bokstäverna är: e, a, n, t, r och s. När man i stället studerat ordfrekvensen har det visat sig att de vanligaste orden tillhör kategorierna: artiklar, prepositioner, kopula, konjunktioner och pronomen. I svenskan var de 50 vanligaste orden i dagstidningar åren efter millennieskiftet följande: i, och, att, det, som, en, på, är, av, för, med, till, den, har, de, inte, om, ett, han, men, var, jag, sig, från, vi, så, kan, man, när, år, säger, hon, under, också, efter, eller, nu, sin, där, vid, mot, ska, skulle, kommer, ut, får, finns, vara, hade, alla.^[8]

Det har också visat sig att det finns språkstatistiska skillnader mellan det talade och skrivna språket; till exempel utgör pronomen 14 procent av en skriven text men hela 23 procent av en talad. Det finns också skillnader i statistiken för en del personer och grupper. Det är inte ovanligt att en del har favoritord eller favorituttryck som används i högre utsträckning än genomsnittet.^[3] Exempel på det kan vara typ eller liksom bland ungdomar. Man har med hjälp av språkstatistik försökt genomföra så kallad författarbestämning. De görs ofta för att bestämma vem som är författare till en text där denne varit anonym eller använt en pseudonym. En författarbestämning med hjälp av språkstatistik sker ofta genom att man granskar språkets vanligaste småord och grammatiska konstruktioner, eftersom det ofta är de som skiljer en författare från en annan.^[9]

Se även

Referenser

Noter

^ Harald Haarmann (Herausgeber): Sprachenstatistik in Geschichte und Gegenwart. Buske, Hamburg 1979. ISBN 3-87118-368-7.
^ Bra böckers lexikon: Språkstatistik
^ [a b] språkstatistik på ne.se
^ Finland språklag: Språklig indelning
^ Zipf, George (1935) The psychobiology of human language New York: Houghton Mifflin
^ Zipfs lag på ne.se
^ Zipf, George (1949) Human behavior and the principle of least effort. Cambridge, MA: Addison Wesley
^ Larsson, Robert (2005): Sveriges vanligaste namn och ord. RL.se. (Läst 2014-09-13.)
^ författarbestämning på ne.se

Tryckta källor

Bra böckers lexikon (Språkstatistik), 1981. Bokförlaget Bra Böcker AB, Höganäs.
Parkvall, Mikael, Sveriges språk i siffror: Vilka språk talas och av hur många?, 2015. Stockholm: Språkrådet & Morfem.

Webbkällor

Alba: Planering trots bristande språkstatistik, 12 augusti 2009
Zipf's law på engelska Wikipedia, 25 februari 2009
ne.se: författarbestämning, 25 februari 2009
ne.se: språkstatistik, 23 februari 2009
ne.se: Zipfs lag, 23 februari 2009

Vidare läsning

Tidskrift: Statistical methods in linguistics (SMIL), Språkförlaget Skriptor, Stockholm, 1961-1978.

[1] Harald Haarmann (Herausgeber): Sprachenstatistik in Geschichte und Gegenwart. Buske, Hamburg 1979. ISBN 3-87118-368-7.

[2] Bra böckers lexikon: Språkstatistik

[ne.se-3] [a b] språkstatistik på ne.se

[4] Finland språklag: Språklig indelning

[5] Zipf, George (1935) The psychobiology of human language New York: Houghton Mifflin

[6] Zipfs lag på ne.se

[7] Zipf, George (1949) Human behavior and the principle of least effort. Cambridge, MA: Addison Wesley

[8] Larsson, Robert (2005): Sveriges vanligaste namn och ord. RL.se. (Läst 2014-09-13.)

[9] örfattarbestämning på ne.se

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]