Kvantitativ lingvistik

Kvantitativ lingvistik (på engelska 'quantitative linguistics', QL) är ett delområde av allmän lingvistik, närmare bestämt av den matematiska lingvistiken. Kvantitativ lingvistik behandlar språkinlärning, språkförändring samt de naturliga språkens struktur liksom deras användning. Den kvantitativa lingvistiken undersöker språk med statistiska metoder; dess högsta mål är att formulera lagar om språket och, ytterst, en allmän teori om språket som en samling inbördes relaterade språklagar. ^[1] Den s.k. synergetiska lingvistiken har från första början utformats för detta ändamål. Kvantitativ lingvistik är empiriskt grundad på resultat från språkstatistiken, ett fält som kan tolkas som statistik om språk eller som statistik om vilket som helst språkligt objekt. Detta forskningsfält är inte nödvändigtvis förbundet med avsevärda teoretiska strävanden. Korpuslingvistik och datalingvistik är andra fält som bidrar med viktiga empiriska data.

Historia

De tidigaste stegen mot kvantitativ lingvistik kan spåras tillbaka till det antika Grekland och Indien. En av de historiska källorna består av tillämpning av kombinatorik på språkliga frågor, ^[2] en annan baseras på elementära statistiska studier, under rubrikerna colometri och stichometri.^[3]

Språklagar i den kvantitativa lingvistiken

Inom den kvantitativa lingvistiken uppfattas begreppet lag som den klass av hypoteser om lagar som är härledda från teoretiska antaganden, är matematiskt formulerade, är relaterade till andra lagar inom området och är tillräckligt och framgångsrikt prövade mot empiriska data, dvs inte har kunnat vederläggas trots avsevärda ansträngningar att göra detta. Köhler skriver om lagar inom den kvantitativa lingvistiken: “Dessutom kan man visa att dessa egenskaper hos språkliga element och deras inbördes relationer lyder universella lagar som kan formuleras strikt matematiskt på samma sätt som är vanligt i naturvetenskaperna. I detta sammanhang måste man vara medveten om att dessa lagar är av stokastisk natur; de iakttas inte i varje enskilt fall (vilket varken skulle vara nödvändigt eller möjligt); fastmer fastlägger de sannolikheterna för de händelser eller proportioner som studeras. Det är lätt att finna motexempel till vart och ett av de ovannämnda exemplen; inte desto mindre strider dessa fall inte mot de motsvarande lagarna, eftersom variationerna kring det statistiska medelvärdet inte bara är godtagbara utan t.o.m. väsentliga; de bestäms själva exakt kvantitativt av motsvarande lagar. Denna situation skiljer sig inte från den i naturvetenskaperna, som sedan länge har övergett de gamla deterministiska och kausala världsåskådningarna och ersatt dem med statistiska/probabilistiska modeller.“^[4]

Några språklagar

Det finns åtskilliga föreslagna språklagar, däribland:^[5]

Lagen om diversifiering: Om språkliga kategorier som ordklasser eller böjningsändelser uppträder i olika former kan det visas att frekvenserna för deras förekomst i texter styrs av lagar.

Längdfördelningar (eller, allmännare, komplexitetsfördelningar). Undersökning av frekvenserna i texter eller ordböcker av varje slags enheter med avseende på deras längd resulterar regelbundet i ett antal fördelningar beroende på vad slags enhet som studeras. Hittills har följande enheter studerats:

- Lagen om fördelningen av morflängd;

- Lagen om fördelningen av längden av rytmiska enheter;

- Lagen om fördelningen av meningars längd;

- Lagen om fördelning av stavelsers längd;

- Lagen om fördelning av ordlängd;^[6]

Andra språkliga enheter som också lyder denna lag är t.ex. bokstäver (tecken) av olika komplexitet, längden av s.k. hrebs (https://web.archive.org/web/20110519222537/http://lql.uni-trier.de/index.php/Hreb_length) och av talakter. Samma sak gäller för fördelningen av ljud (foner) av olika duration.

Martins lag: Denna lag gäller de lexikala kedjor som man får genom att slå upp definitionen av ett ord i en ordbok, sedan slå upp definitionen av de ord som ingår i den just erhållna definitionen etc. Till slut bildar alla dessa definitioner en hierarki av allt mera generella betydelser, varvid antalet definierande ord minskar med ökande generalitet. Ett antal lagbundna relationer existerar mellan nivåerna i detta slags hierarki.

Menzeraths lag (även, särskilt i lingvistiken, Menzerath-Altmanns lag): Denna lag säger att storleken hos konstituenterna i en konstruktion minskar med ökande storlek hos konstruktionen i fråga. Ju längre t.ex. en mening är (mätt i antalet ingående satser), desto kortare är satserna (mätta i antalet ord), eller: ju längre ett ord är (i stavelser eller morfer), desto kortare är stavelserna eller morferna (i ljud).

Lagar om rang och frekvens: Praktiskt taget varje slag av språkliga enheter håller sig till dessa relationer. Här ger vi bara några illustrativa exempel:

- Orden i en text ordnas enligt sin frekvens i texten och tillordnas ett rangnummer och motsvarande frekvens. Efter George Kingsley Zipf (den välkända “Zipfs lag“) har ett stort antal matematiska modeller av relationen mellan rang och frekvens föreslagits.

- En liknande fördelning av rang och frekvens mellan ljud, fonem och bokstäver kan observeras.

- Ordassociationer: Rang och frekvens av de associationer som försökspersoner reagerar med på stimulusord.

Lagen om språkförändring: Tillväxtprocesser hos språket såsom utökning av ordförrådet, spridning av främmande ord eller lånord, ändringar i böjningssystemet etc. styrs av en lag som i den kvantitativa lingvistiken är känd som Piotrowskis lag och som motsvarar tillväxtmodeller i andra vetenskapsgrenar. Piotrowskis lag är ett specialfall av den s.k. logistiska modellen (jfr logistisk ekvation). Det har visats att den också gäller för språkutvecklingsprocesser (jfr språkutvecklingslagen).

Textblockslagen: Språkliga enheter (t.ex. ord, bokstäver, syntaktiska funktioner och konstruktioner) uppvisar en specifik frekvensfördelning i jämstora textblock.

Zipfs lag: Ords frekvens är omvänt proportionell mot deras rang i frekvenslistor.^[7]

Stilistik

Studiet av poetisk och även icke-poetisk stil kan grundas på statistiska metoder; vidare är det möjligt att företa motsvarande undersökningar på grundval de specifika former (parametrar) som språklagar antar i texter i olika stil. I sådana fall hjälper den kvantitativa lingvistiken stilististisk forskning: Ett av de övergripande syftena är få så objektiva belägg som möjligt åtminstone för en del av de stilistiska företeelserna genom att åberopa språklagar. Ett av de centrala antagandena i den kvantitativa lingvistiken är att några lagar (t.ex. fördelningen av ordlängd) kräver olika modeller, åtminstone olika parametervärden i lagarna (fördelningarna eller funktionerna), beroende på vilket textslag en text tillhör. Vid studiet av poetiska texter bildar den kvantitativa lingvistikens metoder en underavdelning av den kvantitativa litteraturvetenskapen (stylometri).^[8]

Viktiga författare

Gabriel Altmann (1931-2020)
Otto Behaghel (1854-1936]; cf. Behaghels lagar
Karl-Heinz Best
Gustav Herdan (1897–1968)
Luděk Hřebíček (1934)
Friedrich Wilhelm Kaeding (1843–1928)
Reinhard Köhler
Paul Menzerath (1883–1954), cf. Menzeraths lag
Charles Muller, Strasbourg
Raijmund G. Piotrowski
George Kingsley Zipf (1902–1950); cf. Zipfs lag
Eberhard Zwirner (1899–1984).

Noter

^ Reinhard Köhler: Gegenstand und Arbeitsweise der Quantitativen Linguistik. I: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (red.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, pp. 1–16. ISBN 3-11-015578-8.
^ N.L. Biggs: The Roots of Combinatorics. I: Historia Mathematica 6, 1979, pp. 109–136.
^ Adam Pawłowski: Prolegomena to the History of Corpus and Quantitative Linguistics. Greek Antiquity. I: Glottotheory 1, 2008, pp. 48–54.
^ jfr not 1, pp. 1–2.
^ jfr. litteratur: Köhler, Altmann, Piotrowski (red.) (2005)
^ Karl-Heinz Best: Zur Wortlängenhäufigkeit in schwedischen Pressetexten. In: Peter Schmidt (ed.): Glottometrika 15. Issues in General Linguistic Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, 147-157. ISBN 3-88476-228-1; Stefan Ammermann, Malin Bengtson: Zur Wortlängenhäufigkeit im Schwedischen: Gunnar Ekelöfs Briefe. In: Karl-Heinz Best (ed.): Glottometrika 16. The Distribution of Word and Sentence Length. Wissenschaftlicher Verlag Trier, Trier 1997, 88-97. ISBN 3-88476-276-1.
^ H. Guiter, M. V. Arapov (red.): Studies on Zipf's Law. Bochum: Brockmeyer 1982. ISBN 3-88339-244-8.
^ Alexander Mehler: Eigenschaften der textuellen Einheiten und Systeme. I: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, p. 325-348, i sht Quantitative Stilistik, pp. 339–340. ISBN 3-11-015578-8; Vivien Altmann, Gabriel Altmann: Anleitung zu quantitativen Textanalysen. Methoden und Anwendungen. Lüdenscheid: RAM-Verlag 2008, ISBN 978-3-9802659-5-9.

Litteratur

Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarbeitete und ergänzte Auflage. Peust & Gutschmidt, Göttingen 2006, ISBN 3-933043-17-4.
Karl-Heinz Best, Otto Rottmann: Quantitative Linguistics, an Invitation. RAM-Verlag, Lüdenscheid 2017. ISBN 978-3-942303-51-4.
Reinhard Köhler with the assistance of Christiane Hoffmann: Bibliography of Quantitative Linguistics. Benjamins, Amsterdam/ Philadelphia 1995, ISBN 90-272-3751-4.
Reinhard Köhler, Gabriel Altmann, Gabriel, Rajmund G. Piotrowski (eds.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch – An International Handbook. de Gruyter, Berlin/ New York 2005, ISBN 3-11-015578-8.
Haitao Liu & Wei Huang. Quantitative Linguistics：State of the Art, Theories and Methods. Journal of Zhejiang University (Humanities and Social Science). 2012，43(2)：178-192. (på kinesiska).

Externa länkar

IQLA - International Quantitative Linguistics Association

[1] Reinhard Köhler: Gegenstand und Arbeitsweise der Quantitativen Linguistik. I: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (red.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, pp. 1–16. ISBN 3-11-015578-8.

[2] N.L. Biggs: The Roots of Combinatorics. I: Historia Mathematica 6, 1979, pp. 109–136.

[3] Adam Pawłowski: Prolegomena to the History of Corpus and Quantitative Linguistics. Greek Antiquity. I: Glottotheory 1, 2008, pp. 48–54.

[4] r not 1, pp. 1–2.

[5] r. litteratur: Köhler, Altmann, Piotrowski (red.) (2005)

[6] Karl-Heinz Best: Zur Wortlängenhäufigkeit in schwedischen Pressetexten. In: Peter Schmidt (ed.): Glottometrika 15. Issues in General Linguistic Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, 147-157. ISBN 3-88476-228-1; Stefan Ammermann, Malin Bengtson: Zur Wortlängenhäufigkeit im Schwedischen: Gunnar Ekelöfs Briefe. In: Karl-Heinz Best (ed.): Glottometrika 16. The Distribution of Word and Sentence Length. Wissenschaftlicher Verlag Trier, Trier 1997, 88-97. ISBN 3-88476-276-1.

[7] H. Guiter, M. V. Arapov (red.): Studies on Zipf's Law. Bochum: Brockmeyer 1982. ISBN 3-88339-244-8.

[8] Alexander Mehler: Eigenschaften der textuellen Einheiten und Systeme. I: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, p. 325-348, i sht Quantitative Stilistik, pp. 339–340. ISBN 3-11-015578-8; Vivien Altmann, Gabriel Altmann: Anleitung zu quantitativen Textanalysen. Methoden und Anwendungen. Lüdenscheid: RAM-Verlag 2008, ISBN 978-3-9802659-5-9.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]