Textsammanfattning eller textsummering (engelska Text summarisation) är namnet på de tekniker och metoder som används för att automatiskt eller halvautomatiskt producera en kort och läsbar beskrivning av innehållet i en lång text eller en samling texter. Textsammanfattning har varit ett språkteknologiskt forskningsområde redan sedan 1950-talet[1]

Sammanfattning av texter har varit ett praktiskt problem som informationsvetenskaperna arbetat med länge, långt innan automatiserade tekniker har funnits att tillgå. Manuellt producerade sammanfattningar har studerats i flera omgångar i hopp om att där finna ledtrådar hur ett automatiskt system skulle kunna gå till väga - men det är tydligt att människor bearbetar text på ett sätt som inte är lätt att efterlikna med dagens system och att mänskliga sammanfattare inte är konsekventa i sitt arbete.

Högkvalitativ och helautomatisk sammanfattning förutsätter verklig textförståelse och kan ännu inte åstadkommas. Det går dock ganska enkelt att använda ordförekomster tillsammans med ett lexikon som ledtrådar till att välja ut en delmängd av källtexternas meningar så att en sammanfattare kan använda dem som grund för sammanfattning. Forskningen gör framsteg varje gång en ny innehållsanalysteknik för text utvecklas: idag används i huvudsak statistiska och informationsteoretiska mått för att välja ut avsnitt ur källtexterna till en sammanfattning.

De huvudsakliga utmaningarna för textsammanfattning är alltså att välja ut representativa avsnitt så att alla eller de flesta av de viktigare innehållselementen kommer med i sammanfattningen, att foga ihop dem igen till en text som är läslig (så att inte de urklippta delarna refererar till innehåll som inte tagits med i sammanfattningen) och att undvika att flera urklippta delar från olika texter refererar till samma sak så att sammanfattningen blir onödigt lång. Det går givetvis att ställa ytterligare krav på sammanfattningar, så att bibehåller samma tonläge och stilsort som originaltexterna och att innehållet inte motsäger sig själv om avsnitt valts ur texter med olika perspektiv på samma sak.

Textreduktion är termen för ytterst kompakta sammanfattningar där en text sammanfattas med blott ett par ord. Textreduktion baseras på tekniker för nyckelordsurval och indexering, och tekniken är främst användbar där inte skärmstorlek eller andra fysiska begränsningar tillåter hela texter visas.

Tekniker som informationsextraktion och namnigenkänning är besläktade med textsammanfattning och går att använda som delkomponenter i ett mer sofistikerat sammanfattningssystem.

Källor

redigera
  1. ^ Mani, Inderjeet, and Mark T. Maybury, eds. Advances in automatic text summarization. Vol. 293. Cambridge: MIT press, 1999.