Informationsextraktion (engelska Information Extraction) innebär inom informationsteknik att information i datorlagrad form läses ut med hjälp av olika tekniker och teknologier.

Informationsextraktion
Fackområde, studieriktning Redigera Wikidata
Under­klass tillinformationssökning, information analysis Redigera Wikidata
Orsakdatabrytning Redigera Wikidata
Pro­du­ce­rarResumé Redigera Wikidata
ACM Clas­si­fi­ca­tion Code (2012)10003352 Redigera Wikidata

Informationsextraktion är ett med informationssökning närbesläktat forskningsområde inom informationsåtkomst och språkteknologi. Informationsextraktion bygger på automatisk textförståelse, men förståelse bara av ett begränsat ämnesområde. Eftersom mänskliga språk är variationsrika är informationsextraktion svår att utföra med både god täckning och god precision. Om användaren kan finna sig i lägre täckning ger dock informationsextraktionssystem idag mycket god precision och höga prestanda. Forskningsområdet är ett av de första viktiga tillämpningsområdena för språkteknologi och har i hög grad definierats genom konferensserien MUC (Message Understanding Conferences, 1987-1998) finansierad av Förenta Staternas statsförvaltning.

Jämförelse med informationssökning redigera

Informationssökning bygger på att en användare formulerar sitt informationsbehov som en sökfråga och får ett antal dokument eller andra informationselement som svar, oftast i en lista som sedan användaren sedan får strukturera efter eget behag. Informationsextraktion bygger istället på mer beständiga informationsbehov som används av ett system för att extrahera fakta eller relationer i strukturerad form ur text, på ett sätt som lämpar sig för att föra in i en databas eller tabell av något slag.


Informationsbehov Representation Resultat
Informationssökning Sökfråga som avges av användaren när behovet uppkommer Register eller index av termer som systemet byggt tidigare Lista med referenser till dokument i textsamlingen, konstruerad vid tillfället när systemet får sökfrågan och som gås igenom av användaren vid söktillfället
Informationsextraktion Sökmall som definierats av användaren själv eller av kunskapsingenjör vid något tidigare tillfälle Individuella texter som systemet får efter hand Databaspost, konstruerad vid tillfället när systemet får tillgång till texten, som lagras i en databas för senare läsning eller användning

Ingående tekniker redigera

Som ett första steg använder informationsextraktionssystem oftast någon sorts ordklasstaggning och något slags ytlig syntaktisk analys av texten. Därefter kan enkla och effektiva regler identifiera mönster som kan användas för att plocka ut viktiga referenter som till exempel *beslutsfattare* och *företag* och relationer som till exempel *PERSON arbetar på ETT FÖRETAG* i texten. Mer avancerade system använder logiska inferensregler för att kunna härleda fler relationer mellan identifierade referenter.

Igenkänning och kategorisering av namn eller andra fixa uttryck redigera

Ofta handlar extraktionsuppgiften om att hitta relationer mellan olika personer, organisationer, platser, prisuppgifter, tidsuttryck eller artefakter. Ett system måste kunna identifiera namn eller sifferuppgifter av olika slag och kunna kategorisera dem efter typ. Både kunskapsbaser, mönstermatchningsmetoder och maskininlärningsmetoder har använts för att lösa detta problem och med sådana metoder uppnår man idag resultat som är i nivå med mänsklig förmåga.

Se även redigera

Referenser redigera

Webbkällor redigera

Tryckta källor redigera

  • Maria Teresia Pazienza (Red.) 1997. Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology Lecture Notes in Artificial Intelligence. Springer.