Definition
Named Entity Recognition (NER) är en NLP-uppgift som identifierar och klassificerar entiteter i text, såsom personer, organisationer, platser, datum eller produkter.
Syfte
Syftet är att strukturera ostrukturerad text genom att extrahera viktiga enheter. Det stöder sökning, informationsutvinning och skapande av kunskapsdiagram.
Betydelse
- Grundläggande för informationssökning och NLP-pipelines.
- Fel sprider sig till nedströmsapplikationer.
- Domänspecifik NER (t.ex. medicinsk, juridisk) kräver anpassade datamängder.
- Relaterat till uppgifter som entitetslänkning och relationsextrahering.
Så fungerar det
- Samla in och förbearbeta text.
- Annotera datamängder med entitetskategorier.
- Träna modeller på märkta exempel (CRF:er, transformatorer).
- Förutsäg entiteter i osynlig text.
- Validera noggrannheten med testdata.
Exempel (verkliga världen)
- spaCy: NLP-bibliotek med öppen källkod och inbyggd NER.
- Stanford CoreNLP: tillhandahåller verktyg för igenkänning av namngivna enheter.
- Finansiell NLP: extraherar företagsnamn från rapporter.
Referenser / Vidare läsning
- Jurafsky & Martin. Tal- och språkbehandling. Stanford.
- Lample et al. “Neurala arkitekturer för namngiven entitetsidentifiering.” ACL.
- Kramande ansikte Transformers NER-modeller.
- Vad är namngiven entitetsigenkänning (NER)