Dataanteckning – NER

Namngiven entitetsigenkänning (NER) Annotation for Clinical NLP

Ner anteckning

Välkommenterad och guldstandard klinisk textdata för att träna/utveckla klinisk NLP för att bygga nästa version av Healthcare API

Vikten av klinisk naturlig språkbehandling (NLP) har blivit alltmer erkänd under de senaste åren och har lett till transformativa framsteg. Klinisk NLP låter datorer förstå den rika innebörden som ligger bakom en läkares skriftliga analys av en patient. Klinisk NLP kan ha flera användningsfall som sträcker sig från befolkningshälsoanalys till förbättring av klinisk dokumentation till taligenkänning till matchning av kliniska prövningar etc.

För att utveckla och träna alla kliniska NLP-modeller behöver du exakta, opartiska och välkommenterade datauppsättningar i enorma volymer. Gold Standard och olika data hjälper till att förbättra precisionen och återkalla NLP-motorer.

Volym

Antal dokument kommenterade
10
Antal sidor kommenterade
10 +
Projektets längd
< 1 månader

Utmaningar

Kunden såg fram emot att träna och utveckla sin Natural Language Processing (NLP)-plattform med nya entitetstyper och även identifiera relationen mellan olika typer. Dessutom utvärderade de leverantörer som erbjöd hög noggrannhet, följde lokala lagar och hade den medicinska kunskapen som krävs för att kommentera en stor uppsättning data.

Uppgiften var att märka och kommentera upp till 20,000 15,000 etiketterade journaler inklusive upp till 5,000 1 etiketterade journaler från slutenvårds- och öppenvårdsjournaler (EPJ) och upp till 2 XNUMX etiketterade journaler från transkriberade medicinska diktat, jämnt fördelade över (XNUMX) geografiska härkomster och ( XNUMX) tillgängliga medicinska specialiteter.

Så, för att sammanfatta utmaningarna:

  • Organisera heterogena kliniska data för att träna NLP-plattformen
  • Identifiera förhållandet mellan olika enheter för att härleda kritisk information
  • Förmåga och expertis att märka/kommentera en bred uppsättning komplexa kliniska dokument
  • Hålla kostnaden under kontroll för att märka / kommentera en stor mängd data för att träna klinisk NLP inom den angivna tidsramen
  • Anteckna enheter i den kliniska datamängden som består av 75 % EPJ och 25 % dikteringsposter.
  • Avidentifiering av data vid leveranstillfället

Andra utmaningar i naturlig språkförståelse

Tvetydighet

Ord är unika men kan ha olika betydelser beroende på sammanhanget vilket resulterar i tvetydighet på lexikal, syntaktisk och semantisk nivå.

Synonymi

Vi kan uttrycka samma idé med olika termer som också är synonymer: stor och stor betyder detsamma när vi beskriver ett objekt.

Coreference

Processen att hitta alla uttryck som refererar till samma entitet i en text kallas coreference resolution.

Personlighet, avsikt, känslor

Beroende på talarens personlighet, deras avsikt och känslor, kan uttryckas olika för samma idé.

Lösning

En stor mängd medicinsk data och kunskap finns tillgänglig, i form av medicinska dokument, men det är huvudsakligen i ett ostrukturerat format. Med Annotation för medicinsk enhet / Named Entity Recognition (NER) Annotation kunde Shaip konvertera ostrukturerad data till ett strukturerat format genom att kommentera användbar information från olika typer av kliniska journaler. När enheterna väl identifierats kartlades även relationen mellan dem för att identifiera viktig information.

Arbetets omfattning: Anteckning om hälsovårdsenhet

9 Enhetstyper

  • Medicinskt tillstånd
  • Medicinsk procedur
  • Anatomisk struktur
  • Läkemedel
  • Medicinsk utrustning
  • Kroppsmätning
  • Missbruk
  • Laboratoriedata
  • Kroppsfunktion

17 Modifierare

  • Läkemedelsmodifierare: Styrka, Enhet, Dos, Från, Frekvens, Väg, Varaktighet, Status
  • Kroppsmätningsmodifierare: värde, enhet, resultat
  • Procedurmodifierare: Metod
    • Laboratoriedatamodifierare: labbvärde, labbenhet, labbresultat
  • Svårighetsgraden
  • Procedurresultat

27 Relationer och patientstatus

Resultat

Den kommenterade informationen skulle användas för att utveckla och träna klientens kliniska NLP-plattform, som skulle ingå i nästa version av deras Healthcare API. Fördelarna som kunden fick var:

  • De märkta/kommenterade uppgifterna uppfyllde kundens standardriktlinjer för datakommentarer.
  • Heterogena datauppsättningar användes för att träna NLP-plattformen för större noggrannhet.
  • Samband mellan olika entiteter, t.ex. anatomisk kroppsstruktur <> Medicinsk utrustning, medicinskt tillstånd <> Medicinsk utrustning, medicinskt tillstånd <> medicinering, medicinskt tillstånd <> Procedur identifierades för att härleda kritisk medicinsk information.
  • Den breda uppsättningen av data som märktes/kommenterades avidentifierades också vid leveranstillfället.

Vårt samarbete med Shaip avancerade avsevärt vårt projekt inom Ambient Technology och Conversational AI inom sjukvården. Deras expertis i att skapa och transkribera syntetiska hälso-och sjukvårdsdialoger gav en solid grund, som visade upp potentialen hos syntetiska data för att övervinna regulatoriska utmaningar. Med Shaip navigerade vi dessa hinder och är nu ett steg närmare att förverkliga vår vision om intuitiva hälsovårdslösningar.

Gyllene-5-stjärniga

Påskynda din Conversational AI
applikationsutveckling med 100%