Fallstudie: Medical Dataset Licensing

Förvandla pediatrisk och ob-gynisk vård genom precisionsdatakurering och annoteringsutbildning

Lås upp kraften i medicinska data: Omfattande datakurering, avidentifiering, ICD-10 CM och anteckning för överlägsen AI-modellutbildning.

Medicinsk datauppsättning licensiering

Projektöversikt

Shaip samarbetade med ett ledande AI-företag inom hälsovården för att kurera och kommentera högkvalitativa, avidentifierade medicinska datauppsättningar för utbildning av avancerade NLP-modeller. Projektet fokuserade på pediatrik och OB-GYN specialiteter, och levererade polikliniska journaler kommenterade med ICD-10 CM-koder via ett robust API-ramverk.

Datauppsättningen var strukturerad för att underlätta AI-träning i verklig sjukvårdsdokumentation, vilket förbättrar modellkapaciteten för att förstå kliniska berättelser.

Medicinsk datauppsättning licensiering

Nyckelstatistik

750 sidor / ~300 öppenvårdsjournaler

375 sidor Pediatrik

375 sidor OB-GYN

Anteckningar om medicinska koder för ICD-10 CM 2023

Projektets omfattning

Dataset typ Specialitet Volym Metadata inhämtad Anmärkningar
Medicinska anteckningar Pediatrik 375 sidor (~150 poster) Filnamn, specialitet,
Dokumenttyp, patientklass (poliklinisk)
Inkluderar bedömning / plan avsnitt
GYNEKOLOG 375 sidor (~150 poster)
Anteckningar ICD-10 CM (2023) Fullständig datauppsättning Kodmappning via API Kodvalidering av kodare är utanför omfattningen

Utmaningar

Projektet presenterade flera kritiska utmaningar som krävde noggrann planering och utförande:

1. Specialitetsspecifik datainsamling

Att anskaffa högkvalitativa polikliniska journaler uteslutande från specialiteter inom pediatrik och OB-GYN var en utmaning. Varje dokument behövde inkludera viktiga kliniska avsnitt som bedömning och plan för att stödja korrekta kommentarer.

2. Omfattande PHI-avidentifiering

Att säkerställa fullständigt avlägsnande av all personligt identifierbar information (PII) samtidigt som det medicinska sammanhanget bibehålls var avgörande för HIPAA-efterlevnaden. Detta krävde detaljerade recensioner för att förhindra eventuella integritetsintrång.

3. Komplex ICD-10 CM-anteckning

Att tillämpa exakta ICD-10 CM (2023) koder via API var komplicerat på grund av olika narrativa stilar och medicinsk terminologi. Konsekvens och noggrannhet i kodning var avgörande för att säkerställa tillförlitlig AI-modellutbildning.

4. Metadata noggrannhet och konsistens

Att fånga och validera metadata som specialitet, dokumenttyp och patientklass utan avvikelser var avgörande. Eventuella missförhållanden kan påverka modellträning och dataanvändbarhet.

5. Strikt poliklinisk filtrering

Att säkerställa att alla journaler var strikt polikliniska ökade komplexiteten, eftersom många kliniska dokument kan innehålla blandade patientklasser eller ofullständiga avsnitt.

6. Kvalitetssäkring och noggrannhetsstandarder

För att möta tröskeln på 90 % noggrannhet krävdes granskningar på flera nivåer för att eliminera dubbletter, validera specialitetsanpassning och säkerställa avidentifiering – med bestämmelser för omarbetning vid behov.

Lösning

Omfattande datalicensiering och anteckningar

  • Licensierad pediatrisk och OB-GYN öppenvårdsjournal
  • Säkerställd inkludering av kritiska avsnitt: Chefsklagomål, Historik, ROS, bedömning, plan
  • API-baserad ICD-10 CM-kommentar (2023-version)

Avidentifiering och efterlevnad

  • Ersatte PHI med platshållare (PERSON_NAME, DATE, LOCATION, etc.)
  • Säkerställd efterlevnad av sjukvårdens datasekretessstandarder

Metadatataggning

  • Fångad detaljerad metadata per fil:
    • FILNAMN
    • Specialitet (pediatrik eller OB-GYN)
    • Dokumenttyp (uppföljning, H&P, konsultation)
    • Patientklass (endast öppenvård)

Kvalitetskontroll

  • Rigorösa kvalitetsbedömningar med:
    • Inga dubbletter av poster
    • Specialitetsmatchningsvalidering
    • Enbart poliklinisk kontroll
    • Metadatakonsistenskontroll
  • Ersättning eller korrigering av poster under 90 % noggrannhetströskel

Resultat

Shaip levererade en strukturerad, kommenterad datauppsättning för medicinska anteckningar som gjorde det möjligt för klienten att:

  • Träna AI-modeller för korrekt ICD-10 CM-kodprediktion
  • Förbättra NLP-kapaciteten i verkliga vårdscenarier
  • Upprätthålla överensstämmelse med integritets- och regulatoriska standarder
  • Skala AI-modeller för hälsovård över pediatrik och OB-GYN-domäner

Shaips strukturerade tillvägagångssätt för datauppsättning och anteckning överträffade våra förväntningar. Noggrannheten, avidentifieringen och metadataprecisionen har avsevärt stärkt vår AI-modellutbildningspipeline.

Gyllene-5-stjärniga