Fallstudie: Medical Dataset Licensing
Förvandla pediatrisk och ob-gynisk vård genom precisionsdatakurering och annoteringsutbildning
Lås upp kraften i medicinska data: Omfattande datakurering, avidentifiering, ICD-10 CM och anteckning för överlägsen AI-modellutbildning.
Projektöversikt
Shaip samarbetade med ett ledande AI-företag inom hälsovården för att kurera och kommentera högkvalitativa, avidentifierade medicinska datauppsättningar för utbildning av avancerade NLP-modeller. Projektet fokuserade på pediatrik och OB-GYN specialiteter, och levererade polikliniska journaler kommenterade med ICD-10 CM-koder via ett robust API-ramverk.
Datauppsättningen var strukturerad för att underlätta AI-träning i verklig sjukvårdsdokumentation, vilket förbättrar modellkapaciteten för att förstå kliniska berättelser.
Nyckelstatistik
750 sidor / ~300 öppenvårdsjournaler
375 sidor Pediatrik
375 sidor OB-GYN
Anteckningar om medicinska koder för ICD-10 CM 2023
Projektets omfattning
| Dataset typ | Specialitet | Volym | Metadata inhämtad | Anmärkningar |
|---|---|---|---|---|
| Medicinska anteckningar | Pediatrik | 375 sidor (~150 poster) |
Filnamn, specialitet, Dokumenttyp, patientklass (poliklinisk) |
Inkluderar bedömning / plan avsnitt |
| GYNEKOLOG | 375 sidor (~150 poster) | |||
| Anteckningar | ICD-10 CM (2023) | Fullständig datauppsättning | Kodmappning via API | Kodvalidering av kodare är utanför omfattningen |
Utmaningar
Projektet presenterade flera kritiska utmaningar som krävde noggrann planering och utförande:
1. Specialitetsspecifik datainsamling
Att anskaffa högkvalitativa polikliniska journaler uteslutande från specialiteter inom pediatrik och OB-GYN var en utmaning. Varje dokument behövde inkludera viktiga kliniska avsnitt som bedömning och plan för att stödja korrekta kommentarer.
2. Omfattande PHI-avidentifiering
Att säkerställa fullständigt avlägsnande av all personligt identifierbar information (PII) samtidigt som det medicinska sammanhanget bibehålls var avgörande för HIPAA-efterlevnaden. Detta krävde detaljerade recensioner för att förhindra eventuella integritetsintrång.
3. Komplex ICD-10 CM-anteckning
Att tillämpa exakta ICD-10 CM (2023) koder via API var komplicerat på grund av olika narrativa stilar och medicinsk terminologi. Konsekvens och noggrannhet i kodning var avgörande för att säkerställa tillförlitlig AI-modellutbildning.
4. Metadata noggrannhet och konsistens
Att fånga och validera metadata som specialitet, dokumenttyp och patientklass utan avvikelser var avgörande. Eventuella missförhållanden kan påverka modellträning och dataanvändbarhet.
5. Strikt poliklinisk filtrering
Att säkerställa att alla journaler var strikt polikliniska ökade komplexiteten, eftersom många kliniska dokument kan innehålla blandade patientklasser eller ofullständiga avsnitt.
6. Kvalitetssäkring och noggrannhetsstandarder
För att möta tröskeln på 90 % noggrannhet krävdes granskningar på flera nivåer för att eliminera dubbletter, validera specialitetsanpassning och säkerställa avidentifiering – med bestämmelser för omarbetning vid behov.
Lösning
Omfattande datalicensiering och anteckningar
- Licensierad pediatrisk och OB-GYN öppenvårdsjournal
- Säkerställd inkludering av kritiska avsnitt: Chefsklagomål, Historik, ROS, bedömning, plan
- API-baserad ICD-10 CM-kommentar (2023-version)
Avidentifiering och efterlevnad
- Ersatte PHI med platshållare (PERSON_NAME, DATE, LOCATION, etc.)
- Säkerställd efterlevnad av sjukvårdens datasekretessstandarder
Metadatataggning
- Fångad detaljerad metadata per fil:
-
- FILNAMN
- Specialitet (pediatrik eller OB-GYN)
- Dokumenttyp (uppföljning, H&P, konsultation)
- Patientklass (endast öppenvård)
Kvalitetskontroll
- Rigorösa kvalitetsbedömningar med:
- Inga dubbletter av poster
- Specialitetsmatchningsvalidering
- Enbart poliklinisk kontroll
- Metadatakonsistenskontroll
- Ersättning eller korrigering av poster under 90 % noggrannhetströskel
Resultat
Shaip levererade en strukturerad, kommenterad datauppsättning för medicinska anteckningar som gjorde det möjligt för klienten att:
- Träna AI-modeller för korrekt ICD-10 CM-kodprediktion
- Förbättra NLP-kapaciteten i verkliga vårdscenarier
- Upprätthålla överensstämmelse med integritets- och regulatoriska standarder
- Skala AI-modeller för hälsovård över pediatrik och OB-GYN-domäner
Shaips strukturerade tillvägagångssätt för datauppsättning och anteckning överträffade våra förväntningar. Noggrannheten, avidentifieringen och metadataprecisionen har avsevärt stärkt vår AI-modellutbildningspipeline.