Avidentifiera ostrukturerad sjukvårdsdata

Den fullfjädrade guiden Avidentifiera ostrukturerad sjukvårdsdata

Att analysera strukturerad data kan hjälpa till med bättre diagnostik och patientvård. Men att analysera ostrukturerad data kan underblåsa revolutionerande medicinska genombrott och upptäckter.

Detta är kärnan i ämnet vi kommer att diskutera idag. Det är väldigt intressant att observera att så många radikala framsteg inom sjukvårdsteknologin har skett med bara 10-20 % av användbar vårddata.

Statistik visar att över 90 % av data i detta spektrum är ostrukturerade, vilket översätts till data som är mindre användbara och svårare att förstå, tolka och tillämpa. Från analoga data som läkarrecept till digital data i form av medicinsk bildbehandling och audiovisuell data är ostrukturerad data av olika slag.

Sådana enorma bitar av ostrukturerad data är hem för otroliga insikter som kan snabba fram sjukvårdens framsteg med årtionden. Oavsett om det hjälper till att upptäcka läkemedel för kritiska livskrävande autoimmuna sjukdomar till data som kan hjälpa sjukvårdsförsäkringsbolag med riskbedömningar, kan ostrukturerad data bana väg för okända möjligheter.

När sådana ambitioner är på plats blir tolkningsbarhet och interoperabilitet av sjukvårdsdata avgörande. Med strikta riktlinjer och efterlevnad av regelefterlevnad såsom GDPR och HIPAA på plats, vad som blir oundvikligt är avidentifiering av sjukvårdsdata.

Vi har redan täckt en omfattande artikel om avmystifiering strukturerad vårddata och ostrukturerad vårddata. Det finns en dedikerad (läs omfattande) artikel om avidentifiering av sjukvårdsdata också. Vi uppmanar dig att läsa dem för holistisk information eftersom vi kommer att ha den här artikeln för en speciell del om ostrukturerad dataavidentifiering

Utmaningar med att avidentifiera ostrukturerade data

Som namnet antyder är ostrukturerad data inte organiserad. Den är spridd i form av format, filtyper, storlekar, sammanhang och mer. Bara det faktum att ostrukturerad data finns i form av ljud, text, medicinsk bildbehandling, analoga poster med mera gör det ännu mer utmanande att förstå Personlig Information Identifiers (PII), vilket är viktigt i ostrukturerad dataavidentifiering.

För att ge dig en glimt av de grundläggande utmaningarna, här är en snabb lista:

Utmaningar med att avidentifiera ostrukturerad data

  • Kontextuell förståelse – där det är svårt för en AI-intressenter att förstå det specifika sammanhanget bakom en viss del eller aspekt av ostrukturerad data. Att till exempel förstå om ett namn är ett företagsnamn, namnet på en person eller ett produktnamn kan leda till ett dilemma om det ska avidentifieras.  
  • Icke-textuella data – där identifiering av auditiva eller visuella ledtrådar för namn eller PII kan vara en skrämmande uppgift eftersom en intressent kan behöva sitta igenom timmar och timmar av film eller inspelning för att försöka avidentifiera kritiska aspekter. 
  • Tvetydighet – Detta gäller specifikt i samband med analoga uppgifter såsom ett läkarrecept eller en sjukhusanteckning i ett register. Från handskrift till begränsningar av uttryck i naturligt språk, kan det göra avidentifiering av data till en komplex uppgift. 

Best Practices för avidentifiering av ostrukturerad data

Processen att ta bort PII från ostrukturerad data är helt annorlunda än strukturerad dataavidentifiering men inte omöjligt. Genom ett systematiskt och kontextuellt tillvägagångssätt kan potentialen hos ostrukturerad data sömlöst utnyttjas. Låt oss titta på de olika sätten detta kan uppnås. 

Bästa metoder för avidentifiering av ostrukturerad data

Bildredigering: Detta gäller medicinska bilddata och innebär att patientidentifierare tas bort och anatomiska referenser och delar från bilder suddas ut. Dessa ersätts av specialtecken för att fortfarande behålla den diagnostiska funktionaliteten och användbarheten av bilddata. 

Mönstermatchning: Några av de vanligaste PII:erna som namn, kontaktuppgifter och adresser kan upptäckas och tas bort med hjälp av klokheten att studera fördefinierade mönster. 

Differentiell sekretess eller datastörning: Detta innebär inkludering av kontrollerat brus för att dölja data eller attribut som kan spåras tillbaka till en individ. Denna idealiska metod säkerställer inte bara avidentifiering av data utan bibehåller även datauppsättningens statistiska egenskaper för analyser. 

Avidentifiering av data: Detta är ett av de mest tillförlitliga och effektiva sätten att ta bort PII från ostrukturerad data. Detta kan implementeras på ett av två sätt:

  • Övervakad inlärning – där en modell är tränad att klassificera text eller data som PII eller icke-PII
  • Oövervakat lärande – där en modell tränas för att självständigt lära sig att upptäcka mönster för att identifiera PII

Denna metod säkerställer skyddet av patientens integritet samtidigt som mänskligt ingripande för de mest överflödiga aspekterna av uppgiften. Intressenter och vårdleverantörer som använder ML-tekniker för att avidentifiera ostrukturerad data kan helt enkelt ha en mänskligt möjlig kvalitetssäkringsprocess för att säkerställa rättvisa, relevans och riktighet av resultaten. 

Datamaskering: Datamaskering är det digitala ordspelet för att avidentifiera sjukvårdsdata, där specifika identifierare görs generiska eller vaga genom nischtekniker som:

  • Tokenisering – innebär att PII ersätts med tecken eller tokens
  • Generalisering – genom att ersätta specifika PII-värden med generiska/vaga
  • Blandar – genom att blanda ihop PII för att göra dem tvetydiga

Denna metod har dock en begränsning att med en sofistikerad modell eller metod kan data göras omidentifierbara

Outsourcing till marknadsaktörer

Det enda rätta tillvägagångssättet för att säkerställa processen för ostrukturerad dataavidentifiering är lufttät, idiotsäker och följer HIPAA:s riktlinjer är att lägga ut uppgifterna på en pålitlig tjänsteleverantör som Shaip. Med banbrytande modeller och stela kvalitetssäkringsprotokoll säkerställer vi mänsklig tillsyn i datasekretess lindras hela tiden.

Efter att ha varit ett marknadsdominerande företag i flera år förstår vi hur kritiska dina projekt är. Så kontakta oss idag för att optimera dina vårdambitioner med vårddata som avidentifierats av Shaip.

Social Dela