AI Training Data köparguide

Vad är det, och varför är det viktigt?

Dela på Linkedin
Dela på twitter
Dela på facebook

Beskrivning

I världen av artificiell intelligens och maskininlärning är dataträning oundviklig. Detta är processen som gör maskininlärningsmoduler exakta, effektiva och fullt fungerande. I det här inlägget utforskar vi i detalj vad AI -utbildningsdata är, utbildningsdatakvalitet, datainsamling och licensiering med mera.

Ai träningsdata
Läs AI Training Data Buyers Guide, eller ladda ner en PDF -version

Det uppskattas att i genomsnitt vuxen fattar beslut om livet och vardagliga saker baserat på tidigare lärande. Dessa kommer i sin tur från livserfarenheter formade av situationer och människor. I bokstavlig mening är situationer, instanser och människor inget annat än data som kommer in i våra sinnen. När vi samlar år av data i form av erfarenhet tenderar det mänskliga sinnet att fatta sömlösa beslut.

Vad förmedlar detta? Dessa data är oundvikliga vid inlärning.

Ai träningsdata

I likhet med hur ett barn behöver en etikett som kallas ett alfabet för att förstå bokstäverna A, B, C, D behöver en maskin också förstå data som det tar emot.

Det är exakt vad Artificial Intelligence (AI) utbildning handlar om. En maskin är inte annorlunda än ett barn som ännu inte har lärt sig saker av vad de håller på att undervisas om. Maskinen vet inte att skilja mellan en katt och en hund eller en buss och en bil eftersom de ännu inte har upplevt dessa saker eller fått lära sig hur de ser ut.

Så för någon som bygger en självkörande bil är den primära funktionen som behöver läggas till systemets förmåga att förstå alla vardagliga element som bilen kan stöta på, så att fordonet kan identifiera dem och fatta lämpliga körbeslut. Det är här AI-träningsdata kommer in i bilden. 

Idag erbjuder moduler för artificiell intelligens många bekvämligheter i form av rekommendationsmotorer, navigering, automatisering och mer. Allt detta händer på grund av AI -dataträning som användes för att träna algoritmerna medan de byggdes.

AI-träningsdata är en grundläggande process för att bygga maskininlärning och AI-algoritmer. Om du utvecklar en app som baseras på dessa tekniska koncept måste du träna dina system för att förstå dataelement för optimerad bearbetning. Utan utbildning blir din AI-modell ineffektiv, bristfällig och potentiellt meningslös.

Det beräknas att datavetenskapare spenderar mer än 80% av sin tid i Dataförberedelse och berikning för att träna ML -modeller.

Så för dig som vill få finansiering från riskkapitalister, soloprenörerna där ute som arbetar med ambitiösa projekt och teknikentusiaster som just har börjat med avancerad AI, har vi utvecklat den här guiden för att svara på de viktigaste frågorna angående dina AI -utbildningsdata.

Här kommer vi att utforska vad AI -utbildningsdata är, varför är det oundvikligt i din process, volymen och kvaliteten på data du faktiskt behöver och mer.

Vad är AI-träningsdata?

AI-träningsdata samlas noggrant och rengörs information som matas in i ett system för träningsändamål. Denna process gör eller bryter en AI-modell framgång. Det kan hjälpa till att utveckla förståelsen att inte alla fyrbenta djur i en bild är hundar eller det kan hjälpa en modell att skilja mellan arg skrik och glatt skratt. Det är det första steget i att bygga artificiell intelligensmoduler som kräver skedmatningsdata för att lära maskiner om grunderna och göra det möjligt för dem att lära sig när mer data matas. Detta gör återigen plats för en effektiv modul som slår ut exakta resultat för slutanvändare.
Ai träningsdata
Tänk på en AI-träningsdataprocess som en träningspass för en musiker, där ju mer de tränar desto bättre blir de på en sång eller en skala. Den enda skillnaden här är att maskiner först måste lära sig vad ett musikinstrument är. På samma sätt som musiker som utnyttjar de otaliga timmarna på övningen på scenen, erbjuder en AI-modell optimal upplevelse för konsumenterna när de används.

Varför krävs AI-träningsdata?

Det enklaste svaret på varför AI-träningsdata krävs för en modellutveckling är att utan det skulle maskiner inte ens veta vad de skulle förstå i första hand. Precis som en person som är utbildad för sitt specifika jobb behöver en maskin en informationsgrupp för att tjäna ett specifikt syfte och leverera motsvarande resultat.

Låt oss överväga exemplet med autonoma bilar igen. Terabyte efter terabyte data i ett självkörande fordon kommer från flera sensorer, datorvisionsenheter, RADAR, LIDAR och mycket mer. Alla dessa massiva bitar av data skulle vara meningslösa om bilens centrala processystem inte vet vad de ska göra med det.

Exempelvis dator vision Enheten i bilen skulle kunna spionera mängder data på vägelement som fotgängare, djur, gropar och mer. Om maskininlärningsmodulen inte är utbildad för att identifiera dem, skulle fordonet inte veta att de är hinder som kan orsaka olyckor om de stöter på. Därför måste modulerna tränas i vad varje enskilt element på vägen är och hur olika körbeslut krävs för var och en.

Även om detta bara är för visuella element, bör bilen också kunna förstå mänskliga instruktioner igenom Naturlig språkbehandling (NLP) och ljud- eller talsamling och svara därefter. Till exempel, om föraren befaller infotainment-systemet i bilen att leta efter bensinstationer i närheten, bör den kunna förstå kravet och kasta lämpliga resultat. För det borde det emellertid kunna förstå varje enskilt ord i frasen, koppla ihop dem och kunna förstå frågan.

Medan du kan undra om processen för AI-träningsdata är komplicerad bara för att den används för ett tungt användningsfall som en autonom bil, är faktum att även nästa film som Netflix rekommenderar går igenom samma process för att erbjuda dig personliga förslag. Varje app, plattform eller en enhet som har AI associerad med den drivs som standard av AI-träningsdata.

Ai träningsdata

Vilka typer av data behöver jag?

Det finns fyra primära datatyper som skulle behövas, dvs bild, video, ljud/tal eller text för att effektivt träna modeller för maskininlärning. Vilken typ av data som behövs beror på en mängd olika faktorer såsom användningsfallet i hand, komplexiteten hos modeller som ska utbildas, den träningsmetod som används och mångfalden av indata som krävs.

Hur mycket data är tillräcklig?

De säger att det inte finns något slut på inlärning och den här frasen är idealisk i AI-utbildningens dataspektrum. Ju mer data, desto bättre blir resultaten. Men ett svar så vagt som detta räcker inte för att övertyga alla som vill starta en AI-driven app. Men verkligheten är att det inte finns någon allmän tumregel, en formel, ett index eller en mätning av den exakta datamängden man behöver för att träna sina AI-datamängder.

Ai träningsdata

En maskininlärningsexpert skulle komiskt avslöja att en separat algoritm eller modul måste byggas för att härleda datamängden som krävs för ett projekt. Det är tyvärr också verkligheten.

Nu finns det en anledning till att det är extremt svårt att sätta ett tak på den datamängd som krävs för AI-utbildning. Detta beror på komplexiteten i själva träningsprocessen. En AI-modul består av flera lager av sammankopplade och överlappande fragment som påverkar och kompletterar varandras processer.

Låt oss till exempel överväga att du utvecklar en enkel app för att känna igen ett kokospalmer. Ur utsikterna låter det ganska enkelt, eller hur? Ur ett AI-perspektiv är det dock mycket mer komplext.

I början är maskinen tom. Det vet inte vad ett träd är i första hand än mindre ett högt, regionspecifikt, tropiskt fruktbärande träd. För det måste modellen utbildas i vad ett träd är, hur man skiljer sig från andra höga och smala föremål som kan visas i ramar som gatlampor eller elektriska stolpar och sedan gå vidare för att lära det nyanser av ett kokosnötsträd. När maskininlärningsmodulen väl har lärt sig vad ett kokosnötsträd är, kan man säkert anta att det vet hur man känner igen ett.

Men bara när du matar en bild av ett banyanträd skulle du inse att systemet har identifierat ett banyanträd för ett kokosnötsträd. För ett system är allt som är högt med hopklumpat lövverk ett kokosnötsträd. För att eliminera detta måste systemet nu förstå varje träd som inte är ett kokosnötsträd för att exakt identifiera. Om detta är processen för en enkel enkelriktad app med bara ett resultat kan vi bara föreställa oss komplexiteten i appar som är utvecklade för vård, ekonomi och mer.

Bortsett från detta, vad påverkar också mängden data som krävs för utbildning innehåller aspekter som anges nedan:

  • Utbildningsmetod, där skillnaderna i datatyper (strukturerad och ostrukturerad) påverkar behovet av datamängder
  • Datamärkning eller annoteringstekniker
  • Hur data matas till ett system
  • Fel tolerans kvot, vilket helt enkelt betyder procentandelen av fel som är försumbar i din nisch eller domän

Verkliga exempel på träningsvolymer

Även om mängden data du behöver för att träna dina moduler beror på ditt projekt och de andra faktorerna vi diskuterade tidigare, lite inspiration eller referens skulle hjälpa till att få en omfattande uppfattning om data krav.

Följande är verkliga exempel på hur många datamängder som används för AI-utbildningsändamål av olika företag och företag.

  • Ansiktsigenkänning - en provstorlek på över 450,000 XNUMX ansiktsbilder
  • Bildanteckning - en provstorlek på över 185,000 XNUMX bilder med nära 650,000 XNUMX antecknade objekt
  • Facebook-sentimentanalys - en provstorlek på över 9,000 kommentarer och 62,000 XNUMX inlägg
  • Chatbot-utbildning - en provstorlek på över 200,000 XNUMX frågor med över 2 miljoner svar
  • Översättning app - en provstorlek på över 300,000 XNUMX ljud eller tal samling från icke-modersmål

Vad händer om jag inte har tillräckligt med data?

I AI & ML -världen är dataträning oundviklig. Det sägs med rätta att det inte finns något slut på att lära sig nya saker och detta stämmer när vi pratar om AI -utbildningens dataspektrum. Ju mer data, desto bättre resultat. Det finns dock fall där användningsfallet du försöker lösa avser en nischkategori, och att skaffa rätt dataset i sig är en utmaning. Så i det här scenariot, om du inte har tillräcklig data, är förutsägelserna från ML -modellen kanske inte korrekta eller kan vara partiska. Det finns sätt som dataförstoring och datakodning som kan hjälpa dig att övervinna bristerna, men resultatet kanske fortfarande inte är korrekt eller tillförlitligt.

Ai träningsdata
Ai träningsdata
Ai träningsdata
Ai träningsdata

Hur förbättrar du datakvaliteten?

Datakvaliteten är direkt proportionell mot kvaliteten på utdata. Därför kräver mycket noggranna modeller högkvalitativa datamängder för träning. Det finns dock en fångst. För ett koncept som är beroende av precision och noggrannhet är begreppet kvalitet ofta ganska vagt.

Högkvalitativa data låter starkt och trovärdigt men vad betyder det egentligen?

Vad är kvalitet i första hand?

Tja, precis som de data vi matar in i våra system, har kvalitet också många faktorer och parametrar associerade med det. Om du når ut till AI-experter eller maskininlärningsveteraner kan de dela vilken permutation som helst av högkvalitativ information är allt som är -

Ai träningsdata

  • Uniform - data som kommer från en viss källa eller enhetlighet i datamängder som kommer från flera källor
  • Omfattande - data som täcker alla möjliga scenarier som ditt system är avsett att arbeta med
  • Konsekvent - varje enskild byte av data har samma karaktär
  • Relevant - den data du köper och matar liknar dina krav och förväntade resultat och
  • diverse - du har en kombination av alla typer av data som ljud, video, bild, text och mer

Nu när vi förstår vad kvalitet i datakvalitet innebär, låt oss snabbt titta på de olika sätten vi kan säkerställa kvalitet på datainsamling och generation.

1. Håll utkik efter strukturerad och ostrukturerad data. Den förra är lätt att förstå av maskiner eftersom de har kommenterade element och metadata. Den senare är dock fortfarande rå utan värdefull information ett system kan använda. Det är här dataanmärkning kommer in.

2. Att eliminera partiskhet är ett annat sätt att säkerställa kvalitetsdata eftersom systemet tar bort fördomar från systemet och ger ett objektivt resultat. Bias snedvrider bara dina resultat och gör det meningslöst.

3. Rensa data i stor utsträckning eftersom detta alltid kommer att öka kvaliteten på dina utdata. Vilken datavetenskapare som helst skulle berätta att en stor del av deras arbetsroll är att rensa data. När du rensar dina data tar du bort dubbletter, brus, saknade värden, strukturfel etc.

Vad påverkar utbildningsdatakvaliteten?

Det finns tre huvudfaktorer som kan hjälpa dig att förutsäga vilken kvalitetsnivå du önskar för dina AI/ML -modeller. De tre nyckelfaktorerna är människor, process och plattform som kan skapa eller bryta ditt AI -projekt.

Ai träningsdata
Plattform: En komplett human-in-the-loop-plattform krävs för att källa, transkribera och kommentera olika datamängder för att framgångsrikt kunna implementera de mest krävande AI- och ML-initiativen. Plattformen är också ansvarig för att hantera arbetstagare och maximera kvalitet och genomströmning

människor: För att få AI att tänka smartare krävs människor som är några av de smartaste sinnena i branschen. För att skala behöver du tusentals av dessa proffs över hela världen för att transkribera, märka och kommentera alla datatyper.

Process: Att leverera guldstandarddata som är konsekvent, fullständig och korrekt är komplext arbete. Men det är vad du alltid kommer att behöva leverera för att följa de högsta kvalitetsstandarderna samt stränga och beprövade kvalitetskontroller och kontrollpunkter.

Var hämtar du AI-träningsdata från?

Till skillnad från vårt tidigare avsnitt har vi en mycket exakt insikt här. För er som vill källa data
eller om du är i gång med videosamling, bildsamling, textinsamling och mer, finns det tre
primära vägar du kan källa dina data från.

Låt oss utforska dem individuellt.

Gratis källor

Gratis källor är vägar som är ofrivilliga arkiv med massiva datamängder. Det är data som helt enkelt ligger där på ytan gratis. Några av de fria resurserna inkluderar -

Ai träningsdata

  • Googles datamängder, där över 250 miljoner datauppsättningar släpptes 2020
  • Forum som Reddit, Quora och mer, som är resursstarka källor för data. Dessutom kan datavetenskap och AI-gemenskaper i dessa forum också hjälpa dig med specifika datamängder när du når ut.
  • Kaggle är en annan gratis källa där du kan hitta maskininlärningsresurser förutom gratis datamängder.
  • Vi har också listat gratis öppna datamängder för att komma igång med att träna dina AI-modeller

Även om dessa vägar är gratis, är det tid och ansträngning du skulle spendera. Data från fria källor finns överallt och du måste lägga ned arbetstimmar på att skaffa, rengöra och skräddarsy den efter dina behov.

En av de andra viktiga punkterna att komma ihåg är att en del av informationen från fria källor inte kan användas för kommersiella ändamål också. Det kräver datalicensiering.

Dataskrapning

Som namnet antyder är dataskrapning processen att bryta data från flera källor med lämpliga verktyg. Från webbplatser, offentliga portaler, profiler, tidskrifter, dokument med mera kan verktyg skrapa data du behöver och få dem till din databas sömlöst.

Även om detta låter som en idealisk lösning, är dataskrapning endast lagligt när det gäller personligt bruk. Om du är ett företag som vill skrapa data med kommersiella ambitioner inblandade blir det knepigt och till och med olagligt. Det är därför du behöver ett juridiskt team för att titta på webbplatser, efterlevnad och villkor innan du kan skrapa data du behöver.

Externa leverantörer

När det gäller datainsamling för AI-utbildningsdata är outsourcing eller att nå ut till externa leverantörer för datamängder det mest idealiska alternativet. De tar ansvaret för att hitta datamängder för dina krav medan du kan fokusera på att bygga dina moduler. Detta beror specifikt på följande skäl -

  • du behöver inte spendera timmar på att leta efter data
  • det finns inga ansträngningar när det gäller datorrengöring och klassificering
  • du får tillgång till uppsättningar av kvalitetsdata som exakt avkryssar alla faktorer som vi diskuterade för en tid tillbaka
  • du kan få datamängder som är skräddarsydda för dina behov
  • du kan kräva den datamängd du behöver för ditt projekt och mer
  • och det viktigaste, de säkerställer också att deras datainsamling och själva data följer lokala regler.

Den enda faktorn som kan visa sig vara en brist beroende på din verksamhetsskala är att outsourcing innebär kostnader. Återigen, vad innebär inte kostnader.

Shaip är redan ledande inom datainsamlingstjänster och har ett eget arkiv med vårddata och tal- / ljuddata som kan licensieras för dina ambitiösa AI-projekt.

Öppna datamängder - Att använda eller inte använda?

Öppna datamängder Öppna datamängder är allmänt tillgängliga datamängder som kan användas för maskininlärningsprojekt. Det spelar ingen roll om du behöver ljud, video, bild eller textbaserad dataset, det finns öppna datamängder tillgängliga för alla former och klasser av data.

Till exempel finns det Amazons produktdataset som innehåller över 142 miljoner användarrecensioner från 1996 till 2014. För bilder har du en utmärkt resurs som Google Open Images, där du kan källa datauppsättningar från över 9 miljoner bilder. Google har också en vinge som heter Machine Perception som erbjuder nära 2 miljoner ljudklipp som har en varaktighet på tio sekunder.

Trots tillgängligheten av dessa resurser (och andra) är den viktiga faktorn som ofta förbises de villkor som följer med deras användning. De är offentliga för säker men det finns en tunn gräns mellan överträdelse och rättvis användning. Varje resurs har sitt eget tillstånd och om du utforskar dessa alternativ föreslår vi försiktighet. Detta beror på att du i förevändning av att föredra fria vägar kan hamna i rättegångar och allierade utgifter.

De sanna kostnaderna för AI -utbildningsdata

Bara de pengar du spenderar för att skaffa data eller generera data internt är inte vad du bör tänka på. Vi måste överväga linjära element som tid och ansträngningar för att utveckla AI -system och kostnader ur ett transaktionsperspektiv. misslyckas med att komplimentera den andra.

Tid som läggs på att skaffa och kommentera data
Faktorer som geografi, marknadsdemografi och konkurrens inom din nisch hindrar tillgängligheten av relevanta datamängder. Den tid som spenderas manuellt för att söka efter data är slöseri med att träna ditt AI-system. När du lyckats källa dina data kommer du att försena träningen ytterligare genom att lägga tid på att kommentera data så att din maskin kan förstå vad den matas.

Priset för att samla in och kommentera data
Overheadkostnader (interna datainsamlare, annotatorer, underhållsutrustning, teknisk infrastruktur, prenumerationer på SaaS-verktyg, utveckling av proprietära applikationer) måste beräknas när AI-data anskaffas

Kostnaden för dåliga data
Dålig data kan kosta ditt företags team moral, din konkurrensfördel och andra påtagliga konsekvenser som inte går att märka. Vi definierar dålig data som varje datauppsättning som är oren, rå, irrelevant, föråldrad, felaktig eller full av stavfel. Dålig data kan förstöra din AI -modell genom att införa partiskhet och förstöra dina algoritmer med snedställda resultat.

Ledningskostnader
Alla kostnader för administration av din organisation eller företag, materiella och immateriella tillgångar utgör ledningskostnader som ofta är de dyraste.

Ai träningsdata

Vad händer efter Data Sourcing?

När du har datamängden i handen är nästa steg att kommentera eller märka den. Efter alla komplexa uppgifter är det rena rådata. Maskinen kan fortfarande inte förstå de data du har eftersom den inte kommenteras. Det är här den återstående delen av den verkliga utmaningen börjar.

Som vi nämnde behöver en maskin data i ett format som den kan förstå. Det är precis vad datanotering gör. Det tar rådata och lägger till lager av etiketter och taggar för att hjälpa en modul att förstå varje enskilt element i data exakt.
Datasourcing

Till exempel, i en text, kommer datamärkning att berätta ett AI-system om grammatisk syntax, delar av tal, prepositioner, skiljetecken, känslor, känslor och andra parametrar som är inblandade i maskinförståelse. Det är så chatbots förstår mänskliga konversationer bättre och bara när de gör det kan de också efterlikna mänskliga interaktioner genom sina svar.

Så oundvikligt som det låter är det också extremt tidskrävande och tråkigt. Oavsett storleken på ditt företag eller dess ambitioner är det enormt lång tid att anteckna data.

Detta beror främst på att din befintliga arbetskraft behöver ägna tid åt sitt dagliga schema för att kommentera data om du inte har specialister på dataannotering. Så du måste kalla dina teammedlemmar och tilldela detta som en extra uppgift. Ju mer det blir försenat, desto längre tid tar det att träna dina AI -modeller.

Även om det finns gratis verktyg för datanotering, tar det inte bort det faktum att denna process är tidskrävande.

Det är där dataanmärkningsleverantörer som Shaip kommer in. De tar med sig ett dedikerat team av dataanmärkningsspecialister för att bara fokusera på ditt projekt. De erbjuder dig lösningar på det sätt du vill för dina behov och krav. Dessutom kan du ställa in en tidsram med dem och kräva att arbetet ska slutföras i den specifika tidslinjen.

En av de största fördelarna är att dina egna teammedlemmar kan fortsätta att fokusera på det som betyder mer för din verksamhet och ditt projekt medan experter gör sitt jobb med att kommentera och märka data åt dig.

Med outsourcing kan optimal kvalitet, minimal tid och maximal precision säkerställas.

Inslag Up

Det var allt om AI -träningsdata. Från att förstå vad utbildningsdata är till att utforska fria resurser och fördelar med outsourcing av dataannotering, diskuterade vi dem alla. Återigen, protokoll och policyer är fortfarande fläckiga i detta spektrum och vi rekommenderar alltid att du kommer i kontakt med AI -utbildningsexperter som oss för dina behov.

Från inköp, avidentifiering till dataanmärkning, vi skulle hjälpa dig med alla dina behov så att du bara kan arbeta med att bygga din plattform. Vi förstår det invecklade med datainsamling och märkning. Det är därför vi upprepar det faktum att du kan lämna de svåra uppgifterna åt oss och använda våra lösningar.

Hör av dig till oss för alla dina dataannotationsbehov idag.

Låt oss prata

  • Genom att registrera mig godkänner jag Shaip Integritetspolicy och Användarvillkor och ge mitt samtycke till att ta emot B2B marknadsföringskommunikation från Shaip.

Vanliga frågor (FAQ)

Om du vill skapa intelligenta system måste du mata in ren, kuraterad och användbar information för att underlätta övervakat lärande. Den märkta informationen kallas AI -utbildningsdata och innehåller marknadsmetadata, ML -algoritmer och allt som hjälper till med beslutsfattande.

Varje AI-driven maskin har kapacitet begränsad av dess historiska ställning. Detta innebär att maskinen bara kan förutsäga det önskade resultatet om den tidigare har tränats med jämförbara datamängder. Träningsdata hjälper till med övervakad träning med volymen direkt proportionell mot AI -modellernas effektivitet och noggrannhet.

Olika träningsdatauppsättningar är nödvändiga för att träna specifika maskininlärningsalgoritmer för att hjälpa AI-drivna inställningar att ta viktiga beslut med sammanhanget i åtanke. Till exempel, om du planerar att lägga till Computer Vision -funktionalitet till en maskin, måste modellerna tränas med kommenterade bilder och fler marknadsdatauppsättningar. På samma sätt, för NLP -förmåga, fungerar stora volymer av talsamling som träningsdata.

Det finns ingen övre gräns för mängden utbildningsdata som krävs för att utbilda en kompetent AI -modell. Större datavolymen blir modellens förmåga att identifiera och segregera element, texter och sammanhang.

Även om det finns mycket data tillgängligt, är inte alla bitar lämpliga för träningsmodeller. För att en algoritm ska fungera som bäst behöver du omfattande, konsekventa och relevanta datamängder, som är enhetligt extraherade men ändå tillräckligt olika för att täcka ett brett spektrum av scenarier. Oavsett vilken data du planerar att använda, är det bättre att rengöra och kommentera samma för förbättrat lärande.

Om du har en viss AI-modell i åtanke men träningsdata inte är tillräckligt, måste du först ta bort outliers, para in överförings- och iterativa inlärningsinställningar, begränsa funktionaliteter och göra installationen öppen källkod för användarna att fortsätta lägga till data för träna maskinen, gradvis, i tid. Du kan till och med följa tillvägagångssätt angående dataförstoring och överföringsinlärning för att få ut det mesta av begränsade datamängder.

Öppna datamängder kan alltid användas för att samla in utbildningsdata. Men om du söker exklusivitet för att utbilda modellerna bättre kan du lita på externa leverantörer, gratis källor som Reddit, Kaggle och mer, och till och med dataskrapning för att selektivt utvinna insikter från profiler, portaler och dokument. Oavsett tillvägagångssätt är det nödvändigt att formatera, minska och rengöra de inhämtade uppgifterna innan de används.