Definition
AI-datainsamling är processen att samla in rådata – text, ljud, bilder, video eller strukturerade poster – som används för att träna, validera och testa maskininlärningsmodeller. Det säkerställer att modellerna har representativa exempel på det verkliga problemet.
Syfte
Syftet är att bygga datamängder som gör det möjligt för algoritmer att effektivt lära sig mönster. Tillförlitlig datainsamling minskar bias och förbättrar modellens noggrannhet i olika miljöer och populationer.
Betydelse
- Kvaliteten på insamlad data påverkar direkt modellens resultat.
- Dålig insamling kan leda till partiska eller oanvändbara modeller.
- Olika källor förbättrar generaliserbarheten och minskar orättvisa.
- Måste följa etiska och juridiska standarder (t.ex. GDPR, HIPAA).
Så fungerar det
- Definiera vilken typ av data som behövs baserat på projektets mål.
- Identifiera källor (sensorer, API:er, undersökningar, inspelningar etc.).
- Samla in data med korrekt samtycke och integritetsskydd.
- Lagra data med metadata för spårbarhet och kontext.
- Förbered data för senare annotering, rensning eller träning.
Exempel (verkliga världen)
- ImageNet: storskalig bilddatauppsättning för datorseendeforskning.
- Google Street View: data insamlad för kartor och visuell AI.
- Mozilla Common Voice: öppen datauppsättning med talinspelningar för ASR.
Referenser / Vidare läsning
- Datablad för datamängder — Gebru et al., ACM FAccT.
- Dataförberedelse för AI-system — NIST.
- ISO/IEC TR 20547-5: Referensarkitektur för stordata — ISO.