Definition
Standarddatamängder är förinsamlade och offentligt eller kommersiellt tillgängliga datamängder som kan användas direkt för träning eller utvärdering av AI-modeller.
Syfte
Syftet är att påskynda forskning och utveckling genom att tillhandahålla lättillgänglig data utan kostsam insamling.
Betydelse
- Sparar tid och resurser för AI-team.
- Möjliggör reproducerbarhet och benchmarking.
- Kan sakna domänspecificitet för vissa uppgifter.
- Kräver kontroll av partiskhet och licensbegränsningar.
Så fungerar det
- Identifiera datamängden som är relevant för AI-uppgiften.
- Granska licens- och användningsbegränsningar.
- Ladda ner eller köp datasetet.
- Förbearbeta efter behov för kompatibilitet.
- Träna eller utvärdera modeller med hjälp av datasetet.
Exempel (verkliga världen)
- MNIST: handskriven sifferuppsättning för benchmarking.
- ImageNet: storskalig datamängd för datorseende.
- Common Crawl: öppen webbtextdatauppsättning för NLP.