Licensiering av standardiserade ansiktsbilder och videodata
Standarddata för ansiktsigenkänning för AI-modellträning
Att utnyttja etiskt framställda, demografiskt mångsidiga datamängder för att påskynda AI-modellträning och minska partiskhet för ett ledande globalt teknikkonglomerat.
Projektöversikt
Klienten ville accelerera AI-driven utveckling av ansiktsigenkänning utan att genomgå långa, kostsamma datainsamlingscykler. För att uppnå detta behövde de färdiga dataset som inte bara var stor och mångsidig, Men även etiskt framställda och i enlighet med globala dataskyddsregler.
Shaip levererade omfattande datamängder med kontrollerade variationer i belysning, huvudpositioner, ocklusioner och känslor, vilket gjorde det möjligt för klientens modeller att uppnå både noggrannhet och rättvisa samtidigt som de uppfyllde etniska och demografiska kriterierna. Varje datamängd inkluderade detaljerade metadata, pose-annoteringar och avgränsningsrutor för känsloidentifiering, vilket gjorde det möjligt att träna och testa modeller i mycket olika, verkliga scenarier.
Nyckelstatistik
7 000+ försökspersoner
i historisk datauppsättning med över 300 000 bilder och 2 000 videor.
7 000+ försökspersoner
i datamängden för känslor från flera vinklar.
74,880-bilder
inom belysning
Variationsdatauppsättning.
18,600-bilder
som täcker sex
kärnkänslor.
Projektets omfattning
Klienten krävde storskaliga, etiskt framställda och demografiskt diversifierade ansiktsbilds- och videodataset för att stödja utveckling och utbildning av ansiktsigenkänningsmodeller. Dessa dataset var avgörande för att driva användningsfall inom system mot förfalskning, identitetsverifiering, bildmatchning och uttrycksanalys, vilket säkerställer robust och opartisk AI-prestanda i verkliga applikationer.
Uppdragets omfattning omfattade:
- leverera kurerade datamängder utformad för att möta användningsområden för ansiktsigenkänning som anti-spooofing, identitetsverifiering och ansiktsuttrycksigenkänning.
- Tillhandahålla bilder och videor med detaljerade anteckningar för demografi, huvudposition, ocklusioner, ljustyp och känslor.
- säkerställa balanserad demografisk täckning för att minska systemisk bias i utbildning.
- Garanti efterlevnad och samtycke med globala standarder för dataskydd och integritet.
Exempel på bidrag till dataset:
- Historisk datauppsättning (~7 000 försökspersoner): 300 000+ bilder och 2 000 videor med variationer i pose och ocklusion.
- Datamängd för känslor från flera vinklar (~10 000 försökspersoner): 15–20 bilder per försöksperson oavsett vinklar och känslomässiga tillstånd.
- Sex känslor dataset (~3 100 försökspersoner): 18 600 kommenterade bilder som täcker centrala mänskliga uttryck.
- Belysningsvariationsdataset (~468 personer): 74 880 bilder över nio ljusförhållanden.
Utmaningar
Projektet tog upp viktiga utmaningar som är vanliga vid byggande av robusta AI-modeller:
Bias i AI-modeller
Förebygga överrepresentation av specifika etniciteter eller kön för att säkerställa rättvisa.
Variabilitet i verkliga världen
Fånga ljusförhållanden, ansiktsvinklar, ocklusioner och naturliga uttryck.
Skala och kvalitet
Tillhandahåller hundratusentals högupplösta bilder utan att kompromissa med mångfalden.
Regelefterlevnad
Uppfyller stränga globala krav på integritet och dataskydd med fullt samtycke från deltagarna.
Lösning
Shaip implementerade en strukturerat tillvägagångssätt för att säkerställa datasetets kvalitet och relevans:
- Kurerade balanserade datamängder med bred etnisk, köns- och åldersrepresentation.
- Fångad flera vinklar och ljusvariationer att återskapa verkliga förhållanden.
- Lade detaljerade anteckningar (t.ex. huvudposition, ocklusioner, känslor) för att berika användbarheten av datamängden.
- Etablerade strikta kvalitetskontroll och efterlevnadsarbetsflöden för att garantera etisk inköp och efterlevnad av integritetsregler.
Datasetportfölj
| dataset | Volym | Demografi / Mångfald | Standarder / Specifikationer |
|---|---|---|---|
| Historisk datauppsättning för ansiktsbilder och video (~7 000 försökspersoner) | 7 000 registreringsbilder; 300 000+ historiska bilder; 2 000 videor (1 inomhus + 1 utomhus per 1 000 försökspersoner) | Etnicitet: Svart (35 %), östasiatisk (42 %), sydasiatisk (13 %), vit (10 %); Kön: 50 % män / 50 % kvinnor; Ålder: Vuxna 18+ (senaste 10 åren) | Videolängd: 1–2 min; Variation av huvudposition (P1–P7); 5 ocklusionstyper (O0–O4) |
| Ansiktsbilddataset (~5 000 försökspersoner) | 35 bilder per motiv; 2 500 indier; 1 000 asiater; 1 500 svarta | Ålder: 18–60 år; Balanserad könsfördelning | Ingen försköning; Varierad bakgrund och kläder; Minsta upplösning: 960×1280 |
| Datamängd för känslor från flera vinklar (~10 000 försökspersoner – kinesiska) | 15–20 bilder per motiv; Poser: Framifrån, vänster, höger (30°–60°); Uttryck: Leende, öppen mun, ledsen, allvarlig, neutral | Etnicitet: kinesisk; Ålder: 18–26; Kön: 50/50-fördelning | Upplösning: 2160×3840 pixlar eller högre |
| Sex datamängder om mänskliga känslor (~3 100 försökspersoner) | 6 bilder per motiv (olika ansiktsuttryck); totalt 18 600 bilder | Etniciteter: Japanska (9 000), Koreanska (2 400), Kinesiska (2 400), Sydostasiatiska (2 400), Sydostasiatiska (2 400); Ålder: 20–65 år | Annoteringar i avgränsningsrutor för känslor; Enkla bakgrunder; Inga hattar, glasögon eller hinder |
| Belysningsvariationsdataset (~468 indiska försökspersoner) | 160 bilder per motiv; Totalt: 74 880 bilder | Ålder: 20–70; 70 % män | 9 ljusförhållanden (inomhus, utomhus, sidoljus, bakgrundsbelysning, neon, etc.) |
| Multietnisk ansiktsbilddatauppsättning (~600 försökspersoner) | 3,752 bilder totalt | Etniciteter: Afrikansk, Mellanöstern, Indian, Sydasiatisk, Sydostasiatisk; Ålder: 20–70 år | - |
Resultat
Samarbetet gav betydande affärsmässig och teknisk effekt:
- Förbättrad modellnoggrannhetFörbättrad precision och återkallelse för ansiktsigenkänningsmodeller över flera användningsområden.
- Bias ReductionBalanserad demografisk representation minskade systemisk bias i AI-resultat.
- Accelererade utvecklingstidslinjerFärdiga datamängder möjliggjorde snabb prototypframställning och modellträning utan långvarig datainsamling.
- RegelefterlevnadAlla datamängder följde globala integritetsstandarder och inkluderade deltagarnas samtycke.
Shaips mångsidiga, etiskt framställda datamängder gav oss den hastighet, kvalitet och efterlevnad vi behövde. Med färdiga data accelererade vi AI-modellträning och minskade systemisk bias avsevärt.