Licensiering av standardiserade ansiktsbilder och videodata

Standarddata för ansiktsigenkänning för AI-modellträning

Att utnyttja etiskt framställda, demografiskt mångsidiga datamängder för att påskynda AI-modellträning och minska partiskhet för ett ledande globalt teknikkonglomerat.

Standarddata för ansiktsigenkänning

Projektöversikt

Klienten ville accelerera AI-driven utveckling av ansiktsigenkänning utan att genomgå långa, kostsamma datainsamlingscykler. För att uppnå detta behövde de färdiga dataset som inte bara var stor och mångsidig, Men även etiskt framställda och i enlighet med globala dataskyddsregler.

Shaip levererade omfattande datamängder med kontrollerade variationer i belysning, huvudpositioner, ocklusioner och känslor, vilket gjorde det möjligt för klientens modeller att uppnå både noggrannhet och rättvisa samtidigt som de uppfyllde etniska och demografiska kriterierna. Varje datamängd inkluderade detaljerade metadata, pose-annoteringar och avgränsningsrutor för känsloidentifiering, vilket gjorde det möjligt att träna och testa modeller i mycket olika, verkliga scenarier.

Standarddata för ansiktsigenkänning

Nyckelstatistik

7 000+ försökspersoner

i historisk datauppsättning med över 300 000 bilder och 2 000 videor.

7 000+ försökspersoner

i datamängden för känslor från flera vinklar.

74,880-bilder

inom belysning
Variationsdatauppsättning.

18,600-bilder

som täcker sex
kärnkänslor.

Projektets omfattning

Klienten krävde storskaliga, etiskt framställda och demografiskt diversifierade ansiktsbilds- och videodataset för att stödja utveckling och utbildning av ansiktsigenkänningsmodeller. Dessa dataset var avgörande för att driva användningsfall inom system mot förfalskning, identitetsverifiering, bildmatchning och uttrycksanalys, vilket säkerställer robust och opartisk AI-prestanda i verkliga applikationer.

Uppdragets omfattning omfattade:

  • leverera kurerade datamängder utformad för att möta användningsområden för ansiktsigenkänning som anti-spooofing, identitetsverifiering och ansiktsuttrycksigenkänning.
  • Tillhandahålla bilder och videor med detaljerade anteckningar för demografi, huvudposition, ocklusioner, ljustyp och känslor.
  • säkerställa balanserad demografisk täckning för att minska systemisk bias i utbildning.
  • Garanti efterlevnad och samtycke med globala standarder för dataskydd och integritet.

Exempel på bidrag till dataset:

  • Historisk datauppsättning (~7 000 försökspersoner): 300 000+ bilder och 2 000 videor med variationer i pose och ocklusion.
  • Datamängd för känslor från flera vinklar (~10 000 försökspersoner): 15–20 bilder per försöksperson oavsett vinklar och känslomässiga tillstånd.
  • Sex känslor dataset (~3 100 försökspersoner): 18 600 kommenterade bilder som täcker centrala mänskliga uttryck.
  • Belysningsvariationsdataset (~468 personer): 74 880 bilder över nio ljusförhållanden.

Utmaningar

Projektet tog upp viktiga utmaningar som är vanliga vid byggande av robusta AI-modeller:

Bias i AI-modeller

Förebygga överrepresentation av specifika etniciteter eller kön för att säkerställa rättvisa.

Variabilitet i verkliga världen

Fånga ljusförhållanden, ansiktsvinklar, ocklusioner och naturliga uttryck.

Skala och kvalitet

Tillhandahåller hundratusentals högupplösta bilder utan att kompromissa med mångfalden.

Regelefterlevnad

Uppfyller stränga globala krav på integritet och dataskydd med fullt samtycke från deltagarna.

Lösning

Shaip implementerade en strukturerat tillvägagångssätt för att säkerställa datasetets kvalitet och relevans:

  • Kurerade balanserade datamängder med bred etnisk, köns- och åldersrepresentation.
  • Fångad flera vinklar och ljusvariationer att återskapa verkliga förhållanden.
  • Lade detaljerade anteckningar (t.ex. huvudposition, ocklusioner, känslor) för att berika användbarheten av datamängden.
  • Etablerade strikta kvalitetskontroll och efterlevnadsarbetsflöden för att garantera etisk inköp och efterlevnad av integritetsregler.

Datasetportfölj

dataset Volym Demografi / Mångfald Standarder / Specifikationer
Historisk datauppsättning för ansiktsbilder och video (~7 000 försökspersoner) 7 000 registreringsbilder; 300 000+ historiska bilder; 2 000 videor (1 inomhus + 1 utomhus per 1 000 försökspersoner) Etnicitet: Svart (35 %), östasiatisk (42 %), sydasiatisk (13 %), vit (10 %); Kön: 50 % män / 50 % kvinnor; Ålder: Vuxna 18+ (senaste 10 åren) Videolängd: 1–2 min; Variation av huvudposition (P1–P7); 5 ocklusionstyper (O0–O4)
Ansiktsbilddataset (~5 000 försökspersoner) 35 bilder per motiv; 2 500 indier; 1 000 asiater; 1 500 svarta Ålder: 18–60 år; Balanserad könsfördelning Ingen försköning; Varierad bakgrund och kläder; Minsta upplösning: 960×1280
Datamängd för känslor från flera vinklar (~10 000 försökspersoner – kinesiska) 15–20 bilder per motiv; Poser: Framifrån, vänster, höger (30°–60°); Uttryck: Leende, öppen mun, ledsen, allvarlig, neutral Etnicitet: kinesisk; Ålder: 18–26; Kön: 50/50-fördelning Upplösning: 2160×3840 pixlar eller högre
Sex datamängder om mänskliga känslor (~3 100 försökspersoner) 6 bilder per motiv (olika ansiktsuttryck); totalt 18 600 bilder Etniciteter: Japanska (9 000), Koreanska (2 400), Kinesiska (2 400), Sydostasiatiska (2 400), Sydostasiatiska (2 400); Ålder: 20–65 år Annoteringar i avgränsningsrutor för känslor; Enkla bakgrunder; Inga hattar, glasögon eller hinder
Belysningsvariationsdataset (~468 indiska försökspersoner) 160 bilder per motiv; Totalt: 74 880 bilder Ålder: 20–70; 70 % män 9 ljusförhållanden (inomhus, utomhus, sidoljus, bakgrundsbelysning, neon, etc.)
Multietnisk ansiktsbilddatauppsättning (~600 försökspersoner) 3,752 bilder totalt Etniciteter: Afrikansk, Mellanöstern, Indian, Sydasiatisk, Sydostasiatisk; Ålder: 20–70 år -

Resultat

Samarbetet gav betydande affärsmässig och teknisk effekt:

  • Förbättrad modellnoggrannhetFörbättrad precision och återkallelse för ansiktsigenkänningsmodeller över flera användningsområden.
  • Bias ReductionBalanserad demografisk representation minskade systemisk bias i AI-resultat.
  • Accelererade utvecklingstidslinjerFärdiga datamängder möjliggjorde snabb prototypframställning och modellträning utan långvarig datainsamling.
  • RegelefterlevnadAlla datamängder följde globala integritetsstandarder och inkluderade deltagarnas samtycke.

Shaips mångsidiga, etiskt framställda datamängder gav oss den hastighet, kvalitet och efterlevnad vi behövde. Med färdiga data accelererade vi AI-modellträning och minskade systemisk bias avsevärt.

Gyllene-5-stjärniga