Bygga en datauppsättning för ansiktsbilder utanför EU/Storbritannien med mångfald i åldersutveckling

En tidsseparerad ansiktsbildkorpus med 1 205 deltagare för att stärka rättvisa och robusthet för datorseendemodeller.

Ansiktsbilddataset med åldersförloppsdiversitet

Projektöversikt

Ett globalt teknikföretag som utvecklar ansiktscentrerad AI för säkerhet, personalisering och identitetsupplevelser sökte en datauppsättning utanför EU/Storbritannien med tidsseparerade foton för att minska partiskhet och förbättra modellernas motståndskraft över ålder, miljö och tillbehör.

Kunden samarbetade med Shaip för att samla in, sammanställa och validera en stor ansiktsbildssamling där varje deltagare bidrar med nya och äldre foton. Målet var att koda naturlig åldersutveckling samtidigt som strikt icke-EU/brittisk härkomst tillämpas och balanserade köns-/ålderskvoter uppnås.

Ansiktsbilddataset med åldersförloppsdiversitet

Nyckelstatistik

Deltagare

 1 205 (Endast utanför EU/Storbritannien, 50/50 kön ±10–15 %)

 Åldersblandning

 40 % (10–29), 40 % (30–49), 20 % (50+) ±10–15 % tolerans

Rapportering

Syd-/Sydostasien, Nord- och Nord-/Östafrika, Singapore, Sydamerika

tidslinje

19 veckor

Utmaningar

Geografisk begränsning

Använder uteslutande inköp från befolkningsgrupper utanför EU/Storbritannien och undviker bilder med reseursprung i EU/Storbritannien.

Balanserade kvoter i stor skala

Nådde 1 205 deltagare med snäva köns- och ålderstoleranser.

Tidsseparerade bevis

Säkerställa att varje ID-handling innehåller både nya och historiska foton, anpassade till åldersintervall.

Operativ kvalitet

Tillämpar minsta bild-/ansiktsstorlek, variation och dupliceringsgränser utan att sakta ner dataflödet.

Lösning

1. Landspaneler och provenienskontroller

Vi etablerade sourcing-poddar på landsnivå över målregioner och utbildade partners på ursprungsregler (Endast utanför EU/Storbritannien). Foton granskades för reserelaterade ursprungsrisker med hjälp av metadata-ledtrådar (år, platsmarkörer) plus inlämnarintyg, vilket minskar läckage inom EU/Storbritannien före kvalitetskontroll. Detta speglar Shaips beprövade praxis att i förväg ladda riskkontroller för att skydda nedströms genomströmning.

2. Design för registrering av åldersprogression

Istället för att ”be om 20 bilder” utformade vi en tvåspårs inlämningsflöde som vägledde deltagarna till:

  • Spår A (Nyligen): foton från de senaste två åren;
  • Spår B (Historiskt): äldre foton anpassade till deltagarens åldersintervall vid inskick (t.ex. 2–10/15/20 år).

Portalen gav användarna exempel (inomhus/utomhus, vinklar, tillbehör) för att skapa variation utan att överspecificera.

3. Mångfaldsorkestrering och kvoteringsskydd

A realtidskvotpanel övervakade inskrivningar av kön, åldersgrupp och geografi, pausar intaget när ett stratum nådde planerade gränser. Detta förhindrade omarbetning sent i cyklerna och återspeglar Shaips standardmetod med stratifierad registrering + lockouts användes i tidigare biometriska datamängder för att upprätthålla balanserad representation.

4. Kvalitetspipeline (Människa i loopen + Automatiserade förhandskontroller)

  • Automatiserade grindar: ansiktsigenkänning + tröskelvärden för minsta storlek, grundläggande oskärpa/bruskontroller och klustring samma dag för att tidigt flagga potentiella dubbletter.
  • Mänskliga kvalitetssäkringsnivåer: validerade granskare på bildnivå ämnesexklusivitet (endast huvuddeltagare), scen-/vinkelvariationoch inga försköningsfilterCQA-revisorer gjorde stickprovskontroller av partier före godkännande. flerskiktad kvalitetssäkring speglar Shaips publicerade biometriska dataprogram.

5. Efterlevnad och samtycke

inskrivning ≥20 år med undertecknat samtycke; under 20 fall accepteras endast med vårdnadshavares samtycke. Vi registrerade förekomsten av samtycke i metadata och anpassade granskarnas checklistor för att behörighet + samtycke fält, vilket säkerställer granskningsbarhet.

6. Metadata och spårbarhet

Vi levererade metadata på deltagare- och bildnivå (ID-kopplingar, demografi, nationalitet/bostad, fotoår, inlämningsdatum etc.) och standardiserade fältnamn för att förenkla nedströmsmärkning och utvärderingDetta följer Shaips bästa praxis för rik metadata-taggning för biometriska datamängder.

7. Fasad leverans till De Risk Scale

An 8-batchplan började med en Kalibrering för 10 deltagare uppsättning, följt av kontrollerad uppskalning. Kundfeedback efter batch 1 informerade om justeringar av rubriker, sedan ökade volymerna i förutsägbara omgångar för att nå 1,205 deltagarna om ~19 veckor.

Projektets omfattning

Dimensionera Vad vi levererade
Befolkning 1 205 deltagare utanför EU/Storbritannien med balanserade köns- och åldersintervall.
Innehåll ≥20 bilder per deltagare: aktuella + historiska för att koda åldersutveckling; varierade scener, vinklar och tillbehör.
Kvalitetsoperationer Automatiserade förhandskontroller + mänsklig flerskiktskvalitetssäkring (dupliceringskontroller; ämnesexklusivitet; filteravvisning).
Compliance Verifiering av ursprung utanför EU/Storbritannien; styrning av samtycke och validering av behörighet.
metadata Deltagare + bildattribut för spårbarhet och nedströms ML-utvärdering.
Leverans 8 fasade batcher, börjar med kalibrering och sedan steady state-leverans till slutmålet.

Den Utfall

  • Balanserad, revisionsklar korpus: Demografiska kvoter uppfylls inom toleransgränserna; Icke-EU/Storbritannien-ursprung tillämpas på alla bilder för kompatibel utbildning.
  • Modellklar variation: Tidsseparerade bilder, olika miljöer/vinklar och tillbehörstäckning stöder robusthetstestning och biasanalys.
  • Operativ förutsägbarhet: Första utrullningen av kalibreringen + kvotskydd minskade omarbetet och säkrade tidslinjen till hela målet på 1 205 deltagare.
  • Nedströms effektivitet: Rika metadata och konsekvent filhygien förkortade vägen till annotering och benchmarkkonstruktion, enligt Shaips handböcker för biometriska dataset.

Shaip förvandlade en komplex datauppsättning med ansiktsuttryck från länder utanför EU/Storbritannien till en balanserad, revisionsklar samling. Deras design för åldersprogression och nivåindelade kvalitetssäkring gav vårt CV-team tydliga, mångsidiga data som vi kunde lita på – utan schemarisk.

Gyllene-5-stjärniga