En fallstudie om ansiktsigenkänningsmodell
Anti-spoofing-videodataset för AI-modeller för bedrägeriupptäckt
Upptäck hur Shaip levererade 25,000 XNUMX högkvalitativa anti-spoofing-videodatauppsättningar med verkliga och replay-attackscenarier för att träna AI-modeller för att upptäcka bedrägerier.
Projektöversikt
Shaip samarbetade med ett ledande AI-säkerhetsföretag för att tillhandahålla en högkvalitativ, off-the-shelf anti-spoofing-videodataset utformad för att förbättra AI-modellutbildning för bedrägeriupptäckt. Datauppsättningen inkluderade 25,000 XNUMX videor som fångar både verkliga och replay-attackscenarier, vilket säkerställer robust träningsdata för anti-spoofing-modeller.
Var och en av 12,500 deltagarna bidrog med två videor – en riktig och en repris attack – inspelade kl 720p eller högre upplösning med en bildfrekvens på 26 FPS och över.
Projektets mål var att leverera autentiska och olika datauppsättningar som skulle göra det möjligt för AI-modeller att effektivt skilja mellan verkliga och falska biometriska videor, och därigenom minska bedrägeriskerna i biometriska autentiseringssystem.
Nyckelstatistik
25,000 totalt videor (12,500 riktiga videor, 12,500 spela upp attackvideor)
12,500 unika
deltagare
5 etniska grupper
representeras i datamängden
Fasleverans: 4 partier av 6 250 videor vardera
Metadataattribut: 12 nyckelparametrar för förbättrad användbarhet av dataset
Anti-spoofing biometrisk datamängd
Datauppsättning: Projektet fokuserade på att leverera högkvalitativa anti-spoofing videodatauppsättningar bestående av riktiga och spela attackvideor. Nyckelaspekter inkluderade:
- 12,500 deltagarna Bidragande två videor vardera (1 äkta, 1 falsk).
- Mångfald i inspelningsenheter för att förbättra modellens anpassningsförmåga.
- Balanserad etnisk representation för att säkerställa datauppsättningens inkludering.
Metadatainsamling: Varje video åtföljdes av 12 metadataattribut för att förbättra användbarheten av dataset.
Utmaningar för videodatainsamling
Lika representation
Upprätthålla en balanserad etnicitetsmässig datadistribution samtidigt som du köper videor av hög kvalitet.
Kvalitetskontroll
Se till att varje deltagare bidrar med en riktig attack och en repris attackvideo för att upprätthålla datauppsättningens integritet.
Teknisk konsistens
Följer strikta riktlinjer för FPS (≥ 26), upplösning (≥ 720p) och tidsstämpelnoggrannhet (+/- 0.5 ms).
Hur vi löste det
Shaip tillhandahöll en strukturerad och högkvalitativ datauppsättning för att möta projektets krav. Lösningen innehöll:
Datasetkurering och kvalitetskontroll
- 25,000 videoklipp samlat över 4-faser för att säkerställa ett stabilt och strukturerat dataflöde och undvika flaskhalsar.
- Rigorös valideringsprocess för att säkerställa efterlevnad FPS, upplösning och metadata noggrannhet. Varje video genomgick flera kvalitetskontroller innan det slutgiltigt accepterades.
- Omfattande metadatataggning med 12 attribut:
- Fil-ID/namn
- Typ av attack (Real/Replay)
- Person-ID
- video~~POS=TRUNC
- Video Varaktighet
- Ämnets etnicitet
- Ämnets kön
- Oavsett om videon är original eller falsk
- Enhetens namn/modell
- Person som talar eller inte
- Tidsstämpel starttid
- Tidsstämpel Sluttid
- Balanserad etnisk gruppfördelning: Datauppsättningen var noggrant sammanställd för att upprätthålla en balanserad etnisk representation. Fördelningen inkluderar latinamerikanska (33 %), sydasiatiska (21 %), kaukasiska (20 %), afrikanska (15 %) och östasiatiska och mellanösternländska befolkningar (var och en omfattar upp till 6 %).
- Inga dubbletter av poster för att upprätthålla datauppsättningens unika karaktär och förhindra fördomar i AI-träning.
- Etniskt mångsidigt urval av deltagare att skapa en datauppsättning som återspeglar verkliga användarvariationer, vilket förbättrar AI-modellens anpassningsförmåga och rättvisa.
- Variation av inspelningsenhet inkluderade flera smartphonemodeller, kameror och ljusförhållanden för att förbättra modellens robusthet mot olika miljöinställningar.
Resultat
Den högkvalitativa, mångsidiga anti-spoofing-videodataset som tillhandahålls av Shaip gjorde det möjligt för klienten att träna AI-modeller för att exakt skilja mellan verkliga och falska videor i olika biometriska autentiseringsscenarier. Datauppsättningen bidrog till:
Spårning av bedrägerier
Förbättrad AI-prestanda för att upptäcka bedrägliga biometriska attacker.
Olika träningsdata
Förstärkte modellens förmåga att känna igen reprisattacker över olika etniciteter, enheter och miljöförhållanden.
Skalbarhet
Datauppsättningen fungerar som en grund för framtida förbättringar och expansioner av anti-spoofingmodeller.
Shaips datauppsättning har varit avgörande för att förbättra våra AI-drivna anti-spoofing-modeller. Mångfalden, kvaliteten och strukturerade metadata gav en stark grund för att förbättra bedrägeriupptäckt i biometriska autentiseringssystem.