Inverkan av mångfald på träningsdata

Olika AI-utbildningsdata för inklusivitet och eliminering av partiskhet

Artificiell intelligens och Big Data har potential att hitta lösningar på globala problem samtidigt som man prioriterar lokala frågor och förändrar världen på många djupgående sätt. AI ger lösningar till alla – och i alla miljöer, från hem till arbetsplatser. AI-datorer, med Maskininlärning träning, kan simulera intelligent beteende och konversationer på ett automatiserat men personligt sätt.

Ändå står AI inför ett inkluderingsproblem och är ofta partisk. Lyckligtvis fokuserar på artificiell intelligens etik kan inleda nyare möjligheter när det gäller diversifiering och inkludering genom att eliminera omedvetna fördomar genom olika träningsdata.

Vikten av mångfald i AI-träningsdata

Ai Training Data Diversity Mångfald och kvalitet på träningsdata är relaterade eftersom det ena påverkar det andra och påverkar resultatet av AI-lösningen. Framgången för AI-lösningen beror på olika data det tränas på. Datadiversitet förhindrar AI från att överanpassa – vilket innebär att modellen bara presterar eller lär sig av data som används för att träna. Med överanpassning kan AI-modellen inte ge resultat när den testas på data som inte används i träning.

Det aktuella tillståndet för AI-utbildning datum

Ojämlikheten eller bristen på mångfald i data skulle leda till orättvisa, oetiska och icke-inkluderande AI-lösningar som skulle kunna fördjupa diskrimineringen. Men hur och varför är mångfald i data relaterad till AI-lösningar?

Ojämlik representation av alla klasser leder till felidentifiering av ansikten – ett viktigt exempel är Google Foto som klassificerade ett svart par som "gorillor". Och Meta frågar en användare som tittar på en video av svarta män om användaren vill "fortsätta titta på videor av primater."

Till exempel kan felaktig eller felaktig klassificering av etniska eller rasistiska minoriteter, särskilt i chatbots, leda till fördomar i AI-utbildningssystem. Enligt 2019 års rapport om Diskriminerande system – kön, ras, makt i AI, mer än 80 % av lärarna i AI är män; kvinnliga AI-forskare på FB utgör endast 15 % och 10 % på Google.

Effekten av olika träningsdata på AI-prestanda

Inverkan av mångfald på träningsdata Att utelämna specifika grupper och gemenskaper från datarepresentation kan leda till skeva algoritmer.

Databias introduceras ofta av misstag i datasystemen – genom undersampling av vissa raser eller grupper. När ansiktsigenkänningssystem tränas på olika ansikten, hjälper det modellen att identifiera specifika egenskaper, såsom ansiktsorganens position och färgvariationer.

Ett annat resultat av att ha en obalanserad frekvens av etiketter är att systemet kan betrakta en minoritet som en anomali när det trycksätts för att producera en utdata inom kort tid.

Låt oss diskutera ditt krav på AI -utbildningsdata idag.

Att uppnå mångfald i AI-utbildningsdata

Å andra sidan är det också en utmaning att skapa en mångsidig datauppsättning. Den rena bristen på data om vissa klasser kan leda till underrepresentation. Det kan mildras genom att göra AI-utvecklarteamen mer mångsidiga med avseende på färdigheter, etnicitet, ras, kön, disciplin och mer. Dessutom är det perfekta sättet att ta itu med problem med datadiversitet i AI att konfrontera det från början istället för att försöka fixa det som har gjorts – att ingjuta mångfald i datainsamlings- och kurationsstadiet.

Oavsett hypen kring AI, beror det fortfarande på data som samlas in, väljs ut och tränas av människor. Den medfödda fördomen hos människor kommer att återspeglas i de data som samlas in av dem, och denna omedvetna fördom smyger sig in i ML-modellerna också. 

Steg för att samla in och kurera olika utbildningsdata

Utbildning Datadiversity Inclusion

Datamångfald kan uppnås genom att:

  • Lägg eftertänksamt till mer data från underrepresenterade klasser och exponera dina modeller för olika datapunkter. 
  • Genom att samla in data från olika datakällor. 
  • Genom dataförstärkning eller artificiell manipulering av datauppsättningar för att öka/inkludera nya datapunkter som skiljer sig tydligt från de ursprungliga datapunkterna. 
  • När du anställer sökande till AI-utvecklingsprocessen, ta bort all jobbirrelevant information från ansökan. 
  • Förbättra transparens och ansvarsskyldighet genom att förbättra dokumentationen av utveckling och utvärdering av modeller. 
  • Införa regelverk för att bygga mångfald och inklusivitet i AI system från gräsrotsnivå. Olika regeringar har utvecklat riktlinjer för att säkerställa mångfald och mildra AI-bias som kan ge orättvisa resultat. 

[Läs även: Lär dig mer om AI Training Data Collection Process ]

Slutsats

För närvarande är endast ett fåtal stora teknikföretag och lärcentra exklusivt involverade i att utveckla AI-lösningar. Dessa elitutrymmen är genomsyrade av utanförskap, diskriminering och partiskhet. Det är dock dessa utrymmen där AI utvecklas, och logiken bakom dessa avancerade AI-system är fylld av samma partiskhet, diskriminering och utanförskap som bärs av de underrepresenterade grupperna. 

När man diskuterar mångfald och icke-diskriminering är det viktigt att ifrågasätta människorna det gynnar och de det skadar. Vi bör också titta på vem den missgynnar – genom att tvinga fram idén om en "normal" person kan AI potentiellt utsätta "andra" för risker. 

Att diskutera mångfald i AI-data utan att erkänna maktrelationer, rättvisa och rättvisa kommer inte att visa den större bilden. För att till fullo förstå omfattningen av mångfalden i AI-träningsdata och hur människor och AI tillsammans kan mildra denna kris, nå ut till ingenjörerna på Shaip. Vi har olika AI-ingenjörer som kan tillhandahålla dynamisk och mångsidig data för dina AI-lösningar. 

Social Dela