Crowd Workers för datainsamling

Crowd Workers för datainsamling – en oumbärlig del av etisk AI

I våra ansträngningar att bygga robusta och opartiska AI-lösningar är det relevant att vi fokuserar på att träna modellerna på ett opartiskt, dynamiskt och representativt sortiment av data. Vår datainsamlingsprocess är extremt viktig för att utveckla trovärdiga AI-lösningar. I detta avseende, insamling AI-träningsdata genom crowdworkers blir en kritisk aspekt av datainsamlingsstrategin.

I den här artikeln, låt oss utforska rollen som publikarbetare, dess inverkan på att utveckla AI inlärningsalgoritmer och ML-modeller, och de behov och fördelar det ger hela processen. 

Varför krävs publikarbetare för att bygga AI-modeller?

Som människor genererar vi massor av data, men ändå är bara en bråkdel av denna genererade och insamlade data av värde. På grund av bristen på standarder för benchmarking för data är de flesta av de insamlade uppgifterna antingen partiska, fulla av kvalitetsproblem eller inte representativa för miljön. Sedan mer och mer maskininlärning och modeller för djupinlärning utvecklas som frodas på enorma mängder data, behovet av bättre, nyare och mångsidiga datauppsättningar blir alltmer känt.

Det är där publikarbetare kommer in i bilden.

Crowd-sourcing-data bygger en datauppsättning med deltagande av stora grupper av människor. Folkmassa arbetare ingjuter mänsklig intelligens i artificiell intelligens.

Crowd-sourcing-plattformar ge datainsamling och anteckningsmikrouppgifter till en stor och diversifierad grupp människor. Crowdsourcing ger företag tillgång till en massiv, dynamisk, kostnadseffektiv och skalbar arbetsstyrka.

Den mest populära crowd-sourcing-plattformen – Amazon Mechanical Turk, kunde hämta 11 tusen människor-till-människa dialoger inom 15 timmar, och det betalade arbetarna $0.35 för varje framgångsrik dialog. Publikarbetare anställs för en så ringa summa, vilket kastar ljus över vikten av att bygga etiska standarder för datasourcing.

Teoretiskt låter det som en smart plan, men det är inte en lätt strategi att genomföra. Anonymiteten för folkmassaarbetarna har gett upphov till problem med låg lön, åsidosättande av arbetarrättigheter och dålig kvalitet på arbetet som påverkar AI-modellens prestanda. 

Fördelar med att ha publikarbetare för att hämta data

Genom att engagera en mångfaldig grupp av publikarbetare kan AI-baserade lösningsutvecklare distribuera mikrouppgifter och samla in varierande och utbredda observationer snabbt och till en relativt låg kostnad.

Några av de framträdande fördelarna med att anställa publikarbetare för AI-projekt är

Data collection benefits through crowd workers

Snabbare tid till marknaden: Enligt forskning från Cognilytica, nästan 80% of artificiell intelligens projekttid ägnas åt datainsamlingsaktiviteter såsom datarensning, märkning och aggregering av den. Endast 20 % av tiden går åt till utveckling och utbildning. De traditionella hindren för att generera data elimineras eftersom ett stort antal bidragsgivare kan rekryteras på kort tid. 

Kostnadseffektiv lösning: Crowd-sourced datainsamling minskar tiden och energin som läggs på utbildning, rekrytering och att ta med dem ombord. Detta eliminerar kostnaden, tiden och resurserna som krävs eftersom arbetsstyrkan är anställd på en pay-per-task-metod. 

Ökar mångfalden i datamängden: Datadiversitet är avgörande för hela AI-lösningsutbildningen. För att en modell ska ge opartiska resultat måste den tränas på en mångsidig datauppsättning. Med crowd-sourcing av data är det möjligt att generera olika (geografiska, språk, dialekter) dataset med liten ansträngning och kostnad.

Förbättrar skalbarhet: När du rekryterar pålitliga publikarbetare kan du säkerställa hög kvalitet datainsamling som kan skalas utifrån dina projektbehov.

Inhouse kontra crowdsourcing – Vem kommer ut som vinnare?

Intern dataCrowdsourced data
Datanoggrannhet och konsistens kan garanteras.Datakvalitet, noggrannhet och konsistens kan upprätthållas om tillförlitliga crowd-sourcing-plattformar med standard QA-mått används
In-house datasourcing är inte alltid ett praktiskt beslut eftersom ditt interna team kanske inte uppfyller projektkraven.Datadiversitet kan garanteras eftersom det är möjligt att rekrytera en heterogen grupp av publikarbetare baserat på projektets behov.
Dyrt att rekrytera och utbilda arbetare för projektets behov.Kostnadseffektiv lösning på datainsamling eftersom det är möjligt att rekrytera, utbilda och ombord arbetare med mindre investeringar.
Tiden till marknaden är lång eftersom intern datainsamling tar avsevärd tid.Time to market är betydligt kortare då många bidrag kommer snabbt.
En liten grupp av interna bidragsgivare och etiketterareEn stor och mångsidig grupp av bidragsgivare och dataetiketter
Datasekretessen är mycket hög med ett internt team.Datakonfidentialitet är svårt att upprätthålla när man arbetar med stora publikarbetare över hela världen.
Lättare att spåra, träna och utvärdera datainsamlarnaUtmanande att spåra och träna datainsamlarna.

Överbrygga klyftan mellan crowdsource-arbetare och begäranden.

Bridging the gap between crowdsource workers and requestor Det finns ett stort behov av att överbrygga klyftan mellan folkmassaarbetare och förfrågan, inte bara inom löneområdet.

Det råder en uppenbar brist på information från beställarens sida eftersom arbetarna endast får information om den specifika uppgiften. Till exempel, även om arbetare får mikrouppgifter som att spela in dialoger på sin inhemska dialekt, ges de sällan sammanhang. De har inte den information som krävs om varför de gör som de gör och hur de bäst gör det. Denna brist på information påverkar kvaliteten på det publikbaserade arbetet.

För en människa ger hela sammanhanget klarhet och syfte till deras arbete.

Lägg till denna blandning ytterligare en dimension av NDA – sekretessavtalen som begränsar mängden information som en publikarbetare tillhandahåller. Ur ett publikarbetarperspektiv visar detta tillbakadragande av information en brist på förtroende och minskad betydelse för deras arbete.

När man tittar på samma situation från andra änden av spektrumet saknas transparens från arbetstagarens sida. Beställaren förstår inte helt den arbetare som fått i uppdrag att utföra arbetet. Vissa projekt kan kräva en specifik typ av arbetare; Men i de flesta projekt finns det oklarheter. De marken sanning är detta kan komplicera utvärdering, återkoppling och utbildning längs linjen.

För att motverka dessa svårigheter är det viktigt att arbeta med datainsamlingsexperter med erfarenhet av att tillhandahålla mångsidig, kurerad och välrepresenterad data från ett brett urval av bidragsgivare.

Att välja Shaip som din datapartner kan ha flera fördelar. Vi fokuserar på mångfald och representativ distribution av data. Vår erfarna och engagerade personal förstår varje projekts tvång och utvecklar datauppsättningar som kan träna robusta AI-baserade lösningar på nolltid.

[Läs även: AI Training Data Starter Guide: Definition, Exempel, Dataset]

Social Dela