AI-träningsdata

Data Wars 2024: The Ethical and Practical Struggles of AI Training

Om du bad en Gen AI-modell att skriva texter till en låt som Beatles skulle ha gjort och om den gjorde ett imponerande jobb, så finns det en anledning till det. Eller, om du bad en modell att skriva prosa i stil med din favoritförfattare och den exakt replikerade stilen, så finns det en anledning till det.

Till och med helt enkelt är du i ett annat land och när du vill översätta namnet på ett intressant mellanmål du hittar i en stormarknadsgång, upptäcker din smartphone etiketter och översätter texten sömlöst.

AI står i centrum för alla sådana möjligheter och det beror främst på att AI-modeller skulle ha tränats på stora volymer av sådan data – i vårt fall hundratals av Beatles låtar och förmodligen böcker från din favoritförfattare.

Med uppkomsten av Generative AI är alla musiker, författare, artister eller allt. Gen AI-modeller skapar skräddarsydda konstverk på några sekunder beroende på användaruppmaningar. De kan skapa Van Gogh-isque konstverk och till och med låta Al Pacino läsa upp användarvillkoren utan att han är där.

Bortsett från fascinationen är den viktiga aspekten här etik. Är det rättvist att sådana kreativa verk har använts för att träna AI-modeller, som gradvis försöker ersätta artister? Inhämtades samtycke från ägare till sådana immateriella rättigheter? Blev de rättvist kompenserade?

Välkommen till 2024: The Year of Data Wars

Under de senaste åren har data ytterligare blivit en magnet för att locka företags uppmärksamhet för att träna sina Gen AI-modeller. Precis som ett spädbarn är AI-modeller naiva. De måste läras ut och sedan tränas. Det är därför företag behöver miljarder, om inte miljoner, data för att på konstgjord väg träna modeller för att efterlikna människor.

Till exempel tränades GPT-3 på miljarder (hundratals av dem) tokens, vilket löst översätts till ord. Källor avslöjar dock att biljoner sådana tokens användes för att träna de nyare modellerna.

Med sådana enorma mängder utbildningsdatauppsättningar som krävs, vart tar stora teknikföretag vägen?

Akut brist på träningsdata

Ambition och volym går hand i hand. När företag skalar upp sina modeller och optimerar dem kräver de ännu mer utbildningsdata. Detta kan bero på krav på att avslöja framgångsrika modeller av GPT eller helt enkelt leverera förbättrade och exakta resultat.

Oavsett fall är det oundvikligt att kräva riklig träningsdata.

Det är här företagen står inför sin första vägspärr. För att uttrycka det enkelt, internet håller på att bli för litet för AI-modeller att träna på. Det betyder att företag får slut på befintliga datauppsättningar för att mata och träna sina modeller.

Denna uttömmande resurs skrämmer intressenter och teknikentusiaster eftersom den potentiellt kan begränsa utvecklingen och utvecklingen av AI-modeller, som mestadels är nära förknippade med hur varumärken positionerar sina produkter och hur vissa plågsamma problem i världen uppfattas hanteras med AI-driven lösningar.

Samtidigt finns det också hopp i form av syntetisk data eller digital inavel som vi kallar det. I lekmannatermer är syntetisk data träningsdata som genereras av AI, som återigen används för att träna modeller.

Även om det låter lovande, tror tekniska experter att syntesen av sådan träningsdata skulle leda till det som kallas Habsburg AI. Detta är ett stort problem för företag eftersom sådana inavlade datauppsättningar kan ha faktafel, partiskhet eller bara vara skratt, vilket negativt påverkar resultaten från AI-modeller.

Se detta som ett spel med kinesisk viskning, men den enda twisten är att det första ordet som förs vidare kan vara meningslöst också.

Race to sourcing AI Training Data

Skaffa AI-träningsdata Licensiering är ett idealiskt sätt att hämta träningsdata. Även om de är potenta, är bibliotek och arkiv ändliga källor. Det betyder att de inte kan räcka till volymkraven för storskaliga modeller. En intressant statistik visar att vi kan ha slut på högkvalitativ data för att träna modeller till år 2026, vilket väger tillgången på data i paritet med andra fysiska resurser i den verkliga världen.

En av de största fotoarkiven – Shutterstock har 300 miljoner bilder. Även om detta är tillräckligt för att komma igång med utbildning, skulle testning, validering och optimering behöva rikligt med data igen.

Det finns dock andra källor tillgängliga. Den enda haken här är att de är färgkodade i grått. Vi talar om allmänt tillgängliga data från internet. Här är några spännande fakta:

  • Över 7.5 miljoner blogginlägg tas live varje dag
  • Det finns över 5.4 miljarder människor på sociala medieplattformar som Instagram, X, Snapchat, TikTok och mer.
  • Det finns över 1.8 miljarder webbplatser på internet.
  • Över 3.7 miljoner videor laddas upp enbart på YouTube varje dag.

Dessutom delar människor offentligt texter, videor, foton och till och med ämnesexpertis genom poddsändningar med endast ljud.

Dessa är explicit tillgängliga delar av innehåll.

Så att använda dem för att träna AI-modeller måste vara rättvist, eller hur?

Detta är den gråzon som vi nämnde tidigare. Det finns ingen hård och snabb åsikt om denna fråga eftersom teknikföretag med tillgång till så stora mängder data kommer med nya verktyg och policyändringar för att tillgodose detta behov.

Vissa verktyg förvandlar ljud från YouTube-videor till text och använder dem sedan som tokens i träningssyfte. Företag ser över integritetspolicyerna och går till och med i den utsträckningen att de använder offentliga data för att träna modeller med en förutbestämd avsikt att möta stämningar.

Räknarmekanismer

Samtidigt utvecklar företag också det som kallas syntetisk data, där AI-modeller genererar texter som återigen kan användas för att träna modellerna som en loop.

Å andra sidan, för att motverka skrotning av data och förhindra företag från att utnyttja juridiska kryphål, implementerar webbplatser plugins och koder för att mildra data-scaping bots.

Vad är den ultimata lösningen?

Implikationen av AI för att lösa problem i den verkliga världen har alltid backats upp av ädla avsikter. Varför måste då inköpsdatauppsättningar för att träna sådana modeller förlita sig på grå modeller?

När samtal och debatter om ansvarsfull, etisk och ansvarsfull AI får framträdande och styrka, är det på företag av alla skalor att byta till alternativa källor som har white-hat-tekniker för att leverera utbildningsdata.

Det är här Shaip utmärker sig på. För att förstå de rådande farhågorna kring datasourcing, har Shaip alltid förespråkat etiska tekniker och har konsekvent praktiserat förfinade och optimerade metoder för att samla in och sammanställa data från olika källor.

White Hat Dataset Sourcing Methodologies

Inköpsmetoder för hattdatauppsättningar Vårt egenutvecklade datainsamlingsverktyg har människor i centrum för dataidentifiering och leveranscykler. Vi förstår känsligheten i användningsfall som våra kunder arbetar med och vilken inverkan våra datauppsättningar skulle ha på resultaten av deras modeller. Till exempel har hälsodatauppsättningar sin känslighet jämfört med datauppsättningar för datorseende för autonoma bilar.

Det är just därför som vårt arbetssätt innebär noggranna kvalitetskontroller och tekniker för att identifiera och sammanställa relevanta datauppsättningar. Detta har gjort det möjligt för oss att förstärka företag med exklusiva Gen AI-utbildningsdatauppsättningar i flera format som bilder, videor, ljud, text och fler nischkrav.

Vår filosofi

Vi arbetar utifrån kärnfilosofier som samtycke, integritet och rättvisa vid insamling av datamängder. Vårt tillvägagångssätt säkerställer också mångfald i data så att det inte finns någon introduktion av omedveten fördom.

När AI-världen förbereder sig för gryningen av en ny era präglad av rättvis praxis, har vi på Shaip för avsikt att vara flaggbärare och föregångare till sådana ideologier. Om otvivelaktigt rättvisa och kvalitetsdatauppsättningar är vad du letar efter för att träna dina AI-modeller, kontakta oss idag.

Social Dela