I ett land som är så kulturellt mångsidigt och språkligt rikt som Indien, börjar bygga inkluderande AI med att samla representativa datauppsättningar av hög kvalitet. Det är visionen bakom Projekt Vaani—ett storskaligt initiativ med öppen källkod som leds av ARTPARK, IISc Bengaluruoch Google, som syftar till att ge röst åt alla indiska språk och dialekter.
Det ambitiösa målet? Att samla 150,000 XNUMX+ timmars tal och 15,000 XNUMX+ timmar av transkriptioner från 1 miljoner människor tvärs 773 distrikt av Indien.
Som en av nyckelleverantörerna för detta nationella uppdrag, Shaip spelat en avgörande roll i att kurera spontan taldata, transkription och insamling av metadata – och lägga grunden för rättvisa röstteknologier som verkligen representerar det verkliga Indien.
Visionen bakom Project Vaani
Project Vaani är designat för att överbrygga gapet för AI-inkludering genom att skapa största multimodala, flerspråkiga dataset med öppen källkod i Indien. Dessa data är grunden för att utveckla korrekt taligenkänning, översättning och generativa AI-system på indiska inhemska språk – av vilka många är underrepresenterade i globala tekniska ekosystem.
Den långsiktiga visionen är att driva effektfulla applikationer inom:
- Sjukvård – Röstbaserad telemedicin
- Utbildning – Vernacular lärplattformar
- Bolagsstyrning – Samtalsgränssnitt för medborgartjänster
- Tillgänglighet – Röstverktyg för användare med olika funktionsförmåga
- Katastrofsvar – Kommunikation i realtid på lokala dialekter
Hur Shaip hjälpte till att bygga Indiens största öppna källkodsdatauppsättning för tal för Project Vaani
Shaip anförtroddes insamlingen av 8,000 XNUMX timmar spontant tal och 800 timmars manuellt verifierade transkriptioner. Vårt ansvar sträckte sig över högtalarintroduktion, ljudinsamling, metadatataggning, transkriptionskoordinering och kvalitetskontroll.
8,000 timmar av spontana ljuddata
Inspelningar från 400+ modersmålstalare per distrikt, representerar olika åldersgrupper, kön och dialekter
80 distrikt, omfattas
Bildbaserad uppmaning för att säkerställa naturligt, kontextuellt tal
Här är vad som gjorde vårt tillvägagångssätt unikt:
Mångfald på distriktsnivå
Vi hämtade inspelningar från 80 distrikt spridda över stater som Bihar, Uttar Pradesh, Karnataka, Västbengalen och Maharashtra. Varje distrikt bidrog med 100 timmar ljuddata, vilket säkerställde regional balans. Vi engagerade modersmålstalare, vilket säkerställde representation av regionala accenter och dialekter som ofta förbises i vanliga AI-datauppsättningar.
Språklig & demografisk representation
Vi hämtade inspelningar från 80 distrikt spridda över stater som Bihar, Uttar Pradesh, Karnataka, Västbengalen och Maharashtra. Varje distrikt bidrog med 100 timmar ljuddata, vilket säkerställde regional balans. Vi engagerade modersmålstalare, vilket säkerställde representation av regionala accenter och dialekter som ofta förbises i vanliga AI-datauppsättningar.
Bilduppmanat tal
För att stimulera spontant och naturligt ordförråd fick deltagarna se 45–90 bilder per session och ombads beskriva dem. Deltagarna uppmanades att använda olika bilder – allt från kulturella symboler till vardagliga föremål – för att framkalla naturliga, spontana svar på sitt modersmål. Detta säkerställde att inspelningar återspeglade kontextuellt tal i verkligheten – väsentligt för att träna avancerade NLP-system.
Transkriptionsstandarder av hög kvalitet
Endast 10 % av taldatan transkriberades – vilket motsvarar 800 timmar. Transkriptioner utfördes av lokala lingvister inom en radie på 20–50 km från talaren, vilket säkerställde förtrogenhet med dialekter och nyanser. En andra lagerkontroll säkerställde <5 % ordfelfrekvens (WER).
Strikt kvalitetssäkring
Ljuddata måste uppfylla en hög ribba: inget bakgrundsljud, ekon, telefonvibrationer eller förvrängningar. Ljud spelades in i tysta, ekofria miljöer. Filer genomgick noggrann granskning för att uppfylla riktlinjerna för taltydlighet, brusnivåer, metadatanoggrannhet och högtalarverifiering. Metadatataggningen måste vara korrekt över alla filer, och alla inspelningar kontrollerades för högtalare och platsanpassning.
Utmaningar vi löste
- Fjärrlogistik – Leda team i 80 distrikt
- Talarmångfald – Onboarding av 32,000 XNUMX+ verifierade högtalare på avlägsna platser
- Kulturell känslighet – Respektera lokala seder och dialekter
- Dataintegritet – Att uppfylla kvalitets- och efterlevnadsstandarder
- Kvalitetskontroll – över flera språkliga och kulturella sammanhang
Vår framgång berodde på noggrann planering, teknikdriven validering och partnerskap med lokala team som förstod de kulturella nyanserna i varje region.
Effekt och tillämpningar
Shaips bidrag har inte bara påskyndat framstegen för Project Vaani utan också lagt grunden för inkluderande AI i Indien. Det kurerade taldatasetet används redan för att bygga och finjustera AI-modeller för:
- Vernacular röstassistenter
- Regionala översättningsmotorer
- Tillgängliga kommunikationsverktyg för synskadade
- AI-drivna edtech-plattformar för studenter på landsbygden
- Landsbygdens telemedicin
- Röstbaserade medborgartjänster
- Översättning och transkription i realtid
Slutsats
Project Vaani är ett djärvt steg mot inkluderande, tillgänglig AI – och Shaip är hedrad över att spela en grundläggande roll. Shaips arbete med Project Vaani bekräftar vårt engagemang för att bygga etiska, inkluderande AI-system med rötter i mångfald och representation. Med över 8,000 800 timmars tal insamlat och XNUMX timmar transkriberat, är vi stolta över att ha spelat en del i ett av Indiens mest visionära digitala integrationsprojekt.
När Project Vaani fortsätter mot sitt större mål om 150,000 XNUMX+ timmar data, är vi redo att stödja nästa gräns för AI-innovation som talar till – och för – varje indier.
Vill du samarbeta med oss för att bygga AI som förstår den verkliga världen? www.shaip.com