Fallstudie: Automatisk taligenkänning
Över 8k ljudtimmar insamlat, 800 timmar transkriberat för flerspråkig röstteknik
Beskrivning
Indien behövde en plattform som koncentrerade sig på att skapa flerspråkiga datamängder och AI-baserade språkteknologilösningar för att kunna tillhandahålla digitala tjänster på indiska språk. För att lansera detta initiativ samarbetade kunden med Shaip för att samla in och transkribera indiska språk för att bygga flerspråkiga talmodeller.
Volym
Utmaningar
För att hjälpa kunden med deras talteknik för indiska språk behövde teamet skaffa, segmentera och transkribera stora volymer träningsdata för att bygga en AI-modell. Kundens kritiska krav var:
Datainsamling
- Skaffa 8000 timmars träningsdata från avlägsna platser i Indien
- Leverantören för att samla Spontant tal från Åldersgrupper på 20-70 år
- Säkerställ en mångsidig blandning av talare efter ålder, kön, utbildning och dialekter
- Varje ljudinspelning ska vara minst 16kHz med 16 bitar/sampling.
Datatranskription
Följ detaljerade transkriptionsriktlinjer kring tecken och specialsymboler, stavning och grammatik, versaler, förkortningar, sammandragningar, individuella talade bokstäver, siffror, interpunktion, akronymer och initialer, oflytande tal, obegripligt tal, icke-målspråk, icke-tal
Kvalitetskontroll och feedback
Alla inspelningar ska genomgå kvalitetsbedömning och validering, endast validerade talinspelningar som ska levereras
Lösning
Med vår djupa förståelse för konversations-AI hjälpte vi kunden att samla in, transkribera ljuddata med ett team av expertsamlare, lingvister och annotatorer för att bygga en stor korpus av ljuddata från avlägsna delar av Indien.
Arbetet för Shaip inkluderade men var inte begränsat till att skaffa stora volymer ljudträningsdata, transkribera data och leverera motsvarande JSON-filer som innehåller metadata [för både talare och transkriberare. För varje talare innehåller metadata ett anonymiserat högtalar-ID, enhetsdetaljer, demografisk information som kön, ålder och utbildning, tillsammans med deras pinkod, socioekonomiska status, talade språk och en registrering av deras livslängd. För varje transkriberare innehåller uppgifterna ett anonymiserat transcriber-ID, demografiska detaljer som liknar högtalarnas, deras transkriptionsupplevelse och en grundlig uppdelning av språk de kan läsa, skriva och tala.
Shaip hämtade 8000 timmar av ljuddata / Spontant tal i skala och transkriberat 800 timmar samtidigt som önskade kvalitetsnivåer som krävs för att träna talteknik för komplexa projekt bibehålls. Formulär för uttryckligt samtycke togs från var och en av deltagarna. Det/spontana talet som samlades in baserades på bilder från universitetet. Av 3500 bilder, 1000 är generiska och 2500 relaterar till distriktsspecifik kultur, festivaler etc. Bilder visar olika domäner som tågstationer, marknader, väder och mer.
Datainsamling
Ange | distrikt | Audio Hrs | Transkription (Timmar) |
Bihar | Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui | 2000 | 200 |
Uttarpradesh | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur, Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma | 1000 | 100 |
West Bengal | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur | 800 | 80 |
Jharkhand | Sahebganj, Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar, Nalgonda | 200 | 20 |
Goa | Norra+Södra Goa | 100 | 10 |
karnatakaen | Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
Maharashtra | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur | 700 | 70 |
Totalt | 8000 | 800 |
Generella riktlinjer
bildad
- Ljud vid 16 kHz, 16 bitar/sampling.
- Enkel kanal.
- Råljud utan omkodning.
Stil
- Spontant tal.
- Meningar baserade på bilder från universitetet. Av 3500 1000 bilder är 2500 XNUMX generiska och XNUMX XNUMX relaterar till distriktsspecifik kultur, festivaler, etc. Bilder visar olika domäner som tågstationer, marknader, väder och mer.
Inspelningsbakgrund
- Inspelad i en tyst, ekofri miljö.
- Inga smartphonestörningar (vibrationer eller aviseringar) under inspelning.
- Inga förvrängningar som klippning eller avlägsna fälteffekter.
- Vibrationer från telefonen oacceptabla; externa vibrationer tolereras om ljudet är klart.
Högtalarspecifikation
- Åldersintervall från 20-70 år med balanserad könsfördelning per distrikt.
- Minst 400 modersmålstalare i varje distrikt.
- Talare ska använda sitt hemspråk/dialekt.
- Samtyckesformulär är obligatoriskt för alla deltagare.
Kvalitetskontroll & Kritisk kvalitetssäkring
QA-processen prioriterar kvalitetssäkring för ljudinspelningar och transkriptioner. Ljudstandarder fokuserar på exakta tystnader, segmentets längd, klarhet med en högtalare och detaljerad metadata inklusive ålder och socioekonomisk status. Transkriptionskriterier betonar taggnoggrannhet, ordverifiering och korrekta segmentdetaljer. Godkännanderiktmärket dikterar att om mer än 20 % av en ljudbatch inte uppfyller dessa standarder, avvisas den. För mindre än 20 % avvikelser krävs ersättningsinspelningar med liknande profiler.
Datatranskription
Transkriptionsriktlinjer betonar noggrannhet och ordagrant transkription endast när orden är tydliga och begripliga; otydliga ord markeras som [oförståeliga] eller [ohörbara] baserat på problemet. Meningsgränser i långt ljud är markerade med , och ingen parafrasering eller korrigering av grammatiska fel är tillåten. Ordagrant transkription täcker fel, slang och upprepningar men utelämnar falska starter, utfyllnadsljud och stamningar. Bakgrunds- och förgrundsljud transkriberas med beskrivande taggar, medan egennamn, titlar och nummer följer specifika transkriptionsregler. Högtalaretiketter används för varje mening, och ofullständiga meningar indikeras med.
Projektets arbetsflöde
Arbetsflödet beskriver ljudtranskriptionsprocessen. Det börjar med onboarding och utbildning av deltagare. De spelar in ljud med hjälp av en app, som laddas upp till en QA-plattform. Detta ljud genomgår kvalitetskontroller och automatisk segmentering. Det tekniska teamet förbereder sedan segment för transkription. Efter manuell transkription finns det ett kvalitetssäkringssteg. Transkriptioner levereras till kunden och om de accepteras anses leveransen vara komplett. Om inte, görs ändringar baserat på kundfeedback.
Resultat
Ljuddata av hög kvalitet från expertlingvister kommer att göra det möjligt för vår klient att noggrant träna och bygga flerspråkiga taligenkänningsmodeller på olika indiska språk med olika dialekter inom den angivna tiden. Taligenkänningsmodellerna kan användas för att:
- Övervinna språkbarriären för digital integration genom att koppla medborgarna till initiativen på deras eget modersmål.
- Främjar digital styrning
- Katalysator för att bilda ett ekosystem för tjänster och produkter på indiska språk
- Mer lokaliserat digitalt innehåll inom områden av allmänt intresse, särskilt styrning och policy
Vi är imponerade över Shaips expertis inom AI-konversationsområdet. Uppgiften att hantera 8000 timmar ljuddata tillsammans med 800 timmars transkription över 80 olika distrikt var minst sagt monumental. Det var Shaips djupa förståelse av de intrikata detaljerna och nyanserna i denna domän som gjorde ett framgångsrikt genomförande av ett så utmanande projekt möjligt. Deras förmåga att sömlöst hantera och navigera genom komplexiteten i denna enorma mängd data samtidigt som de säkerställer förstklassig kvalitet är verkligen lovvärt.