Konversations-AI: Automatisk taligenkänning

Över 8k ljudtimmar insamlat, 800 timmar transkriberat för flerspråkig röstteknik

Beskrivning

Indien behövde en plattform som koncentrerade sig på att skapa flerspråkiga datamängder och AI-baserade språkteknologilösningar för att kunna tillhandahålla digitala tjänster på indiska språk. För att lansera detta initiativ samarbetade kunden med Shaip för att samla in och transkribera indiska språk för att bygga flerspråkiga talmodeller.

Volym

Timmar av data som samlats in

Antal sidor kommenterade

10 +

Projektets längd

< 1 månader

Utmaningar

För att hjälpa kunden med deras talteknik för indiska språk behövde teamet skaffa, segmentera och transkribera stora volymer träningsdata för att bygga en AI-modell. Kundens kritiska krav var:

Datainsamling

Skaffa 8000 timmars träningsdata från avlägsna platser i Indien
Leverantören för att samla Spontant tal från Åldersgrupper på 20-70 år
Säkerställ en mångsidig blandning av talare efter ålder, kön, utbildning och dialekter
Varje ljudinspelning ska vara minst 16kHz med 16 bitar/sampling.

Datatranskription

Följ detaljerade transkriptionsriktlinjer kring tecken och specialsymboler, stavning och grammatik, versaler, förkortningar, sammandragningar, individuella talade bokstäver, siffror, interpunktion, akronymer och initialer, oflytande tal, obegripligt tal, icke-målspråk, icke-tal

Kvalitetskontroll och feedback

Alla inspelningar ska genomgå kvalitetsbedömning och validering, endast validerade talinspelningar som ska levereras

Lösning

Med vår djupa förståelse för konversations-AI hjälpte vi kunden att samla in, transkribera ljuddata med ett team av expertsamlare, lingvister och annotatorer för att bygga en stor korpus av ljuddata från avlägsna delar av Indien.

Arbetet för Shaip inkluderade men var inte begränsat till att skaffa stora volymer ljudträningsdata, transkribera data och leverera motsvarande JSON-filer som innehåller metadata [för både talare och transkriberare. För varje talare innehåller metadata ett anonymiserat högtalar-ID, enhetsdetaljer, demografisk information som kön, ålder och utbildning, tillsammans med deras pinkod, socioekonomiska status, talade språk och en registrering av deras livslängd. För varje transkriberare innehåller uppgifterna ett anonymiserat transcriber-ID, demografiska detaljer som liknar högtalarnas, deras transkriptionsupplevelse och en grundlig uppdelning av språk de kan läsa, skriva och tala.

Shaip hämtade 8000 timmar av ljuddata / Spontant tal i skala och transkriberat 800 timmar samtidigt som önskade kvalitetsnivåer som krävs för att träna talteknik för komplexa projekt bibehålls. Formulär för uttryckligt samtycke togs från var och en av deltagarna. Det/spontana talet som samlades in baserades på bilder från universitetet. Av 3500 bilder, 1000 är generiska och 2500 relaterar till distriktsspecifik kultur, festivaler etc. Bilder visar olika domäner som tågstationer, marknader, väder och mer.

Datainsamling

Ange	distrikt	Audio Hrs	Transkription (Timmar)
Bihar	Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
Uttarpradesh	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
West Bengal	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Norra+Södra Goa	100	10
karnatakaen	Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharashtra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
Totalt		8000	800

Generella riktlinjer

bildad

- Ljud vid 16 kHz, 16 bitar/sampling.
- Enkel kanal.
- Råljud utan omkodning.

Stil

- Spontant tal.
- Meningar baserade på bilder från universitetet. Av 3500 1000 bilder är 2500 XNUMX generiska och XNUMX XNUMX relaterar till distriktsspecifik kultur, festivaler, etc. Bilder visar olika domäner som tågstationer, marknader, väder och mer.

Inspelningsbakgrund

- Inspelad i en tyst, ekofri miljö.
- Inga smartphonestörningar (vibrationer eller aviseringar) under inspelning.
- Inga förvrängningar som klippning eller avlägsna fälteffekter.
- Vibrationer från telefonen oacceptabla; externa vibrationer tolereras om ljudet är klart.

Högtalarspecifikation

- Åldersintervall från 20-70 år med balanserad könsfördelning per distrikt.
- Minst 400 modersmålstalare i varje distrikt.
- Talare ska använda sitt hemspråk/dialekt.
- Samtyckesformulär är obligatoriskt för alla deltagare.

Kvalitetskontroll & Kritisk kvalitetssäkring

QA-processen prioriterar kvalitetssäkring för ljudinspelningar och transkriptioner. Ljudstandarder fokuserar på exakta tystnader, segmentets längd, klarhet med en högtalare och detaljerad metadata inklusive ålder och socioekonomisk status. Transkriptionskriterier betonar taggnoggrannhet, ordverifiering och korrekta segmentdetaljer. Godkännanderiktmärket dikterar att om mer än 20 % av en ljudbatch inte uppfyller dessa standarder, avvisas den. För mindre än 20 % avvikelser krävs ersättningsinspelningar med liknande profiler.

Datatranskription

Transkriptionsriktlinjer betonar noggrannhet och ordagrant transkription endast när orden är tydliga och begripliga; otydliga ord markeras som [oförståeliga] eller [ohörbara] baserat på problemet. Meningsgränser i långt ljud är markerade med , och ingen parafrasering eller korrigering av grammatiska fel är tillåten. Ordagrant transkription täcker fel, slang och upprepningar men utelämnar falska starter, utfyllnadsljud och stamningar. Bakgrunds- och förgrundsljud transkriberas med beskrivande taggar, medan egennamn, titlar och nummer följer specifika transkriptionsregler. Högtalaretiketter används för varje mening, och ofullständiga meningar indikeras med.

Projektets arbetsflöde

Arbetsflödet beskriver ljudtranskriptionsprocessen. Det börjar med onboarding och utbildning av deltagare. De spelar in ljud med hjälp av en app, som laddas upp till en QA-plattform. Detta ljud genomgår kvalitetskontroller och automatisk segmentering. Det tekniska teamet förbereder sedan segment för transkription. Efter manuell transkription finns det ett kvalitetssäkringssteg. Transkriptioner levereras till kunden och om de accepteras anses leveransen vara komplett. Om inte, görs ändringar baserat på kundfeedback.

Resultat

Ljuddata av hög kvalitet från expertlingvister kommer att göra det möjligt för vår klient att noggrant träna och bygga flerspråkiga taligenkänningsmodeller på olika indiska språk med olika dialekter inom den angivna tiden. Taligenkänningsmodellerna kan användas för att:

Övervinna språkbarriären för digital integration genom att koppla medborgarna till initiativen på deras eget modersmål.
Främjar digital styrning
Katalysator för att bilda ett ekosystem för tjänster och produkter på indiska språk
Mer lokaliserat digitalt innehåll inom områden av allmänt intresse, särskilt styrning och policy

Vi är imponerade över Shaips expertis inom AI-konversationsområdet. Uppgiften att hantera 8000 timmar ljuddata tillsammans med 800 timmars transkription över 80 olika distrikt var minst sagt monumental. Det var Shaips djupa förståelse av de intrikata detaljerna och nyanserna i denna domän som gjorde ett framgångsrikt genomförande av ett så utmanande projekt möjligt. Deras förmåga att sömlöst hantera och navigera genom komplexiteten i denna enorma mängd data samtidigt som de säkerställer förstklassig kvalitet är verkligen lovvärt.

Påskynda din Conversational AI
applikationsutveckling med 100%

Konversations-AI: Automatisk taligenkänning

Över 8k ljudtimmar insamlat, 800 timmar transkriberat för flerspråkig röstteknik

Beskrivning

Volym

Utmaningar

Datainsamling

Datatranskription

Kvalitetskontroll och feedback

Lösning

Generella riktlinjer

Kvalitetskontroll & Kritisk kvalitetssäkring

Datatranskription

Projektets arbetsflöde

Resultat

AI-datatjänster

Specialitet

Industri

Produkter

Företag

Resurser

Kontakta oss

Låt oss veta mer om dig!