Konversations-AI: Automatisk taligenkänning

Över 8k ljudtimmar insamlat, 800 timmar transkriberat för flerspråkig röstteknik

Samtal ai

Beskrivning

Indien behövde en plattform som koncentrerade sig på att skapa flerspråkiga datamängder och AI-baserade språkteknologilösningar för att kunna tillhandahålla digitala tjänster på indiska språk. För att lansera detta initiativ samarbetade kunden med Shaip för att samla in och transkribera indiska språk för att bygga flerspråkiga talmodeller.

Volym

Timmar av data som samlats in
10
Antal sidor kommenterade
10 +
Projektets längd
< 1 månader

Utmaningar

För att hjälpa kunden med deras talteknik för indiska språk behövde teamet skaffa, segmentera och transkribera stora volymer träningsdata för att bygga en AI-modell. Kundens kritiska krav var:

Datainsamling

  • Skaffa 8000 timmars träningsdata från avlägsna platser i Indien
  • Leverantören för att samla Spontant tal från Åldersgrupper på 20-70 år
  • Säkerställ en mångsidig blandning av talare efter ålder, kön, utbildning och dialekter
  • Varje ljudinspelning ska vara minst 16kHz med 16 bitar/sampling.
Datainsamling

Datatranskription

Följ detaljerade transkriptionsriktlinjer kring tecken och specialsymboler, stavning och grammatik, versaler, förkortningar, sammandragningar, individuella talade bokstäver, siffror, interpunktion, akronymer och initialer, oflytande tal, obegripligt tal, icke-målspråk, icke-tal

Datatranskription

Kvalitetskontroll och feedback

Alla inspelningar ska genomgå kvalitetsbedömning och validering, endast validerade talinspelningar som ska levereras

Lösning

Med vår djupa förståelse för konversations-AI hjälpte vi kunden att samla in, transkribera ljuddata med ett team av expertsamlare, lingvister och annotatorer för att bygga en stor korpus av ljuddata från avlägsna delar av Indien.

Arbetet för Shaip inkluderade men var inte begränsat till att skaffa stora volymer ljudträningsdata, transkribera data och leverera motsvarande JSON-filer som innehåller metadata [för både talare och transkriberare. För varje talare innehåller metadata ett anonymiserat högtalar-ID, enhetsdetaljer, demografisk information som kön, ålder och utbildning, tillsammans med deras pinkod, socioekonomiska status, talade språk och en registrering av deras livslängd. För varje transkriberare innehåller uppgifterna ett anonymiserat transcriber-ID, demografiska detaljer som liknar högtalarnas, deras transkriptionsupplevelse och en grundlig uppdelning av språk de kan läsa, skriva och tala.

Shaip hämtade 8000 timmar av ljuddata / Spontant tal i skala och transkriberat 800 timmar samtidigt som önskade kvalitetsnivåer som krävs för att träna talteknik för komplexa projekt bibehålls. Formulär för uttryckligt samtycke togs från var och en av deltagarna. Det/spontana talet som samlades in baserades på bilder från universitetet. Av 3500 bilder, 1000 är generiska och 2500 relaterar till distriktsspecifik kultur, festivaler etc. Bilder visar olika domäner som tågstationer, marknader, väder och mer.

Datainsamling

AngedistriktAudio HrsTranskription
(Timmar)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNorra+Södra Goa10010
karnatakaenDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Totalt8000800

Generella riktlinjer

bildad

    • Ljud vid 16 kHz, 16 bitar/sampling.
    • Enkel kanal.
    • Råljud utan omkodning.

Stil

    • Spontant tal.
    • Meningar baserade på bilder från universitetet. Av 3500 1000 bilder är 2500 XNUMX generiska och XNUMX XNUMX relaterar till distriktsspecifik kultur, festivaler, etc. Bilder visar olika domäner som tågstationer, marknader, väder och mer.

Inspelningsbakgrund

    • Inspelad i en tyst, ekofri miljö.
    • Inga smartphonestörningar (vibrationer eller aviseringar) under inspelning.
    • Inga förvrängningar som klippning eller avlägsna fälteffekter.
    • Vibrationer från telefonen oacceptabla; externa vibrationer tolereras om ljudet är klart.

Högtalarspecifikation

    • Åldersintervall från 20-70 år med balanserad könsfördelning per distrikt.
    • Minst 400 modersmålstalare i varje distrikt.
    • Talare ska använda sitt hemspråk/dialekt.
    • Samtyckesformulär är obligatoriskt för alla deltagare.


Kvalitetskontroll & Kritisk kvalitetssäkring

QA-processen prioriterar kvalitetssäkring för ljudinspelningar och transkriptioner. Ljudstandarder fokuserar på exakta tystnader, segmentets längd, klarhet med en högtalare och detaljerad metadata inklusive ålder och socioekonomisk status. Transkriptionskriterier betonar taggnoggrannhet, ordverifiering och korrekta segmentdetaljer. Godkännanderiktmärket dikterar att om mer än 20 % av en ljudbatch inte uppfyller dessa standarder, avvisas den. För mindre än 20 % avvikelser krävs ersättningsinspelningar med liknande profiler.

Datatranskription

Transkriptionsriktlinjer betonar noggrannhet och ordagrant transkription endast när orden är tydliga och begripliga; otydliga ord markeras som [oförståeliga] eller [ohörbara] baserat på problemet. Meningsgränser i långt ljud är markerade med , och ingen parafrasering eller korrigering av grammatiska fel är tillåten. Ordagrant transkription täcker fel, slang och upprepningar men utelämnar falska starter, utfyllnadsljud och stamningar. Bakgrunds- och förgrundsljud transkriberas med beskrivande taggar, medan egennamn, titlar och nummer följer specifika transkriptionsregler. Högtalaretiketter används för varje mening, och ofullständiga meningar indikeras med.

Projektets arbetsflöde

Arbetsflödet beskriver ljudtranskriptionsprocessen. Det börjar med onboarding och utbildning av deltagare. De spelar in ljud med hjälp av en app, som laddas upp till en QA-plattform. Detta ljud genomgår kvalitetskontroller och automatisk segmentering. Det tekniska teamet förbereder sedan segment för transkription. Efter manuell transkription finns det ett kvalitetssäkringssteg. Transkriptioner levereras till kunden och om de accepteras anses leveransen vara komplett. Om inte, görs ändringar baserat på kundfeedback.

Resultat

Ljuddata av hög kvalitet från expertlingvister kommer att göra det möjligt för vår klient att noggrant träna och bygga flerspråkiga taligenkänningsmodeller på olika indiska språk med olika dialekter inom den angivna tiden. Taligenkänningsmodellerna kan användas för att:

  • Övervinna språkbarriären för digital integration genom att koppla medborgarna till initiativen på deras eget modersmål.
  • Främjar digital styrning
  • Katalysator för att bilda ett ekosystem för tjänster och produkter på indiska språk
  • Mer lokaliserat digitalt innehåll inom områden av allmänt intresse, särskilt styrning och policy

Vi är imponerade över Shaips expertis inom AI-konversationsområdet. Uppgiften att hantera 8000 timmar ljuddata tillsammans med 800 timmars transkription över 80 olika distrikt var minst sagt monumental. Det var Shaips djupa förståelse av de intrikata detaljerna och nyanserna i denna domän som gjorde ett framgångsrikt genomförande av ett så utmanande projekt möjligt. Deras förmåga att sömlöst hantera och navigera genom komplexiteten i denna enorma mängd data samtidigt som de säkerställer förstklassig kvalitet är verkligen lovvärt.

Gyllene-5-stjärniga

Påskynda din Conversational AI
applikationsutveckling med 100%