Fallstudie: Conversational AI

Över 3 8 timmars data insamlad, segmenterad och transkriberad för att bygga ASR på XNUMX indiska språk

Yttrandesamling
Regeringen strävar efter att ge sina medborgare enkel tillgång till internet och digitala tjänster på deras eget modersmål genom Bhashini-projektet.

BHASHINI, Indiens AI-drivna språköversättningsplattform, är en viktig del av initiativet Digital India.

Bhashini-plattformen är utformad för att tillhandahålla verktyg för artificiell intelligens (AI) och Natural Language Processing (NLP) till små och medelstora företag, nystartade företag och oberoende innovatörer som en offentlig resurs. Dess mål är att främja digital integration genom att göra det möjligt för indiska medborgare att interagera med landets digitala initiativ på sina modersmål.

Dessutom syftar det till att avsevärt utöka tillgängligheten av internetinnehåll på indiska språk. Detta är särskilt inriktat på områden av allmänt intresse såsom styrning och politik, vetenskap och teknik, etc. Följaktligen kommer detta att uppmuntra medborgarna att använda internet på sitt eget språk och främja deras aktiva deltagande.

Utnyttja NLP för att möjliggöra ett mångsidigt ekosystem av bidragsgivare, partnerskap och medborgare i syfte att överskrida språkbarriärer, och därigenom säkerställa digital inkludering och bemyndigande

Verklig världslösning

Släpp lös kraften i lokalisering med data

Indien behövde en plattform som skulle koncentrera sig på att skapa flerspråkiga datamängder och AI-baserade språkteknologilösningar för att kunna tillhandahålla digitala tjänster på indiska språk. För att lansera detta initiativ samarbetade Indian Institute of Technology, Madras (IIT Madras) med Shaip för att samla in, segmentera och transkribera indiska språkdatauppsättningar för att bygga flerspråkiga talmodeller.

Utmaningar

För att hjälpa kunden med deras talteknik för indiska språk behövde teamet skaffa, segmentera och transkribera stora volymer träningsdata för att bygga en AI-modell. Kundens kritiska krav var:

Datainsamling

  • Skaffa 3000 timmars träningsdata på 8 indiska språk med 4 dialekter per språk.
  • För varje språk kommer leverantören att samla in Extempore Speech och
    Samtalstal från åldersgrupper 18-60 år
  • Säkerställ en mångsidig blandning av talare efter ålder, kön, utbildning och dialekter
  • Säkerställ en varierad blandning av inspelningsmiljöer enligt specifikationerna.
  • Varje ljudinspelning ska vara minst 16kHz men helst 44kHz

Datasegmentering

  • Skapa talsegment på 15 sekunder och tidsstämpla ljudet till millisekunder för varje given högtalare, typ av ljud (tal, babbel, musik, brus), vändningar, yttranden och fraser i en konversation
  • Skapa varje segment för dess riktade ljudsignal med en 200-400 millisekunders utfyllnad vid start och slut.
  • För alla segment måste följande objekt fyllas i, dvs Starttid, Sluttid, Segment ID, Loudness Level, Ljudtyp, Språkkod, Speaker ID, etc.

Datatranskription

  • Följ detaljerade riktlinjer för transkription kring tecken och specialsymboler, stavning och grammatik, versaler, förkortningar, sammandragningar, individuella talade bokstäver, siffror, interpunktion, akronymer, oflytande, tal, obegripligt tal, icke-målspråk, icke-tal etc.

Kvalitetskontroll och feedback

  • Alla inspelningar ska genomgå kvalitetsbedömning och validering, endast validerat tal som ska levereras

Lösning

Med vår djupa förståelse av konversations-AI hjälpte vi kunden att samla in, segmentera och transkribera data med ett team av expertsamlare, lingvister och annotatorer för att bygga en stor korpus av ljuddataset på 8 indiska språk

Arbetet för Shaip inkluderade men var inte begränsat till att skaffa stora volymer ljudträningsdata, segmentera ljudinspelningarna i flera, transkribera data och leverera motsvarande JSON-filer som innehåller metadata [SpeakerID, Age, Gender, Language, Dialect,
Modersmål, kvalifikationer, yrke, domän, filformat, frekvens, kanal, typ av ljud, antal högtalare, antal främmande språk, använda inställningar, smalbands- eller bredbandsljud, etc.]. 

Shaip samlade in 3000 XNUMX timmar ljuddata i stor skala samtidigt som de bibehöll önskade kvalitetsnivåer som krävs för att träna talteknik för komplexa projekt. Formulär för uttryckligt samtycke togs från var och en av deltagarna.

1. Datainsamling

2. Datasegmentering

  • Ljuddata som samlades in delades ytterligare i talsegment på 15 sekunder vardera och tidsstämplade till millisekunder för varje given högtalare, typ av ljud, vändningar, yttranden och fraser i en konversation
  • Skapat varje segment för sin riktade ljudsignal med en 200-400 millisekunders utfyllnad i början och slutet av en ljudsignal.
  • För alla segment var följande objekt närvarande och fyllda, dvs. Starttid, Sluttid, Segment ID, Loudness Level (Högt, Normal, Tyst), Primär ljudtyp (Tal, Babbel, Musik, Brus, Överlappning), Språkkod Högtalar-ID, Transkription etc.

3. Kvalitetskontroll och feedback

  • Alla inspelningar bedömdes för kvalitet och endast validerade talinspelningar med WER på 90 % och TER på 90 % levererades
  • Kvalitetschecklista som följs:
       » Max 15 sekunders segmentlängd
       » Transkription från specifika domäner, nämligen: Väder, olika typer av nyheter, hälsa, jordbruk, utbildning, jobb eller finans
       » Lågt bakgrundsljud
       » Inget ljudklipp av – Ingen förvrängning
       » Korrekt ljudsegmentering för transkription

4. Datatranskription
Alla talade ord, inklusive tvekan, utfyllnadsord, falska startar och andra verbala tics, fångades exakt i transkriptionen. Vi följde också detaljerade transkriptionsriktlinjer kring versaler och gemener, stavning, versaler, förkortningar, sammandragningar, siffror,
interpunktion, akronymer, obehindrat tal, icke-tal ljud etc. Dessutom är arbetsflödet som följs för insamling och transkription enligt nedan: