Fallstudie: Yttrandesamling
Levererade 7 miljoner+ yttranden för att bygga flerspråkiga digitala assistenter på 13 språk
Verklig världslösning
Data som driver globala konversationer
Behovet av Utterance-träning uppstår eftersom inte alla kunder använder de exakta orden eller fraserna när de interagerar eller ställer frågor till sina röstassistenter i ett manusformat. Det är därför specifika röstapplikationer måste tränas på spontan taldata. T.ex. "Var ligger det närmaste sjukhuset?" "Hitta ett sjukhus nära mig" eller "Finns det ett sjukhus i närheten?" alla anger samma sökavsikt men är olika formulerade.

Problem
För att utföra klienternas Digital Assistants talfärdplan för världsomspännande språk behövde teamet skaffa stora volymer träningsdata för taligenkännings-AI-modellen. Kundens kritiska krav var:
- Skaffa stora volymer träningsdata (uppmaningar om enstaka talare som inte är längre än 3-30 sekunder) för taligenkänningstjänster på 13 globala språk
- För varje språk kommer leverantören att generera textuppmaningar för talare att spela in (såvida inte
klienttillbehör) och transkribera det resulterande ljudet. - Tillhandahåll ljuddata och transkription av inspelade yttranden med motsvarande JSON-filer
innehåller metadata för alla inspelningar. - Säkerställ en mångsidig blandning av talare efter ålder, kön, utbildning och dialekt
- Säkerställ en varierad blandning av inspelningsmiljöer enligt specifikationerna.
- Varje ljudinspelning ska vara minst 16kHz men helst 44kHz
"Efter att ha utvärderat många leverantörer valde kunden Shaip på grund av deras expertis inom konversations-AI-projekt. Vi var imponerade av Shaips kompetens för projektgenomförande, deras expertis att hämta, transkribera och leverera de erforderliga yttrandena från expertlingvister på 13 språk inom stränga tidslinjer och med den kvalitet som krävs.”
Lösning
Med vår djupa förståelse för konversations-AI hjälpte vi kunden att samla in, transkribera och kommentera data med ett team av expertlingvister och annotatorer för att träna sin AI-drivna talbearbetningssvit för flerspråkig röst.
Arbetet för Shaip inkluderade men var inte begränsat till att skaffa stora volymer ljudträningsdata för taligenkänning, transkribera ljudinspelningar på flera språk för alla språk på vår nivå 1- och nivå 2-språkkarta och leverera motsvarande JSON filer som innehåller metadata. Shaip samlade in yttranden på 3-30 sekunder i skala samtidigt som de bibehöll önskade kvalitetsnivåer som krävs för att träna ML-modeller för komplexa projekt.
- Ljud insamlat, transkriberat och kommenterat: 22,250 timmar
- Språk som stöds: 13 (danska, koreanska, saudiarabiska arabiska, holländska, kinesiska fastlandet och taiwanesiska, franska kanadensiska, mexikanska spanska, turkiska, hindi, polska, japanska, ryska)
- Antal yttranden: 7M +
- tidslinje: 7-8 månader
Samtidigt som vi samlade in ljudyttringar vid 16 kHz, säkerställde vi en sund blandning av högtalare efter ålder, kön, utbildning och dialekter i olika inspelningsmiljöer.
Resultat
Den högkvalitativa ljuddatan från expertlingvister gav klienten möjlighet att noggrant träna sin flerspråkiga taligenkänningsmodell i 13 globala nivå 1- och 2-språk. Med utbildningsdatauppsättningar av guldstandard kan kunden erbjuda intelligent och robust digital assistans för att lösa framtida verkliga problem.
Vår expertis
Rekommenderade resurser
Köparhandboken
Köpguide: Conversational AI
Chatboten du pratade med körs på ett avancerat konversations-AI-system som är tränat, testat och byggt med hjälp av massor av taligenkänningsdatauppsättningar.
Blogg
Läget för konversations AI 2021
Conversational AI 2021 infographics talar om vad som är Conversational AI, dess utveckling, typer, Conversational AI Market efter region, användningsfall, utmaningar etc.
Blogg
3 Hinder för utvecklingen av konversations AI
Shaip startar utvecklingen av konversations-AI som ett verktyg för kundengagemang genom att erbjuda nödvändig kommenterad ljuddata på över 50 språk.
Berätta hur vi kan hjälpa till med ditt nästa AI-initiativ.