Nyckelfras/uppmaningar Ljudsamling

Fallstudie: Key Phrase Collection för röststyrda system i bilen

Nyckelfrassamling

Det finns en ökande efterfrågan på röststyrda system i bilar inom bilindustrin, vilket omdefinierar hur vi använder våra mobila fordon.

Bilindustrin har snabbt antagit röstaktiverade system, med stora aktörer som Ford, Tesla och BMW som integrerar avancerad röstigenkänning i sina fordon. År 2022 uppskattades det att över 50 % av nya bilar hade röstigenkänningsfunktioner. Dessa integrationer syftar till att öka säkerheten, vilket gör att förare kan använda navigations-, underhållnings- och kommunikationsfunktioner utan distraktioner.

Marknadsvärdet för röstigenkänning i bilar beräknades överstiga 1 miljard dollar år 2023, vilket tyder på en växande efterfrågan på handsfree, intelligent interaktion i bilen.

Bil

Forskning tyder på att år 2022 kommer 73 % av förarna att använda en röstassistent i bilen.

Marknaden för röstigenkänningssystem för fordon värderades till 2.01 miljarder USD 2021 och förväntas nå 3.51 miljarder USD 2027, vilket registrerar en CAGR på cirka 8.07 %.

Verklig världslösning

Data som driver röstaktiverade system

Röststyrda system i bilar ökar säkerheten och bekvämligheten. De tillåter förare att komma åt navigering, ringa samtal, skicka texter och styra musik utan att ta händerna från ratten eller blicken från vägen. Genom att svara på verbala kommandon minskar dessa system distraktion, främjar multitasking och säkerställer kontinuerligt fokus på körning. 

Kunden är en global ledare inom konversationsintelligens som erbjuder röst-AI-lösningar som låter företag erbjuda otroliga samtalsupplevelser till sina kunder. De arbetade med ledande fordonsföretag för att träna sina röstaktiverade system med nyckelfraser från varumärket och behövde Shaips expertis inom ljuddatainsamling.

Verkliga lösningen
Utmaningar

Utmaningar

  • Crowd Sourcing: Rekrytera 2800+ modersmål per språk globalt.
  • Datainsamling: Säkra 200 12+ uppmaningar på XNUMX språk inom fastställd tidsram.
  • Kontext & avsiktsigenkänning: För att förstå användarförfrågningar korrekt behövde systemen tränas i olika varianter för samma nyckelfras.
  • Hantering av bakgrundsljud: Adressera verkliga bakgrundsljud för ML-modellens noggrannhet.
  • Minska partiskhet: Skaffa röstprover från olika demografier för att säkerställa inkludering.
  • Ljudspecifikationer: 16khz 16bitars PCM, mono, enkelkanal, WAV; ingen bearbetning.
  • Inspelningsmiljö: Inspelningar ska ha rent ljud utan bakgrundsljud eller störningar. Nyckelfraser som ska spelas in med normalt tal.
  • Kvalitetskontroll:  Alla talinspelningar kommer att genomgå kvalitetsbedömning och validering, endast validerade talinspelningar kommer att levereras. Om Shaip inte uppfyller de överenskomna kvalitetsstandarderna kommer Shaip att återleverera data utan extra kostnad

Lösning

Shaip med sin expertis inom Conversational AI-området gjorde det möjligt för kunden att:

  • Datainsamling: 208 12 nyckelfraser/varumärkesuppmaningar samlade in på 2800 globala språk från XNUMX talare inom den angivna tidsramen
  • Olika accenter och dialekter: Rekryterade specialister från hela världen, skickliga i de önskade accenterna och dialekterna.
  • Kontext & avsiktsigenkänning: Varje talare fick i uppdrag att spela in nyckelfraserna i 20 distinkta varianter, vilket gjorde det möjligt för ML-modellerna att korrekt förstå användarförfrågningar i termer av sammanhang och avsikt.
  • Hantering av bakgrundsljud: För att säkerställa orörd ljudkvalitet såg vi till att nyckelfraserna fångades i en lugn miljö med brusnivåer under 40dB, utan bakgrundsstörningar som TV, radio, musik, tal eller gatuljud.
  • Minska partiskhet: För att minimera partiskhet engagerade vi individer från olika regioner och upprätthöll en balanserad demografisk representation med 50 % män och 50 % kvinnor, som spänner över åldersgrupper från 18 till 60 år.
  • Riktlinjer för inspelning: Nyckelfraserna fångades i ett konsekvent, normalt talmönster, utan några variationer som snabb eller långsam takt. 2 sekunders tystnad i både början och slutet för att garantera att ingen del av talet oavsiktligt klipptes.
  • Inspelningsformat: Ljudet spelades in vid 16kHz, 16-bitars PCM i mono, med en enda kanal, och sparades i WAV-filformatet. Ljudet förblir obearbetat, vilket betyder att det inte fanns någon tillämpning av komprimering, reverb eller EQ.
  • Kvalitet: Varje talinspelning utsattes för rigorösa kvalitetskontroller och validering. Endast inspelningar som klarade denna bedömning levererades. Alla filer som inte uppfyllde de överenskomna kvalitetsstandarderna spelades in på nytt och tillhandahölls utan några extra kostnader
Lösning
Resultat

Resultat

Den högkvalitativa varumärkesnyckelfrasen ljuddata eller röstmeddelanden kommer att göra det möjligt för fordonsföretagen och deras kunder med:

  1. Varumärke och identitet: Röstmeddelanden med specifika varumärkesfraser hjälper företag att skapa en direkt och minnesvärd koppling mellan användaren och varumärket som förbättrar varumärkesåterkallelsen.
  2. Användarvänlighet: Röstkommandon gör det lättare för förare att interagera med fordon utan att ta händerna från ratten eller blicken från vägen, vilket ökar trafiksäkerheten.
  3. Funktionalitet: Röstkommandon gör det mer intuitivt att komma åt och kontrollera bilens funktioner. Oavsett om det är navigering, mediauppspelning eller klimatkontroll.
  4. Integration med andra system: Många röstaktiverade system är integrerade med smartphones, smarta hemenheter och andra IoT-enheter. En användare kanske till exempel kan be sin bil att tända belysningen hemma när de närmar sig hem.
  5. konkurrens~~POS=TRUNC fördelar~~POS=HEADCOMP: Att erbjuda avancerade röstaktiverade system kan vara ett försäljningsargument och en skillnad. Köpare letar efter den senaste tekniken när de överväger att köpa en ny bil.
  6. Framtidssäkrad: När tekniken utvecklas och IoT blir mer integrerad i vardagen, kommer ett robust röstaktiverat system att positionera fordonsföretagen att bli mer anpassningsbara till framtida teknik.
  7. Intäktsmöjligheter: Ytterligare intäktsmöjligheter, dvs röstsystem erbjuder rekommendationer eller integrerade e-handelsupplevelser (som att beställa mat eller hitta närliggande tjänster) som kan ge affiliateintäkter.
Gyllene-5-stjärniga

När vi började köpa röstmeddelanden för fordonssektorn var utmaningarna många. Att fånga mångfalden i tal, accenter och toner var avgörande för att representera vår kunds globala kundkrets. Shaip stod inte bara ut som en leverantör utan som en sann partner. Deras engagemang för att säkra ett varierat utbud av röster från olika regioner var lovvärt. De gick längre än att bara samla röster; de förstod nyanserna i våra projektbehov, vilket garanterar förstklassiga inspelningar. Deras felfria efterlevnad av ljudinsamlingsstandarder visade upp deras professionalism och engagemang för projektet.

Påskynda din Conversational AI
applikationsutveckling med 100%