Tal Känslo- och sentimentanalys
Möjliggör smartare callcenter med AI-drivna insikter
Utnyttja Shaips expertis inom ljuddatainsamling och anteckningar för att förbättra realtidsdetektering av känslor och känslor för förbättrad kundservice.
Automatiserat tal Emotion &
Sentimentanalys
Kunden samarbetade med Shaip för att utveckla en automatiserad modell för analys av talkänsla och sentiment för callcenter. Projektet innebar att samla in och kommentera 250 timmars callcenterljuddata på fyra engelska dialekter – USA, Storbritannien, australiensiska och indiska. Detta gjorde det möjligt för klienten att förbättra sina AI-modeller för att upptäcka känslor som Glad, Neutral och Arg, och känslor som Missnöjd och Nöjd i kundinteraktioner i realtid.
Projektet övervann utmaningar som sarkasmdetektering, varierande ljudlängder och subtila verbala signaler om missnöje, vilket gav exakta och skalbara resultat.

Nyckelstatistik
Callcenter-ljuddata samlas in och kommenteras på fyra engelska dialekter
250 Hrs
Antal språk
amerikansk engelska, brittisk engelska, australiensisk engelska och indisk engelska
Use Cases
Automatiserad tal Känslo- och sentimentanalys
Projektets omfattning
Samla och kommentera 250 timmars callcenterljuddata på fyra dialekter på engelska:
- amerikansk engelska (30 %)
- brittisk engelska (30 %)
- australisk engelska (20 %)
- indisk engelska (20 %)
I omfattning
Projektet består av tre delar:
- Ljuddata med specifika enheter, inklusive metadata.
- Motsvarande transkriberade filer med segmenterings- och tidsstämplingsdetaljer.
- Kommentarer om känslor och känslor:
- Ljudkänsla: Glad, neutral, arg
- Transkriptionskänsla: Extremt missnöjd, missnöjd, neutral, nöjd, extremt nöjd
Utmaningar
Att se till att ljuddatan korrekt representerar de angivna dialekterna (USA, Storbritannien, australiensiska och indiska) kan vara utmanande. Olika regioner inom dessa kategorier kan använda olika ordförråd, accenter och uttal.
Att kommentera ljud och transkriptioner för känslor och känslor kräver utbildade kommentatorer som är bekanta med de kulturella nyanserna och språkliga subtiliteterna i varje dialekt.
Ljudkänsla och transkriptionskänsla stämmer inte alltid överens. Till exempel kan en person låta arg men faktiskt uttrycka tillfredsställelse. Till exempel, hantering av sarkasmkonversationer i sarkastiska fraser som "Åh, underbart, en annan person som inte kan lösa mitt problem" måste vara korrekt kommenterade för känslor och känslor.
Kvaliteten på ljudinspelningarna kan variera, vilket påverkar transkriptionsnoggrannheten och känsloretektering. Bakgrundsljud, överlappande konversationer och varierande inspelningsutrustning kan utgöra betydande utmaningar.
Missnöje genom verbala signaler som tunga utandningar eller andra tecken på frustration.
Lösning
Med hjälp av avancerade NLP-tekniker (natural language processing) implementerades följande lösningar:
Datainsamling
- 250 timmars ljuddata uppdelat i dialektspecifika kvoter.
- amerikansk engelska (30 % eller 75 timmar)
- brittisk engelska (30 % eller 75 timmar)
- australisk engelska (20 % eller 50 timmar)
- Indisk engelska (20 % eller 50 timmar)
- Infödda accentanvändare från USA, Storbritannien, Australien och Indien.
- Talprover som innehåller olika toner, med särskilt fokus på fall där röstkänslan är arg och textkänslan är missnöjd eller extremt missnöjd.
Textklassificering/kommentar
- Kommentar av känslor och känslor baserat på specifika kategorier:
- Ljudkänsla: Glad, neutral, arg.
- Transkriptionskänsla: Extremt missnöjd, missnöjd, neutral, nöjd, extremt nöjd.
- Varje ljudsegment innehöll bara en primär känsla.
- Varierande fördröjningssegment (från 2 till 30 sekunder) tillämpas i konversationer.
- Transkriptionsformatet följde JSON-utdata, inklusive information om vänster och höger högtalare, sentimenttaggar och slutsegmentsentiment.
Kvalitetssäkring
Transkriptionsnoggrannhet:
- Säkerställde att 250 timmars ljud levererades med ett minimum av:
- 90 % noggrannhet för transcription Error Rate (TER).
- 95 % noggrannhet för ordigenkänning (WER).
QA-process:
- Regelbundna granskningar av slumpmässigt utvalda urval från datasetet genomfördes.
- Använde automatiserade verktyg för att mäta TER och WER över datasetet.
- Manuell granskning av flaggade avsnitt säkerställde att noggrannhetströskelvärden uppfylldes.
Den Utfall
Träningsdatan kommer att stödja utvecklingen av en automatiserad modell för detektering av känslor och känslor, som levererar:
- Känslodetektering i realtid i callcenterinteraktioner.
- Effektivare hantering av komplexa ärenden, såsom sarkasm eller missnöje.
- Skalbarhet för framtida projekt, enkel anpassning till ökade datamängder och fler språk.
Deliverables
- 250 timmar ljudfiler (i 8 kHz PCM WAV-format, mono)
- Transkriptionsfiler (med segmentering, sentimenttaggar och talaridentifierare)
- Metadata (ljudlängd, talarinformation, etc.)
Att samarbeta med Shaip för vårt callcenterdataprojekt har varit ett avgörande ögonblick för att utveckla våra AI-lösningar. Deras team har sakkunnigt samlat in och kommenterat 250 timmars ljuddata över fyra viktiga engelska dialekter – USA, Storbritannien, australiensiska och indiska – vilket säkerställer högsta kvalitet och precision. Uppmärksamheten på språkliga nyanser i dessa regioner förbättrade avsevärt noggrannheten hos våra taligenkänningsmodeller. Dessutom har Shaips expertis i att hantera komplexa dataanteckningsprojekt varit avgörande för att hjälpa oss att bygga tillförlitliga, kompatibla modeller i stor skala.