Datainsamling för konversations-AI

Hur man närmar sig datainsamling för konversations-AI

Idag har vi några pratande robotar som chatbotar, virtuella assistenter med mera i våra hem, bilsystem, bärbara enheter, hemautomationslösningar etc. Dessa enheter lyssnar precis på vad vi säger och hur vi säger och hämtar resultat eller utför specifika uppgifter .

Och om du har använt en assistent som Siri eller Alexa, skulle du också inse att de blir finurligare för varje dag. Deras svar är kvicka, de pratar tillbaka, de gnäller, ger tillbaka komplimanger och beter sig mer mänskligt än några av de kollegor du kanske känner. Vi skämtar inte. Enligt PwC, 27 % av användarna som interagerade med sin senaste kundtjänstmedarbetare visste inte om de pratade med en människa eller en chatbot.

Att utveckla sådana invecklade konversationssystem och enheter är mycket komplext och skrämmande. Det är ett helt annorlunda bollspel med distinkta utvecklingsmetoder. Det är därför vi tänkte att vi skulle dela upp det åt dig för enklare förståelse. Så om du funderar på att utveckla en konversations-AI-motor eller en virtuell assistent, hjälper den här guiden dig att få klarhet.

Betydelsen av konversations-AI

När tekniken blir en mer integrerad del av våra liv i form av nyare enheter och system, uppstår ett behov av att tänja på barriärer, bryta konventioner och komma på nya sätt att interagera med dem. Från att helt enkelt använda ansluten kringutrustning som mus och tangentbord, bytte vi till musmattor som erbjöd mer bekvämlighet. Vi migrerade sedan till pekskärmar som erbjöd ytterligare bekvämlighet när det gäller att mata input och utföra uppgifter.

Med enheter som blir förlängningar av oss själva, låser vi nu upp ett nytt medium för att styra genom röst. Vi behöver inte ens vara nära en enhet för att använda den. Allt vi behöver göra är att använda vår röst för att låsa upp den och styra våra ingångar. Från ett närliggande rum, när du kör, medan du använder en annan enhet samtidigt, utför konversations-AI våra avsedda uppgifter sömlöst. Så var ska vi börja – allt börjar med högkvalitativ taldata för att träna ML-modeller.

Grunderna för att samla in talträningsdata

Att samla in och kommentera AI-träningsdata för konversations-AI är mycket annorlunda. Det finns massor av krångligheter involverade i mänskliga kommandon och olika åtgärder måste implementeras för att säkerställa att varje aspekt tillgodoses för effektfulla resultat. Låt oss titta på några av grunderna för taldata.

Naturligt språkförståelse (NLU)

För chatbots och virtuella assistenter att förstå och svara på vad vi textar eller kommandon, kallas en process NLU genomförs. Det står för Naturligt språkförståelse och involverar tre tekniska koncept för att tolka och bearbeta olika typer av input.

  • Intent

    Allt börjar med uppsåt. Vad försöker en viss användare förmedla, kommunicera eller uppnå genom ett kommando? Letar användaren efter information? Väntar de på uppdateringar för en åtgärd? Beordrar de en instruktion för systemet att köra? Hur befaller de det? Är det genom en fråga eller en förfrågan? Alla dessa aspekter hjälper maskiner att förstå och klassificera avsikter och syften för att komma med lufttäta svar.

  • Yttrandesamling

    Det är skillnad på kommandot ”Var är närmaste bankomat?” och kommandot "Hitta mig en närliggande bankomat." Nu skulle människor erkänna att båda betyder samma sak men maskiner måste förklaras med denna skillnad. De är desamma när det gäller avsikt men hur avsikten har formats är helt olika.

    Yttrandesamling handlar om att definiera och kartlägga olika yttranden och fraser mot specifika mål för det exakta utförandet av uppgifter och svar. Tekniskt sett arbetar dataanteckningsspecialister på taldata eller textdata för att hjälpa maskiner att skilja detta.

  • Enhetsutdrag

    Varje mening har specifika ord eller fraser som betonas med vikt och det är denna betoning som leder till en tolkning av sammanhang och syfte. Maskiner, precis som de stela system de är, måste skedmatas med sådana enheter. Till exempel, "Var kan jag hitta strängar från min gitarr nära 6th Avenue?"

    Om du förfinar meningen, är find entitet ett, strängar är två, gitarren är tre och 6th avenue är 4. Dessa enheter klubbas ihop av maskiner för att hämta lämpliga resultat och för att detta ska hända arbetar experter i backend.

Off-the-hylla röst-/tal-/ljuddataset för att träna din konversations-AI-modell snabbare

Designa dialoger för konversations-AI

Målet med AI har främst varit att replikera mänskligt beteende genom gester, handlingar och svar. Det medvetna mänskliga sinnet har den medfödda förmågan att förstå sammanhang, avsikt, ton, känslor och andra faktorer och svara därefter. Men hur kan maskiner skilja dessa aspekter åt? 

Designa dialoger för konversations AI är mycket komplext och ännu viktigare, ganska omöjligt att rulla ut en universell modell. Varje individ har olika sätt att tänka, prata och svara. Även i svaren uttrycker vi alla våra tankar unikt. Så maskiner måste lyssna och svara därefter. 

Detta är dock inte lika smidigt. När människor pratar kommer faktorer som accenter, uttal, etnicitet, språk med mera in och det är inte lätt för maskiner att missförstå och misstolka ord och svara tillbaka. Ett visst ord kan förstås av maskiner på en mängd olika sätt när det dikteras av en indier, en brittisk, en amerikan och en mexikan. Det finns massor av språkbarriärer som spelar in och det mest praktiska sättet att komma fram till ett svarssystem är genom visuell programmering som är flödesschemabaserad. 

Genom dedikerade block för gester, svar och triggers, författare och experter kan hjälpa maskiner att utveckla en karaktär. Detta är mer som en algoritmmaskin kan använda för att komma med rätt svar. När en input matas, flödar informationen genom motsvarande faktorer, vilket leder till rätt svar för maskiner att leverera. 

Slå D för mångfald

Som vi nämnde är mänsklig interaktion väldigt unik. Människor runt om i världen kommer från olika samhällsskikt, bakgrunder, nationaliteter, demografi, etnicitet, accenter, diktion, uttal och mer. 

För att en konversationsbot eller ett system ska kunna användas universellt måste det tränas med så olika träningsdata som möjligt. Om, till exempel, en modell har tränats endast med taldata från ett visst språk eller etnicitet, skulle en ny accent förvirra systemet och tvinga det att ge felaktiga resultat. Detta är inte bara pinsamt för företagare utan också förolämpande för användarna. 

Det är därför utvecklingsfasen bör involvera AI-träningsdata från en rik pool av olika datauppsättningar bestående av människor från alla möjliga bakgrunder. Ju fler accenter och etniciteter ditt system förstår, desto mer universellt skulle det vara. Dessutom, det som skulle irritera användarna mer är inte felaktig hämtning av information utan att inte förstå deras indata i första hand. 

Att eliminera partiskhet bör vara en nyckelprioritet och ett sätt som företag skulle kunna göra detta på är att välja crowdsourcad data. När du crowdsourcer dina taldata eller textdata låter du människor från hela världen bidra till dina krav, vilket gör din datapool bara hälsosam (Läs vår blogg för att förstå fördelarna och fallgroparna med att lägga ut data till arbetare på entreprenad). Nu kommer din modell att förstå olika accenter och uttal och svara därefter. 

Vägen framåt

Att utveckla konversations-AI är lika svårt som att uppfostra ett spädbarn. Den enda skillnaden är att spädbarnet så småningom skulle växa till att förstå saker och bli bättre på att kommunicera självständigt. Det är maskinerna som måste pressas konsekvent. Det finns flera utmaningar i det här utrymmet för närvarande och vi bör erkänna det faktum att vi har några av de mest revolutionerande konversations-AI-systemen som härrör ut trots dessa utmaningar. Låt oss vänta och se vad framtiden har att erbjuda för våra vänliga chatbots och virtuella assistenter. Under tiden, om du tänker få konversations-AI som Google Home utvecklad för ditt företag, kontakta oss för dina AI-träningsdata och anteckningsbehov.

Social Dela