Få nu 50 % RABATT* på Conversational AI Off-the-Shelf Dataset

Tal- och ljuddataset för chatbots, röstassistenter, talaktiverade enheter.

*Erbjudande under begränsad period

  • Genom att registrera mig godkänner jag Shaip Sekretesspolicy och Användarvillkor och ge mitt samtycke till att ta emot B2B marknadsföringskommunikation från Shaip.

Betrodd av industriledare

DetaljerOff-the-shelf språkdatasetCall Center-samtal 8khz*Generiska konversationer 8khz*Media och poddsändningar 16khz*Yttrande/manusmonolog 16khz*Total volym i timmarDialekter täcktaLjudformatTexttranskriptionsformatAnvändningsfallKällaCTA
TalafrikaansAfrikaans Audio Dataset6009001500Afrikaans talas i Afrika. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalarabiskaArabiska ljuddataset80015002300Arabiska från Gulfländerna. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalKinesiskaKinesisk ljuddataset20002000Kineser från Kina. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TaldanskaDanskt ljuddataset40060020003000danska från Danmark. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalDutchHolländska ljuddataset20002000holländare från Nederländerna. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - AAVE AccentEngelska - AAVE (African American Vernacular English) Audio Dataset5005001000Den folkliga varianten (ibland känd som AAVE, vanligen talad av den stora majoriteten av arbetar- och medelklassens afroamerikaner) och den mer standardiserade varianten (som vanligtvis talas av medelklassens afroamerikaner i formella och offentliga situationer) men med en starkare tonvikt på det folkliga.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - Boston/New York AccentEngelska - Boston/New York Audio Dataset225225350800Detta är en samling av flera regionala accenter som talas i och runt städerna Boston, New York och Philadelphia. Dessa accenter kan låta som icke-lokalbefolkningen, men skiljer sig från andra amerikanska accenter. Trots en del lokal vokabulär som skiljer sig från andra delar av den engelsktalande världen, är dessa accenter ömsesidigt förståeliga med engelska som talas någon annanstans.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelsk - kinesisk accentEngelska - kinesiska accentuerade ljuddataset150300450Talare som talar kinesiska som sitt första språk och som flyttade/immigrerade till USA som tonåringar/vuxna och lärde sig engelska som andraspråk.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - Deep South AccentEngelska - Deep South Audio Dataset2752754501000Högtalare från (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - spansktalande accentEngelska - Hispanic Accent Audio Dataset400400800Hispanic English hänvisar till de varianter av amerikansk engelska som talas av latinamerikanska amerikaner med olika nationalarv. Huvudfokus låg på mexikanska amerikaner, talare av olika nationellt ursprung (t.ex. Mexiko, Puerto Rico, Dominikanska republiken, Ecuador, Kuba, etc) och från olika regioner (t.ex. Kalifornien, New York, Florida) också. Inkluderade talare var som talar spanska som förstaspråk samt talare av latinamerikanskt ursprung som talar spanska har ett arvspråk.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - Nya Zeeland AccentEngelska - Nya Zeeland Audio Dataset2507501000Högtalare på båda öarna, inklusive en blandning av yngre högtalare (<40 år) och äldre högtalare (>40 år) i lika stora proportioner.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - Singapore AccentEngelska - Singapore Audio Dataset4006001000Både Standard Singapore English och Colloquial Singapore English. Singaporeaner med olika etnisk bakgrund (t.ex. kinesiska, malajiska, indiska, etc) och med olika utbildningsnivåer.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - Sydafrika AccentEngelska - Sydafrika Audio Dataset4006001000Representanter från olika socioekonomiska klasser och etnologisk bakgrund (t.ex. sydafrikaner med europeisk, afrikansk, indisk eller blandad bakgrund).. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - irländsk accentEngelska - irländska ljuddataset500500Engelska talas i Irland. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - skotsk accentEngelska - skotsk ljuddataset800800Engelska talas av skotska. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelska - walesisk accentEngelska - walesiska ljuddataset800800walesisk engelska. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
Talfransk kanadensareFranska kanadensiska ljuddataset10001000Kanadensiska franska. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalHebreiskaHebreiska ljuddataset7507501500hebreiska i Israel. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalindonesiskaIndonesisk ljuddataset100010002000Bahasa indonesiska. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TaljapanskaJapansk ljuddataset20002000Japanska från Japan. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalkoreanskaKoreansk ljuddataset10020015001800Högtalare spridda över hela Sydkorea.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalMalayMalay Audio Dataset5005001000Malay i Malaysia. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalMexikansk spanskaMexikansk spansk ljuddataset12501250Mexikansk från Mexiko. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalpolskaPolsk ljuddataset25020002250polska från Polen. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalryskaRyska ljuddataset20002000Ryska från Ryssland. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalswahiliSwahili ljuddataset3506501000Sydafrikansk och kenyansk swahili. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalsvenskaSwedish Audio Dataset3506501000Svenska i Sverige. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalTaiwan kinesiskaTaiwan kinesisk ljuddataset10001000kinesiska från Taiwan. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalthailändskaThailändsk ljuddataset350450800Ett informellt register som används mellan vänner,. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalturkiskaTurkiskt ljuddataset20002000Turkiska från Turkiet. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalvietnamesiskaVietnamesisk ljuddataset6004001000Norra (t.ex. Hanoi), Centrala och Södra (t.ex. Ho Chi Minh City).. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalhindiHindi Audio Dataset80020002800Hindi i Indien, särskilt i regionerna nord, öst och väst. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalHinglishIndiska engelska ljuddataset300500800Insamlad från urbana indiska städer som är finansiella nav i landet på grund av växande ekonomiska möjligheter. Sådana platser kan vara Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc.. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalEngelskaEngelska ljuddataset700700. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalkannadaKannada Audio Dataset6010040200Kannada från Karnataka, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalmalayalamMalayalam Audio Dataset6010040200Malayalam från Kerala, Lakshadweep och Puducherry. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TaloriyaOriya Audio Dataset6010040200Oriya från delar av Odisha, Västbengalen, Jharkhand och Chhattisgarh. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalpunjabiPunjabi ljuddataset6010040200Punjabi från Punjab, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TaltamilTamil Audio Dataset60100240400Tamil från Tamil Nadu, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalteluguTelugu Audio Dataset1009509502000Telugu från Andhra Pradesh, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalbengaliBengali ljuddataset6010040200Bengali från Västbengalen, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalgujaratiGujarati ljuddataset6010040200Gujarati från Gujarat, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalmarathiMarathi ljuddataset6010040200Marathi från Maharashtra, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip
TalAssamesiskaAssamese ljuddataset6010040200Assamiska från Asssam, Indien. WAV.jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModelingShaip

Djup expertis inom Conversational AI

Conversational AI eller Chatbots eller Virtual / Digital Assistants är bara så smarta som tekniken och data bakom dem. På Shaip erbjuder vi dig en bred uppsättning av den diversifierade ljuddataset för Natural Language Processing (NLP) som efterliknar konversationer med riktiga människor som låter dig ge din AI liv. Med vår djupa förståelse hjälper vi dig att bygga och lokalisera AI-aktiverade talmodeller, med yttersta precision med rika och strukturerade datauppsättningar på flera språk från hela världen. Vi erbjuder flerspråkig ljudinsamling, ljudtranskription och ljudkommentarer baserat på dina krav, samtidigt som vi helt anpassar önskad avsikt, yttranden och demografisk distribution.

Skriptsamling

Spontan talsamling

Ljuddatatranskription

Datamärkning och anteckning

Shaip låter dig träna din Conversational AI-plattform noggrant så att den kan:

  • Prata, sms:a och chatta sömlöst över flera kanaler.
  • Lär dig av befintliga interaktioner i form av chatt, röstutskrifter, transaktioner etc. och föreslå & samtala, baserat på dessa lärdomar.
  • Förstå avsikten bakom mänskligt tal och ta bort oklarheter i förståelsen av mänskligt språk.
  • Interagera med dig på en-mot-en-basis och kan tränas i att identifiera användare och komma ihåg tidigare konversationer.

En världsledare inom Conversational AI Training Data

Timmar med ljuddata på över 100 språk - hämtade, transkriberade och kommenterade

Licensiering av taldata

Över 20 40 timmar med taldata på 55+ språk och dialekter som täcker en rad av XNUMX+ ämnen från olika domäner, t.ex. Call-center, Debatter, Allmänna konversationer, Tal, podcasts, etc.

Insamling av taldata

Samla ljud- och taldata (monolog, 2-personers konversation, mänsklig-bot-chatt) på över 100 språk från hela världen, anpassade efter dina AI-krav.

Taldatatranskription

Kostnadseffektiv ljudtranskription eller ljudkommentarer genom en stark arbetsstyrka på 30,000 XNUMX medarbetare med garanterad TAT, noggrannhet och besparingar

Accelerera din Conversational AI-apputveckling med Audio Collection & Audio Annotation Services

Shaip-fördelen

Skala

Vi kan källa, skala och leverera ljuddata från hela världen på flera språk och dialekter baserat på dina krav.

Expertis

Vi har rätt expertis när det gäller korrekt och opartisk datainsamling, transkription och anteckningar av guldstandard.

nätverks

Ett nätverk med mer än 30,000 kvalificerade bidragsgivare, som snabbt kan tilldelas uppgifter för datainsamling för att bygga AI-träningsmodell och uppskalningstjänster.

Teknologi

Vi har en helt AI-baserad plattform med egna verktyg och processer för att utnyttja arbetsflödeshantering 24 * 7 dygnet runt.

Rörlighet

Vi anpassar oss mycket snabbt till förändringar i kundernas krav och hjälper till att påskynda AI-utvecklingen med kvalitetstaldata 5-10 gånger snabbare än konkurrenterna.

Säkerhet

Vi lägger största vikt vid datasäkerhet och sekretess och är också certifierade för att hantera känslig information som är mycket reglerad.

Vad vi gör bäst

Utbildningsdata

Få märkt data av högsta kvalitet på en bråkdel av tiden. Det är guldstandard, pålitligt och redo att träna dina AI- och ML-modeller för att uppnå högsta prestandanivåer.

Läs mer

Datainsamling, märkning och anteckning

Med Shaip får du 15+ års beprövad expertis i att samla in, transkribera och kommentera kvalitetsdata. Med vår globala arbetskraft kan vi samla in data från hela världen och sedan tillhandahålla märknings- och anteckningstjänster med den perfekta mängden kompetensnivå och expertis som krävs för dina data.

Läs mer

Datakataloger och licensiering

Med vårt stora lager av miljontals datauppsättningar kan du samla in och organisera efter behov. Vi kan sedan licensiera den kvalitetsdatan för dina specifika AI- och ML-användningskrav. Dessutom är denna data tillgänglig till en bråkdel av kostnaden om du skulle skapa den själv.

Läs mer

Vill du bygga din egen datamängd?

Kontakta oss nu för att lära dig hur vi kan samla in en anpassad datauppsättning för din unika AI-lösning.