Få nu 50 % RABATT* på Conversational AI Off-the-Shelf Dataset
Tal- och ljuddataset för chatbots, röstassistenter, talaktiverade enheter.
*Erbjudande under begränsad period
Betrodd av industriledare
Detaljer | Nyckelord | Off-the-shelf språkdataset | Call Center-samtal 8khz* | Generiska konversationer 8khz* | Media och poddsändningar 16khz* | Yttrande/manusmonolog 16khz* | Total volym i timmar | Dialekter täckta | Ljudformat | Texttranskriptionsformat | Användningsfall | Källa | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
afrikaans | Afrikaans Audio Dataset | 600 | 900 | 1500 | Afrikaans talas i Afrika | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
arabiska | Arabiska ljuddataset | 800 | 1500 | 2300 | Arabiska från Gulfländerna | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Kinesiska | Kinesisk ljuddataset | 2000 | 2000 | Kineser från Kina | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
danska | Danskt ljuddataset | 400 | 600 | 2000 | 3000 | danska från Danmark | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
Dutch | Holländska ljuddataset | 2000 | 2000 | holländare från Nederländerna | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
Engelska - AAVE Accent | Engelska - AAVE (African American Vernacular English) Audio Dataset | 500 | 500 | 1000 | Den folkliga varianten (ibland känd som AAVE, vanligen talad av den stora majoriteten av arbetar- och medelklassens afroamerikaner) och den mer standardiserade varianten (som vanligtvis talas av medelklassens afroamerikaner i formella och offentliga situationer) men med en starkare tonvikt på det folkliga. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Engelska - Boston/New York Accent | Engelska - Boston/New York Audio Dataset | 225 | 225 | 350 | 800 | Detta är en samling av flera regionala accenter som talas i och runt städerna Boston, New York och Philadelphia. Dessa accenter kan låta som icke-lokalbefolkningen, men skiljer sig från andra amerikanska accenter. Trots en del lokal vokabulär som skiljer sig från andra delar av den engelsktalande världen, är dessa accenter ömsesidigt förståeliga med engelska som talas någon annanstans. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
Engelsk - kinesisk accent | Engelska - kinesiska accentuerade ljuddataset | 150 | 300 | 450 | Talare som talar kinesiska som sitt första språk och som flyttade/immigrerade till USA som tonåringar/vuxna och lärde sig engelska som andraspråk. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Engelska - Deep South Accent | Engelska - Deep South Audio Dataset | 275 | 275 | 450 | 1000 | Högtalare från (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
Engelska - spansktalande accent | Engelska - Hispanic Accent Audio Dataset | 400 | 400 | 800 | Hispanic English hänvisar till de varianter av amerikansk engelska som talas av latinamerikanska amerikaner med olika nationalarv. Huvudfokus låg på mexikanska amerikaner, talare av olika nationellt ursprung (t.ex. Mexiko, Puerto Rico, Dominikanska republiken, Ecuador, Kuba, etc) och från olika regioner (t.ex. Kalifornien, New York, Florida) också. Inkluderade talare var som talar spanska som förstaspråk samt talare av latinamerikanskt ursprung som talar spanska har ett arvspråk. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Engelska - Nya Zeeland Accent | Engelska - Nya Zeeland Audio Dataset | 250 | 750 | 1000 | Högtalare på båda öarna, inklusive en blandning av yngre högtalare (<40 år) och äldre högtalare (>40 år) i lika stora proportioner. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Engelska - Singapore Accent | Engelska - Singapore Audio Dataset | 400 | 600 | 1000 | Både Standard Singapore English och Colloquial Singapore English. Singaporeaner med olika etnisk bakgrund (t.ex. kinesiska, malajiska, indiska, etc) och med olika utbildningsnivåer. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Engelska - Sydafrika Accent | Engelska - Sydafrika Audio Dataset | 400 | 600 | 1000 | Representanter från olika socioekonomiska klasser och etnologisk bakgrund (t.ex. sydafrikaner med europeisk, afrikansk, indisk eller blandad bakgrund). | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Engelska - irländsk accent | Engelska - irländska ljuddataset | 500 | 500 | Engelska talas i Irland | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
Engelska - skotsk accent | Engelska - skotsk ljuddataset | 800 | 800 | Engelska talas av skotska | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
Engelska - walesisk accent | Engelska - walesiska ljuddataset | 800 | 800 | walesisk engelska | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
fransk kanadensare | Franska kanadensiska ljuddataset | 1000 | 1000 | Kanadensiska franska | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
Hebreiska | Hebreiska ljuddataset | 750 | 750 | 1500 | hebreiska i Israel | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
indonesiska | Indonesisk ljuddataset | 1000 | 1000 | 2000 | Bahasa indonesiska | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
japanska | Japansk ljuddataset | 2000 | 2000 | Japanska från Japan | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
koreanska | Koreansk ljuddataset | 100 | 200 | 1500 | 1800 | Högtalare spridda över hela Sydkorea. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
Malay | Malay Audio Dataset | 500 | 500 | 1000 | Malay i Malaysia | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Mexikansk spanska | Mexikansk spansk ljuddataset | 1250 | 1250 | Mexikansk från Mexiko | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
polska | Polsk ljuddataset | 250 | 2000 | 2250 | polska från Polen | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
ryska | Ryska ljuddataset | 2000 | 2000 | Ryska från Ryssland | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
swahili | Swahili ljuddataset | 350 | 650 | 1000 | Sydafrikansk och kenyansk swahili | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
svenska | Swedish Audio Dataset | 350 | 650 | 1000 | Svenska i Sverige | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Taiwan kinesiska | Taiwan kinesisk ljuddataset | 1000 | 1000 | kinesiska från Taiwan | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
thailändska | Thailändsk ljuddataset | 350 | 450 | 800 | Ett informellt register som används mellan vänner, | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
turkiska | Turkiskt ljuddataset | 2000 | 2000 | Turkiska från Turkiet | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||||
vietnamesiska | Vietnamesisk ljuddataset | 600 | 400 | 1000 | Norra (t.ex. Hanoi), Centrala och Södra (t.ex. Ho Chi Minh City). | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
hindi | Hindi Audio Dataset | 800 | 2000 | 2800 | Hindi i Indien, särskilt i regionerna nord, öst och väst | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Hinglish | Indiska engelska ljuddataset | 300 | 500 | 800 | Insamlad från urbana indiska städer som är finansiella nav i landet på grund av växande ekonomiska möjligheter. Sådana platser kan vara Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc. | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||
Engelska | Engelska ljuddataset | 700 | 700 | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | |||||
kannada | Kannada Audio Dataset | 60 | 100 | 40 | 200 | Kannada från Karnataka, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
malayalam | Malayalam Audio Dataset | 60 | 100 | 40 | 200 | Malayalam från Kerala, Lakshadweep och Puducherry | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
oriya | Oriya Audio Dataset | 60 | 100 | 40 | 200 | Oriya från delar av Odisha, Västbengalen, Jharkhand och Chhattisgarh | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
punjabi | Punjabi ljuddataset | 60 | 100 | 40 | 200 | Punjabi från Punjab, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
tamil | Tamil Audio Dataset | 60 | 100 | 240 | 400 | Tamil från Tamil Nadu, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
telugu | Telugu Audio Dataset | 100 | 950 | 950 | 2000 | Telugu från Andhra Pradesh, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
bengali | Bengali ljuddataset | 60 | 100 | 40 | 200 | Bengali från Västbengalen, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
gujarati | Gujarati ljuddataset | 60 | 100 | 40 | 200 | Gujarati från Gujarat, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
marathi | Marathi ljuddataset | 60 | 100 | 40 | 200 | Marathi från Maharashtra, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss | ||
Assamesiska | Assamese ljuddataset | 60 | 100 | 40 | 200 | Assamiska från Asssam, Indien | . WAV | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Shaip | Kontakta oss Kontakta oss |
Djup expertis inom Conversational AI
Conversational AI eller Chatbots eller Virtual / Digital Assistants är bara så smarta som tekniken och data bakom dem. På Shaip erbjuder vi dig en bred uppsättning av den diversifierade ljuddataset för Natural Language Processing (NLP) som efterliknar konversationer med riktiga människor som låter dig ge din AI liv. Med vår djupa förståelse hjälper vi dig att bygga och lokalisera AI-aktiverade talmodeller, med yttersta precision med rika och strukturerade datauppsättningar på flera språk från hela världen. Vi erbjuder flerspråkig ljudinsamling, ljudtranskription och ljudkommentarer baserat på dina krav, samtidigt som vi helt anpassar önskad avsikt, yttranden och demografisk distribution.
Skriptsamling
Spontan talsamling
Ljuddatatranskription
Datamärkning och anteckning
Shaip låter dig träna din Conversational AI-plattform noggrant så att den kan:
- Prata, sms:a och chatta sömlöst över flera kanaler.
- Lär dig av befintliga interaktioner i form av chatt, röstutskrifter, transaktioner etc. och föreslå & samtala, baserat på dessa lärdomar.
- Förstå avsikten bakom mänskligt tal och ta bort oklarheter i förståelsen av mänskligt språk.
- Interagera med dig på en-mot-en-basis och kan tränas i att identifiera användare och komma ihåg tidigare konversationer.
En världsledare inom Conversational AI Training Data
Timmar med ljuddata på över 100 språk - hämtade, transkriberade och kommenterade
Licensiering av taldata
Över 20 40 timmar med taldata på 55+ språk och dialekter som täcker en rad av XNUMX+ ämnen från olika domäner, t.ex. Call-center, Debatter, Allmänna konversationer, Tal, podcasts, etc.
Insamling av taldata
Samla ljud- och taldata (monolog, 2-personers konversation, mänsklig-bot-chatt) på över 100 språk från hela världen, anpassade efter dina AI-krav.
Taldatatranskription
Kostnadseffektiv ljudtranskription eller ljudkommentarer genom en stark arbetsstyrka på 30,000 XNUMX medarbetare med garanterad TAT, noggrannhet och besparingar
Accelerera din Conversational AI-apputveckling med Audio Collection & Audio Annotation Services
Shaip-fördelen
Skala
Vi kan källa, skala och leverera ljuddata från hela världen på flera språk och dialekter baserat på dina krav.
Expertis
Vi har rätt expertis när det gäller korrekt och opartisk datainsamling, transkription och anteckningar av guldstandard.
nätverks
Ett nätverk med mer än 30,000 kvalificerade bidragsgivare, som snabbt kan tilldelas uppgifter för datainsamling för att bygga AI-träningsmodell och uppskalningstjänster.
Teknologi
Vi har en helt AI-baserad plattform med egna verktyg och processer för att utnyttja arbetsflödeshantering 24 * 7 dygnet runt.
Rörlighet
Vi anpassar oss mycket snabbt till förändringar i kundernas krav och hjälper till att påskynda AI-utvecklingen med kvalitetstaldata 5-10 gånger snabbare än konkurrenterna.
Säkerhet
Vi lägger största vikt vid datasäkerhet och sekretess och är också certifierade för att hantera känslig information som är mycket reglerad.
Vad vi gör bäst
Utbildningsdata
Få märkt data av högsta kvalitet på en bråkdel av tiden. Det är guldstandard, pålitligt och redo att träna dina AI- och ML-modeller för att uppnå högsta prestandanivåer.
Datainsamling, märkning och anteckning
Med Shaip får du 15+ års beprövad expertis i att samla in, transkribera och kommentera kvalitetsdata. Med vår globala arbetskraft kan vi samla in data från hela världen och sedan tillhandahålla märknings- och anteckningstjänster med den perfekta mängden kompetensnivå och expertis som krävs för dina data.
Datakataloger och licensiering
Med vårt stora lager av miljontals datauppsättningar kan du samla in och organisera efter behov. Vi kan sedan licensiera den kvalitetsdatan för dina specifika AI- och ML-användningskrav. Dessutom är denna data tillgänglig till en bråkdel av kostnaden om du skulle skapa den själv.
Vill du bygga din egen datamängd?
Kontakta oss nu för att lära dig hur vi kan samla in en anpassad datauppsättning för din unika AI-lösning.