Få nu 50 % RABATT* på Conversational AI Off-the-Shelf Dataset

Tal- och ljuddataset för chatbots, röstassistenter, talaktiverade enheter.

*Erbjudande under begränsad period

Förnamn*
Efternamn*
E-postadress *
Telefon*
Företag*
Land*
Land
Datavolym*
Ofrälse*
Kommentarer*
Genom att registrera mig godkänner jag Shaip Sekretesspolicy och Användarvillkor och ge mitt samtycke till att ta emot B2B marknadsföringskommunikation från Shaip.
CAPTCHA

Betrodd av industriledare

föregående

Nästa

Nyckelord	Off-the-shelf språkdataset	Call Center-samtal 8khz*	Generiska konversationer 8khz*	Media och poddsändningar 16khz*	Yttrande/manusmonolog 16khz*	Total volym i timmar	Dialekter täckta	Ljudformat	Texttranskriptionsformat	Användningsfall	Källa	CTA
afrikaans	Afrikaans Audio Dataset		600	900		1500	Afrikaans talas i Afrika	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
arabiska	Arabiska ljuddataset		800		1500	2300	Arabiska från Gulfländerna	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Kinesiska	Kinesisk ljuddataset				2000	2000	Kineser från Kina	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
danska	Danskt ljuddataset		400	600	2000	3000	danska från Danmark	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Dutch	Holländska ljuddataset				2000	2000	holländare från Nederländerna	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - AAVE Accent	Engelska - AAVE (African American Vernacular English) Audio Dataset	500		500		1000	Den folkliga varianten (ibland känd som AAVE, vanligen talad av den stora majoriteten av arbetar- och medelklassens afroamerikaner) och den mer standardiserade varianten (som vanligtvis talas av medelklassens afroamerikaner i formella och offentliga situationer) men med en starkare tonvikt på det folkliga.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - Boston/New York Accent	Engelska - Boston/New York Audio Dataset	225	225	350		800	Detta är en samling av flera regionala accenter som talas i och runt städerna Boston, New York och Philadelphia. Dessa accenter kan låta som icke-lokalbefolkningen, men skiljer sig från andra amerikanska accenter. Trots en del lokal vokabulär som skiljer sig från andra delar av den engelsktalande världen, är dessa accenter ömsesidigt förståeliga med engelska som talas någon annanstans.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelsk - kinesisk accent	Engelska - kinesiska accentuerade ljuddataset	150		300		450	Talare som talar kinesiska som sitt första språk och som flyttade/immigrerade till USA som tonåringar/vuxna och lärde sig engelska som andraspråk.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - Deep South Accent	Engelska - Deep South Audio Dataset	275	275	450		1000	Högtalare från (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - spansktalande accent	Engelska - Hispanic Accent Audio Dataset	400		400		800	Hispanic English hänvisar till de varianter av amerikansk engelska som talas av latinamerikanska amerikaner med olika nationalarv. Huvudfokus låg på mexikanska amerikaner, talare av olika nationellt ursprung (t.ex. Mexiko, Puerto Rico, Dominikanska republiken, Ecuador, Kuba, etc) och från olika regioner (t.ex. Kalifornien, New York, Florida) också. Inkluderade talare var som talar spanska som förstaspråk samt talare av latinamerikanskt ursprung som talar spanska har ett arvspråk.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - Nya Zeeland Accent	Engelska - Nya Zeeland Audio Dataset		250	750		1000	Högtalare på båda öarna, inklusive en blandning av yngre högtalare (<40 år) och äldre högtalare (>40 år) i lika stora proportioner.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - Singapore Accent	Engelska - Singapore Audio Dataset	400		600		1000	Både Standard Singapore English och Colloquial Singapore English. Singaporeaner med olika etnisk bakgrund (t.ex. kinesiska, malajiska, indiska, etc) och med olika utbildningsnivåer.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - Sydafrika Accent	Engelska - Sydafrika Audio Dataset	400		600		1000	Representanter från olika socioekonomiska klasser och etnologisk bakgrund (t.ex. sydafrikaner med europeisk, afrikansk, indisk eller blandad bakgrund).	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - irländsk accent	Engelska - irländska ljuddataset		500			500	Engelska talas i Irland	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - skotsk accent	Engelska - skotsk ljuddataset		800			800	Engelska talas av skotska	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska - walesisk accent	Engelska - walesiska ljuddataset		800			800	walesisk engelska	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
fransk kanadensare	Franska kanadensiska ljuddataset				1000	1000	Kanadensiska franska	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Hebreiska	Hebreiska ljuddataset		750	750		1500	hebreiska i Israel	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
indonesiska	Indonesisk ljuddataset		1000	1000		2000	Bahasa indonesiska	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
japanska	Japansk ljuddataset				2000	2000	Japanska från Japan	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
koreanska	Koreansk ljuddataset	100		200	1500	1800	Högtalare spridda över hela Sydkorea.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Malay	Malay Audio Dataset		500	500		1000	Malay i Malaysia	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Mexikansk spanska	Mexikansk spansk ljuddataset				1250	1250	Mexikansk från Mexiko	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
polska	Polsk ljuddataset			250	2000	2250	polska från Polen	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
ryska	Ryska ljuddataset				2000	2000	Ryska från Ryssland	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
swahili	Swahili ljuddataset	350		650		1000	Sydafrikansk och kenyansk swahili	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
svenska	Swedish Audio Dataset	350		650		1000	Svenska i Sverige	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Taiwan kinesiska	Taiwan kinesisk ljuddataset				1000	1000	kinesiska från Taiwan	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
thailändska	Thailändsk ljuddataset		350	450		800	Ett informellt register som används mellan vänner,	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
turkiska	Turkiskt ljuddataset				2000	2000	Turkiska från Turkiet	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
vietnamesiska	Vietnamesisk ljuddataset		600	400		1000	Norra (t.ex. Hanoi), Centrala och Södra (t.ex. Ho Chi Minh City).	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
hindi	Hindi Audio Dataset			800	2000	2800	Hindi i Indien, särskilt i regionerna nord, öst och väst	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Hinglish	Indiska engelska ljuddataset	300		500		800	Insamlad från urbana indiska städer som är finansiella nav i landet på grund av växande ekonomiska möjligheter. Sådana platser kan vara Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc.	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Engelska	Engelska ljuddataset			700		700		. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
kannada	Kannada Audio Dataset	60	100	40		200	Kannada från Karnataka, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
malayalam	Malayalam Audio Dataset	60	100	40		200	Malayalam från Kerala, Lakshadweep och Puducherry	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
oriya	Oriya Audio Dataset	60	100	40		200	Oriya från delar av Odisha, Västbengalen, Jharkhand och Chhattisgarh	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
punjabi	Punjabi ljuddataset	60	100	40		200	Punjabi från Punjab, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
tamil	Tamil Audio Dataset	60	100	240		400	Tamil från Tamil Nadu, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
telugu	Telugu Audio Dataset	100	950	950		2000	Telugu från Andhra Pradesh, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
bengali	Bengali ljuddataset	60	100	40		200	Bengali från Västbengalen, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
gujarati	Gujarati ljuddataset	60	100	40		200	Gujarati från Gujarat, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
marathi	Marathi ljuddataset	60	100	40		200	Marathi från Maharashtra, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss
Assamesiska	Assamese ljuddataset	60	100	40		200	Assamiska från Asssam, Indien	. WAV	.json	ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling	Shaip	Kontakta oss Kontakta oss

Djup expertis inom Conversational AI

Conversational AI eller Chatbots eller Virtual / Digital Assistants är bara så smarta som tekniken och data bakom dem. På Shaip erbjuder vi dig en bred uppsättning av den diversifierade ljuddataset för Natural Language Processing (NLP) som efterliknar konversationer med riktiga människor som låter dig ge din AI liv. Med vår djupa förståelse hjälper vi dig att bygga och lokalisera AI-aktiverade talmodeller, med yttersta precision med rika och strukturerade datauppsättningar på flera språk från hela världen. Vi erbjuder flerspråkig ljudinsamling, ljudtranskription och ljudkommentarer baserat på dina krav, samtidigt som vi helt anpassar önskad avsikt, yttranden och demografisk distribution.

Skriptsamling

Spontan talsamling

Ljuddatatranskription

Datamärkning och anteckning

Shaip låter dig träna din Conversational AI-plattform noggrant så att den kan:

Prata, sms:a och chatta sömlöst över flera kanaler.
Lär dig av befintliga interaktioner i form av chatt, röstutskrifter, transaktioner etc. och föreslå & samtala, baserat på dessa lärdomar.
Förstå avsikten bakom mänskligt tal och ta bort oklarheter i förståelsen av mänskligt språk.
Interagera med dig på en-mot-en-basis och kan tränas i att identifiera användare och komma ihåg tidigare konversationer.

En världsledare inom Conversational AI Training Data

Timmar med ljuddata på över 100 språk - hämtade, transkriberade och kommenterade

Licensiering av taldata

Över 20 40 timmar med taldata på 55+ språk och dialekter som täcker en rad av XNUMX+ ämnen från olika domäner, t.ex. Call-center, Debatter, Allmänna konversationer, Tal, podcasts, etc.

Insamling av taldata

Samla ljud- och taldata (monolog, 2-personers konversation, mänsklig-bot-chatt) på över 100 språk från hela världen, anpassade efter dina AI-krav.

Taldatatranskription

Kostnadseffektiv ljudtranskription eller ljudkommentarer genom en stark arbetsstyrka på 30,000 XNUMX medarbetare med garanterad TAT, noggrannhet och besparingar

Accelerera din Conversational AI-apputveckling med Audio Collection & Audio Annotation Services

Shaip-fördelen

Skala

Vi kan källa, skala och leverera ljuddata från hela världen på flera språk och dialekter baserat på dina krav.

Expertis

Vi har rätt expertis när det gäller korrekt och opartisk datainsamling, transkription och anteckningar av guldstandard.

nätverks

Ett nätverk med mer än 30,000 kvalificerade bidragsgivare, som snabbt kan tilldelas uppgifter för datainsamling för att bygga AI-träningsmodell och uppskalningstjänster.

Teknologi

Vi har en helt AI-baserad plattform med egna verktyg och processer för att utnyttja arbetsflödeshantering 24 * 7 dygnet runt.

Rörlighet

Vi anpassar oss mycket snabbt till förändringar i kundernas krav och hjälper till att påskynda AI-utvecklingen med kvalitetstaldata 5-10 gånger snabbare än konkurrenterna.

Säkerhet

Vi lägger största vikt vid datasäkerhet och sekretess och är också certifierade för att hantera känslig information som är mycket reglerad.

Vad vi gör bäst

Utbildningsdata

Få märkt data av högsta kvalitet på en bråkdel av tiden. Det är guldstandard, pålitligt och redo att träna dina AI- och ML-modeller för att uppnå högsta prestandanivåer.

Läs mer

Datainsamling, märkning och anteckning

Med Shaip får du 15+ års beprövad expertis i att samla in, transkribera och kommentera kvalitetsdata. Med vår globala arbetskraft kan vi samla in data från hela världen och sedan tillhandahålla märknings- och anteckningstjänster med den perfekta mängden kompetensnivå och expertis som krävs för dina data.

Läs mer

Datakataloger och licensiering

Med vårt stora lager av miljontals datauppsättningar kan du samla in och organisera efter behov. Vi kan sedan licensiera den kvalitetsdatan för dina specifika AI- och ML-användningskrav. Dessutom är denna data tillgänglig till en bråkdel av kostnaden om du skulle skapa den själv.

Läs mer

Att skapa klinisk NLP är en kritisk uppgift som kräver enorm domenexpertis för att lösa. Jag kan tydligt se att du ligger flera år före Google på detta område. Jag vill arbeta med dig och skala dig.

Google, Inc. Direktör

Under de senaste 6 månaderna har vi haft ett nära samarbete med Shaip om vårt företags märkningsbehov. Under denna tid mötte vi ett skickligt team som konsekvent höll höga krav och deadlines. De hanterade olika märkningsuppgifter sakkunnigt och anpassade sig till förändrade krav. Vi rekommenderar starkt Shaips arbete och är nöjda med resultatet.

Projektledare

föregående

Nästa

Vill du bygga din egen datamängd?

Kontakta oss nu för att lära dig hur vi kan samla in en anpassad datauppsättning för din unika AI-lösning.