Öppna datamängder

Upptäck datauppsättningar med öppen källkod som får dig att träna ML -modeller

Datakällor med öppen källkod för att komma igång med AI/ML -modeller

Resultatet från dina AI & ML-modeller är bara lika bra som den data du använder för att träna den - så den precision som du använder för dataggregation och märkning och identifiering av dessa data är viktig!

Så om du vill starta ett nytt AI / ML-initiativ och nu inser du snabbt att hitta träningsdata av hög kvalitet kommer att vara en av de mer utmanande aspekterna av ditt projekt eftersom högkvalitativa datamängder är det bränsle som håller AI / ML-motorn går. Vi har samlat en lista över öppna datamängder som är fria att använda och träna framtidens AI / ML-modeller.

Fördjupning	Data typ	Dataset Namn	Industri / Inst.	Kommentar / användningsfall	Beskrivning	Länk
NLP	text	Amazon Recensioner	E-handel	Sentimentanalys	En uppsättning av 35 Mn recensioner och betyg från de senaste 18 åren i klartext med användar- och produktinformation.	Länk
NLP	text	Wikipedia länkar data	Allmänt		Mer än 4 Mn. artiklar som innehåller 1.9 miljarder. ord som består av ord och fraser samt stycken.	Länk
NLP	text	Standford Sentiment Treebank	Underhållning	Sentimentanalys	Sentimentanteckningar dataset för över 10,000 bitar av recensioner från Rotten Tomatoes i HTML-filformat	Länk
NLP	text	Twitter US Airline Sentiment	Flygbolag	Sentimentanalys	2015 Tweets på US Airlines delades in i positiva, negativa och neutrala toner	Länk
CV	Bild	Märkta ansikten i naturen	Allmänt	ansiktsigenkänning	Dataset innehåller över 13,000 XNUMX beskurna ansikten med två olika bilder för ansiktsigenkänningsträning.	Länk
CV	Video, bild	UMDFaces-datauppsättning	Allmänt	ansiktsigenkänning	Kommenterad datauppsättning som innehåller över 367,000 8,000 ansikten från över XNUMX XNUMX ämnen som inkluderar stillbilder och videobilder.	Länk
CV	Bild	Imagenet	Allmänt		Dataset med över 14 Mn. bilder i olika filformat, organiserade enligt WordNet-hierarkin.	Länk
CV	Bild	Googles öppna bilder	Allmänt		9 Mn. Webbadresser för att kategorisera offentliga bilder från över 6,000 kategorier.	Länk
NLP	text	MIMIC Critical Care Database	Sjukvård		Datamängder för beräkningsfysiologi med avidentifierade data från 40,000 XNUMX patienter med kritisk vård. Datauppsättningen innehåller information som demografi, vitala tecken, mediciner etc.	Länk
CV	Bild	USA: s nationella rese- och turismkontor	Turism		Ger breda fotografier från turistindustrin med pålitliga databaser, som täcker ämnen som in- och utresor och internationell turistinformation.	Länk
NLP	text	Department of Transportation	Turism		Turismdatauppsättningar som inkluderar nationalparker, förarregister, broar och järnvägsinformation etc.	Länk
NLP	Audio	Flickr Audio Caption Corpus	Allmänt		Över 40 8,000 bildtexter från XNUMX XNUMX fotografier designade för oövervakade talmönster	Länk
NLP	Audio	Talkommandodataset	Allmänt	Taligenkänning, ljudkommentar	1 sekund långa uttalanden från tusentals individer, för att bygga grundläggande röstgränssnitt.	Länk
NLP	Audio	Miljödatauppsättningar	Allmänt		Miljödata-datauppsättningar som innehåller ljud från evenemangstabeller och akustiska scenbord.	Länk
NLP	text	COVID-19 öppen forskningsdataset	Sjukvård	Medicinsk AI	En forskningsdataset bestående av 45,000 19 vetenskapliga artiklar om COVID-XNUMX och coronavirusfamiljen.	Länk
CV	Bild	Waymo Öppna Dataset	Bil		De mest olika autonoma kördataset som släppts av Waymo	Länk
CV	Bild	Visuellt genom	Allmänt	Bildtextning	En visuell kunskapsbas med detaljerad bildtext på över 100 XNUMX bilder	Länk
CV	Bild	Labelme	Offentlig regering		Stor uppsättning antecknade bilder som är tillgängliga via Labelme Matlab	Länk
CV	Bild	COIL100	Allmänt		Över 100 olika föremål fotograferade från flera vinklar (dvs. 360 grader)	Länk
CV	Bild	Stanford Dogs Dataset	Allmänt		Över 20,500 120+ bilder kategoriserade i bilduppsättning med XNUMX olika hundraser	Länk
CV	Bild	Inomhus scen erkännande	Allmänt	Scenigenkänning	En specifik dataset bestående av 15620 bilder från 67 inomhuskategorier för att bygga scenigenkänningsmodeller	Länk
CV	Bild	VisualQA	Allmänt		En dataset som innehåller öppna frågor relaterade till 265,016 XNUMX foton som kräver förståelse för syn och språkförståelse för att svara.	Länk
NLP	text	Dataset för multidomain sentimentanalys	E-handel	Sentimentanalys	Dataset som innehåller produktrecensioner från Amazon	Länk
NLP	text	IMDB Recensioner	Underhållning	Sentimentanalys	Dataset som innehåller 25000 filmrecensioner för sentimentanalys	Länk
NLP	text	Känsla140	Allmänt	Sentimentanalys	Dataset innehåller 160,000 XNUMX tweets med för borttagna uttryckssymboler för högre noggrannhet	Länk
NLP	text	Bloggarkorpus	Allmänt	Nyckelord Ananlys	Dataset som innehåller 681,288 blogginlägg från blogger.com som består av minst 200 förekomster av allmänt använda engelska ord.	Länk
NLP	text	Jeopardy	Allmänt	Chatbot-utbildning	Dataset med mer än 200,000 XNUMX frågor som kan användas för att träna maskininlärningsmodeller för att automatiskt svara automatiskt	Länk
NLP	text	SMS Spam Collection på engelska	Telekom	Spamigenkänning	En datauppsättning för skräppost som består av 5,574 engelska SMS	Länk
NLP	text	Yelp-recensioner	Allmänt	Sentimentanalys	En dataset med över 5 minuters granskning publicerad av Yelp	Länk
NLP	text	UCI: s Spambase	Företag	Spamigenkänning	En stor uppsättning skräppostmeddelanden, användbart för skräppostfiltrering.	Länk
CV	Video, bild	Berkeley DeepDrive BDD100k	Bil	Autonoma fordon	En av de största datamängderna för självkörande AI som innehåller 1,100 timmars körupplevelser i över 100,000 XNUMX videor från olika tider på dagen från New York och San Francisco-området.	Länk
CV	Video	Comma.ai	Bil	Autonoma fordon	En 7-timmars körsats för motorväg som innehåller information om bilens hastighet, acceleration, styrvinkel och GPS-koordinater	Länk
CV	Video, bild	Stadsbildsdataset	Bil	Semantisk etikett för autonoma fordon	En dataset med 5,000 20,000 pixelnivåanteckningar plus en större uppsättning 50 XNUMX svagt kommenterade ramar i stereovideosekvenser, inspelade från XNUMX olika städer	Länk
CV	Bild	KUL Belgiens trafikskyltsdataset	Bil	Autonoma fordon	Över 10000+ trafikskyltar från Flandern-regionen baserade på fysiskt distinkta trafikskyltar från hela Belgien.	Länk
CV	Bild	LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets	Bil	Autonoma fordon	En omfattande dataset som innehåller trafikskyltar, fordonsdetektering, trafikljus och banmönster.	Länk
CV	Bild	CIFAR-10	Allmänt	Objektsigenkänning	En dataset består av 50,000 10,000 bilder och 60,000 32 testbilder (dvs. 32 10 XNUMX × XNUMX färgbilder i XNUMX klasser) för objektigenkänning.	Länk
CV	Bild	Mode MNIST	Mode		En bilduppsättning som består av 60,000 10,000 exempel och en testuppsättning med 28 28 exempel i 10 × XNUMX gråskalebilder, associerade med en etikett från XNUMX klasser.	Länk
CV	Bild	IMDB-Wiki-datauppsättning	Underhållning	ansiktsigenkänning	En stor uppsättning ansiktsbilder med etiketter som kön och ålder. Av de totala 523,051 460,723 ansiktsbilderna erhålls 20,284 62,328 bilder från XNUMX XNUMX kändisar från IMDB och XNUMX XNUMX från Wikipedia.	Länk
CV	Video	Kinetics-700	Allmänt		För varje actionklass består datasetet av hög kvalitet av 650,000 700 videoklipp och omfattar 600 mänskliga actionklasser med minst 10 videoklipp. Här varar varje klipp i cirka XNUMX sekunder.	Länk
CV	Bild	MS Coco	Allmänt	Objektdetektering, segmentering	Datauppsättningen innehåller 328 2.5 bilder och har totalt 91 Mn-instanser och XNUMX objektbilder för att träna storskaliga objektdetektering, segmentering och datatekst relaterade ML-modeller.	Länk
CV	Bild	MPII Mänsklig Pose Dataset	Allmänt		Cirka 25 40 fotografier som innehåller över 410 XNUMX personer med annoterade kroppsfogar ingår i datamängden, som används för att artikulera människors ställningsuppskattning. Sammantaget täcker datamängden XNUMX mänskliga aktiviteter och varje bild har en aktivitetsetikett.	Länk
CV	Bild	Öppna bilder	Allmänt	Kommentarer om objektets plats	Bilddatauppsättning med cirka 9 Mn-bilder antecknade med bildnivåetiketter, objektgränsande rutor, objektsegmentering etc. Datasetet består också av 16 Mn. avgränsningsrutor för 600 objektklasser på 1.9 Mn-bilder.	Länk
CV	Video	Apollo Open Platform, av Baidu Inc, Kina	Bil	Bounding Box, LiDAR	En rik autonom kördataset som ger utvecklare erforderlig data vid autonom körning för att påskynda effektiviteten i den innovativa iterationen.	Länk
CV	Video, bild	Argo, av Argo, USA	Bil	Gränslåda, optiskt flöde, beteendeetikett, semantisk etikett, spårmarkering	En självkörande dataset som består av HD-kartor med geometriska och semantiska metadata, dvs. körfältets mittlinjer, körriktning och körbart område. Datauppsättningen används för att träna ML-modeller, för att skapa mer exakta uppfattningsalgoritmer, som hjälper självkörande fordon att navigera säkert.	Länk
CV	Video	Bosch små trafikljus, av Bosch North America Research	Bil	Gränslåda	En dataset som består av 13427 kamerabilder med en upplösning på 1280 * 720 för att bygga visionbaserat trafikljusdetekteringssystem. Datauppsättningen har mer än 24000 annoterade trafikljus.	Länk
CV	Video	Brain4Cars, av Cornell Univ., USA	Bil	Beteendemärke	En datauppsättning som består av en rad kabinsensorer (kameror, taktila sensorer, smarta enheter etc.) för att extrahera användbar statistik om förarens vakenhet. Våra algoritmer kan upptäcka förare som är dåsiga eller distraherade och öka nödvändiga larm för att förbättra skyddet.	Länk
CV	Bild	CULane, av kinesiska Univ. Hong Kong, Peking, Kina	Bil	Fältmärkning	En datorvisionsdataset om detektering av trafikfiler, som består av 55 timmars videor, av vilka 133,235 88880 (9675 träningssats, 34680 valideringsuppsättning och XNUMX testuppsättning) ramar extraherades. Det samlas in av kameror monterade på sex olika fordon som drivs av olika förare i Peking.	Länk
CV	Video	DAVIS, av Univ. i Zürich, ETH ¨ Zürich, Tyskland, Schweiz	Bil		En end-to-end fordonskörningsutbildningsdataset som använder en DAVIS händelse + ramkamera Bildata som styrning, gas, GPS, etc. används för att utvärdera sammanslagningen av ram- och händelsesdata för fordonsappar.	Länk
CV	Video	DBNet, av Shanghai Jiao Tong Univ., Xiamen Univ., Kina	Bil	Point Cloud, LiDAR	En verklig 1000 km kördata, som inkluderar anpassad video, punktmoln, GPS och förarbeteende för djupgående forskning om körbeteende.	Länk
CV	Video	Dr (öga), av Univ. av Modena och Reggio Emilia, Modena, Italien	Bil	Beteendemärke	Dataset som innehåller 74 videosekvenser om 5 minuter vardera, som antecknades i mer än 500,000 XNUMX bilder. Datauppsättningen består av geografiskt refererade platser, körhastighet, kurs och märker också förarblicksfixeringar och deras tidsmässiga integrering som tillhandahåller uppgiftspecifika kartor.	Länk
CV	Video	ETH Pedestrian (2009), av ETH Zürich, Zürich, Schweiz	Allmänt	Gränslåda	En dataset med 74 videosekvenser om 5 minuter vardera, antecknade i mer än 500,000 XNUMX bilder. Datauppsättningen tillhandahåller geo-refererade positioner, körhastighet, riktning och märker också blickfixeringar för förare och deras tidsintegrering, inklusive uppgiftspecifika kartor.	Länk
CV	Video	Ford (2009), av Univ. av Michigan, Michigan, USA	Bil	Bounding Box, LiDAR	En dataset sammanställd av ett automatiserat landfordon beväpnat med en Velodyne 3D-lidar-skanner, två framåtblickande Rieg-lidars, en teknisk och konsumentinertialmätningsenhet (IMU) och ett Point Grey Ladybug3 rundstrålande kamerasystem.	Länk
CV	Video	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Tyskland	Allmänt		En dataset med flera miljoner bilder från inspelade videoscener som innehåller ett brett utbud av olika väderförhållanden, flera lager av rörelse och djup; situationer i staden och landsbygden etc.	Länk
CV	Video	JAAD, vid York University, Ukraina, Kanada	Bil	Gränslåda, beteendemärke	"JAAD är en dataset för att studera gemensam uppmärksamhet i samband med autonom körning. Fokus ligger på fotgängares och förares beteenden vid korsningspunkten och faktorer som påverkar dem. För detta ändamål ger JAAD dataset en rikt kommenterad samling av 346 kort video klipp (5-10 sek långa) extraherade från över 240 timmars körning av bilder från flera platser i Nordamerika och Östeuropa. Avgränsande rutor med ocklusionstaggar används för alla fotgängare vilket gör denna uppsättning lämplig för detektering av fotgängare. Beteendeanmärkningar anger beteenden för fotgängare som interagerar med eller kräver uppmärksamhet från föraren. För varje video finns det flera taggar (väder, platser osv.) och tidsstämplade beteendeetiketter (t.ex. stoppade, gå, titta osv.). tillhandahålls för varje fotgängare (t.ex. ålder, kön, rörelseriktning etc.) samt en lista över synliga trafikplatselement (t.ex. stoppskylt, trafiksignal osv.) i varje bildruta. "	Länk
CV	Video	KAIST Urban, av KAIST, Sydkorea	Allmänt	LiDAR	Datainsamlingen innefattar många lägesgivare för LiDAR-data och stereobilder inriktade på ett mycket komplext stadsområde (t.ex. storstadsområden, komplexa byggnader och bostadsområden).	Länk
CV	Bild	LISA Traffic Sign, av Univ. i Kalifornien, San Diego, USA	Bil	Gränslåda	Uppsättningen dataset som innehåller videor och antecknade ramar som innehåller amerikanska trafikskyltar. Den släpps i två steg, en med bara bilderna och en med både bilder och videor.	Länk
CV	Bild	Mapillary Vistas, av Mapillary AB, Global	Bil	Semantisk etikett	En fotografidata på gatunivå för tolkning av gatuscener runt om i världen med pixelnoggranna och instansspecifika mänskliga kommentarer.	Länk
CV	Video, bild	Semantisk KITTI, vid University of Bonn, Karlsruhe, Tyskland	Bil	Gränslåda, semantisk etikett, spårmarkering	En dataset som innehåller en semantisk kommentar för alla Odometry Benchmark-sekvenser. Datasetet antecknar olika typer av rörlig och icke rörlig trafik: inklusive bilar, cyklar, cyklar, fotgängare och cyklister, så att objekt i scenen kan studeras.	Länk
CV	Video	Stanford Track, av Stanford Univ., USA	Bil	Objektdetektering / klassificering LiDAR, GPS, koder	En dataset som innehåller 14,000 64 märkta objektspår som observerats av en Velodyne HDL-2E S3 LIDAR i naturliga gatuscener, som kan användas för att träna maskininlärningsmodeller för XNUMXD-objektigenkänning.	Länk
CV	Video, bild	The Boxy Dataset, av Bosch, USA	Bil	Avgränsningslåda / fordonsdetektering	En datauppsättning för fordonsdetektering som innehåller 2 miljoner antecknade fordon för utbildning och analys av objektigenkänningsstrategier för självkörande bilar på motorvägar.	Länk
CV	Video	TME Motorway, av Tjeckiska tekniska universitetet, norra Italien	Bil	Gränslåda	En datasats med 28 klipp för totalt 27 minuter delade in i 30,000 XNUMX+ bilanteckningsramar. Annotering producerades halvautomatiskt med hjälp av data från laserskannern. Denna datainsamling involverar varierande trafikscenarier, antal körfält, vägkrökning och belysning, som täcker mycket av villkoren för hela förvärvet.	Länk
CV	Video	Unsupervised Llamas, av Bosch, USA	Bil	Fältmärkning, LiDAR	Datatillståndet Oövervakad Llamas antecknades genom att generera högupplösta automatiska körkartor, inklusive Lidar-baserade körmarkörer. Det autonoma fordonet kan justeras mot dessa kartor och filmarkeringarna projiceras i kamerans ram. 3D-projiceringen optimeras genom att minimera avvikelsen mellan redan observerade och förutsagda bildmarkörer.	Länk
NLP	Audio	Facebook AI Flerspråkig LibriSpeech (MLS)	Allmänt	Ljudnotering / taligenkänning	Facebook AI Multilingual LibriSpeech (MLS) är en storskalig datamängd med öppen källkod som är utformad för att hjälpa forskningen inom automatisk taligenkänning (ASR). MLS tillhandahåller mer än 50,000 8 timmar ljud på åtta språk: engelska, tyska, nederländska, franska, spanska, italienska, portugisiska och polska.	Länk

Öppna datamängder

Datakällor med öppen källkod för att komma igång med AI/ML -modeller

AI-datatjänster

Specialitet

Industri

Produkter

Företag

Resurser

Kontakta oss