Öppna datamängder
Upptäck datauppsättningar med öppen källkod som får dig att träna ML -modeller
Datakällor med öppen källkod för att komma igång med AI/ML -modeller
Resultatet från dina AI & ML-modeller är bara lika bra som den data du använder för att träna den - så den precision som du använder för dataggregation och märkning och identifiering av dessa data är viktig!
Så om du vill starta ett nytt AI / ML-initiativ och nu inser du snabbt att hitta träningsdata av hög kvalitet kommer att vara en av de mer utmanande aspekterna av ditt projekt eftersom högkvalitativa datamängder är det bränsle som håller AI / ML-motorn går. Vi har samlat en lista över öppna datamängder som är fria att använda och träna framtidens AI / ML-modeller.
Fördjupning | Data typ | Dataset Namn | Industri / Inst. | Kommentar / användningsfall | Beskrivning | Länk |
---|---|---|---|---|---|---|
NLP | text | Amazon Recensioner | E-handel | Sentimentanalys | En uppsättning av 35 Mn recensioner och betyg från de senaste 18 åren i klartext med användar- och produktinformation. | Länk |
NLP | text | Wikipedia länkar data | Allmänt | Mer än 4 Mn. artiklar som innehåller 1.9 miljarder. ord som består av ord och fraser samt stycken. | Länk | |
NLP | text | Standford Sentiment Treebank | Underhållning | Sentimentanalys | Sentimentanteckningar dataset för över 10,000 bitar av recensioner från Rotten Tomatoes i HTML-filformat | Länk |
NLP | text | Twitter US Airline Sentiment | Flygbolag | Sentimentanalys | 2015 Tweets på US Airlines delades in i positiva, negativa och neutrala toner | Länk |
CV | Bild | Märkta ansikten i naturen | Allmänt | ansiktsigenkänning | Dataset innehåller över 13,000 XNUMX beskurna ansikten med två olika bilder för ansiktsigenkänningsträning. | Länk |
CV | Video, bild | UMDFaces-datauppsättning | Allmänt | ansiktsigenkänning | Kommenterad datauppsättning som innehåller över 367,000 8,000 ansikten från över XNUMX XNUMX ämnen som inkluderar stillbilder och videobilder. | Länk |
CV | Bild | Imagenet | Allmänt | Dataset med över 14 Mn. bilder i olika filformat, organiserade enligt WordNet-hierarkin. | Länk | |
CV | Bild | Googles öppna bilder | Allmänt | 9 Mn. Webbadresser för att kategorisera offentliga bilder från över 6,000 kategorier. | Länk | |
NLP | text | MIMIC Critical Care Database | Sjukvård | Datamängder för beräkningsfysiologi med avidentifierade data från 40,000 XNUMX patienter med kritisk vård. Datauppsättningen innehåller information som demografi, vitala tecken, mediciner etc. | Länk | |
CV | Bild | USA: s nationella rese- och turismkontor | Turism | Ger breda fotografier från turistindustrin med pålitliga databaser, som täcker ämnen som in- och utresor och internationell turistinformation. | Länk | |
NLP | text | Department of Transportation | Turism | Turismdatauppsättningar som inkluderar nationalparker, förarregister, broar och järnvägsinformation etc. | Länk | |
NLP | Audio | Flickr Audio Caption Corpus | Allmänt | Över 40 8,000 bildtexter från XNUMX XNUMX fotografier designade för oövervakade talmönster | Länk | |
NLP | Audio | Talkommandodataset | Allmänt | Taligenkänning, ljudkommentar | 1 sekund långa uttalanden från tusentals individer, för att bygga grundläggande röstgränssnitt. | Länk |
NLP | Audio | Miljödatauppsättningar | Allmänt | Miljödata-datauppsättningar som innehåller ljud från evenemangstabeller och akustiska scenbord. | Länk | |
NLP | text | COVID-19 öppen forskningsdataset | Sjukvård | Medicinsk AI | En forskningsdataset bestående av 45,000 19 vetenskapliga artiklar om COVID-XNUMX och coronavirusfamiljen. | Länk |
CV | Bild | Waymo Öppna Dataset | Bil | De mest olika autonoma kördataset som släppts av Waymo | Länk | |
CV | Bild | Visuellt genom | Allmänt | Bildtextning | En visuell kunskapsbas med detaljerad bildtext på över 100 XNUMX bilder | Länk |
CV | Bild | Labelme | Offentlig regering | Stor uppsättning antecknade bilder som är tillgängliga via Labelme Matlab | Länk | |
CV | Bild | COIL100 | Allmänt | Över 100 olika föremål fotograferade från flera vinklar (dvs. 360 grader) | Länk | |
CV | Bild | Stanford Dogs Dataset | Allmänt | Över 20,500 120+ bilder kategoriserade i bilduppsättning med XNUMX olika hundraser | Länk | |
CV | Bild | Inomhus scen erkännande | Allmänt | Scenigenkänning | En specifik dataset bestående av 15620 bilder från 67 inomhuskategorier för att bygga scenigenkänningsmodeller | Länk |
CV | Bild | VisualQA | Allmänt | En dataset som innehåller öppna frågor relaterade till 265,016 XNUMX foton som kräver förståelse för syn och språkförståelse för att svara. | Länk | |
NLP | text | Dataset för multidomain sentimentanalys | E-handel | Sentimentanalys | Dataset som innehåller produktrecensioner från Amazon | Länk |
NLP | text | IMDB Recensioner | Underhållning | Sentimentanalys | Dataset som innehåller 25000 filmrecensioner för sentimentanalys | Länk |
NLP | text | Känsla140 | Allmänt | Sentimentanalys | Dataset innehåller 160,000 XNUMX tweets med för borttagna uttryckssymboler för högre noggrannhet | Länk |
NLP | text | Bloggarkorpus | Allmänt | Nyckelord Ananlys | Dataset som innehåller 681,288 blogginlägg från blogger.com som består av minst 200 förekomster av allmänt använda engelska ord. | Länk |
NLP | text | Jeopardy | Allmänt | Chatbot-utbildning | Dataset med mer än 200,000 XNUMX frågor som kan användas för att träna maskininlärningsmodeller för att automatiskt svara automatiskt | Länk |
NLP | text | SMS Spam Collection på engelska | Telekom | Spamigenkänning | En datauppsättning för skräppost som består av 5,574 engelska SMS | Länk |
NLP | text | Yelp-recensioner | Allmänt | Sentimentanalys | En dataset med över 5 minuters granskning publicerad av Yelp | Länk |
NLP | text | UCI: s Spambase | Företag | Spamigenkänning | En stor uppsättning skräppostmeddelanden, användbart för skräppostfiltrering. | Länk |
CV | Video, bild | Berkeley DeepDrive BDD100k | Bil | Autonoma fordon | En av de största datamängderna för självkörande AI som innehåller 1,100 timmars körupplevelser i över 100,000 XNUMX videor från olika tider på dagen från New York och San Francisco-området. | Länk |
CV | Video | Comma.ai | Bil | Autonoma fordon | En 7-timmars körsats för motorväg som innehåller information om bilens hastighet, acceleration, styrvinkel och GPS-koordinater | Länk |
CV | Video, bild | Stadsbildsdataset | Bil | Semantisk etikett för autonoma fordon | En dataset med 5,000 20,000 pixelnivåanteckningar plus en större uppsättning 50 XNUMX svagt kommenterade ramar i stereovideosekvenser, inspelade från XNUMX olika städer | Länk |
CV | Bild | KUL Belgiens trafikskyltsdataset | Bil | Autonoma fordon | Över 10000+ trafikskyltar från Flandern-regionen baserade på fysiskt distinkta trafikskyltar från hela Belgien. | Länk |
CV | Bild | LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets | Bil | Autonoma fordon | En omfattande dataset som innehåller trafikskyltar, fordonsdetektering, trafikljus och banmönster. | Länk |
CV | Bild | CIFAR-10 | Allmänt | Objektsigenkänning | En dataset består av 50,000 10,000 bilder och 60,000 32 testbilder (dvs. 32 10 XNUMX × XNUMX färgbilder i XNUMX klasser) för objektigenkänning. | Länk |
CV | Bild | Mode MNIST | Mode | En bilduppsättning som består av 60,000 10,000 exempel och en testuppsättning med 28 28 exempel i 10 × XNUMX gråskalebilder, associerade med en etikett från XNUMX klasser. | Länk | |
CV | Bild | IMDB-Wiki-datauppsättning | Underhållning | ansiktsigenkänning | En stor uppsättning ansiktsbilder med etiketter som kön och ålder. Av de totala 523,051 460,723 ansiktsbilderna erhålls 20,284 62,328 bilder från XNUMX XNUMX kändisar från IMDB och XNUMX XNUMX från Wikipedia. | Länk |
CV | Video | Kinetics-700 | Allmänt | För varje actionklass består datasetet av hög kvalitet av 650,000 700 videoklipp och omfattar 600 mänskliga actionklasser med minst 10 videoklipp. Här varar varje klipp i cirka XNUMX sekunder. | Länk | |
CV | Bild | MS Coco | Allmänt | Objektdetektering, segmentering | Datauppsättningen innehåller 328 2.5 bilder och har totalt 91 Mn-instanser och XNUMX objektbilder för att träna storskaliga objektdetektering, segmentering och datatekst relaterade ML-modeller. | Länk |
CV | Bild | MPII Mänsklig Pose Dataset | Allmänt | Cirka 25 40 fotografier som innehåller över 410 XNUMX personer med annoterade kroppsfogar ingår i datamängden, som används för att artikulera människors ställningsuppskattning. Sammantaget täcker datamängden XNUMX mänskliga aktiviteter och varje bild har en aktivitetsetikett. | Länk | |
CV | Bild | Öppna bilder | Allmänt | Kommentarer om objektets plats | Bilddatauppsättning med cirka 9 Mn-bilder antecknade med bildnivåetiketter, objektgränsande rutor, objektsegmentering etc. Datasetet består också av 16 Mn. avgränsningsrutor för 600 objektklasser på 1.9 Mn-bilder. | Länk |
CV | Video | Apollo Open Platform, av Baidu Inc, Kina | Bil | Bounding Box, LiDAR | En rik autonom kördataset som ger utvecklare erforderlig data vid autonom körning för att påskynda effektiviteten i den innovativa iterationen. | Länk |
CV | Video, bild | Argo, av Argo, USA | Bil | Gränslåda, optiskt flöde, beteendeetikett, semantisk etikett, spårmarkering | En självkörande dataset som består av HD-kartor med geometriska och semantiska metadata, dvs. körfältets mittlinjer, körriktning och körbart område. Datauppsättningen används för att träna ML-modeller, för att skapa mer exakta uppfattningsalgoritmer, som hjälper självkörande fordon att navigera säkert. | Länk |
CV | Video | Bosch små trafikljus, av Bosch North America Research | Bil | Gränslåda | En dataset som består av 13427 kamerabilder med en upplösning på 1280 * 720 för att bygga visionbaserat trafikljusdetekteringssystem. Datauppsättningen har mer än 24000 annoterade trafikljus. | Länk |
CV | Video | Brain4Cars, av Cornell Univ., USA | Bil | Beteendemärke | En datauppsättning som består av en rad kabinsensorer (kameror, taktila sensorer, smarta enheter etc.) för att extrahera användbar statistik om förarens vakenhet. Våra algoritmer kan upptäcka förare som är dåsiga eller distraherade och öka nödvändiga larm för att förbättra skyddet. | Länk |
CV | Bild | CULane, av kinesiska Univ. Hong Kong, Peking, Kina | Bil | Fältmärkning | En datorvisionsdataset om detektering av trafikfiler, som består av 55 timmars videor, av vilka 133,235 88880 (9675 träningssats, 34680 valideringsuppsättning och XNUMX testuppsättning) ramar extraherades. Det samlas in av kameror monterade på sex olika fordon som drivs av olika förare i Peking. | Länk |
CV | Video | DAVIS, av Univ. i Zürich, ETH ¨ Zürich, Tyskland, Schweiz | Bil | En end-to-end fordonskörningsutbildningsdataset som använder en DAVIS händelse + ramkamera Bildata som styrning, gas, GPS, etc. används för att utvärdera sammanslagningen av ram- och händelsesdata för fordonsappar. | Länk | |
CV | Video | DBNet, av Shanghai Jiao Tong Univ., Xiamen Univ., Kina | Bil | Point Cloud, LiDAR | En verklig 1000 km kördata, som inkluderar anpassad video, punktmoln, GPS och förarbeteende för djupgående forskning om körbeteende. | Länk |
CV | Video | Dr (öga), av Univ. av Modena och Reggio Emilia, Modena, Italien | Bil | Beteendemärke | Dataset som innehåller 74 videosekvenser om 5 minuter vardera, som antecknades i mer än 500,000 XNUMX bilder. Datauppsättningen består av geografiskt refererade platser, körhastighet, kurs och märker också förarblicksfixeringar och deras tidsmässiga integrering som tillhandahåller uppgiftspecifika kartor. | Länk |
CV | Video | ETH Pedestrian (2009), av ETH Zürich, Zürich, Schweiz | Allmänt | Gränslåda | En dataset med 74 videosekvenser om 5 minuter vardera, antecknade i mer än 500,000 XNUMX bilder. Datauppsättningen tillhandahåller geo-refererade positioner, körhastighet, riktning och märker också blickfixeringar för förare och deras tidsintegrering, inklusive uppgiftspecifika kartor. | Länk |
CV | Video | Ford (2009), av Univ. av Michigan, Michigan, USA | Bil | Bounding Box, LiDAR | En dataset sammanställd av ett automatiserat landfordon beväpnat med en Velodyne 3D-lidar-skanner, två framåtblickande Rieg-lidars, en teknisk och konsumentinertialmätningsenhet (IMU) och ett Point Grey Ladybug3 rundstrålande kamerasystem. | Länk |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Tyskland | Allmänt | En dataset med flera miljoner bilder från inspelade videoscener som innehåller ett brett utbud av olika väderförhållanden, flera lager av rörelse och djup; situationer i staden och landsbygden etc. | Länk | |
CV | Video | JAAD, vid York University, Ukraina, Kanada | Bil | Gränslåda, beteendemärke | "JAAD är en dataset för att studera gemensam uppmärksamhet i samband med autonom körning. Fokus ligger på fotgängares och förares beteenden vid korsningspunkten och faktorer som påverkar dem. För detta ändamål ger JAAD dataset en rikt kommenterad samling av 346 kort video klipp (5-10 sek långa) extraherade från över 240 timmars körning av bilder från flera platser i Nordamerika och Östeuropa. Avgränsande rutor med ocklusionstaggar används för alla fotgängare vilket gör denna uppsättning lämplig för detektering av fotgängare. Beteendeanmärkningar anger beteenden för fotgängare som interagerar med eller kräver uppmärksamhet från föraren. För varje video finns det flera taggar (väder, platser osv.) och tidsstämplade beteendeetiketter (t.ex. stoppade, gå, titta osv.). tillhandahålls för varje fotgängare (t.ex. ålder, kön, rörelseriktning etc.) samt en lista över synliga trafikplatselement (t.ex. stoppskylt, trafiksignal osv.) i varje bildruta. " | Länk |
CV | Video | KAIST Urban, av KAIST, Sydkorea | Allmänt | LiDAR | Datainsamlingen innefattar många lägesgivare för LiDAR-data och stereobilder inriktade på ett mycket komplext stadsområde (t.ex. storstadsområden, komplexa byggnader och bostadsområden). | Länk |
CV | Bild | LISA Traffic Sign, av Univ. i Kalifornien, San Diego, USA | Bil | Gränslåda | Uppsättningen dataset som innehåller videor och antecknade ramar som innehåller amerikanska trafikskyltar. Den släpps i två steg, en med bara bilderna och en med både bilder och videor. | Länk |
CV | Bild | Mapillary Vistas, av Mapillary AB, Global | Bil | Semantisk etikett | En fotografidata på gatunivå för tolkning av gatuscener runt om i världen med pixelnoggranna och instansspecifika mänskliga kommentarer. | Länk |
CV | Video, bild | Semantisk KITTI, vid University of Bonn, Karlsruhe, Tyskland | Bil | Gränslåda, semantisk etikett, spårmarkering | En dataset som innehåller en semantisk kommentar för alla Odometry Benchmark-sekvenser. Datasetet antecknar olika typer av rörlig och icke rörlig trafik: inklusive bilar, cyklar, cyklar, fotgängare och cyklister, så att objekt i scenen kan studeras. | Länk |
CV | Video | Stanford Track, av Stanford Univ., USA | Bil | Objektdetektering / klassificering LiDAR, GPS, koder | En dataset som innehåller 14,000 64 märkta objektspår som observerats av en Velodyne HDL-2E S3 LIDAR i naturliga gatuscener, som kan användas för att träna maskininlärningsmodeller för XNUMXD-objektigenkänning. | Länk |
CV | Video, bild | The Boxy Dataset, av Bosch, USA | Bil | Avgränsningslåda / fordonsdetektering | En datauppsättning för fordonsdetektering som innehåller 2 miljoner antecknade fordon för utbildning och analys av objektigenkänningsstrategier för självkörande bilar på motorvägar. | Länk |
CV | Video | TME Motorway, av Tjeckiska tekniska universitetet, norra Italien | Bil | Gränslåda | En datasats med 28 klipp för totalt 27 minuter delade in i 30,000 XNUMX+ bilanteckningsramar. Annotering producerades halvautomatiskt med hjälp av data från laserskannern. Denna datainsamling involverar varierande trafikscenarier, antal körfält, vägkrökning och belysning, som täcker mycket av villkoren för hela förvärvet. | Länk |
CV | Video | Unsupervised Llamas, av Bosch, USA | Bil | Fältmärkning, LiDAR | Datatillståndet Oövervakad Llamas antecknades genom att generera högupplösta automatiska körkartor, inklusive Lidar-baserade körmarkörer. Det autonoma fordonet kan justeras mot dessa kartor och filmarkeringarna projiceras i kamerans ram. 3D-projiceringen optimeras genom att minimera avvikelsen mellan redan observerade och förutsagda bildmarkörer. | Länk |
NLP | Audio | Facebook AI Flerspråkig LibriSpeech (MLS) | Allmänt | Ljudnotering / taligenkänning | Facebook AI Multilingual LibriSpeech (MLS) är en storskalig datamängd med öppen källkod som är utformad för att hjälpa forskningen inom automatisk taligenkänning (ASR). MLS tillhandahåller mer än 50,000 8 timmar ljud på åtta språk: engelska, tyska, nederländska, franska, spanska, italienska, portugisiska och polska. | Länk |