Öppna datamängder

Upptäck datauppsättningar med öppen källkod som får dig att träna ML -modeller

Datakällor med öppen källkod för att komma igång med AI/ML -modeller

Resultatet från dina AI & ML-modeller är bara lika bra som den data du använder för att träna den - så den precision som du använder för dataggregation och märkning och identifiering av dessa data är viktig!

Så om du vill starta ett nytt AI / ML-initiativ och nu inser du snabbt att hitta träningsdata av hög kvalitet kommer att vara en av de mer utmanande aspekterna av ditt projekt eftersom högkvalitativa datamängder är det bränsle som håller AI / ML-motorn går. Vi har samlat en lista över öppna datamängder som är fria att använda och träna framtidens AI / ML-modeller.

FördjupningData typDataset NamnIndustri / Inst.Kommentar / användningsfallBeskrivningLänk
NLPtextAmazon RecensionerE-handelSentimentanalysEn uppsättning av 35 Mn recensioner och betyg från de senaste 18 åren i klartext med användar- och produktinformation.Länk
NLPtextWikipedia länkar dataAllmäntMer än 4 Mn. artiklar som innehåller 1.9 miljarder. ord som består av ord och fraser samt stycken.Länk
NLPtextStandford Sentiment TreebankUnderhållningSentimentanalysSentimentanteckningar dataset för över 10,000 bitar av recensioner från Rotten Tomatoes i HTML-filformatLänk
NLPtextTwitter US Airline SentimentFlygbolagSentimentanalys2015 Tweets på US Airlines delades in i positiva, negativa och neutrala tonerLänk
CVBild Märkta ansikten i naturenAllmäntansiktsigenkänningDataset innehåller över 13,000 XNUMX beskurna ansikten med två olika bilder för ansiktsigenkänningsträning.Länk
CVVideo, bildUMDFaces-datauppsättningAllmäntansiktsigenkänningKommenterad datauppsättning som innehåller över 367,000 8,000 ansikten från över XNUMX XNUMX ämnen som inkluderar stillbilder och videobilder.Länk
CVBild ImagenetAllmäntDataset med över 14 Mn. bilder i olika filformat, organiserade enligt WordNet-hierarkin.Länk
CVBild Googles öppna bilderAllmänt9 Mn. Webbadresser för att kategorisera offentliga bilder från över 6,000 kategorier.Länk
NLPtextMIMIC Critical Care DatabaseSjukvårdDatamängder för beräkningsfysiologi med avidentifierade data från 40,000 XNUMX patienter med kritisk vård. Datauppsättningen innehåller information som demografi, vitala tecken, mediciner etc.Länk
CVBildUSA: s nationella rese- och turismkontorTurismGer breda fotografier från turistindustrin med pålitliga databaser, som täcker ämnen som in- och utresor och internationell turistinformation.Länk
NLPtextDepartment of TransportationTurismTurismdatauppsättningar som inkluderar nationalparker, förarregister, broar och järnvägsinformation etc.Länk
NLPAudioFlickr Audio Caption CorpusAllmäntÖver 40 8,000 bildtexter från XNUMX XNUMX fotografier designade för oövervakade talmönsterLänk
NLPAudioTalkommandodatasetAllmäntTaligenkänning, ljudkommentar1 sekund långa uttalanden från tusentals individer, för att bygga grundläggande röstgränssnitt.Länk
NLPAudioFSD (friljud)AllmäntEn sammanställning av ljud varje dag som samlats under en öppen källkodslicens.Länk
NLPAudioMiljödatauppsättningarAllmäntMiljödata-datauppsättningar som innehåller ljud från evenemangstabeller och akustiska scenbord.Länk
NLPtextCOVID-19 öppen forskningsdataset SjukvårdMedicinsk AIEn forskningsdataset bestående av 45,000 19 vetenskapliga artiklar om COVID-XNUMX och coronavirusfamiljen.Länk
CVBildWaymo Öppna Dataset BilDe mest olika autonoma kördataset som släppts av WaymoLänk
CVBildVisuellt genom AllmäntBildtextningEn visuell kunskapsbas med detaljerad bildtext på över 100 XNUMX bilderLänk
CVBildLabelme Offentlig regeringStor uppsättning antecknade bilder som är tillgängliga via Labelme MatlabLänk
CVBildCOIL100AllmäntÖver 100 olika föremål fotograferade från flera vinklar (dvs. 360 grader)Länk
CVBildStanford Dogs DatasetAllmäntÖver 20,500 120+ bilder kategoriserade i bilduppsättning med XNUMX olika hundraserLänk
CVBildInomhus scen erkännandeAllmäntScenigenkänningEn specifik dataset bestående av 15620 bilder från 67 inomhuskategorier för att bygga scenigenkänningsmodellerLänk
CVBildVisualQAAllmäntEn dataset som innehåller öppna frågor relaterade till 265,016 XNUMX foton som kräver förståelse för syn och språkförståelse för att svara.Länk
NLPtextDataset för multidomain sentimentanalysE-handelSentimentanalysDataset som innehåller produktrecensioner från AmazonLänk
NLPtextIMDB RecensionerUnderhållningSentimentanalysDataset som innehåller 25000 filmrecensioner för sentimentanalysLänk
NLPtextKänsla140AllmäntSentimentanalysDataset innehåller 160,000 XNUMX tweets med för borttagna uttryckssymboler för högre noggrannhetLänk
NLPtextBloggarkorpusAllmäntNyckelord AnanlysDataset som innehåller 681,288 blogginlägg från blogger.com som består av minst 200 förekomster av allmänt använda engelska ord.Länk
NLPtextJeopardyAllmäntChatbot-utbildningDataset med mer än 200,000 XNUMX frågor som kan användas för att träna maskininlärningsmodeller för att automatiskt svara automatisktLänk
NLPtextSMS Spam Collection på engelskaTelekomSpamigenkänningEn datauppsättning för skräppost som består av 5,574 engelska SMSLänk
NLPtextYelp-recensionerAllmäntSentimentanalysEn dataset med över 5 minuters granskning publicerad av YelpLänk
NLPtextUCI: s SpambaseFöretagSpamigenkänningEn stor uppsättning skräppostmeddelanden, användbart för skräppostfiltrering.Länk
CVVideo, bildBerkeley DeepDrive BDD100kBilAutonoma fordonEn av de största datamängderna för självkörande AI som innehåller 1,100 timmars körupplevelser i över 100,000 XNUMX videor från olika tider på dagen från New York och San Francisco-området.Länk
CVVideoBaidu ApolloscapesBilAutonoma fordon,, Semantisk etikett, körfältmärkningEn bred bilduppsättning som beskriver 26 separata semantiska objekt, såsom fordon, cyklister, människor, hus, gatubelysning etc.Länk
CVVideoComma.aiBilAutonoma fordon En 7-timmars körsats för motorväg som innehåller information om bilens hastighet, acceleration, styrvinkel och GPS-koordinaterLänk
CVVideo, bildStadsbildsdatasetBilSemantisk etikett för autonoma fordonEn dataset med 5,000 20,000 pixelnivåanteckningar plus en större uppsättning 50 XNUMX svagt kommenterade ramar i stereovideosekvenser, inspelade från XNUMX olika städerLänk
CVBildKUL Belgiens trafikskyltsdatasetBilAutonoma fordonÖver 10000+ trafikskyltar från Flandern-regionen baserade på fysiskt distinkta trafikskyltar från hela Belgien.Länk
CVBildLISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego DatasetsBilAutonoma fordonEn omfattande dataset som innehåller trafikskyltar, fordonsdetektering, trafikljus och banmönster.Länk
CVBildCIFAR-10AllmäntObjektsigenkänningEn dataset består av 50,000 10,000 bilder och 60,000 32 testbilder (dvs. 32 10 XNUMX × XNUMX färgbilder i XNUMX klasser) för objektigenkänning.Länk
CVBildMode MNISTModeEn bilduppsättning som består av 60,000 10,000 exempel och en testuppsättning med 28 28 exempel i 10 × XNUMX gråskalebilder, associerade med en etikett från XNUMX klasser.Länk
CVBildIMDB-Wiki-datauppsättningUnderhållningansiktsigenkänningEn stor uppsättning ansiktsbilder med etiketter som kön och ålder. Av de totala 523,051 460,723 ansiktsbilderna erhålls 20,284 62,328 bilder från XNUMX XNUMX kändisar från IMDB och XNUMX XNUMX från Wikipedia.Länk
CVVideoKinetics-700AllmäntFör varje actionklass består datasetet av hög kvalitet av 650,000 700 videoklipp och omfattar 600 mänskliga actionklasser med minst 10 videoklipp. Här varar varje klipp i cirka XNUMX sekunder.Länk
CVBildMS CocoAllmäntObjektdetektering, segmenteringDatauppsättningen innehåller 328 2.5 bilder och har totalt 91 Mn-instanser och XNUMX objektbilder för att träna storskaliga objektdetektering, segmentering och datatekst relaterade ML-modeller.Länk
CVBildMPII Mänsklig Pose DatasetAllmäntCirka 25 40 fotografier som innehåller över 410 XNUMX personer med annoterade kroppsfogar ingår i datamängden, som används för att artikulera människors ställningsuppskattning. Sammantaget täcker datamängden XNUMX mänskliga aktiviteter och varje bild har en aktivitetsetikett.Länk
CVBildÖppna bilderAllmäntKommentarer om objektets platsBilddatauppsättning med cirka 9 Mn-bilder antecknade med bildnivåetiketter, objektgränsande rutor, objektsegmentering etc. Datasetet består också av 16 Mn. avgränsningsrutor för 600 objektklasser på 1.9 Mn-bilder.Länk
CVVideoApollo Open Platform, av Baidu Inc, KinaBilBounding Box, LiDAREn rik autonom kördataset som ger utvecklare erforderlig data vid autonom körning för att påskynda effektiviteten i den innovativa iterationen.Länk
CVVideo, bildArgo, av Argo, USABilGränslåda, optiskt flöde, beteendeetikett, semantisk etikett, spårmarkeringEn självkörande dataset som består av HD-kartor med geometriska och semantiska metadata, dvs. körfältets mittlinjer, körriktning och körbart område. Datauppsättningen används för att träna ML-modeller, för att skapa mer exakta uppfattningsalgoritmer, som hjälper självkörande fordon att navigera säkert.Länk
CVVideoBosch små trafikljus, av Bosch North America ResearchBilGränslådaEn dataset som består av 13427 kamerabilder med en upplösning på 1280 * 720 för att bygga visionbaserat trafikljusdetekteringssystem. Datauppsättningen har mer än 24000 annoterade trafikljus.Länk
CVVideoBrain4Cars, av Cornell Univ., USABilBeteendemärkeEn datauppsättning som består av en rad kabinsensorer (kameror, taktila sensorer, smarta enheter etc.) för att extrahera användbar statistik om förarens vakenhet. Våra algoritmer kan upptäcka förare som är dåsiga eller distraherade och öka nödvändiga larm för att förbättra skyddet.Länk
CVVideoCaltech Pedestrian (2009), av California Inst. från Tech., Los Angeles, USABilGränslådaDataset består av 10 timmar 640x480 30Hz-bilder som fångats i en stadsmiljö från en bil som reser genom normal trafik. Cirka 250,000 137 ramar (i cirka 350,000 minuter långa segment) med totalt 2300 XNUMX gränslådor och XNUMX specifika fotgängare antecknades.Länk
CVBildCULane, av kinesiska Univ. Hong Kong, Peking, KinaBilFältmärkningEn datorvisionsdataset om detektering av trafikfiler, som består av 55 timmars videor, av vilka 133,235 88880 (9675 träningssats, 34680 valideringsuppsättning och XNUMX testuppsättning) ramar extraherades. Det samlas in av kameror monterade på sex olika fordon som drivs av olika förare i Peking.Länk
CVVideoDAVIS, av Univ. i Zürich, ETH ¨ Zürich, Tyskland, SchweizBilEn end-to-end fordonskörningsutbildningsdataset som använder en DAVIS händelse + ramkamera Bildata som styrning, gas, GPS, etc. används för att utvärdera sammanslagningen av ram- och händelsesdata för fordonsappar.Länk
CVVideoDBNet, av Shanghai Jiao Tong Univ., Xiamen Univ., KinaBilPoint Cloud, LiDAREn verklig 1000 km kördata, som inkluderar anpassad video, punktmoln, GPS och förarbeteende för djupgående forskning om körbeteende.Länk
CVVideoDr (öga), av Univ. av Modena och Reggio Emilia, Modena, ItalienBilBeteendemärkeDataset som innehåller 74 videosekvenser om 5 minuter vardera, som antecknades i mer än 500,000 XNUMX bilder. Datauppsättningen består av geografiskt refererade platser, körhastighet, kurs och märker också förarblicksfixeringar och deras tidsmässiga integrering som tillhandahåller uppgiftspecifika kartor.Länk
CVVideoETH Pedestrian (2009), av ETH Zürich, Zürich, SchweizAllmäntGränslådaEn dataset med 74 videosekvenser om 5 minuter vardera, antecknade i mer än 500,000 XNUMX bilder. Datauppsättningen tillhandahåller geo-refererade positioner, körhastighet, riktning och märker också blickfixeringar för förare och deras tidsintegrering, inklusive uppgiftspecifika kartor.Länk
CVVideoFord (2009), av Univ. av Michigan, Michigan, USABilBounding Box, LiDAREn dataset sammanställd av ett automatiserat landfordon beväpnat med en Velodyne 3D-lidar-skanner, två framåtblickande Rieg-lidars, en teknisk och konsumentinertialmätningsenhet (IMU) och ett Point Grey Ladybug3 rundstrålande kamerasystem.Länk
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, TysklandAllmäntEn dataset med flera miljoner bilder från inspelade videoscener som innehåller ett brett utbud av olika väderförhållanden, flera lager av rörelse och djup; situationer i staden och landsbygden etc.Länk
CVVideoJAAD, vid York University, Ukraina, KanadaBilGränslåda, beteendemärke"JAAD är en dataset för att studera gemensam uppmärksamhet i samband med autonom körning. Fokus ligger på fotgängares och förares beteenden vid korsningspunkten och faktorer som påverkar dem. För detta ändamål ger JAAD dataset en rikt kommenterad samling av 346 kort video klipp (5-10 sek långa) extraherade från över 240 timmars körning av bilder från flera platser i Nordamerika och Östeuropa. Avgränsande rutor med ocklusionstaggar används för alla fotgängare vilket gör denna uppsättning lämplig för detektering av fotgängare. Beteendeanmärkningar anger beteenden för fotgängare som interagerar med eller kräver uppmärksamhet från föraren. För varje video finns det flera taggar (väder, platser osv.) och tidsstämplade beteendeetiketter (t.ex. stoppade, gå, titta osv.). tillhandahålls för varje fotgängare (t.ex. ålder, kön, rörelseriktning etc.) samt en lista över synliga trafikplatselement (t.ex. stoppskylt, trafiksignal osv.) i varje bildruta. "Länk
CVVideoKAIST Urban, av KAIST, SydkoreaAllmäntLiDARDatainsamlingen innefattar många lägesgivare för LiDAR-data och stereobilder inriktade på ett mycket komplext stadsområde (t.ex. storstadsområden, komplexa byggnader och bostadsområden).Länk
CVBildLISA Traffic Sign, av Univ. i Kalifornien, San Diego, USABilGränslådaUppsättningen dataset som innehåller videor och antecknade ramar som innehåller amerikanska trafikskyltar. Den släpps i två steg, en med bara bilderna och en med både bilder och videor.Länk
CVBildMapillary Vistas, av Mapillary AB, GlobalBilSemantisk etikettEn fotografidata på gatunivå för tolkning av gatuscener runt om i världen med pixelnoggranna och instansspecifika mänskliga kommentarer.Länk
CVVideo, bildSemantisk KITTI, vid University of Bonn, Karlsruhe, TysklandBilGränslåda, semantisk etikett, spårmarkeringEn dataset som innehåller en semantisk kommentar för alla Odometry Benchmark-sekvenser. Datasetet antecknar olika typer av rörlig och icke rörlig trafik: inklusive bilar, cyklar, cyklar, fotgängare och cyklister, så att objekt i scenen kan studeras.Länk
CVVideoStanford Track, av Stanford Univ., USABilObjektdetektering / klassificering LiDAR, GPS, koderEn dataset som innehåller 14,000 64 märkta objektspår som observerats av en Velodyne HDL-2E S3 LIDAR i naturliga gatuscener, som kan användas för att träna maskininlärningsmodeller för XNUMXD-objektigenkänning.Länk
CVVideoStixel, av Daimler AG, TysklandBilStixelEn dataset bestående av 12 stereovägssekvenser antecknade med marksannhetsdata om fritt utrymme (stixels) och fordonsdata (hastighet, girvinkel och tidsstämpel) och kamerans geometri.Länk
CVVideo, bildThe Boxy Dataset, av Bosch, USABilAvgränsningslåda / fordonsdetekteringEn datauppsättning för fordonsdetektering som innehåller 2 miljoner antecknade fordon för utbildning och analys av objektigenkänningsstrategier för självkörande bilar på motorvägar.Länk
CVVideoTME Motorway, av Tjeckiska tekniska universitetet, norra ItalienBilGränslådaEn datasats med 28 klipp för totalt 27 minuter delade in i 30,000 XNUMX+ bilanteckningsramar. Annotering producerades halvautomatiskt med hjälp av data från laserskannern. Denna datainsamling involverar varierande trafikscenarier, antal körfält, vägkrökning och belysning, som täcker mycket av villkoren för hela förvärvet.Länk
CVVideoUnsupervised Llamas, av Bosch, USABilFältmärkning, LiDARDatatillståndet Oövervakad Llamas antecknades genom att generera högupplösta automatiska körkartor, inklusive Lidar-baserade körmarkörer. Det autonoma fordonet kan justeras mot dessa kartor och filmarkeringarna projiceras i kamerans ram. 3D-projiceringen optimeras genom att minimera avvikelsen mellan redan observerade och förutsagda bildmarkörer.Länk
NLPAudioFacebook AI Flerspråkig LibriSpeech (MLS)AllmäntLjudnotering / taligenkänningFacebook AI Multilingual LibriSpeech (MLS) är en storskalig datamängd med öppen källkod som är utformad för att hjälpa forskningen inom automatisk taligenkänning (ASR). MLS tillhandahåller mer än 50,000 8 timmar ljud på åtta språk: engelska, tyska, nederländska, franska, spanska, italienska, portugisiska och polska. Länk