Färdiga öppna datamängder för AI/ML
Upptäck datauppsättningar med öppen källkod som får dig att träna ML -modeller
Öppen källkodsdata för dina AI/ML-modeller
Att hitta rätt datamängd för din AI-modell borde inte ta veckor. Det öppna datamängdsbiblioteket ger ML-team omedelbar tillgång till 100+ kurerade, mänskligt validerade datamängder som spänner över NLP, datorseende, tal och generativ AI – allt gratis att utforska.
Så om du vill starta ett nytt AI / ML-initiativ och nu inser du snabbt att hitta träningsdata av hög kvalitet kommer att vara en av de mer utmanande aspekterna av ditt projekt eftersom högkvalitativa datamängder är det bränsle som håller AI / ML-motorn går. Vi har samlat en lista över öppna datamängder som är fria att använda och träna framtidens AI / ML-modeller.
| Fördjupning | Data typ | Dataset Namn | Industri / Inst. | Kommentar / användningsfall | Länk |
|---|---|---|---|---|---|
| +NLP | text | Amazon Recensioner | E-handel | Sentimentanalys | Länk |
| BESKRIVNING | En uppsättning av 35 Mn recensioner och betyg från de senaste 18 åren i klartext med användar- och produktinformation. | ||||
| +NLP | text | Wikipedia länkar data | Allmänt | Länk | |
| BESKRIVNING | Mer än 4 miljoner artiklar innehållande 1.9 miljarder ord från Wikipedia. Varje artikel innehåller hyperlänkar till den associerade enheten. | ||||
| +NLP | text | Standford Sentiment Treebank | Underhållning | Sentimentanalys | Länk |
| BESKRIVNING | Dataset för sentimentannoteringar för över 10 000 meningar från filmrecensioner från Rotten Tomatoes. Tillgängligt på frasnivå – varje mening tolkas i underfraser genom att binärisera tolkningsträden i Penn Treebank-format. | ||||
| +NLP | text | Twitter US Airline Sentiment | Flygbolag | Sentimentanalys | Länk |
| BESKRIVNING | 2015 års tweets om US Airlines delades upp i positiva, neutrala och negativa känslor. | ||||
| +CV | Bild | Imagenet | Allmänt | Länk | |
| BESKRIVNING | Dataset med över 14 miljoner bilder i olika filformat mappade till cirka 21 000 synsets. Synsets är synonymer med associerade enheter som presenteras som en bild. 1 miljoner bilder har avgränsande rutor och mer än 1 miljoner bilder har SIFT-funktioner. | ||||
| +CV | Bild | Googles öppna bilder | Allmänt | Länk | |
| BESKRIVNING | En datamängd liknande ImageNet med 600 kategorier. Tillgänglig i utvecklings-, validerings- och träningssegment. Vissa bilder innehåller även avgränsningsrutor och visuella relationer. | ||||
| +NLP | text | Cornell-filmdialoger | Underhållning | dialog~~POS=TRUNC | Länk |
| BESKRIVNING | En samling fiktiva samtal med metadata om karaktärer och filmer. Varje rad är en dialog mellan två personer i ett fråga-svar-format. | ||||
| BESKRIVNING | En fråge-svar-datauppsättning med frågor och svar från Yahoo Answers-portalen mellan april 2007 och oktober 2007. | ||||
| +NLP | text | MS MARCO | Allmänt | Frågeställning | Länk |
| BESKRIVNING | En datauppsättning med frågor och svar med anteckningar från Bings webbsökningsloggar. Varje fråga innehåller ett svar från en användare, samt webbavsnitt som innehåller svaret. | ||||
| +NLP | text | Naturliga frågor Dataset | Allmänt | Frågeställning | Länk |
| BESKRIVNING | Denna datauppsättning, som släpptes av Google, innehåller riktiga användarfrågor och svar från Wikipedia-artiklar. | ||||
| +NLP | text | DBPedia | Allmänt | Kunskap Diagram | Länk |
| BESKRIVNING | En strukturerad rendering av Wikipedia, med entiteter och relationer extraherade som en kunskapsgraf. | ||||
| +NLP | text | YAGO | Allmänt | Kunskap Diagram | Länk |
| BESKRIVNING | En kunskapsgraf som innehåller entiteter och relationer från Wikipedia, WordNet och GeoNames. | ||||
| +NLP | text | FreeBase | Allmänt | Kunskap Diagram | Länk |
| BESKRIVNING | En crowdsourcad kunskapsbas bestående av entiteter och relationer, nu införlivad i Googles kunskapsgraf. | ||||
| +NLP | text | Ontonotes | Allmänt | Semantisk rollmärkning | Länk |
| BESKRIVNING | En korpus med syntaktiska, semantiska och diskursnivåannoteringar som används i CoNLL:s delade uppgifter. | ||||
| BESKRIVNING | En engelsk datauppsättning kommenterad för namngivna entiteter som person, organisation och plats. | ||||
| +CV | Bild | Kokos | Allmänt | Objektdetektion | Länk |
| BESKRIVNING | Vanliga objekt i kontext: en rikt kommenterad datamängd för objektdetektering, segmentering och bildtexter. | ||||
| +CV | Bild | PASCAL VOC | Allmänt | Objektdetektion | Länk |
| BESKRIVNING | En riktmärkesdatauppsättning för objektdetektering och segmenteringsutmaningar. | ||||
| +CV | Bild | Stads | Autonom körning | Semantisk segmentering | Länk |
| BESKRIVNING | Dataset för förståelse av stadsmiljöer med annoteringar på pixelnivå för 30 klasser. | ||||
| +CV | Bild | MNIST | Allmänt | Sifferklassificering | Länk |
| BESKRIVNING | Dataset med handskrivna siffror med 60 000 tränings- och 10 000 testbilder på 28x28 pixlar. | ||||
| +CV | Bild | Mode-MNIST | Detaljhandeln | Bildklassificering | Länk |
| BESKRIVNING | Dataset med Zalandos artikelbilder i samma format som MNIST, används som en drop-in-ersättning för benchmarking. | ||||
| +NLP | Audio | LibriSpeech | Allmänt | ASR | Länk |
| BESKRIVNING | En samling av läst engelskt tal hämtat från ljudböcker, med 1000 timmar tal och tillhörande texter. | ||||
| +NLP | Audio | TED-LIUM | Allmänt | ASR | Länk |
| BESKRIVNING | Transkriberade TED-föredrag med ljud och anpassade transkriptioner för forskning om taligenkänning. | ||||
| +NLP | Audio | TIMIT | Allmänt | Fonemigenkänning | Länk |
| BESKRIVNING | Fonetiskt transkriberat tal från amerikansk engelsktalande, ofta använt för fonemigenkänning. | ||||
| +NLP | Audio | Vanlig röst | Allmänt | ASR | Länk |
| BESKRIVNING | En flerspråkig samling av läst tal, bidragen av volontärer runt om i världen. | ||||
| +NLP | Audio | VoxCeleb | Allmänt | Högtalarigenkänning | Länk |
| BESKRIVNING | En storskalig datamängd för talaridentifiering insamlad från YouTube-videor. | ||||
| +NLP | text | Wikipedia-dump | Allmänt | Språkmodellering | Länk |
| BESKRIVNING | Fulltextdumpar av Wikipedia-artiklar, uppdaterade regelbundet, används för förträning av språkmodeller. | ||||
| +NLP | text | Gigaword | Nyheter | Språkmodellering | Länk |
| BESKRIVNING | Ett omfattande arkiv med nyhetstextdata från flera nyhetsbyråer. | ||||
| +NLP | text | IMDB Recensioner | Underhållning | Sentimentanalys | Länk |
| BESKRIVNING | Stor datamängd för filmrecensioner för binär sentimentklassificering. | ||||
| +CV | Video | Kinetics-700 | Allmänt | Action Recognition | Länk |
| BESKRIVNING | En storskalig, högkvalitativ datauppsättning av YouTube-videoklipp som täcker 700 mänskliga handlingsklasser. | ||||
| +CV | Video | UCF101 | Allmänt | Action Recognition | Länk |
| BESKRIVNING | En datamängd med realistiska actionvideor med 101 actionkategorier. | ||||
| +CV | Video | HMDB51 | Allmänt | Action Recognition | Länk |
| BESKRIVNING | En stor databas med videor med mänsklig rörelse och 51 actionkategorier. | ||||
| BESKRIVNING | En databas med ansiktsfotografier utformad för att studera obegränsad ansiktsigenkänning. | ||||
| +CV | Bild | CASIA-WebFace | Allmänt | Face Recognition | Länk |
| BESKRIVNING | En datauppsättning med miljontals ansiktsbilder för att träna djup ansiktsigenkänningsmodeller. | ||||
| +NLP | text | Trupp | Allmänt | Läsförståelse | Länk |
| BESKRIVNING | Stanford Question Answering Dataset: frågor ställda av crowdworkers om en uppsättning Wikipedia-artiklar. | ||||
| BESKRIVNING | En datamängd för maskinförståelse med frågor och svar baserade på CNN-nyhetsartiklar. | ||||
| +NLP | text | MultiNLI | Allmänt | Naturlig språkinferens | Länk |
| BESKRIVNING | En datauppsättning för inferens i naturligt språk mellan meningspar över flera genrer. | ||||
| +NLP | text | SNLI | Allmänt | Naturlig språkinferens | Länk |
| BESKRIVNING | Stanford Natural Language Inference Corpus med meningspar märkta som entailment, confidence eller neutral. | ||||
| BESKRIVNING | En samling av över 100 miljoner tokens extraherade från uppsättningen verifierade Bra och Utvalda artiklar på Wikipedia. | ||||
| BESKRIVNING | En datauppsättning med 16 185 bilder av 196 bilklasser. | ||||
| +CV | Bild | Oxford Flowers 102 | botanik | Finkornig klassificering | Länk |
| BESKRIVNING | 102 blomkategorier som är vanliga i Storbritannien. | ||||
| +CV | Bild | CIFAR-10 | Allmänt | Bildklassificering | Länk |
| BESKRIVNING | Bilder av 10 klasser: flygplan, bil, fågel, katt, rådjur, hund, groda, häst, skepp och lastbil. | ||||
| +CV | Bild | CIFAR-100 | Allmänt | Bildklassificering | Länk |
| BESKRIVNING | En datauppsättning liknande CIFAR-10, men med 100 finkorniga klasser. | ||||
| +CV | Bild | VOC-personlayout | Allmänt | Pose uppskattning | Länk |
| BESKRIVNING | En del av PASCAL VOC med fokus på anteckningar för personlayout såsom huvud, händer och fötter. | ||||
| +CV | Bild | MPII Mänsklig Pose | Allmänt | Pose uppskattning | Länk |
| BESKRIVNING | Cirka 25 000 bilder innehållande över 40 000 personer med kommenterade kroppsleder. | ||||
| BESKRIVNING | Samling av Reuters-nyhetsartiklar för textkategoriseringsforskning. | ||||
| +NLP | text | 20 nyhetsgrupper | Allmänt | Textklassificering | Länk |
| BESKRIVNING | En samling av 20 000 nyhetsgruppsdokument uppdelade i 20 olika nyhetsgrupper. | ||||