Datorsyn

27 bilddatauppsättningar med öppen källkod för att förbättra ditt datorvisionsprojekt [2025 uppdaterad]

En AI-algoritm är bara så bra som den data du matar med den.

Det är varken ett djärvt eller ett okonventionellt uttalande. AI kunde ha verkat ganska långsökt för ett par decennier sedan, men artificiell intelligens och maskininlärning har kommit riktigt långt sedan dess.

Datorsyn hjälper datorer att förstå och tolka etiketter och bilder. När du tränar din dator med hjälp av rätt sorts bilduppsättningar kan den få förmågan att upptäcka, förstå och identifiera olika ansiktsdrag, upptäcka sjukdomar, köra autonoma fordon och även rädda liv med hjälp av multidimensionell organskanning.

Computer Vision marknaden förutspås nå $ 144.46 miljarder år 2028 från blygsamma 7.04 miljarder dollar 2020, växande med en CAGR på 45.64 % mellan 2021 och 2028.

Smakämnen bilduppsättning du matar och tränar dina maskininlärnings- och datorseendeuppgifter är avgörande för ditt AI-projekts framgång. En kvalitetsdatauppsättning är ganska svår att få. Beroende på komplexiteten i ditt projekt kan det ta allt mellan några dagar och några veckor att få tillförlitliga och relevanta datauppsättningar för datorseende.

Här förser vi dig med en rad (kategoriserade för din enkelhet) av bilduppsättningar med öppen källkod som du kan använda direkt.

Omfattande lista över bilddatauppsättningar för att träna din datorseendemodell

Allmänt:

  1. IMAGEnet

    ImageNet är en mycket använd datauppsättning, och den kommer med häpnadsväckande 1.2 miljoner bilder kategoriserade i 1000 kategorier. Denna datauppsättning är organiserad enligt WorldNet-hierarkin och kategoriserad i tre delar – träningsdata, bildetiketter och valideringsdata.

  2. Kinetik 700

    Kinetics 700 är en enorm högkvalitativ datauppsättning med mer än 650,000 700 klipp av 700 olika mänskliga actionklasser. Var och en av grupptalan har cirka XNUMX videoklipp. Klippen i datamängden har interaktioner mellan människa och föremål och människa-människa, vilket har visat sig vara till stor hjälp när man känner igen mänskliga handlingar i videor.

  3. CIFAR-10

    CIFAR 10 är en av de största datauppsättningarna för datorseende med 60000 32 32 x 6000 färgbilder som representerar tio olika klasser. Varje klass har cirka XNUMX bilder som används för att träna datorseendealgoritmer och maskininlärning.

  4. Oxford-IIIT Pet Images Dataset

    Bilduppsättningen för husdjur omfattar 37 kategorier med 200 bilder per klass. Dessa bilder varierar i skala, ställning och belysning och åtföljs av kommentarer för ras, huvud-ROI och trimap-segmentering på pixelnivå.

  5. Googles öppna bilder

    Med imponerande 9 miljoner webbadresser är detta en av de största bilddatauppsättningarna på listan, som innehåller miljontals bilder märkta i 6,000 XNUMX kategorier.

  6. Växtbilder

    Denna sammanställning innehåller flera bilddatauppsättningar med imponerande 1 miljon växtbilder, som täcker cirka 11 arter.

Ansiktsigenkänning:

Ansiktsigenkänning

  1. Märkt Faces in the Wild

    Märkt Faced in the Wild är en enorm datauppsättning som innehåller mer än 13,230 5,750 bilder av nästan XNUMX XNUMX personer som upptäckts från internet. Denna datauppsättning av ansikten är utformad för att göra det lättare att studera obegränsad ansiktsdetektion.

  2. CASIA WebFace

    CASIA Web face är en väldesignad datauppsättning som hjälper maskininlärning och vetenskaplig forskning om obegränsad ansiktsigenkänning. Med mer än 494,000 10,000 bilder av nästan XNUMX XNUMX riktiga identiteter är den idealisk för ansiktsidentifiering och verifieringsuppgifter.

  3. UMD Faces Dataset

    UMD står inför en välkommenterad datauppsättning som innehåller två delar – stillbilder och videoramar. Datauppsättningen har mer än 367,800 3.7 ansiktskommentarer och XNUMX miljoner kommenterade videorutor av motiv.

  4. Detektering av ansiktsmask

    Denna datauppsättning innehåller 853 bilder kategoriserade i tre klasser: "med mask", "utan mask" och "mask buren felaktigt", tillsammans med deras begränsningsrutor i PASCAL VOC-format.

  5. FERET

    FERET (Facial Recognition Technology Database) är en omfattande bilduppsättning som innehåller över 14,000 XNUMX kommenterade bilder av mänskliga ansikten.

Handskriftsigenkänning:

  1. MNIST-databas

    MNIST är en databas som innehåller exempel på handskrivna siffror från 0 till 9, och den har 60,000 10,000 och 1999 XNUMX tränings- och testbilder. Släppt XNUMX, MNIST gör det lättare att testa bildbehandlingssystem i Deep Learning.

  2. Dataset för artificiella tecken

    Artificial Characters Dataset är, som namnet antyder, artificiellt genererad data som beskriver den engelska språkstrukturen med tio versaler. Den kommer med mer än 6000 bilder.

Låt oss diskutera ditt krav på AI -utbildningsdata idag.

Objektdetektering:

  1. MS COCO

    MS COCO eller Common Objects in Context är en datauppsättning för objektdetektering och textning.

    Den har mer än 328,000 80 bilder med nyckelpunktsdetektering, multiobjektdetektering, textning och segmenteringsmaskkommentarer. Den kommer med XNUMX objektkategorier och fem bildtexter per bild.

  2. LSUN

    LSUN, förkortning för Large-scale Scene Understanding, har mer än en miljon märkta bilder i 20 objekt- och 10 scenkategorier. Vissa kategorier har nära 300,000 300 bilder, med 1000 bilder specifikt för validering och XNUMX XNUMX bilder för testdata.

  3. Hem Objekt

    Home Objects dataset innehåller kommenterade bilder av slumpmässiga objekt från hela huset – kök, vardagsrum och badrum. Denna datauppsättning har också några kommenterade videor och 398 okommenterade foton designade för testning.

Bil:

  1. Uppsättning av stadsbild

    Cityscape är datasetet att gå till när man letar efter olika videosekvenser inspelade från flera citers gatuscener. Dessa bilder togs under lång tid och under olika väder- och ljusförhållanden. Anteckningarna är för 30 bildklasser uppdelade i åtta olika kategorier.

  2. Barkley Deep Drive

    Barkley DeepDrive är speciellt designad för träning av autonoma fordon, och den har mer än 100 tusen kommenterade videosekvenser. Det är en av de mest användbara träningsdata för autonoma fordon genom de förändrade väg- och körförhållandena.

  3. mapillär

    Mapillary har över 750 miljoner gatuscener och trafikskyltar över hela världen, vilket är mycket användbart för att träna visuella perceptionsmodeller i maskininlärning och AI-algoritmer. Det låter dig utveckla autonoma fordon som tillgodoser olika ljus- och väderförhållanden och synpunkter.

Medicinsk bildbehandling:

  1. Covid-19 Open Research Dataset

    Denna ursprungliga datauppsättning har cirka 6500 pixel-polygonala lungsegmentering om AP/PA-röntgenstrålar. Dessutom finns 517 bilder av Covid-19-patientröntgen med taggar som innehåller namn, plats, intagningsdetaljer, utfall och mer tillgängliga.

  2. NIH-databas med 100,000 XNUMX lungröntgenbilder

    NIH-databasen är en av de mest omfattande allmänt tillgängliga datamängderna som innehåller 100,000 XNUMX lungröntgenbilder och relaterad data som är användbar för vetenskaps- och forskarvärlden. Den har till och med bilder på patienter med avancerade lungtillstånd.

  3. Atlas över digital patologi

    Atlas of Digital Pathology erbjuder flera histopatologiska lappbilder, mer än 17,000 100 totalt, från närmare XNUMX kommenterade diabilder av olika organ. Denna datauppsättning är användbar för att utveckla programvara för datorseende och mönsterigenkänning.

Scenigenkänning:

Scenigenkänning

  1. Inomhus scen erkännande

    Indoor Scene Recognition är en högt kategoriserad datauppsättning med nästan 15620 bilder av objekt och inomhuslandskap som ska användas i maskininlärning och dataträning. Den kommer med över 65 kategorier, och varje kategori har minst 100 bilder.

  2. xVisa

    Som en av de mest kända allmänt tillgängliga datamängderna innehåller xView massor av kommenterade overheadbilder från olika komplexa och stora scener. Med cirka 60 klasser och mer än en miljon objektinstanser, är syftet med denna datauppsättning att ge bättre katastrofhjälp med hjälp av satellitbilder.

  3. platser

    Places, en datauppsättning från MIT, har över 1.8 miljoner bilder från 365 olika scenkategorier. Det finns cirka 50 bilder i var och en av dessa kategorier för validering och 900 bilder för testning. Det är möjligt att lära sig djupa scenfunktioner för att skapa scenigenkänning eller visuella igenkänningsuppgifter.

Underhållning:

  1. IMDB WIKI Dataset

    IMDB – Wiki är en av de mest populära offentliga databaserna med ansikten märkta med ålder, kön och namn. Den har också cirka 20 tusen ansikten av kändisar och 62 tusen från Wikipedia.

  2. Kändisansikten

    Celeb Faces är en storskalig databas med 200,000 XNUMX kommenterade bilder på kändisar. Bilderna kommer med bakgrundsljud och posevariationer, vilket gör dem värdefulla för träningstestset i datorseendeuppgifter. Det är mycket fördelaktigt för att uppnå högre noggrannhet i ansiktsigenkänning, redigering, lokalisering av ansiktsdelar och mer.

Nu när du har en enorm lista med bilduppsättningar med öppen källkod för att driva ditt maskineri för artificiell intelligens. Resultatet av dina AI- och maskininlärningsmodeller beror främst på kvaliteten på datamängder du matar och tränar dem på. Om du vill att din AI-modell ska ge korrekta förutsägelser behöver den kvalitetsdatauppsättningar som är aggregerade, taggade och märkta till perfektion. För att förstärka framgången för ditt datorseendesystem måste du använda kvalitetsbilddatabaser som är relevanta för din projektvision. Om du letar efter fler sådana dataset Klicka här

Social Dela

Du kanske också gillar