NLP Dataset för ML

15 bästa NLP-datauppsättningar för att utbilda dig bearbetningsmodeller för naturligt språk

Bearbetning av naturligt språk är en viktig del av rustningen för maskininlärning. Det krävs dock enorma mängder data och utbildning för att modellen ska fungera bra. En av de betydande problemen med NLP är bristen på utbildningsdatauppsättningar som kan täcka stora intresseområden inom domänen.

Om du börjar inom detta enorma område kan du tycka att det är utmanande och praktiskt taget överflödigt att skapa dina datamängder. Speciellt när det finns kvalitet NLP datauppsättningar tillgängliga för att träna dina maskininlärningsmodeller baserat på deras syfte.

NLP-marknaden beräknas växa med en CAGR på 11.7% under 2018 och 2026 för att nå 28.6 miljarder dollar år 2026. Tack vare den växande efterfrågan på NLP och maskininlärning är det nu möjligt att lägga vantarna på datauppsättningar av hög kvalitet som tillgodoser sentimentanalys, recensioner, fråge- och svarsanalyser och datauppsättningar för talanalys.

NLP-datauppsättningarna för maskininlärning du kan lita på

Eftersom oräkneliga datauppsättningar – med fokus på olika behov – släpps nästan varje dag, kan det vara utmanande att få tillgång till kvalitativa, tillförlitliga och bästa datauppsättningar. Här har vi gjort arbetet enklare för dig, eftersom vi har presenterat kurerade datauppsättningar separerade utifrån de kategorier de betjänar.

Allmänt

Spambase, skapad på Hewlett-Packard Labs, har en samling skräppostmeddelanden från användarna, som syftar till att utveckla ett personligt skräppostfilter. Den har mer än 4600 observationer från e-postmeddelanden, av vilka nära 1820 är skräppost.

Enrons datauppsättning har en stor samling anonymiserade "riktiga" e-postmeddelanden tillgängliga för allmänheten för att träna deras maskininlärningsmodeller. Den har mer än en halv miljon e-postmeddelanden från över 150 användare, främst Enrons högsta ledning. Denna datauppsättning är tillgänglig för användning i både strukturerade och ostrukturerade format. För att piffa upp den ostrukturerade datan måste du tillämpa databehandlingstekniker.

  • Recommender Systems dataset (Länk)

Datasetet Recommender System är en enorm samling av olika datamängder som innehåller olika funktioner som,

  • Produktrecensioner
  • Stjärnbetyg
  • Fitness spårning
  • Låtdata
  • Sociala nätverk
  • tidsstämplar
  • Användare/objekt interaktioner
  • GPS -data

Sentimentanalys

  • Ordböcker för film och finans (Länk)

Sentimentanalys
Uppsättningen Ordböcker för filmer och finans tillhandahåller domänspecifika ordböcker för positiv eller negativ polaritet i finansfyllningar och filmrecensioner. Dessa ordböcker är hämtade från IMDb och US Form-8-fyllningar.

Sentiment 140 har mer än 160,000 6 tweets med olika uttryckssymboler kategoriserade i XNUMX olika fält: tweetdatum, polaritet, text, användarnamn, ID och fråga. Denna datauppsättning gör det möjligt för dig att upptäcka känslorna för ett varumärke, en produkt eller till och med ett ämne baserat på Twitter-aktivitet. Eftersom denna datauppsättning skapas automatiskt, till skillnad från andra mänskliga annoterade tweets, klassificerar den tweets med positiva känslor och negativa känslor som ogynnsamma.

  • Multi-Domain Sentiment dataset (Länk)

Denna multidomänsentimentdatauppsättning är ett arkiv med Amazon-recensioner för olika produkter. Vissa produktkategorier, som böcker, har tusentals recensioner, medan andra bara har några hundra recensioner. Dessutom kan recensioner med stjärnor konverteras till binära etiketter.

Låt oss diskutera ditt krav på AI -utbildningsdata idag.

text

WiKi QA Corpus har skapats för att hjälpa den öppna domänen med frågor och svar, och är en av de mest omfattande allmänt tillgängliga datamängderna. Sammanställt från Bings sökmotors frågeloggar, kommer den med fråga-och-svar-par. Den har mer än 3000 frågor och 1500 märkta svarsmeningar.

  • Dataset för juridiska ärenderapporter (Länk)

Rättsfallsrapporter har en samling av 4000 rättsfall och kan användas för att träna för automatisk textsammanfattning och citeringsanalys. Varje dokument, slagord, citeringsklasser, citeringsfraser och mer används.

Jeopardy dataset är en samling av mer än 200,000 XNUMX frågor som presenteras i det populära frågesport-tv-programmet som samlats av en Reddit-användare. Varje datapunkt klassificeras efter sändningsdatum, avsnittsnummer, värde, omgång och fråga/svar.

Audio Tal

Audio Tal Denna datauppsättning är perfekt för alla som vill gå utöver det engelska språket. Denna datauppsättning har en samling artiklar som talas på holländska och tyska och engelska. Den har en mängd olika ämnen och högtalaruppsättningar som tar hundratals timmar.

Den engelska datauppsättningen HUB2000 från 5 har 40 utskrifter av telefonkonversationer på engelska. Uppgifterna tillhandahålls av National Institute of Standards and Technology, och dess huvudsakliga fokus ligger på att känna igen samtalstal och omvandla tal till text.

LibriSpeech-dataset är en samling av nästan 1000 timmar engelskt tal tagna och korrekt segmenterade efter ämnen i kapitel från ljudböcker, vilket gör det till ett perfekt verktyg för Natural Language Processing.

Omdömen

Yelp-datauppsättningen har en stor samling av cirka 8.5 miljoner recensioner av över 160,000 200,000 företag, deras recensioner och användardata. Recensionerna kan användas för att träna dina modeller i sentimentanalys. Dessutom har denna datauppsättning också mer än XNUMX XNUMX bilder som täcker åtta storstadsplatser.

IMDB-recensioner är bland de mest populära datamängderna som innehåller rollbesättningsinformation, betyg, beskrivningar och genre för mer än 50 tusen filmer. Denna datauppsättning kan användas för att testa och träna dina maskininlärningsmodeller.

  • Amazon recensioner och värderingsdataset (Länk)

Amazons recensions- och betygsdatauppsättning innehåller en värdefull samling metadata och recensioner av olika produkter från Amazon som samlats in från 1996 till 2014 – cirka 142.8 miljoner poster. Metadata inkluderar pris, produktbeskrivning, varumärke, kategori med mera, medan recensionerna har textkvalitet, textens användbarhet, betyg med mera.

Så, vilken datauppsättning har du valt att träna din maskininlärningsmodell på?

När vi går lämnar vi dig med en proffstips. 

Se till att gå igenom README-filen noggrant innan du väljer en NLP-datauppsättning för dina behov. Datauppsättningen kommer att innehålla all nödvändig information du kan behöva, såsom datauppsättningens innehåll, de olika parametrarna som data har kategoriserats på och de troliga användningsfallen för datauppsättningen.

Oavsett vilka modeller du bygger, finns det en spännande möjlighet att integrera våra maskiner närmare och mer inneboende med våra liv. Med NLP ökar möjligheterna för affärer, filmer, taligenkänning, ekonomi med mera många. Om du letar efter fler sådana datamängder Klicka här.

Social Dela

Du kanske också gillar