Vad är NLP?
NLP (Natural Language Processing) hjälper datorer att förstå mänskligt språk. Det är som att lära datorer att läsa, förstå och svara på text och tal på det sätt som människor gör.
Vad kan NLP göra?
- Förvandla rörig text till organiserad data
- Förstå om kommentarer är positiva eller negativa
- Översätt mellan språk
- Skapa sammanfattningar av långa texter
- Och mycket mer!
- Komma igång med NLP:
För att bygga bra NLP-system behöver du massor av exempel för att träna dem – precis som hur människor lär sig bättre med mer övning. Den goda nyheten är att det finns många gratisresurser där du kan hitta dessa exempel: Kramande ansikte, Kaggle och GitHub
NLP-marknadens storlek och tillväxt:
Från och med 2023 värderades NLP-marknaden (Natural Language Processing) till cirka 26 miljarder dollar. Den förväntas växa avsevärt, med en sammansatt årlig tillväxttakt (CAGR) på cirka 30 % från 2023 till 2030. Denna tillväxt drivs av ökande efterfrågan på NLP-tillämpningar inom branscher som hälsovård, finans och kundservice.
Hur man väljer en bra NLP-datauppsättning, överväg följande faktorer:
- Relevans: Se till att datauppsättningen stämmer överens med din specifika uppgift eller domän.
- Storlek: Större datauppsättningar förbättrar generellt modellens prestanda, men balanserar storlek med kvalitet.
- Mångfald: Leta efter datauppsättningar med olika språkstilar och sammanhang för att förbättra modellens robusthet.
- Kvalitet: Kontrollera efter väl märkta och korrekta data för att undvika att införa fel.
- Tillgänglighet: Se till att datauppsättningen är tillgänglig för användning och överväg eventuella licensbegränsningar.
- förbehandling: Bestäm om datauppsättningen kräver betydande rengöring eller förbearbetning.
- Community Support: Populära datauppsättningar har ofta fler resurser och communitystöd, vilket kan vara till hjälp.
Genom att utvärdera dessa faktorer kan du välja en datauppsättning som bäst passar ditt projekts behov
Topp 33 måste-se öppna datamängder för NLP
Allmänt
UCI: s Spambase (Länk)
Spambase, skapad på Hewlett-Packard Labs, har en samling skräppostmeddelanden från användarna, som syftar till att utveckla ett personligt skräppostfilter. Den har mer än 4600 observationer från e-postmeddelanden, av vilka nära 1820 är skräppost.
Enron dataset (Länk)
Enrons datauppsättning har en stor samling anonymiserade "riktiga" e-postmeddelanden tillgängliga för allmänheten för att träna deras maskininlärningsmodeller. Den har mer än en halv miljon e-postmeddelanden från över 150 användare, främst Enrons högsta ledning. Denna datauppsättning är tillgänglig för användning i både strukturerade och ostrukturerade format. För att piffa upp den ostrukturerade datan måste du tillämpa databehandlingstekniker.
Recommender Systems dataset (Länk)
Datasetet Recommender System är en enorm samling av olika datamängder som innehåller olika funktioner som,
- Produktrecensioner
- Stjärnbetyg
- Fitness spårning
- Låtdata
- Sociala nätverk
- tidsstämplar
- Användare/objekt interaktioner
- GPS -data
Penn Treebank (Länk)
Denna korpus, från Wall Street Journal, är populär för att testa sekvensmärkningsmodeller.
Nltk (Länk)
Detta Python-bibliotek ger tillgång till över 100 korpus och lexikaliska resurser för NLP. Den innehåller också NLTK-boken, en utbildning för att använda biblioteket.
Universella beroenden (Länk)
UD ger ett konsekvent sätt att kommentera grammatik, med resurser på över 100 språk, 200 trädbanker och stöd från över 300 communitymedlemmar.
Sentimentanalys
Ordböcker för film och finans (Länk)
Uppsättningen Ordböcker för filmer och finans tillhandahåller domänspecifika ordböcker för positiv eller negativ polaritet i finansfyllningar och filmrecensioner. Dessa ordböcker är hämtade från IMDb och US Form-8-fyllningar.Sentiment 140 (Länk)
Sentiment 140 har mer än 160,000 6 tweets med olika uttryckssymboler kategoriserade i XNUMX olika fält: tweetdatum, polaritet, text, användarnamn, ID och fråga. Denna datauppsättning gör det möjligt för dig att upptäcka känslorna för ett varumärke, en produkt eller till och med ett ämne baserat på Twitter-aktivitet. Eftersom denna datauppsättning skapas automatiskt, till skillnad från andra mänskliga annoterade tweets, klassificerar den tweets med positiva känslor och negativa känslor som ogynnsamma.
Multi-Domain Sentiment dataset (Länk)
Denna multidomänsentimentdatauppsättning är ett arkiv med Amazon-recensioner för olika produkter. Vissa produktkategorier, som böcker, har tusentals recensioner, medan andra bara har några hundra recensioner. Dessutom kan recensioner med stjärnor konverteras till binära etiketter.
Standford Sentiment TreeBank (Länk)
Denna NLP-datauppsättning från Rotten Tomatoes innehåller längre fraser och mer detaljerade textexempel.
The Blog Authorship Corpus (Länk)
Den här samlingen har blogginlägg med nästan 1.4 miljoner ord, varje blogg är en separat datauppsättning.
OpinRank Dataset (Länk)
300,000 XNUMX recensioner från Edmunds och TripAdvisor, organiserade efter bilmodell eller resmål och hotell.
text
-
Wiki QA Corpus (Länk)
WiKi QA Corpus har skapats för att hjälpa den öppna domänen med frågor och svar, och är en av de mest omfattande allmänt tillgängliga datamängderna. Sammanställt från Bings sökmotors frågeloggar, kommer den med fråga-och-svar-par. Den har mer än 3000 frågor och 1500 märkta svarsmeningar.
-
Dataset för juridiska ärenderapporter (Länk)
Rättsfallsrapporter har en samling av 4000 rättsfall och kan användas för att träna för automatisk textsammanfattning och citeringsanalys. Varje dokument, slagord, citeringsklasser, citeringsfraser och mer används.
-
Jeopardy (Länk)
Jeopardy dataset är en samling av mer än 200,000 XNUMX frågor som presenteras i det populära frågesport-tv-programmet som samlats av en Reddit-användare. Varje datapunkt klassificeras efter sändningsdatum, avsnittsnummer, värde, omgång och fråga/svar.
-
20 nyhetsgrupper (Länk)
En samling av 20,000 20 dokument omfattar XNUMX nyhetsgrupper och ämnen, som beskriver ämnen från religion till populära sporter.
-
Reuters News Dataset (Länk)
Denna datauppsättning, som visades första gången 1987, har märkts, indexerats och sammanställts för maskininlärningsändamål.
-
ArXiv (Länk)
Denna omfattande datauppsättning på 270 GB innehåller den fullständiga texten från alla arXiv-forskningsartiklar.
-
Europaparlamentets handlingar Parallell Corpus (Länk)
Meningspar från parlamentets förhandlingar inkluderar bidrag från 21 europeiska språk, med några mindre vanliga språk för maskininlärningskorpus.
-
Benchmark för miljarder ord (Länk)
Detta språkmodelleringsdataset kommer från WMT 2011 News Crawl och består av nästan en miljard ord för att testa innovativa språkmodelleringstekniker.
Audio Tal
-
Talat Wikipedia Corpora (Länk)
-
2000 HUB5 engelska (Länk)
Den engelska datauppsättningen HUB2000 från 5 har 40 utskrifter av telefonkonversationer på engelska. Uppgifterna tillhandahålls av National Institute of Standards and Technology, och dess huvudsakliga fokus ligger på att känna igen samtalstal och omvandla tal till text.
-
LibriSpeech (Länk)
LibriSpeech-dataset är en samling av nästan 1000 timmar engelskt tal tagna och korrekt segmenterade efter ämnen i kapitel från ljudböcker, vilket gör det till ett perfekt verktyg för Natural Language Processing.
-
Gratis talade siffror datauppsättning (Länk)
Denna NLP-datauppsättning innehåller mer än 1,500 XNUMX inspelningar av talade siffror på engelska.
-
M-AI Labs Speech Dataset (Länk)
Datauppsättningen erbjuder nästan 1,000 XNUMX timmars ljud med transkriptioner, som omfattar flera språk och kategoriseras efter manliga, kvinnliga och blandade röster.
-
Databas för bullriga tal (länk)
Denna datauppsättning innehåller parallella bullriga och rena talinspelningar, avsedda för utveckling av programvara för talförbättring men också fördelaktigt för träning i tal under utmanande förhållanden.
Omdömen
-
Yelp-recensioner (Länk)
Yelp-datauppsättningen har en stor samling av cirka 8.5 miljoner recensioner av över 160,000 200,000 företag, deras recensioner och användardata. Recensionerna kan användas för att träna dina modeller i sentimentanalys. Dessutom har denna datauppsättning också mer än XNUMX XNUMX bilder som täcker åtta storstadsplatser.
-
IMDB Recensioner (Länk)
IMDB-recensioner är bland de mest populära datamängderna som innehåller rollbesättningsinformation, betyg, beskrivningar och genre för mer än 50 tusen filmer. Denna datauppsättning kan användas för att testa och träna dina maskininlärningsmodeller.
-
Amazon recensioner och värderingsdataset (Länk)
Amazons recensions- och betygsdatauppsättning innehåller en värdefull samling metadata och recensioner av olika produkter från Amazon som samlats in från 1996 till 2014 – cirka 142.8 miljoner poster. Metadata inkluderar pris, produktbeskrivning, varumärke, kategori med mera, medan recensionerna har textkvalitet, textens användbarhet, betyg med mera.
Fråga och svar
-
Stanford Question and Answer Dataset (SQuAD) (Länk)
Denna datauppsättning för läsförståelse har 100,000 50,000 frågor som kan besvaras och XNUMX XNUMX obesvarbara, alla skapade av Wikipedias publikarbetare.
-
Naturliga frågor (Länk)
Denna utbildningsuppsättning har över 300,000 7,800 träningsexempel, 7,800 XNUMX utvecklingsexempel och XNUMX XNUMX testexempel, var och en med en Google-fråga och en matchande Wikipedia-sida.
-
TriviaQA (Länk)
Denna utmanande frågeuppsättning har 950,000 XNUMX QA-par, inklusive både mänskligt verifierade och maskingenererade delmängder.
-
CLEVR (Compositional Language and Elementary Visual Reasoning) (Länk)
Denna visuella frågesvarsuppsättning innehåller 3D-renderade objekt och tusentals frågor med detaljer om den visuella scenen.
Så, vilken datauppsättning har du valt att träna din maskininlärningsmodell på?
När vi går lämnar vi dig med en proffstips.
Se till att gå igenom README-filen noggrant innan du väljer en NLP-datauppsättning för dina behov. Datauppsättningen kommer att innehålla all nödvändig information du kan behöva, såsom datauppsättningens innehåll, de olika parametrarna som data har kategoriserats på och de troliga användningsfallen för datauppsättningen.
Oavsett vilka modeller du bygger, finns det en spännande möjlighet att integrera våra maskiner närmare och mer inneboende med våra liv. Med NLP ökar möjligheterna för affärer, filmer, taligenkänning, ekonomi med mera många.