Handskriftsdataset

22 bästa OCR- och handskriftsdatauppsättningar med öppen källkod för att träna dina ML-modeller

Ökningen av användningen av optisk teckenigenkänning kan främst hänföras till ökningen av produktionen av automatiska igenkänningssystem. Som ett resultat är det globala marknadsvärdet för OCR-teknik, kopplat till $ 8.93 miljarder 2021, förutspås växa med en CAGR på 15.4 % mellan 2022 och 2030.

Men vad är egentligen OCR-teknik? Och varför är det en game changer för företag som utvecklar effektiva AI-modeller? Låt oss ta reda på.

Vad är OCR (Optical Character Recognition)?

OCR är teknik som konverterar olika typer av dokument, som skannade pappersdokument, PDF-filer eller bilder av text, till redigerbara och sökbara data. Det fungerar av:

  • Analysera strukturen av text i en bild
  • Dela upp texten i rader och tecken
  • Konvertera dessa visuella tecken till maskinläsbar text

Vanliga användningsområden inkluderar:

  • Konvertera skannade dokument till redigerbara textfiler
  • Digitalisera tryckta böcker
  • Extrahera text från foton
  • Konvertera handskrivna recept till digital text
  • Nummerplåtigenkänning

Ocr träningsdata

Fördelar och utmaningar med datauppsättningar med öppen källkod

Företag måste ställa fördelarna och utmaningarna mot varandra för att förstå om de måste välja fri att använda data för sina ML-applikationer.

Fördelar

  • Uppgifterna är lättillgängliga. På grund av datatillgänglighet minskar kostnaden för att utveckla applikationen avsevärt.
  • Tiden och ansträngningen som läggs ner på att samla in data för applikationen minskar avsevärt eftersom datasetet är lättillgängligt.
  • Det finns ett överflöd av gemenskapsforum eller hjälpgrupper som hjälper till att lära sig, anpassa och optimera datamängden.
  • En av de stora fördelarna med datamängden med öppen källkod är att den inte lägger några begränsningar för anpassning.
  •   Data med öppen källkod är tillgänglig för en stor del av befolkningen, vilket gör analys och innovation möjlig utan monetära barriärer.

Utmaningar

  • Projektspecifika data är svåra att få tag på. Dessutom finns det en möjlighet att information saknas och att tillgänglig data används felaktigt.
  • Att skaffa egen data tar tid och ansträngning och är kostsamt
  • Även om det kan vara lättare att skaffa data, kan kunskap och analyskostnader uppväga den initiala fördelen.
  • Andra utvecklare använder också samma data för att utveckla applikationer.
  • Dessa datauppsättningar är mycket sårbara för säkerhetsintrång, integritet och samtycke.

22 bästa handskrifts- och OCR-dataset för maskininlärning

OCR-datauppsättningar med öppen källkod

Många datauppsättningar med öppen källkod är tillgängliga för utveckling av textigenkänningsapplikationer. Några av de bästa 22 är

  1. NIST-databas

    NIST eller National Institute of Science erbjuder en gratis samling av över 3600 810,000 handskriftsprover med mer än XNUMX XNUMX teckenbilder

  2. MNIST-databas

    MNIST-databasen är hämtad från NSIT:s Special Database 1 och 3 och är en sammanställd samling av 60,000 10,000 handskrivna nummer för träningssetet och XNUMX XNUMX exempel för testsetet. Denna databas med öppen källkod hjälper till att träna modeller att känna igen mönster samtidigt som de spenderar mindre tid på förbearbetning.

  3. Textavkänning

    Databasen Text Detection är en databas med öppen källkod och innehåller cirka 500 bilder inomhus och utomhus av skyltar, dörrskyltar, varningsskyltar och mer.

  4. Stanford OCR

    Publicerad av Stanford, denna gratis att använda dataset är en handskriven ordsamling av MIT Spoken Language Systems Group.

  5. Street View-text

    Denna datauppsättning har samlats in från Google Street View-bilder och har textidentifieringsbilder huvudsakligen av tavlor och skyltar på gatunivå.

  6. Dokumentdatabas

    Dokumentdatabasen är en samling av 941 handskrivna dokument, inklusive tabeller, formler, ritningar, diagram, listor och mer, från 189 författare.

  7. Matematiska uttryck

    Mathematics Expressions är en databas som innehåller 101 matematiska symboler och 10,000 XNUMX uttryck.

  8. Street View husnummer

    Denna Street View House Numbers har hämtats från Google Street View och är en databas som innehåller 73257 gatuhusnummer.

  9. Naturlig miljö OCR

    The Natural Environment OCR, är en datauppsättning med nästan 660 bilder över hela världen och 5238 textkommentarer.

  10. Matematiska uttryck

    Över 10,000 101 uttryck med XNUMX+ matematiska symboler.

  11. Handskrivna kinesiska tecken

    En datauppsättning med 909,818 10 handskrivna kinesiska teckenbilder, motsvarande cirka XNUMX nyhetsartiklar.

  12. Arabisk tryckt text

    Ett lexikon med 113,284 10 ord med XNUMX arabiska teckensnitt.

  13. Handskriven engelsk text

    Handskriven engelsk text på en whiteboard med över 1700 poster.

  14. 3000 miljöer Bilder

    3000 bilder från olika miljöer, inklusive utomhus- och inomhusscener under olika belysning.

  15. Chars74K-data

    74,000 XNUMX bilder av engelska och Kannada siffror.

  16. IAM (IAM Handwriting)

    IAM-databasen har 13,353 657 handskrivna textbilder av XNUMX skribenter från Lancaster-Oslo/Bergen Corpus of British English.

  17. FUNSD (Form Understanding in Noisy Scanned Documents)

    FUNSD innehåller 199 kommenterade, skannade formulär med varierande och bullriga utseenden, utmanande för formförståelse.

  18. Sms:a OCR

    TextOCR riktmärker textigenkänning på godtycklig formad scentext i naturliga bilder.

  19. Twitter 100k

    Twitter100k är en stor datamängd för svagt övervakad tvärmediahämtning.

  20. SSIG-SegPlate – License Plate Character Segmentation (LPCS)

    Denna datauppsättning utvärderar License Plate Character Segmentation (LPCS) med 101 fordonsbilder på dagtid.

  21. 105,941 12 bilder Naturliga scener OCR-data för XNUMX språk

    Uppgifterna inkluderar 12 språk (6 asiatiska, 6 europeiska) och olika naturliga scener och vinklar. Den har begränsningsrutor på linjenivå och texttranskriptioner. Det är användbart för flerspråkiga OCR-uppgifter.

  22. Indisk skyltbildsdatauppsättning

    Datauppsättningen har indiska trafikskyltbilder för klassificering och upptäckt, tagna under olika väderförhållanden under dag, kväll och natt.

Dessa var några av de bästa datauppsättningarna med öppen källkod för utbildning av ML-modeller för textdetekteringsapplikationer. Att välja den som passar din verksamhet och applikationsbehov kan ta tid och ansträngning. Du måste dock experimentera med dessa datauppsättningar innan du bestämmer dig för den lämpliga.

[Läs även: OCR-infografik – definition, fördelar, utmaningar och användningsfall]

För att hjälpa dig att gå vidare mot en pålitlig och effektiv textdetekteringsapplikation är Shaip – ​​den högt rankade leverantören av teknologilösningar. Vi utnyttjar vår tekniska erfarenhet för att skapa anpassningsbara, optimerade och effektiva OCR-utbildningsdatauppsättningar för olika kundprojekt. För att till fullo förstå våra möjligheter, kontakta oss idag.

Social Dela