Handskriftsdataset

De 15 bästa handskriftsdatauppsättningarna med öppen källkod för att träna dina ML-modeller

Affärsvärlden förändras i en fenomenal takt, men denna digitala transformation är inte alls så omfattande som vi skulle vilja att den ska vara. Människor hanterar fortfarande fysiska dokument i sin dagliga verksamhet, från stora företag till småskaliga företag. Även om frekvensen av användning har minskat avsevärt, har den inte helt avskaffats. Istället för den tidskrävande processen att skanna dokument för digital användning, med det senaste OCR är tidseffektivt och effektivt.

Ökningen av användningen av optisk teckenigenkänning kan främst hänföras till ökningen av produktionen av automatiska igenkänningssystem. Som ett resultat är det globala marknadsvärdet för OCR-teknik, kopplat till $ 8.93 miljarder 2021, förutspås växa med en CAGR på 15.4 % mellan 2022 och 2030.

Men vad är egentligen OCR-teknik? Och varför är det en game changer för företag som utvecklar effektiva AI-modeller? Låt oss ta reda på.

Vad är OCR?

Alternativt kallad textigenkänning, OCR eller optisk teckenigenkänning är ett program som extraherar utskrivna eller skrivna data från skannade dokument, endast bildfiler och handskrivna anteckningar till ett maskinläsbart format. Programvaran tar ut varje bokstav från bilden och kombinerar dem till ord och meningar, vilket gör det enkelt att komma åt och redigera dokumenten digitalt.

Vad är datauppsättningar med öppen källkod?

Det finns flera platser där OCR-tekniken har stor potential att utnyttjas. Vissa platser inkluderar flygplatsen, publicering av e-böcker, annonser, banker och system för försörjningskedjor. Men för att applikationerna ska tjäna sitt syfte måste de utbildas i projektspecifika Datauppsättningar för optisk teckenigenkänning.

Applikationens effektivitet beror till stor del på datasetets kvalitet och utbildningsmetodik. Men att hitta kvalitet digitala och handstilsuppsättningar är svårt för applikationen. Så många företag använder datauppsättningar med öppen källkod eller gratis att använda istället för egenutvecklade.

Fördelar och utmaningar med datauppsättningar med öppen källkod

Företag måste ställa fördelarna och utmaningarna mot varandra för att förstå om de måste välja fri att använda data för sina ML-applikationer.

Fördelar

  • Uppgifterna är lättillgängliga. På grund av datatillgänglighet minskar kostnaden för att utveckla applikationen avsevärt.
  • Tiden och ansträngningen som läggs ner på att samla in data för applikationen minskar avsevärt eftersom datasetet är lättillgängligt.
  • Det finns ett överflöd av gemenskapsforum eller hjälpgrupper som hjälper till att lära sig, anpassa och optimera datamängden.
  • En av de stora fördelarna med datamängden med öppen källkod är att den inte lägger några begränsningar för anpassning.
  •   Data med öppen källkod är tillgänglig för en stor del av befolkningen, vilket gör analys och innovation möjlig utan monetära barriärer.

Utmaningar

  • Projektspecifika data är svåra att få tag på. Dessutom finns det en möjlighet att information saknas och att tillgänglig data används felaktigt.
  • Att skaffa egen data tar tid och ansträngning och är kostsamt
  • Även om det kan vara lättare att skaffa data, kan kunskap och analyskostnader uppväga den initiala fördelen.
  • Andra utvecklare använder också samma data för att utveckla applikationer.
  • Dessa datauppsättningar är mycket sårbara för säkerhetsintrång, integritet och samtycke.

15 bästa handskrifts- och OCR-dataset för maskininlärning

OCR-datauppsättningar med öppen källkod

Många datauppsättningar med öppen källkod är tillgängliga för utveckling av textigenkänningsapplikationer. Några av de bästa 15 är

  1. ICDAR Dataset

    International Conference for Document Analysis and Recognition har ett arkiv med 229 utbildnings- och 233 testbilder, tillsammans med kommentarer. Det fungerar som ett riktmärke för utvärdering av textdetektering.

  2. IIIT 5K-Word Dataset

    Hämtad från Google bildsökning, IIIT 5K-word är en samling ord från skyltar, skyltar, nummerskyltar och affischer. Den innehåller 5K beskurna ordbilder vilket gör den till en av de mest omfattande samlingarna av textigenkänningsdatauppsättningar som finns tillgängliga.

  3. NIST-databas

    NIST eller National Institute of Science erbjuder en gratis samling av över 3600 810,000 handskriftsprover med mer än XNUMX XNUMX teckenbilder

  4. MNIST-databas

    MNIST-databasen är hämtad från NSIT:s Special Database 1 och 3 och är en sammanställd samling av 60,000 10,000 handskrivna nummer för träningssetet och XNUMX XNUMX exempel för testsetet. Denna databas med öppen källkod hjälper till att träna modeller att känna igen mönster samtidigt som de spenderar mindre tid på förbearbetning.

  5. Textavkänning

    Databasen Text Detection är en databas med öppen källkod och innehåller cirka 500 bilder inomhus och utomhus av skyltar, dörrskyltar, varningsskyltar och mer.

  6. Stanford OCR

    Publicerad av Stanford, denna gratis att använda dataset är en handskriven ordsamling av MIT Spoken Language Systems Group.

  7. DDI-100

    DDI-100, som annars kallas Dataset för distorted Document Images, är en samling av över 6658 sidor med dokument med flera geometriska mönster och förvrängningar. Dessutom har DDI-100 mer än 99870 bilder, stämpelmasker, textmasker och begränsningsrutor.

  8. RoadText-1K

    RoadText-1K är en av de största datamängderna som hjälper till att träna modeller att upptäcka text i videor. RoadText-1000K innehåller XNUMX XNUMX videoklipp kompletta med markeringstextkommentarer och transkription av texten i varje videobildruta.

  9. MSRA-TD500

    Innehåller 300 tränings- och 200 textbilder; MSRA-TD500 innehåller tecken från kinesiska och engelska språk och är kommenterad på meningsnivå.

  10. MJSynth Dataset

    Tillhandahålls av University of Oxford, denna orduppsättning har nästan 9 miljoner syntetiskt genererade bilder som täcker mer än 90 tusen engelska ord.

  11. Street View-text

    Denna datauppsättning har samlats in från Google Street View-bilder och har textidentifieringsbilder huvudsakligen av tavlor och skyltar på gatunivå.

  12. Dokumentdatabas

    Dokumentdatabasen är en samling av 941 handskrivna dokument, inklusive tabeller, formler, ritningar, diagram, listor och mer, från 189 författare.

  13. Matematiska uttryck

    Mathematics Expressions är en databas som innehåller 101 matematiska symboler och 10,000 XNUMX uttryck.

  14. Street View husnummer

    Denna Street View House Numbers har hämtats från Google Street View och är en databas som innehåller 73257 gatuhusnummer.

  15. Naturlig miljö OCR

    The Natural Environment OCR, är en datauppsättning med nästan 660 bilder över hela världen och 5238 textkommentarer.

Dessa var några av de bästa datauppsättningarna med öppen källkod för utbildning av ML-modeller för textdetekteringsapplikationer. Att välja den som passar din verksamhet och applikationsbehov kan ta tid och ansträngning. Du måste dock experimentera med dessa datauppsättningar innan du bestämmer dig för den lämpliga.

För att hjälpa dig att gå vidare mot en pålitlig och effektiv textdetekteringsapplikation är Shaip – ​​den högt rankade leverantören av teknologilösningar. Vi utnyttjar vår tekniska erfarenhet för att skapa anpassningsbara, optimerade och effektiva OCR-utbildningsdatauppsättningar för olika kundprojekt. För att till fullo förstå våra möjligheter, kontakta oss idag.

Social Dela