Definition
Dokumentklassificering är processen att kategorisera textdokument i fördefinierade klasser med hjälp av maskininlärning eller regelbaserade metoder. Klasser kan inkludera ämnen, skräppostdetektering eller sentiment.
Syfte
Syftet är att organisera och filtrera stora textvolymer effektivt. Den stöder sökning, innehållsmoderering och automatiserade arbetsflöden.
Betydelse
- Sparar tid genom att automatisera kategorisering.
- Nyckel för filtrering av skräppost via e-post, juridisk upptäckt och kunskapshantering.
- Fel kan leda till att dokument missas eller klassificeras felaktigt.
- Relaterat till NLP-uppgifter som sentimentanalys.
Så fungerar det
- Samla in och förbearbeta textdokument.
- Representera text med funktioner (t.ex. TF-IDF, inbäddningar).
- Tågklassificeringsmodeller (SVM:er, neurala nätverk).
- Validera modellens noggrannhet på märkta testuppsättningar.
- Distribuera klassificerare för att kategorisera nya dokument.
Exempel (verkliga världen)
- Gmails skräppostfilter: klassificerar e-postmeddelanden i skräppost och icke-skräppost.
- Nyhetsaggregatorer: kategoriserar artiklar efter ämne.
- Juridisk teknik: klassificerar dokument för utforskning och efterlevnad.
Referenser / Vidare läsning
- Manning m.fl. Introduktion till informationshämtning. Cambridge University Press.
- Jurafsky & Martin. Tal- och språkbehandling. Stanford.
- IEEE-transaktioner om kunskaps- och datateknik.