Definition
Insamling av textdata är processen att samla in skrivet språk från källor som böcker, webbplatser eller chattloggar för användning i AI-utbildning.
Syfte
Syftet är att skapa korpusar för NLP- och LLM-utveckling.
Betydelse
- Tillhandahåller råmaterial för språkmodeller.
- Tar upp frågor om upphovsrätt och licenser.
- Datadiversitet påverkar rättvisa och noggrannhet.
- Måste filtrera bort skadligt eller irrelevant innehåll.
Så fungerar det
- Identifiera textkällor (webb, dokument, transkriptioner).
- Genomsök eller skrapa text med tillstånd.
- Rensa och normalisera innehåll.
- Lagra med metadata för spårbarhet.
- Används före träning eller finjustering.
Exempel (verkliga världen)
- Vanlig genomsökning: stor webbkorpus.
- Wikipedia-dumpar: strukturerad textdatauppsättning.
- BooksCorpus: används för att träna BERT.
Referenser / Vidare läsning
- Stiftelsen för gemensam crawlning.
- Jurafsky & Martin. Tal- och språkbehandling.
- ISO/IEC TR 20547-5: Referensarkitektur för stordata.
- Fallspecifik textinsamling