Definition
Syntetiska data är artificiellt genererad information som efterliknar verkliga data. Den kan skapas med hjälp av simuleringar, GAN eller andra generativa metoder.
Syfte
Syftet är att utöka eller ersätta verkliga data när de är knappa, känsliga eller dyra att samla in.
Betydelse
- Skyddar integriteten genom att minska beroendet av personuppgifter.
- Möjliggör träning för sällsynta eller edge-fall.
- Kan sakna den fulla komplexiteten hos verkliga data.
- Används alltmer inom säkerhetskritisk AI.
Så fungerar det
- Definiera de dataegenskaper som ska replikeras.
- Använd simulering eller generativa modeller för att skapa data.
- Validera syntetiska data mot verkliga fördelningar.
- Använd syntetiska data i träningspipelines.
- Övervaka brister i realismen.
Exempel (verkliga världen)
- Waymo: använder syntetiska körscener för autonom träning.
- NVIDIA Omniverse: genererar syntetisk 3D-data för robotik.
- Hälso- och sjukvård: syntetiska patientdata för forskning.
Referenser / Vidare läsning
- NISTs specialpublikation om syntetiska data.
- Goncalves et al. ”Generering och utvärdering av syntetiska data.” ACM Computing Surveys.
- Syntetisk datavalv (MIT).
- Vad är syntetisk data inom AI