Definition
Reinforcement Learning from Human Feedback (RLHF) är en metod för att anpassa AI-modeller till mänskliga värderingar genom att införliva mänskliga bedömningar i träningsprocessen. Den används ofta för att finjustera stora språkmodeller.
Syfte
Syftet är att göra AI-resultat säkrare, mer användbara och i linje med mänskliga preferenser. RLHF förbättrar konversationssystem genom att minska skadliga, partiska eller irrelevanta svar.
Betydelse
- Ger mänsklig tillsyn i AI-utbildning.
- Förbättrar tillförlitligheten hos AI-system.
- Arbetsintensiv på grund av mänskliga annoteringsbehov.
- Relaterat till preferensmodellering och anpassningsforskning.
Så fungerar det
- Samla in mänsklig feedback och jämför modellens resultat.
- Träna en belöningsmodell utifrån mänskliga preferenser.
- Använd förstärkningsinlärning för att finjustera basmodellen.
- Utvärdera prestanda mot anpassningsmål.
- Iterera med ytterligare feedback.
Exempel (verkliga världen)
- OpenAI ChatGPT: finjusterad med RLHF för säkrare svar.
- Anthropics konstitutionella AI: styrd av principer snarare än direkt feedback.
- InstructGPT: tidig OpenAI-modell som demonstrerar RLHF.
Referenser / Vidare läsning
- Christiano et al. ”Djupförstärkande lärande från mänskliga preferenser.” NeurIPS 2017.
- OpenAI InstructGPT-dokument.
- NIST AI-riskhanteringsramverk.
- Vad är Reinforcement Learning with Human Feedback (RLHF)?