AI Knowledge Base

alignment

с этим тегом 2 элемента

16 апр. 2026 г.
Direct Preference Optimization (DPO)
16 апр. 2026 г.
Reinforcement Learning from Human Feedback (RLHF)

Создано с помощью Quartz v5.0.0 © 2026

GitHub