AI Knowledge Base
Search
Поиск
Тёмный режим
Светлый режим
Проводник
alignment
с этим тегом 2 элемента
16 апр. 2026 г.
Direct Preference Optimization (DPO)
architecture
alignment
fine-tuning
dpo
16 апр. 2026 г.
Reinforcement Learning from Human Feedback (RLHF)
architecture
rlhf
alignment
machine_learning