标签: RL | 碎碎念的博客

tag

RL 分类

2025-03-06

[论文学习]SCoRe：通过强化学习让LLM学会自我纠正资料论文：[2409.12917] Training Language Models to Self-Correct via Reinforcement Learning 简介

2025-03-06

[论文学习]S²R：通过强化学习教会 LLM 自我验证和自我修正资料论文：[2502.12853] S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforceme