2025-03-06 [论文学习]SCoRe:通过强化学习让LLM学会自我纠正 LLMRL 论文学习 [论文学习]SCoRe:通过强化学习让LLM学会自我纠正资料 论文:[2409.12917] Training Language Models to Self-Correct via Reinforcement Learning 简介
2025-03-06 [论文学习]S²R:通过强化学习教会 LLM 自我验证和自我修正 LLMRL 论文学习 [论文学习]S²R:通过强化学习教会 LLM 自我验证和自我修正资料 论文:[2502.12853] S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforceme