标签: LLM | 碎碎念的博客

2025-03-06

[论文学习]SCoRe：通过强化学习让LLM学会自我纠正资料论文：[2409.12917] Training Language Models to Self-Correct via Reinforcement Learning 简介

2025-03-06

[论文学习]S²R：通过强化学习教会 LLM 自我验证和自我修正资料论文：[2502.12853] S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforceme

2025-03-05

[概述学习]语言模型在多智能体博弈中的推理能力转载自语言模型在多智能体博弈中的推理能力-CSDN博客关键词语言模型多智能体博弈推理能力深度学习策略学习摘要本文探讨了语言模型在多智能体博弈中的推理能力。通

2025-03-05

[论文学习]语言策略的博弈论新境界：从对话到平衡——大语言模型的博弈解构与前瞻转载自语言策略的博弈论新境界：从对话到平衡——大语言模型的博弈解构与前瞻-CSDN博客资料论文：[2402.01704] Steering Languag

2025-03-04

[论文学习]LLMs的心灵之眼：大型语言模型中思维诱导空间推理的可视化资料主页：Mind’s eye of LLMs Vot 论文：[2404.03622] Mind’s Eye of LLMs: Visualization-of-Tho

2024-11-08

论文学习：ATTEMPT:通过注意力混合软提示进行参数高效的多任务调整资料论文：ATTEMPT: Parameter-Efficient Multi-task Tuning via Attentional Mixtures of Soft