2025-03-06 [论文学习]SCoRe:通过强化学习让LLM学会自我纠正 LLMRL 论文学习 [论文学习]SCoRe:通过强化学习让LLM学会自我纠正资料 论文:[2409.12917] Training Language Models to Self-Correct via Reinforcement Learning 简介
2025-03-06 [论文学习]S²R:通过强化学习教会 LLM 自我验证和自我修正 LLMRL 论文学习 [论文学习]S²R:通过强化学习教会 LLM 自我验证和自我修正资料 论文:[2502.12853] S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforceme
2025-03-05 [概述学习]语言模型在多智能体博弈中的推理能力 Ai-agentLLM 论文学习 [概述学习]语言模型在多智能体博弈中的推理能力 转载自语言模型在多智能体博弈中的推理能力-CSDN博客 关键词 语言模型 多智能体博弈 推理能力 深度学习 策略学习 摘要 本文探讨了语言模型在多智能体博弈中的推理能力。通
2025-03-05 [论文学习]语言策略的博弈论新境界:从对话到平衡——大语言模型的博弈解构与前瞻 Ai-agentLLM 论文学习 [论文学习]语言策略的博弈论新境界:从对话到平衡——大语言模型的博弈解构与前瞻 转载自语言策略的博弈论新境界:从对话到平衡——大语言模型的博弈解构与前瞻-CSDN博客 资料 论文:[2402.01704] Steering Languag
2025-03-04 [论文学习]LLMs的心灵之眼:大型语言模型中思维诱导空间推理的可视化 LLM 论文学习 [论文学习]LLMs的心灵之眼:大型语言模型中思维诱导空间推理的可视化资料 主页:Mind’s eye of LLMs Vot 论文:[2404.03622] Mind’s Eye of LLMs: Visualization-of-Tho
2024-11-08 [论文学习]ATTEMPT:通过注意力混合软提示进行参数高效的多任务调整 LLM参数高效微调 论文学习 论文学习:ATTEMPT:通过注意力混合软提示进行参数高效的多任务调整资料 论文:ATTEMPT: Parameter-Efficient Multi-task Tuning via Attentional Mixtures of Soft