标签: VLM | 碎碎念的博客

2025-03-07

[论文学习]MM-EGO：迈向构建以自我为中心的多模态LLMS资料论文：[2410.07177] MM-Ego: Towards Building Egocentric Multimodal LLMs 简介本文提出了一

2025-03-05

[论文学习]SpatialRGPT：视觉语言模型中落地空间推理资料主页：SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models 代码：AnjieCheng/Spa

2025-03-04

[论文学习]大型视觉语言模型的基准评估、应用与挑战：综述转载自最新综述 | 大型视觉语言模型的基准评估、应用与挑战：综述 - 知乎资料论文：[2501.02189] Benchmark Evaluations, Applicatio

2025-03-04

[论文学习]SpatialCoT：基于坐标对齐和思想链的具身任务规划资料主页：SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-o

2025-03-03

[论文学习]大型多模态模型空间推理能力的实证分析资料论文：[2411.06048] An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal M

2025-03-03

[论文学习]视觉语言大模型幻觉综述资料论文：[2402.00253] A Survey on Hallucination in Large Vision-Language Models 代码：LVLM-Hallucinations-Sur

2025-01-22

[论文学习]VSI-Bench:多模态大型语言模型如何观察、记忆和回忆空间资料论文： Thinking in Space: How Multimodal Large Language Models See, Remember, and R