AI资讯新闻榜单内容搜索-多模态大模型

ACL 2026｜告别冗长思维链！Laser用「概率叠加」重塑多模态大模型隐式推理

为了解决这一痛点，由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队，提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感，引入了 “Forest-before-Trees” 的认知机制，通过动态窗口对齐学习（DWAL），首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。

来自主题: AI技术研报

6993 点击 2026-05-08 14:07

阿里开源PromptEcho：用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习（RL）优化文生图模型的 prompt following 能力，是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片，通过 reward model 计算 reward，再利用相关 RL 算法优化模型。

来自主题: AI技术研报

7623 点击 2026-05-06 14:27

AURA：让视频大模型从“看完再答”，走向“边看边理解、边看边响应”

近年来，视频多模态大模型（VideoLLM）发展迅猛，在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强，业界也开始思考一个更重要的问题：视频大模型能不能不再只是 “看完一段视频再回答”，而是真正进入实时世界，持续观察、实时理解，并在关键时刻主动给出反馈？

来自主题: AI技术研报

6523 点击 2026-04-21 09:23

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报

9197 点击 2026-03-30 15:02

浙大团队破解多模态模型「盲目自信」：先校准置信度，再分配算力丨CVPR'26

多模态大模型，到底有多“嘴硬”？浙江大学联合阿里巴巴、香港城市大

来自主题: AI技术研报

7919 点击 2026-03-23 09:51

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2，他们第一个原生多模态向量模型。文本、图像、视频、音频、文档，全部映射到同一个 3072 维向量空间。这是 Omni Embedding（全模态向量模型）的大趋势：一个架构吃下所有模态，从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5，大家都在往这个方向收敛。

来自主题: AI技术研报

6386 点击 2026-03-16 15:06