AI资讯新闻榜单内容搜索-多模态

3步推理生成加速20+倍！CoLT教会多模态大模型用「潜思维链」思考

近年来，多模态大语言模型（MLLM）在视觉问答、图表理解、科学推理等任务上取得了令人瞩目的进展。

来自主题: AI技术研报

6180 点击 2026-07-15 10:27

像聊天一样做CAD建模！浙大开源智能体 CADDesigner 让建模变打字，已登国际CAD顶刊

浙江大学计算机辅助设计与图形系统全国重点实验室杜鹏团队提出了一个支持多模态输入的CAD建模智能体：CADDesigner。该智能体致力于构建一个中间层，将大模型、智能体与传统几何引擎深度融合，帮助CAD设计师提升模型设计能力和生产效率。

来自主题: AI资讯

8668 点击 2026-07-12 17:08

ICML 2026 Spotlight | 直面「模态缺失」挑战：北大彭宇新团队联合福大柯逍团队提出LIMSSR，面向训练阶段不完整观测的精准评价

本文是北京大学彭宇新教授团队联合福州大学柯逍教授团队在细粒度多模态动作质量评价领域的最新研究成果，相关论文已被 ICML 2026 接收为 Spotlight，并已开源。真实世界中的多模态数据往往并不完整。在动作质量评价任务中，视频、光流、音频等模态能够从不同角度描述动作执行过程，但在实际采集时，传感器故障、环境噪声、隐私限制等因素都会导致模态缺失。

来自主题: AI技术研报

8134 点击 2026-07-10 10:40

多模态 Agent 记忆，为什么不能当成升级版多模态RAG？

多模态 Agent 的记忆系统，过去很容易被理解成一个升级版 RAG：图片、图表、PDF 进来之后，先抽取内容、做 embedding、写进向量库；用户提问时，再用 query 做检索，把命中的top-k图片、文档页或图表一并塞进上下文，再交给多模态模型回答。整个过程中，所有原始模态信息都会不加选择的塞给大模型。

来自主题: AI技术研报

8184 点击 2026-07-10 10:39

刚刚，字节最强图像模型杀回来了！17个案例深度实测Seedream 5.0 Pro

7月8日晚间，字节跳动Seed团队正式发布多模态图像创作模型Seedream 5.0 Pro。这距离今年2月10日Seedream 5.0预览版上线，已经过去近5个月。相比此前版本，Seedream 5.0 Pro在图文匹配、结构合理性、文字渲染与画面美感等基础能力上进行了升级，并重点强化了四项核心能力

来自主题: AI资讯

9294 点击 2026-07-09 09:51

姚顺雨的OpenAI前同事田永龙，也加入腾讯了

智东西获悉，OpenAI前研究员田永龙（Yonglong Tian）已确认于近期加入腾讯大语言模型部，后续将参与VLM（视觉语言模型）相关研发。在OpenAI期间，田永龙曾参与GPT-5的研发工作。加入OpenAI之前，他在Google Research和DeepMind长期从事视觉表征学习和对比学习等方向研究，对后续视觉模型以及多模态表征学习的发展产生了广泛影响。

来自主题: AI资讯

8660 点击 2026-07-08 16:05