AI资讯新闻榜单内容搜索-VLM

腾讯发布两大具身智能基座模型，VLM&RxBrain让机器人更懂现实世界

7 月 15 日，腾讯 Robotics X 实验室以及福田实验室联合腾讯混元推出两款具身智能基座模型 —— 具身 VLM 基座模型 Hy-Embodied-VLM-1.0 以及具身世界认知基座模型 Hy-Embodied-RxBrain-1.0，不仅让具身大脑能够 “看” 懂现实世界，还学会同时推理和想象。

来自主题: AI技术研报

9681 点击 2026-07-16 10:31

姚顺雨的OpenAI前同事田永龙，也加入腾讯了

智东西获悉，OpenAI前研究员田永龙（Yonglong Tian）已确认于近期加入腾讯大语言模型部，后续将参与VLM（视觉语言模型）相关研发。在OpenAI期间，田永龙曾参与GPT-5的研发工作。加入OpenAI之前，他在Google Research和DeepMind长期从事视觉表征学习和对比学习等方向研究，对后续视觉模型以及多模态表征学习的发展产生了广泛影响。

来自主题: AI资讯

8648 点击 2026-07-08 16:05

ICML 2026｜两张图换个顺序，VLM就「不会了」：EgoTSR让机器人判断任务是否真的在推进

浙江大学等五所高校的研究团队提出 EgoTSR。研究从第一人称机器人视角出发，希望让 VLM 学会判断任务状态，并把这种能力进一步扩展到长程规划。团队构建了包含 4600 万条样本的 EgoTSR-Data，并设计了三阶段课程学习流程。

来自主题: AI技术研报

8012 点击 2026-07-05 09:32

直接从像素到单词：这个原生大模型统一单图、多图、视频和空间智能

今天几乎所有主流视觉语言模型（VLM）—— 无论是 Qwen-VL、InternVL，还是 LLaVA 系列 —— 都遵循着同一套经典架构：先用预训练视觉编码器（如 CLIP、SigLIP）将图像压缩为特征，再通过投影层把这些特征送入大语言模型。

来自主题: AI技术研报

7764 点击 2026-06-24 16:06

刚刚，豆包大模型2.1发布，Coding能力进入国际第一梯队！相比Opus 4.6降价近80%

豆包大模型2.1 Pro正式发布。但字节这次没有像某些厂商那样疯狂堆参数、刷榜单，而是把刀锋对准了一个更硬核的方向：让AI真正能“干活” 。作为本次大会发布的主力模型，豆包2.1 Pro 在 Coding（编程）、Agent（智能体）、VLM（视觉语言模型）三大核心方向实现能力跃升，多项评测表现优于Claude Opus 4.6

来自主题: AI资讯

10307 点击 2026-06-23 15:40

腾讯混元最新开源：一套RL框架打通多个模态，庞天宇团队新作

大语言模型的RL技术已日趋成熟，多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

来自主题: AI技术研报

7501 点击 2026-06-18 11:25

0.6B VLM重塑AI修图推理流程，支持手机端侧部署，vivo+浙大出品

如今手机拍照已成日常，后期修图是提升照片质感的关键。

来自主题: AI技术研报

9763 点击 2026-06-15 09:21

Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

Meta 发布了一项令人震撼的研究工作 VLM³，首次揭示了三维视觉学习的 Bitter Lesson：标准的视觉语言模型 + scale 数据就是最简单有效的范式，针对特定任务的架构、损失函数以及数据增强的设计，甚至是 regression 的 formulation，均不是三维视觉学习的必要条件。

来自主题: AI技术研报

7353 点击 2026-06-09 14:31

快手可灵提出VLM-as-Teacher：用测试时在线优化，让视频生成模型学会按规则推理

怎么让VGM学会按规则推理？过去主要有两条路。两条路，一个不动模型，一个只写文字，都没真正解决“执行”问题。为此，城大×快手可灵提出了第三条路：VLM-as-Teacher。

来自主题: AI技术研报

8033 点击 2026-06-06 09:51

ICML2026 | AutoMoT : B2D & nuScense双SOTA ，重新思考VLM和端到端驾驶的结合

大模型进入自动驾驶后，最直接的价值在于场景理解。它可以识别前车是否准备并线、行人是否可能横穿、施工区域是否会影响车道，也可以分析复杂路口中的让行关系。

来自主题: AI技术研报

10486 点击 2026-05-28 14:50