AI资讯新闻榜单内容搜索-多模态

戴盟机器人完成亿元融资，阿里通义多模态大牛原玮浩加盟攻关物理世界模型

具身智能公司戴盟机器人（Daimon Robotics）新近完成亿元A轮融资，本轮融资由汇川产投和中国电信联合投资。与此同时量子位还获悉了关于这家公司的另一则消息——阿里通义实验室前多模态研究专家原玮浩加入戴盟，担任首席AI科学家。

来自主题: AI资讯

8664 点击 2026-06-04 10:50

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

刚刚，谷歌DeepMind发布了Gemma 4 12B。一句话概括这个模型的定位：把原本需要高端服务器才能跑的多模态智能，装进你的笔记本电脑里。它填补的是Gemma家族里一个关键空缺：比边缘端的E4B更强，比26B混合专家模型（MoE）更轻。而且在整个Gemma 4系列里，它是第一个支持原生音频输入的中等规模模型。

来自主题: AI资讯

8814 点击 2026-06-04 09:46

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报

5827 点击 2026-06-03 15:03

阿里通义千问发布多模态智能体模型Qwen3.7-Plus，让AI从“读懂世界”，走向“动手完成任务”。

今天，阿里通义千问发布多模态智能体模型Qwen3.7-Plus。相比传统“看图说话”式多模态模型，Qwen3.7-Plus在识别图像的基础上，进一步打通界面感知、工具调用、代码生成和任务交付，让AI从“读懂世界”，走向“动手完成任务”。

来自主题: AI资讯

8979 点击 2026-06-02 21:40

晚点独家丨字节 Seed 架构调整：周畅管理范围扩大，具身业务纳入核心

独家获悉，字节跳动多模态负责人周畅管理范围再次扩大，原由李航负责的 Seed Robotics 团队已向周畅汇报月余，李航现以顾问身份负责学术合作方向。字节也正在招聘具身智能技术负责人，负责机器人业务整体规划，职级定位为 L8，对标阿里 P10-P11，将向周畅汇报。该岗位候选人主要来自头部具身智能创业公司技术负责人。

来自主题: AI资讯

8595 点击 2026-06-02 21:23

MiniMax 低调发布 M3 和 MiniMax Code，我们测完后有几点感受

前沿的 Coding 能力、1M 的上下文窗口，还有原生的多模态

来自主题: AI产品测评

7478 点击 2026-06-02 11:58

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

MiniMax M3 今日正式发布。MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA （MiniMax Sparse Attention），最高支持 1M 超长上下文。如外界所期待的那样，它也是一个原生多模态模型，支持图片和视频的输入，并能操作电脑桌面。

来自主题: AI资讯

9090 点击 2026-06-01 09:49