AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。

来自主题: AI技术研报
7439 点击    2026-05-26 10:26
智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型,不仅在多个基准测试中刷新 SOTA 纪录,也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。

来自主题: AI资讯
8564 点击    2026-05-25 09:49
教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

教大模型终身学习!中科大连发两篇顶会,突破「知识注入」双重困境

中科大团队首先推出动态多模态知识注入基准MMEVOKE,解构遗忘机制,并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调,为大模型终身学习开辟了全新路径。

来自主题: AI技术研报
9590 点击    2026-05-22 09:28
HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

HyperEyes:从「搜得更深」到「搜得更宽」,并行多模态搜索智能体的效率革命

现有的开源多模态搜索智能体普遍受困于「裁剪 - 再搜索」的串行处理模式,面对多目标时往往陷入交互冗长、错误级联累积的泥沼。

来自主题: AI技术研报
5775 点击    2026-05-20 09:52
高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

大模型的能力边界正在不断拓展,从文字到视觉,再到音频,全模态理解已渐成现实。然而,当你问一个多模态大模型「这首歌的高潮从第几秒开始?」或者「第 30 秒之后乐器编配发生了什么变化?」,得到的往往是一个模糊甚至错误的回答。

来自主题: AI技术研报
6380 点击    2026-05-20 09:51
ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

ICML 2026 | 只用少量Thinking Tokens,大模型依然能深度思考

近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。

来自主题: AI技术研报
6802 点击    2026-05-19 10:01
Wirestock 融资 2300 万美元背后:AI 公司开始争夺“创作者数据”,多模态时代的数据战争正在形成

Wirestock 融资 2300 万美元背后:AI 公司开始争夺“创作者数据”,多模态时代的数据战争正在形成

Wirestock 融资 2300 万美元背后:AI 公司开始争夺“创作者数据”,多模态时代的数据战争正在形成

最近,创作者平台 Wirestock 宣布完成 2300 万美元 Series A 融资,由 Nava Ventures 领投,SBVP(Sheryl Sandberg 参与创立)、Formula VC 与 I2BF Ventures 参投,公司累计融资规模达到约 2600 万美元。

来自主题: AI资讯
7645 点击    2026-05-17 11:23
从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

为了解决这一问题,来自中山大学和美团的研究团队提出了 X2SAM,一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频,还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报
7730 点击    2026-05-16 10:50
上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

上海交通大学、上海创智学院与瑞金医院联合发布的CX-Mind,是目前首个将胸片诊断推进为「可验证推理链」的多模态大模型——从看到异常,到解释为什么、排除了什么、结论怎么来的,每一步都有影像证据支撑。

来自主题: AI资讯
9109 点击    2026-05-15 13:30