AI资讯新闻榜单内容搜索-Multi

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Multi

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

过去几年，多模态模型在理解任务上快速演进，图像问答、OCR、视觉推理、跨模态对话等能力不断提升；与此同时，图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是：能否用同一个模型，同时做好理解与生成？这正是统一多模态模型（Unified Multimodal Models, UMMs）正在回答的问题。

来自主题: AI技术研报

7279 点击 2026-03-26 14:45

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）正在迅速改变人工智能的能力边界。从图像理解到视频分析，从语音对话到复杂推理，大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答：这些模型真的能够理解人类情绪吗？

来自主题: AI技术研报

6965 点击 2026-03-16 14:27

当AI能从360度无死角看世界。。

当AI能从360度无死角看世界。。

当AI能从360度无死角看世界。。

大家好，我是袋鼠帝。我最近做了一个挺有意思的实验。

来自主题: AI资讯

8327 点击 2026-03-16 09:52

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

来自主题: AI资讯

7036 点击 2026-03-11 16:59

ICLR 2026 | 帝国理工大学提出DyMo：让多模态模型学会「选择」，突破模态缺失难题

ICLR 2026 | 帝国理工大学提出DyMo：让多模态模型学会「选择」，突破模态缺失难题

ICLR 2026 | 帝国理工大学提出DyMo：让多模态模型学会「选择」，突破模态缺失难题

多模态学习（Multimodal Learning）正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态，模型能够获得更全面的信息，从而显著提升性能。

来自主题: AI技术研报

9225 点击 2026-03-09 14:28

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

基础模型时代，大模型能力的爆发，很大程度上源于在海量文本上的预训练。然而问题在于，文本本质上只是人类对现实世界的一种抽象表达，是对真实世界信息的有损压缩。

来自主题: AI技术研报

9821 点击 2026-03-09 09:53

CVPR 2026 | 1B模型也能当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster

近期，大连理工与快手可灵团队推出了 MultiShotMaster—— 一个高度可控的多镜头视频生成框架，该论文向研究社区展示了即使在 1B 左右的小参数量级模型上，也可以实现导演级的镜头调度和连贯叙事，且支持多图参考、主体运动控制。

来自主题: AI技术研报

9063 点击 2026-03-06 15:06

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室，核⼼贡献者包括任麒冰、郑志杰、郭嘉轩，指导⽼师为⻢利庄⽼师和邵婧⽼师，研究⽅向为安全可控⼤模型和智能体。最近，Moltbook 的爆⽕与随后的迅速

来自主题: AI技术研报

10392 点击 2026-02-11 12:32

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报

11088 点击 2026-02-05 13:50

跨境电商版Sora发布：全球首个AI原生电商视频Multi-Agent来了

跨境电商版Sora发布：全球首个AI原生电商视频Multi-Agent来了

跨境电商版Sora发布：全球首个AI原生电商视频Multi-Agent来了

你的下一个视频团队，不一定非得是人。

来自主题: AI资讯

8004 点击 2026-01-27 16:52

上一页当前第2页,共9页下一页