AI资讯新闻榜单内容搜索-Multi

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Multi
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

近期,大连理工与快手可灵团队推出了 MultiShotMaster—— 一个高度可控的多镜头视频生成框架,该论文向研究社区展示了即使在 1B 左右的小参数量级模型上,也可以实现导演级的镜头调度和连贯叙事,且支持多图参考、主体运动控制。

来自主题: AI技术研报
8754 点击    2026-03-06 15:06
ICLR 2026 | 在Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

ICLR 2026 | 在Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

ICLR 2026 | 在Moltbook之外,上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室,核⼼贡献者包括任麒冰、郑志杰、郭嘉轩,指导⽼师为⻢利庄⽼师和邵婧⽼师,研究⽅向为安全可控⼤模型和智能体。 最近,Moltbook 的爆⽕与随后的迅速

来自主题: AI技术研报
10113 点击    2026-02-11 12:32
美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报
10868 点击    2026-02-05 13:50
斯坦福发布基于58万小时数据的SleepFM预测模型,睡一晚就能预测130种疾病!

斯坦福发布基于58万小时数据的SleepFM预测模型,睡一晚就能预测130种疾病!

斯坦福发布基于58万小时数据的SleepFM预测模型,睡一晚就能预测130种疾病!

《Nature Medicine》 的研究报道“A multimodal sleep foundation model for disease prediction”,研究人员开发了一种名为 SleepFM 的基础模型,从超过58万小时的记录中“学会”了睡眠的语言。这不仅是睡眠科学的进步,更是AI在生物医学领域的深层突围。

来自主题: AI资讯
9694 点击    2026-01-11 22:05
真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报
9992 点击    2026-01-06 16:46
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

MiniMax最新旗舰级Coding & Agent模型M2.1,刚刚对外发布了。这一次,它直接甩出了一份硬核成绩单,在衡量多语言软件工程能力的Multi-SWE-bench榜单中,以仅10B的激活参数拿下了49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA。

来自主题: AI资讯
9231 点击    2025-12-24 08:08
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟,但当任务升级为高度定制化的多实例图像生成(Multi-Instance Image Generation, MIG)时,挑战随之显现:

来自主题: AI技术研报
10376 点击    2025-12-22 09:33
Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌

Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌

Prompt、Context engineering 又向前进化了,3个关键维度+5个具体杠杆 |谷歌

我们正处在一个AI Agent(智能体)爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm(多智能体蜂群),新的架构层出不穷。但在这些眼花缭乱的名词背后,开发者的工作往往更像是一门“玄学”,我们凭直觉调整提示词,凭经验增加Agent的数量,却很难说清楚为什么某个架构在特定任务上表现更好。

来自主题: AI技术研报
8674 点击    2025-12-16 09:59
Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型

今天我们正式发布 Jina-VLM,这是一款 2.4B 参数量的视觉语言模型(VLM),在同等规模下达到了多语言视觉问答(Multilingual VQA)任务上的 SOTA 基准。Jina-VLM 对硬件需求较低,可在普通消费级显卡或 Macbook 上流畅运行。

来自主题: AI资讯
8591 点击    2025-12-09 14:48