AI资讯新闻榜单内容搜索-视觉大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉大模型
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型,并要求它做一份旅行攻略时,常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。

来自主题: AI技术研报
8459 点击    2026-05-27 09:52
视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

近日,腾讯混元团队提出HY-SOAR (Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报
7786 点击    2026-04-23 14:44
模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26

模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26

模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26

近年来,视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用,但在真实业务环境中,“大而全”的通用模型往往并不是最优选择。

来自主题: AI技术研报
6204 点击    2026-03-06 09:32
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

现有的视觉大模型普遍存在「语义-几何鸿沟」(Semantic-to-Geometric Gap),不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「你坐在沙发上时,餐桌在你的哪一侧?」,VLM 常常答错。

来自主题: AI技术研报
6744 点击    2026-01-13 10:20
美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

美团AI转向,前字节视觉模型AI平台负责人潘欣加入|智能涌现独家

外卖大战压力之下,美团正在打一场AI基建的硬仗。 文|邓咏仪 编辑|苏建勋 杨轩 《智能涌现》从多个信息源独家获悉,前闪极AI合伙人、前字节视觉大模型AI平台负责人潘欣,近期已经加入美团。 潘欣曾任谷

来自主题: AI资讯
9363 点击    2025-12-10 16:13
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报
7860 点击    2025-01-19 14:51
沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

沈向洋,发了一个可以识别万物的大模型

视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X,可以拥有真正的物体级别理解能力。

来自主题: AI资讯
8977 点击    2024-11-23 23:16
打造AI工业视觉大模型,赋能智能制造,「个元科技」获4600万美元B轮融资

打造AI工业视觉大模型,赋能智能制造,「个元科技」获4600万美元B轮融资

打造AI工业视觉大模型,赋能智能制造,「个元科技」获4600万美元B轮融资

36氪获悉,近日, 深圳个元科技有限公司(以下简称“个元科技”)完成4600万美元B轮融资,本轮融资由 UP Partners 领投,融得资金将主要用于扩张市场、加大技术研发。

来自主题: AI资讯
6563 点击    2024-11-18 09:20