AI资讯新闻榜单内容搜索-视觉大模型

商汤科技全面开源日日新SenseNova-Vision视觉大模型

近日，商汤科技发布并全面开源日日新SenseNova-Vision理解生成统一视觉大模型，试图宣告视觉AI“缝合怪”时代的终结。截至当前，该模型综合得分登顶Hugging Face Any-to-Any Leaderboard，位列该全模态任意输入输出开源模型榜单全球第一。

来自主题: AI资讯

10147 点击 2026-07-16 18:33

当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型，并要求它做一份旅行攻略时，常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。

来自主题: AI技术研报

8953 点击 2026-05-27 09:52

即将结束博士生涯的童晟邦，正站在另一个起点上。

来自主题: AI资讯

7914 点击 2026-05-25 15:10

近日，腾讯混元团队提出HY-SOAR （Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报

8229 点击 2026-04-23 14:44

近年来，视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用，但在真实业务环境中，“大而全”的通用模型往往并不是最优选择。

来自主题: AI技术研报

6536 点击 2026-03-06 09:32

现有的视觉大模型普遍存在「语义-几何鸿沟」（Semantic-to-Geometric Gap），不仅分不清东南西北，更难以处理精确的空间量化任务。例如问「你坐在沙发上时，餐桌在你的哪一侧？」，VLM 常常答错。

来自主题: AI技术研报

7115 点击 2026-01-13 10:20

外卖大战压力之下，美团正在打一场AI基建的硬仗。文｜邓咏仪编辑｜苏建勋杨轩《智能涌现》从多个信息源独家获悉，前闪极AI合伙人、前字节视觉大模型AI平台负责人潘欣，近期已经加入美团。潘欣曾任谷

来自主题: AI资讯

9614 点击 2025-12-10 16:13

理解物体的物理属性，对机器人执行操作十分重要，但是应该如何实现呢？

来自主题: AI技术研报

11690 点击 2025-02-24 16:27

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报

8084 点击 2025-01-19 14:51

视觉模型仍是IDEA的研究重点——IDEA正式发布的最新通用视觉大模型DINO-X，可以拥有真正的物体级别理解能力。

来自主题: AI资讯

9157 点击 2024-11-23 23:16