AI资讯新闻榜单内容搜索-空间推理

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报

6445 点击 2026-06-03 15:03

CVPR 2026 Oral｜横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA

在具身智能研究中，如何让智能体精准理解周围环境的精细几何结构与开放语义信息，始终是具身感知的核心难题。近年来，语义占据预测（Semantic Occupancy Prediction）将稠密几何与语义信息统一到三维体素网格中，用于构建 3D 语义占据地图，为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报

10589 点击 2026-05-06 09:07

CVPR 2026｜突破3D空间推理瓶颈：北大联合南科大提出QuatRoPE，让大模型精准理解三维物体关系

本文主要介绍来自该团队的最新论文：Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models。

来自主题: AI技术研报

6365 点击 2026-04-20 14:04

直面LeCun愿景，智在无界发布最强具身世界模型，20万小时人类视频屠榜6大榜单

4 月 14 日，智在无界发布第三代旗舰模型 Being-H0.7，该模型将数据规模扩展至 20 万小时人类视频，并提出一种全新的范式 —— 基于潜空间推理的世界模型。在 6 项国际性权威评测中，H0.7 综合排名全球第一（其中 4 项登顶），同时也是首个覆盖跨本体、跨场景、连续动态、流体、柔性物体、物理规律与上下文推理等七大关键维度的通用世界模型。

来自主题: AI资讯

9013 点击 2026-04-14 10:22

一句话生成无限逼真3D场景！匹兹堡大学新作直击VLM空间推理软肋丨CVPR'26

VLM看图像描述头头是道，一遇到3D空间推理就“晕菜”。

来自主题: AI技术研报

6643 点击 2026-04-08 09:15

告别「边画边说」：LatentMorph 开启视觉生成隐式潜空间推理新范式

人类在创作艺术时，大脑并非一味地输出，而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

来自主题: AI技术研报

9509 点击 2026-03-05 14:25

Gemini 3仅得33.6分！清华发布首个「约束流形」空间智能基准

SSI-Bench是首个在约束流形中评估模型空间推理能力的基准，强调真实结构与约束条件，通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系，揭示当前大模型在空间智能上严重依赖2D信息，实际表现远低于人类。研究指出，模型需提升三维构型识别和约束推理能力，才能真正理解空间问题。

来自主题: AI技术研报

10237 点击 2026-02-25 14:33

具身大模型LaST₀：双臂/移动/灵巧手全面新SOTA，首次引入隐空间时空思维链

LaST₀团队投稿量子位 | 公众号 QbitAI 近日，至简动力、北京大学、香港中文大学、北京人形机器人创新中心提出了一种名为LaST₀的全新隐空间推理VLA模型，在基于Transformer混

来自主题: AI技术研报

7233 点击 2026-02-08 11:50

思维链太长拖慢推理？把它「画」进隐空间！新框架RoT探索大模型隐空间推理新范式

在 LLM 时代，思维链（ CoT）已成为解锁模型复杂推理能力的关键钥匙。然而，CoT 的冗长问题一直困扰着研究者——中间推理步骤和解码操作带来了巨大的计算开销和显存占用，严重制约了模型的推理效率。

来自主题: AI技术研报

8045 点击 2026-01-27 16:17

一个模型统一4D世界生成与重建，港科大One4D框架来了

近年来，视频扩散模型在 “真实感、动态性、可控性” 上进展飞快，但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频，却缺少对三维几何的显式建模。这让许多世界模型（world model）导向的应用（空间推理、具身智能、机器人、自动驾驶仿真等）难以落地，因为这些任务不仅需要像素，还需要完整地模拟 4D 世界。

来自主题: AI技术研报

9012 点击 2026-01-13 16:13