AI资讯新闻榜单内容搜索-数据集

「百万级」视频推理数据集！30+顶尖高校联合发布

AI视频生成已能「画得像」，但不会「想得对」。VBVR推出百万级视频推理数据集，首次系统评测模型对空间、物理、逻辑和抽象的推理能力，发现顶尖模型通过率仅68%，暴露其缺乏真实认知，推动视频AI从「视觉模仿」迈向「智能推理」。

来自主题: AI技术研报

6889 点击 2026-03-26 10:49

CVPR 2026 | 从「单帧」到「分镜」：STAGE重新定义AI电影叙事

目前，该论文已录用至 CVPR 2026，相关数据集和模型训练训练和推理代码将逐步开源：究其原因，一个好故事并非一堆漂亮镜头的简单拼接，而是一个有结构、有逻辑的叙事整体。

来自主题: AI技术研报

8921 点击 2026-03-22 09:39

万字综述遥感AI智能体！六大应用场景全面爆发，地理空间智能从「眼睛」变「大脑」

如今，一场由 AI 智能体驱动的变革正在发生。近日，来自香港科技大学、西北工业大学、清华大学等多家高校及研究机构的学者联合发布了遥感 AI 智能体领域系统综述。全文逾万字，首次为「遥感智能体」给出了严格定义，系统梳理了其架构、应用、数据集与未来方向。

来自主题: AI技术研报

9099 点击 2026-03-21 09:28

真·养虾！3步让龙虾边聊边进化，不用GPU不用数据集就能强化学习

让OpenClaw帮干活还不够，现在，程序员们正想方设法让🦞自己变强。

来自主题: AI技术研报

11152 点击 2026-03-12 14:51

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

8096 点击 2026-03-09 14:29

ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型，打破闭源技术壁垒

基于对注意力特性的观察，CineTrans 提出块对角掩码的通用机制，使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性，作者设计了详细的多镜头视频生产管线，并收集了一个高质量、多镜头数据集 Cine250K，大幅提升多镜头转场视频生成的效果。作为首个时间级可控的自动化转场模型，CineTrans 为这一领域的众多后续方法提供了关键技术。

来自主题: AI技术研报

9550 点击 2026-02-28 15:05

单个LLM已不够？华盛顿大学开源多模型协同框架MoCo

为了支持多模型协同研究并加速这一未来愿景的实现，华盛顿大学 (University of Washington) 冯尚彬团队联合斯坦福大学、哈佛大学等研究人员提出 MoCo—— 一个针对多模型协同研究的 Python 框架。MoCo 支持 26 种在不同层级实现多模型交互的算法，研究者可以灵活自定义数据集、模型以及硬件配置，比较不同算法，优化自身算法，以此构建组合式人工智能系统。MoCo 为设计、

来自主题: AI技术研报

9755 点击 2026-02-18 13:24