AI技术研报-这里有最前沿的人工智能技术解读

突发！让张益唐苦熬7年的雅可比猜想，Fable 5竟一夜推翻证伪

这一天，整个数学圈震撼了。

来自主题: AI技术研报

8984 点击 2026-07-21 10:52

恶意插件100%得手！伯克利、UIUC和NUS等给智能体做了次安全体检

过去两年，AI智能体（Agent）完成了一次身份转变。

来自主题: AI技术研报

6746 点击 2026-07-21 10:12

Flova定义的Agent视频范式，好像成了一个标杆

最近喜欢用Flova做点AI小视频。

来自主题: AI技术研报

5915 点击 2026-07-20 15:19

在数学上把稀疏注意力做对！腾讯Hy开源HiLS-Attention: 计算更少效果更好, 外推512倍

让大模型 "读得更长" 一直是 Agent、深度推理和海量资料整合等场景的刚需，但标准全注意力机制的计算量随序列长度呈平方级增长，始终是横亘在长上下文建模面前的三座大山。

来自主题: AI技术研报

8643 点击 2026-07-20 15:19

谷歌最新白皮书：搞定2026 Agent生产力，吃透Context、Skills与Harness

在计算历史的绝大部分时间里，编程的本质是一项翻译工作：开发者需要在人类理解的维度上剖析问题，设计抽象方案，随后将其转译为机器能够执行的语法。当前的软件工程领域正在经历自高级编程语言问世以来最为显著的变化。

来自主题: AI技术研报

8073 点击 2026-07-20 15:00

大模型给图片打分不再“靠嘴说”！结构图、频谱图当“物证”，用“视觉证据”来给图片打分 | ECCV‘26

让大模型给一张图片打“质量分”，它其实经常看走眼。

来自主题: AI技术研报

6984 点击 2026-07-20 14:59

打破模态壁垒，11B通用底座，上智院开放多模态科学基础模型「神珍」

人工智能（AI）模型在科学发现中的角色，正经历着一场从「工程缝合者」向「智能推演者」的深刻蜕变。

来自主题: AI技术研报

8998 点击 2026-07-20 11:02

上海WAIC，让我印象最深的是面壁智能MiniCPM-Robot

Digital AI和Physical AI之间，曾有一道难以跨越的鸿沟。

来自主题: AI技术研报

5403 点击 2026-07-20 11:02

阿里荣膺 ACL 2026 最佳资源论文奖，揭示AI Agent的专家能力鸿沟

过去一年，Deep Research Agent 被视为大模型落地的下一个突破口，它们会检索、能用工具、可多步推理，在一个个榜单上高歌猛进。但把它们放到真实世界的专业场景里，表现是否也同样亮眼？

来自主题: AI技术研报

5383 点击 2026-07-20 10:44

现在还不会给Agent选装记忆？清华上交大横评12个主流记忆框架，省掉你3个月的试错

市面上已有几十种Agent记忆方案，有的基于向量检索，有的基于知识图谱，有的靠定期总结“压缩”对话，有的则完全依赖模型自身的上下文窗口。它们各有各的说法，但在系统层面，到底哪种方案靠得住？哪种方案在你的工作负载下既不贵又准？

来自主题: AI技术研报

8140 点击 2026-07-20 10:42

ECCV 2026｜当RGB变成不可靠变量：InfraNet用非对称学习重构RGB-IR检测

在讨论 RGB-IR 目标检测时，「两种模态互补」几乎是默认前提。RGB 擅长保留纹理和颜色，红外图像在弱光条件下更稳定，于是最直接的路线是搭建双分支网络，让它们在中间层不断交换信息。InfraNet 的出发点却来自一个不太符合这一直觉的现象。

来自主题: AI技术研报

8352 点击 2026-07-19 10:13

港科大新发现：MoE路由很脆弱！重复token输入阻塞负载均衡 | ICML'26

来自港科大的研究团队提出了RepetitionCurse，这是一种针对MoE大模型服务的黑盒压力测试方法。它不需要模型权重，不需要梯度，也不需要知道后端专家如何部署，只利用高度重复的输入模式，就能诱导专家路由把大量token路由到同一小批专家上。

来自主题: AI技术研报

8790 点击 2026-07-19 10:11

嚯！35家大型央国企实测后，因果世界模型落地了

WAIC期间，中数睿智发布了“AI for Reasoning”因果智能体系，针对的就是这些痛点。比如油气钻井的井控场景，井下压力和流量突然不对劲，系统不只是输出一句“存在风险”，而是能沿因果链定位病因，并推演多条干预路径：不处置会怎样？立即关井会怎样？延迟处置能撑多久、代价是什么？辅助企业在事故发生前做出最优决策。

来自主题: AI技术研报

8531 点击 2026-07-19 10:11

不换模型，效果提升104%！上海AI Lab让Harness也能自进化了

上海人工智能实验室团队提出的Self-Harness，近期被LangChain CEO、联合创始人Harrison Chase转发，也被前OpenAI副总裁Lilian Weng收进自进化Agent相关博客。它盯上的不是换模型，而是Agent外层那套Harness。

来自主题: AI技术研报

8601 点击 2026-07-18 19:10

ARC-AGI-3近被完美攻破，这个Harness能让AI掌握物理学家思维

7 月 16 日，伯克利博士后 Haven Feng 的一条推文火了。原因无他，结果很震撼：在 ARC-AGI-3 Public 集上，一套名为 [schema] 的智能体框架，与 Claude Opus 4.8、Fable 5 组合后达到 98.98% 的 RHAE；换成 GPT-5.6 Sol 组合，分数也有 95.35%。

来自主题: AI技术研报

9310 点击 2026-07-18 14:22

具身数采新方案：数字遥操作，现已开源，达摩院出品

阿里巴巴达摩院的最新工作RynnWorld-Teleop对此给出的方案是：用生成式世界模型替代真实机器人。操作员的手势驱动一个实时视频生成器，由“数字世界中的机器人”完成全部视觉演示，同时自动获得关节级的动作标签。该方案被称为数字遥操作（Digital Teleoperation）。

来自主题: AI技术研报

9341 点击 2026-07-18 10:11

ECCV 2026｜Google等推出VGGRPO：用4D隐空间奖励实现世界一致的视频生成

最近，来自 Google、哥本哈根大学、牛津大学等机构的研究者提出了 VGGRPO（Visual Geometry GRPO，收录于 ECCV 2026）。这项工作聚焦于一个核心问题：如何在不牺牲预训练模型泛化能力的前提下，高效地提升视频生成的几何一致性，并使其适用于动态场景。其核心思路是，在隐空间（latent space）中利用 4D 几何奖励，进行几何感知的视频后训练。

来自主题: AI技术研报

9161 点击 2026-07-18 10:09

FreeStyle来了！从社区LoRA中挖掘风格与内容，让双参考图像生成更可控

最近，一篇名为 FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining 的工作引起了不少关注。换句话说，FreeStyle 研究的是 style-content dual-reference generation，也就是「内容 - 风格双参考生成」。

来自主题: AI技术研报

7430 点击 2026-07-18 10:09

RoboTwin原班团队再下场，构建具身评测珠峰

曾推出 RoboTwin 系列基准的团队发布了 RoboDojo，一套统一覆盖仿真与真实机器人操作的具身智能评测体系。它包含 42 个仿真任务、18 个真实机器人任务，并将 30 个代表性机器人策略放到同一套标准下比较。

来自主题: AI技术研报

8460 点击 2026-07-18 10:08

几亿美金砸出来的硅谷大模型，被一台相机干翻了！

数亿美金，竟输给了一台相机？

来自主题: AI技术研报

6106 点击 2026-07-17 11:03

全球首个！银河通用新框架仅需人类视频即可部署，特斯拉蚌埠住了

终于，现学现用的风也是吹到了具身智能。

来自主题: AI技术研报

8422 点击 2026-07-17 10:41

机器人需要「看到三维未来」！RynnWorld-4D重塑4D具身世界模型

近两年，视频生成模型在具身智能领域受到持续关注。从 UniPi、SuSIE 到各类 action-conditioned video generation 变体，其核心思路一致：先由模型生成一段未来视频，再从中提取动作信号供机器人执行。

来自主题: AI技术研报

9259 点击 2026-07-17 10:12

让VLA更懂接触，优理奇UniTac让机器人拥有“触觉想象力”

机器人，也开始拥有“触觉想象力”了。

来自主题: AI技术研报

7371 点击 2026-07-17 10:11

ECCV'26| 看起来会动，还要动得合理：从生成模型中主动寻找物理证据

PhyMAGIC通过让物体动起来，从视频中提取物理证据，帮助准确推断材料属性。它结合图生视频与视觉语言模型，生成针对性运动探针，并不断修正物理参数，最终构建出可微分的3D动态模型，实现更符合现实的视频生成。

来自主题: AI技术研报

5306 点击 2026-07-17 10:09

让动态投机解码不再局限于DSpark：LightSpec首个开源动态MTP系统实现

随着 DeepSeek 发布 DSpark，动态 MTP（多 Token 预测）成为了对抗高并发、提升 GPU 利用率的绝对焦点。然而，DSpark 高度绑定特定模型且需要额外训练。

来自主题: AI技术研报

8848 点击 2026-07-17 10:08

统计学20年悬案，GPT-5.6用90分钟破解！伯克利教授直呼「心塞」

困扰统计学界整整20年的核心悬案，被AI击碎了。

来自主题: AI技术研报

9747 点击 2026-07-16 14:55

Lychee-FD：哈工大张民教授团队在全双工语音大模型领域取得重要突破，斩获ACL 2026杰出论文奖

全双工语音对话是人类最自然的交流方式，是语音对话研究的梦想。相比文本输入，语音天然更接近人的交流方式，但现有语音对话常常停留在 “一问一答、听完再说” 的轮次式交互范式。

来自主题: AI技术研报

9459 点击 2026-07-16 14:55

分享一下我现在随时随地让Agent干活的远程操控方案。

昨天那篇文章，我说了一下我现在用Agent的日常。

来自主题: AI技术研报

8895 点击 2026-07-16 14:46

全世界都在说超越了 PI，可他三个月没出新东西了。

大家好，我是瓦力，具身算法研究员。我有个习惯，隔三差五都会去 PI 的官网刷一下，看他有没有新东西。最近这三个月，官网主页是一动没动，停在四月的 π0.7。

来自主题: AI技术研报

6165 点击 2026-07-16 14:45

腾讯发布两大具身智能基座模型，VLM&RxBrain让机器人更懂现实世界

7 月 15 日，腾讯 Robotics X 实验室以及福田实验室联合腾讯混元推出两款具身智能基座模型 —— 具身 VLM 基座模型 Hy-Embodied-VLM-1.0 以及具身世界认知基座模型 Hy-Embodied-RxBrain-1.0，不仅让具身大脑能够 “看” 懂现实世界，还学会同时推理和想象。

来自主题: AI技术研报

9670 点击 2026-07-16 10:31