AI技术研报-这里有最前沿的人工智能技术解读

人大清华提出自主搜索版「Search-o1」！解决知识困境，大幅提升推理模型可靠性

人大清华团队提出Search-o1框架，大幅提升推理模型可靠性。尤其是「文档内推理」模块有效融合了知识学习与推理过程，在「搜索+学习」范式基础上，使得模型的推理表现与可靠性都更上一层楼。

来自主题: AI技术研报

7866 点击 2025-01-22 10:28

中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头

模型蒸馏也有「度」，过度蒸馏，只会导致模型性能下降。最近，来自中科院、北大等多家机构提出全新框架，从两个关键要素去评估和量化蒸馏模型的影响。结果发现，除了豆包、Claude、Gemini之外，大部分开/闭源LLM蒸馏程度过高。

来自主题: AI技术研报

7173 点击 2025-01-21 22:30

首个公开发表的SAR图像目标识别基础模型！国防科大刘永祥&刘丽教授团队提出SARATR-X 1.0

在人工智能基础模型技术飞速发展的今天，SAR 图像解译领域技术创新与发展生态亟待突破。为了解决上述技术挑战，国防科技大学电子科学学院刘永祥&刘丽教授团队提出首个公开发表的SAR图像目标识别基础模型SARATR-X 1.0。

来自主题: AI技术研报

6970 点击 2025-01-21 22:21

无直接数据可用，AI怎么学会「干活」？微软团队揭秘AI从语言到行动的进化之路

该技术报告的主要作者 Lu Wang, Fangkai Yang, Chaoyun Zhang, Shilin He, Pu Zhao, Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队，为微软 TaskWeaver, WizardLLM, Windows GUI Agent UFO 的核心开发者。

来自主题: AI技术研报

8448 点击 2025-01-21 22:16

DeepSeek-R1 是怎么训练的｜深度拆解

昨天晚上，DeepSeek 又开源了 DeepSeek-R1 模型（后简称 R1），再次炸翻了中美互联网： R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。 R1 上线 API，对用户开放思维链输出 R1 在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版，小模型则超越 OpenAI o1-mini

来自主题: AI技术研报

22082 点击 2025-01-21 13:15

AI模拟社会的“幕后”操控者是谁？

设想一场高度智能的模拟游戏，游戏的角色不再是普通的NPC，而是由大语言模型驱动的智能体。在这其中，悄然生出一个趣事——在人类的设计下，这些新NPC的言行不经意间变得过于啰嗦。

来自主题: AI技术研报

8675 点击 2025-01-21 10:42

理解李继刚提示词的关键绝不在于lisp语言

李继刚在消失半年后，带着汉语新解重新归来，一出手大家就惊呼李继刚的prompt已经到了next level。但不懂编程的小白又懵逼了！怎么提示词也开始编程了？大语言模型的优势不是通过说话就能达成需求吗？怎么又开始需要编程了？技术在倒退吗？

来自主题: AI技术研报

8719 点击 2025-01-21 10:25

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上，很多观点认为 scale law is dead. 然而，我们认为，高质量的 “无监督” 数据才是 scaling law 的关键，尤其是教科书级别的高质量的知识语料。此外，尽管传统的语料快枯竭了，但是互联网上还有海量的视频并没有被利用起来，它们囊括了丰富的多种模态的知识，可以帮助 VLMs 更好好地理解世界。

来自主题: AI技术研报

8521 点击 2025-01-20 19:01

【Claude Prompt】认知边界拓宽器：都说认知改命，认知是什么？

名称：认知边界拓宽器 Cognition Boundary Expander

来自主题: AI技术研报

8782 点击 2025-01-20 11:19

选LLM-Judge评估，用这个可证明的人类对齐评估框架， ICLR2025匿名论文

在当今AI技术迅猛发展的背景下，大语言模型（LLM）的评估问题已成为一个不可忽视的挑战。传统的做法是直接采用最强大的模型（如GPT-4）进行评估，这就像让最高法院的大法官直接处理所有交通违章案件一样，既不经济也不一定总能保证公正。

来自主题: AI技术研报

7377 点击 2025-01-20 10:50

AI编程蓝皮书：0基础4小时学会开发

大家好，我是AI产品黄叔，目前给两家大厂做AI产品顾问，在使用Cursor和Windsurf（这两个都是AI编程的软件）开发产品后，意识到这才是创造者的天堂，最近举办了三场线下AI编程培训，根据学员的反馈有了这份手册，我会在本手册里持续更新，不断把更多的技巧，思考分享出来，希望能够帮助想要创造的你走进这个天堂！如果你觉得有帮助，欢迎把文末的图片分享给你的朋友：

来自主题: AI技术研报

15807 点击 2025-01-20 09:14

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报

8146 点击 2025-01-19 14:51

宇树机器人上演弯道超车(ren)，歪果仁质疑是特效

什么，歪果仁怀疑咱中国的宇树机器人昨天释放的最新视频，是特效？

来自主题: AI技术研报

11251 点击 2025-01-18 15:57

Search版o1：推理过程会主动查资料，整体性能优于人类专家，清华人大出品

一个新框架，让Qwen版o1成绩暴涨：在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。

来自主题: AI技术研报

8297 点击 2025-01-18 15:00

扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

对于 LLM，推理时 scaling 是有效的！这一点已经被近期的许多推理大模型证明：o1、o3、DeepSeek R1、QwQ、Step Reasoner mini……

来自主题: AI技术研报

9668 点击 2025-01-18 14:39

谢赛宁新作爆火，扩散模型新赛道诞生！测试时计算带飞，性能飙到天花板

划时代的突破来了！来自NYU、MIT和谷歌的顶尖研究团队联手，为扩散模型开辟了一个全新的方向——测试时计算Scaling Law。其中，谢赛宁高徒为共同一作。

来自主题: AI技术研报

9756 点击 2025-01-18 14:29

扩散模型低位量化突破！有效扩散量化的极限推向2-4位，W2A4位宽下FID降低58%，超越SOTA方法

降低扩散模型生成的计算成本，性能还保持在高水平！最新研究提出一种用于极低位差分量化的混合精度量化方法。

来自主题: AI技术研报

7282 点击 2025-01-18 14:18

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时，多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报

10031 点击 2025-01-18 10:48

50%优势，力压OpenAI和DeepMind！清华DSAC系列算法全面解析

清华大学团队在强化学习领域取得重大突破

来自主题: AI技术研报

8617 点击 2025-01-18 10:10

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起，如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段，传统注意力机制中的键值缓存（KV Cache）会随着批处理大小和序列长度线性增长，俨然成为制约大语言模型规模化应用和推理时扩展的「内存杀手」。

来自主题: AI技术研报

8418 点击 2025-01-18 09:57

生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

来自主题: AI技术研报

9949 点击 2025-01-17 11:14