AI资讯新闻榜单内容搜索-模型对齐

ICML 2026｜让奖励模型更准更高效，TikTok、NUS提出置信度门控

奖励模型（Reward Model, RM）是大语言模型对齐的核心组件，负责为模型输出提供符合人类偏好的评价信号。现有方法各有短板：标量判别式 RM 高效稳定但可解释性有限；生成式 judge 能给出判断理由，却需为每个样本生成长 reasoning，token 与延迟开销显著。

来自主题: AI技术研报

7182 点击 2026-07-13 14:44

字节AI大牛顾全全宣布离职，或投身AI4S创业

刚刚，顾全全发文告别字节 Seed 团队。在此之前，他是 Seed 旗下聚焦科学智能领域的 AI4S 团队核心成员。顾全全是机器学习理论、大模型对齐以及 AI4S 科学智能领域知名的学者。他于 2007 年和 2010 年分获清华大学自动化专业学士、控制科学与工程硕士学位，2014 年获伊利诺伊大学香槟分校计算机科学博士学位，随后在普林斯顿大学运筹与金融工程系（ORFE）开展统计学博士后研究。

来自主题: AI资讯

9656 点击 2026-06-02 16:18

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

8435 点击 2026-02-11 13:58

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。

来自主题: AI技术研报

8950 点击 2025-10-17 09:48

加速近5倍！北大与字节团队提出BranchGRPO，用「树形分叉 + 剪枝」重塑扩散模型对齐

近期，北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO，BranchGRPO 通过在扩散反演过程中引入分叉（branching）与剪枝（pruning），让多个轨迹共享前缀、在中间步骤分裂，并通过逐层奖励融合实现稠密反馈。

来自主题: AI技术研报

7389 点击 2025-09-23 10:07

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

8955 点击 2025-06-22 16:08

123页Claude 4行为报告发布：人类干坏事，可能会被它反手一个举报？！

刚刚发布的Claude 4被发现，它可能会自主判断用户行为，如果用户做的事情极其邪恶，且模型有对工具的访问权限，它可能就要通过邮件联系相关部门，把你锁出系统。这事儿，Anthropic团队负责模型对齐工作的一位老哥亲口说的。

来自主题: AI资讯

10659 点击 2025-05-23 22:14

多模态大模型对齐新范式，10个评估维度全面提升，快手&中科院&南大打破瓶颈

尽管多模态大语言模型（MLLMs）取得了显著的进展，但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域（例如减少幻觉问题），是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报

11736 点击 2025-02-26 14:07

当奖励成为漏洞：从对齐本质出发自动「越狱」大语言模型

本文第一作者为香港大学博士研究生谢知晖，主要研究兴趣为大模型对齐与强化学习。

来自主题: AI技术研报

8226 点击 2024-08-31 15:09

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

来自主题: AI资讯

12554 点击 2024-07-21 17:10