AI资讯新闻榜单内容搜索-对齐

ICML 2026｜让奖励模型更准更高效，TikTok、NUS提出置信度门控

奖励模型（Reward Model, RM）是大语言模型对齐的核心组件，负责为模型输出提供符合人类偏好的评价信号。现有方法各有短板：标量判别式 RM 高效稳定但可解释性有限；生成式 judge 能给出判断理由，却需为每个样本生成长 reasoning，token 与延迟开销显著。

来自主题: AI技术研报

7181 点击 2026-07-13 14:44

王阳明心学，被Anthropic用来教Claude做人了

王阳明心学，竟然在AI时代迎来了「最佳赏味期」？老哈，一个研究了十年「知行合一」的哲学教授，正在把这套500年前的心学，用到全球最前沿的AI对齐训练上。不是比喻。是字面意思。

来自主题: AI资讯

8587 点击 2026-07-08 10:08

全球第一位AI哲学家，在谷歌DeepMind的9年：为AGI安全奔走

谷歌 DeepMind 有一个哲学家，已经待了九年。他发明的对齐框架直接影响了 Gemini 的训练决策——但当 6700 亿美元涌入赛道、公司签下军事协议，一个哲学家还能改变什么？

来自主题: AI资讯

8164 点击 2026-07-07 10:22

AI生成的图片正在反向对齐人类的审美？ICML 2026观点论文Spotlight

UBC 和 Weathon Software 的研究提出，图像的美学对齐正在削弱艺术表达。

来自主题: AI技术研报

9020 点击 2026-06-25 15:00

AI生成的图片正在反向对齐人类的审美？ICML 2026观点论文Spotlight

UBC 和 Weathon Software 的研究提出，图像的美学对齐正在削弱艺术表达。

来自主题: AI技术研报

7280 点击 2026-06-25 10:03

OpenAI发布最新里程碑：对齐的本质是「人格」

就在最近，OpenAI扔出一篇重磅论文。他们发现，只教AI好好看病，它写代码居然也不作弊了。方法简单到离谱：拿5%的训练数据，教模型在回答健康问题时诚实、谨慎、知错能改。

来自主题: AI技术研报

8032 点击 2026-06-21 11:31

他把北美最大人工记账公司做到被收购，转身用1000万美元让AI替代它

你有没有想过，作为一个软件创业者，你每个月到底在对账和财务事务上浪费了多少时间？银行流水要确认，薪资系统要对齐，Stripe 里的收款记录要归类，还有各种供应商发票要处理。这些事情不难，甚至可以说很机械，但它们每个月都会悄无声息地吃掉你好几个小时。

来自主题: AI资讯

6338 点击 2026-06-04 09:13

字节AI大牛顾全全宣布离职，或投身AI4S创业

刚刚，顾全全发文告别字节 Seed 团队。在此之前，他是 Seed 旗下聚焦科学智能领域的 AI4S 团队核心成员。顾全全是机器学习理论、大模型对齐以及 AI4S 科学智能领域知名的学者。他于 2007 年和 2010 年分获清华大学自动化专业学士、控制科学与工程硕士学位，2014 年获伊利诺伊大学香槟分校计算机科学博士学位，随后在普林斯顿大学运筹与金融工程系（ORFE）开展统计学博士后研究。

来自主题: AI资讯

9647 点击 2026-06-02 16:18

AI四巨头内部报告首度公开：AI正在学会撒谎求生

这不是科幻小说，而是 METR（模型评估与训练研究组织）联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后，发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链（CoT）的模型，并开放非公开的对齐与控制信息。

来自主题: AI技术研报

10779 点击 2026-05-24 10:11

独家｜ChatGPT核心贡献者姜旭归国创业：把LLM的Scaling带到具身智能

姜旭是少数完整参与过 OpenAI 大模型核心技术演进的华人创业者之一。2019 至 2023 年间，他经历了 GPT 系列能力爆发最关键的阶段，工作横跨底层训练 infra、大规模预训练、RLHF 对齐算法与数据构建等核心链路。

来自主题: AI资讯

11179 点击 2026-05-22 10:26