AI资讯新闻榜单内容搜索-对齐

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 对齐
训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力,推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL,通过「FP4 先探索、BF16 再训练」的后训练框架,将达到等效 reward 水平的收敛速度最高提升到 4.64x,在训练速度与对齐效果之间给出了一条更具工程可行性的解法。

来自主题: AI技术研报
8714 点击    2026-04-16 16:07
「10万小时人类数据」不搞对齐只靠规模,灵初智能Psi-R2登顶MolmoSpaces!

「10万小时人类数据」不搞对齐只靠规模,灵初智能Psi-R2登顶MolmoSpaces!

「10万小时人类数据」不搞对齐只靠规模,灵初智能Psi-R2登顶MolmoSpaces!

4 月 10 日晚,灵初智能发布了大模型、数据集与合作计划:包括策略模型 Psi-R2、世界模型 Psi-W0,以及总规模近 10 万小时的人类操作数据。它想回答的问题也很直接 —— 当真机数据不再是唯一解,机器人还能靠什么继续 scaling?

来自主题: AI资讯
7719 点击    2026-04-11 11:01
为了不跟龙虾抢电脑用,有人开始造Agent专属的“三无”硬件,比Mac Mini+存储便宜

为了不跟龙虾抢电脑用,有人开始造Agent专属的“三无”硬件,比Mac Mini+存储便宜

为了不跟龙虾抢电脑用,有人开始造Agent专属的“三无”硬件,比Mac Mini+存储便宜

郭亚楠说,Context就承接了新需求。传统OS让人和软件对齐,新OS应该让人和Agent对齐。因为Context是个人数据的结构化、语义化集合,它就像OS管理内存和CPU一样管理每个人的数字痕迹。

来自主题: AI资讯
8169 点击    2026-04-05 10:54
重构跨域RL框架!理论驱动「双重对齐」让跨域迁移「质变」

重构跨域RL框架!理论驱动「双重对齐」让跨域迁移「质变」

重构跨域RL框架!理论驱动「双重对齐」让跨域迁移「质变」

在现实世界中通过强化学习训练智能体,往往需要大量在线试错与环境探索,这不仅成本高昂,还可能带来显著安全风险:机器人可能因试错而损坏,自动驾驶的在线探索可能危及行车安全,而持续采集交互数据本身也代价巨大。

来自主题: AI技术研报
8165 点击    2026-04-03 09:25
生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收

生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收

生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收

当人们谈到“世界模型”(World Models)时,很多人会首先想到近年来迅速发展的生成式视频模型。

来自主题: AI技术研报
8348 点击    2026-03-20 09:39
连Gemini都直呼“着迷”的木马,如果你的龙虾token耗太快,是该注意「Clawdrain攻击」了

连Gemini都直呼“着迷”的木马,如果你的龙虾token耗太快,是该注意「Clawdrain攻击」了

连Gemini都直呼“着迷”的木马,如果你的龙虾token耗太快,是该注意「Clawdrain攻击」了

想象您是一名渗透测试工程师,面前是前几天宣布完成安全升级的OpenClaw 3.8。您不需要去找RCE(远程代码执行),也不用费劲构造缓冲区溢出。您只需要回想一下,近期在网上发生过的两场OpeClaw“闹剧”。第一次Meta AI的对齐总监眼睁睁看着自己的OpenClaw开始疯狂清空她的历史邮件。

来自主题: AI技术研报
7970 点击    2026-03-12 10:17
OpenClaw删光Meta安全总监邮箱!连喊3次停手都没用,她狂奔去拔网线

OpenClaw删光Meta安全总监邮箱!连喊3次停手都没用,她狂奔去拔网线

OpenClaw删光Meta安全总监邮箱!连喊3次停手都没用,她狂奔去拔网线

Meta专门研究「怎么让AI听话」的AI对齐总监,把最火的AI智能体OpenClaw接上了自己的工作邮箱。结果AI当场失控,疯狂删除邮件,喊停三次全部无视。事后AI淡定回复:「我知道你说了不让删,但我还是删了,你生气是对的。」马斯克转发猩球崛起片段嘲讽,1800万人围观。AI安全专家自己都被AI坑了!

来自主题: AI资讯
10093 点击    2026-02-24 15:56
ICLR 2026 | SEINT:高效的跨空间刚体不变度量

ICLR 2026 | SEINT:高效的跨空间刚体不变度量

ICLR 2026 | SEINT:高效的跨空间刚体不变度量

本文提出一种具有 SE(p) 不变传输性质的度量 SEINT:通过构造无需训练的 SE(p) 不变表示,将高维结构信息压缩为可用于 Optimal Transport (OT) 对齐的一维表征,从而在保持不变性与严格度量性质的同时显著提升效率。

来自主题: AI技术研报
6294 点击    2026-02-18 13:28
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报
7571 点击    2026-02-11 13:58