AI资讯新闻榜单内容搜索-强化学习

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 强化学习

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务，创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报

10758 点击 2025-10-29 10:24

DeepMind再登Nature：AI Agent造出了最强RL算法！

DeepMind再登Nature：AI Agent造出了最强RL算法！

DeepMind再登Nature：AI Agent造出了最强RL算法！

当AI开始「自己学会学习」，人类的角色正在被重写。DeepMind最新研究DiscoRL，让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero，在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报

10916 点击 2025-10-28 14:56

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

9176 点击 2025-10-28 10:50

手把手带你入门机器人学习，HuggingFace联合牛津大学新教程开源SOTA资源库

手把手带你入门机器人学习，HuggingFace联合牛津大学新教程开源SOTA资源库

手把手带你入门机器人学习，HuggingFace联合牛津大学新教程开源SOTA资源库

HuggingFace 与牛津大学的研究者们为想要进入现代机器人学习领域的新人们提供了了一份极其全面易懂的技术教程。这份教程将带领读者探索现代机器人学习的全景，从强化学习和模仿学习的基础原理出发，逐步走向能够在多种任务甚至不同机器人形态下运行的通用型、语言条件模型。

来自主题: AI技术研报

10723 点击 2025-10-26 16:28

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

AI在线强化学习“边做边学”，斯坦福团队让7B小模型性能飙升，甚至超越GPT-4o

斯坦福等新框架，用在线强化学习让智能体系统“以小搏大”，领先GPT-4o—— AgentFlow，是一种能够在线优化智能体系统的新范式，可以持续提升智能体系统对于复杂问题的推理能力。

来自主题: AI技术研报

7159 点击 2025-10-25 14:03

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

来自主题: AI技术研报

6508 点击 2025-10-24 10:33

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型在强化学习过程中，终于知道什么经验更宝贵了！来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队，最近提出了一套经验管理和学习框架ExGRPO—— 通过科学地识别、存储、筛选和学习有价值的经验，让大模型在优化推理能力的道路上，走得更稳、更快、更远。

来自主题: AI技术研报

7183 点击 2025-10-23 15:42

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

11117 点击 2025-10-23 12:28

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

8024 点击 2025-10-23 11:41

清华、快手提出AttnRL：让大模型用「注意力」探索

清华、快手提出AttnRL：让大模型用「注意力」探索

清华、快手提出AttnRL：让大模型用「注意力」探索

从 AlphaGo 战胜人类棋手，到 GPT 系列展现出惊人的推理与语言能力，强化学习（Reinforcement Learning, RL）一直是让机器「学会思考」的关键驱动力。

来自主题: AI技术研报

8587 点击 2025-10-22 11:46

上一页当前第11页,共42页下一页