AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现?

来自主题: AI技术研报
5324 点击    2024-10-14 15:37
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

现实世界中的强化学习在应用过程中也面临着巨大的挑战,尤其是如何保证系统的安全性。为了解决这一问题,安全强化学习(Safe Reinforcement Learning, Safe RL)应运而生,成为当前学术界和工业界关注的焦点。

来自主题: AI技术研报
4981 点击    2024-10-08 17:23
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE

端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE

端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE

大语言模型(Large Language Models, LLMs)的强大能力推动了 LLM Agent 的迅速发展。围绕增强 LLM Agent 的能力,近期相关研究提出了若干关键组件或工作流。然而,如何将核心要素集成到一个统一的框架中,能够进行端到端优化,仍然是一个亟待解决的问题。

来自主题: AI资讯
8588 点击    2024-09-30 16:06
从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现:在持续学习环境中,标准深度学习方法的表现竟不及浅层网络。研究指出,这一现象的主要原因是 "可塑性损失"(Plasticity Loss):深度神经网络在面对非平稳的训练目标持续更新时,会逐渐丧失从新数据中学习的能力。

来自主题: AI资讯
5666 点击    2024-09-29 14:39
Layout工程师危,谷歌自动芯片设计AlphaChip问世,开放权重可外部定制

Layout工程师危,谷歌自动芯片设计AlphaChip问世,开放权重可外部定制

Layout工程师危,谷歌自动芯片设计AlphaChip问世,开放权重可外部定制

2020 年,谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》,介绍了其设计芯片布局的新型强化学习方法。后来在 2021 年,谷歌又发表在 Nature 上并开源了出来。

来自主题: AI资讯
7172 点击    2024-09-27 20:46
3D打印新突破!曼大等提出DQN多样化图形路径规划器:锐角转弯降低超93%,热变形减少25%

3D打印新突破!曼大等提出DQN多样化图形路径规划器:锐角转弯降低超93%,热变形减少25%

3D打印新突破!曼大等提出DQN多样化图形路径规划器:锐角转弯降低超93%,热变形减少25%

香港中文大学等机构的研究团队通过深度强化学习(DQN)开发了一种3D打印路径规划器,有效提升了打印效率和精度,为智能制造开辟了新途径。

来自主题: AI技术研报
8865 点击    2024-09-27 19:28
完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

Google DeepMind的SCoRe方法通过在线多轮强化学习,显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中,分别将自我修正性能提高了15.6%和9.1%。

来自主题: AI技术研报
11544 点击    2024-09-27 19:26
强化学习,正在引领AI跨越LLM之谷

强化学习,正在引领AI跨越LLM之谷

强化学习,正在引领AI跨越LLM之谷

OpenAI的研究科学家布朗(Noam Brown),这两天在他的自我介绍中,加上了一条:OpanAI o1的联合创始人。

来自主题: AI资讯
4035 点击    2024-09-18 10:56