AI资讯新闻榜单内容搜索-强化学习

具身智能基础——强化学习

强化学习中的核心概念是智能体（Agent）和环境（Environment）之间的交互。智能体通过观察环境的状态，选择动作来改变环境，环境根据动作反馈出奖励和新的状态。

来自主题: AI技术研报

6571 点击 2024-11-11 20:56

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

复刻OpenAI o1推理大模型，开源界传来最新进展： LLaMA版o1项目刚刚发布，来自上海AI Lab团队。

来自主题: AI技术研报

5508 点击 2024-11-05 15:12

DSPy还能整RAG的活？LeReT: 用强化学习实现LLM智能检索

斯坦福大学奥马尔（Omar）的DSPy研究团队最近更新了他们的项目文档，发了很多不错的案例，以及很多国际知名企业的DSPy用例，这些可能对您的项目有启发。

来自主题: AI资讯

4640 点击 2024-11-04 10:09

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

强化学习（RL）对大模型复杂推理能力提升有关键作用，然而，RL 复杂的计算流程以及现有系统局限性，也给训练和部署带来了挑战。

来自主题: AI技术研报

5471 点击 2024-11-01 14:50

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

在奖励中减去平均奖励

来自主题: AI技术研报

8631 点击 2024-11-01 12:43

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

从 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor，再到最近的 Gemini 和 AlphaProof，Julian Schrittwieser 的工作成果似乎比他的名字更广为人知。

来自主题: AI资讯

9439 点击 2024-10-29 18:00

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。

来自主题: AI资讯

9817 点击 2024-10-29 13:46

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展，据业内人士分析披露，其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程，o1 基于现有大语言模型的强大推理能力，生成合理的推理过程，并将这些推理融入到其强化学习训练过程中。

来自主题: AI技术研报

10779 点击 2024-10-26 17:01

率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024

机器人控制和自动驾驶的离线数据损坏问题有解了！中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性。

来自主题: AI技术研报

4954 点击 2024-10-20 11:43

Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情

在强化学习中，当智能体的奖励机制与设计者的意图不一致时，可能会导致不理想的行为，而KL正则化作为一种常用的解决方案，通过限制智能体的行为来防止这种情况，但智能体在某些情况下仍可能表现出意料之外的行为；为了提高智能体的可靠性，研究人员提出了新的理论方案，通过改变指导原则来增强智能体在未知情况下的谨慎性。

来自主题: AI技术研报

7305 点击 2024-10-19 13:55