AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
抓住人们对“Soulmate”的渴望,20天入账200万美金?

抓住人们对“Soulmate”的渴望,20天入账200万美金?

抓住人们对“Soulmate”的渴望,20天入账200万美金?

6 月 17 日,一款 AI 占星产品 Starla-Call the Universe 进入了 iOS 美国下载总榜前 10,当笔者以为这又是一个昙花一现的产品时,它不仅能够持续坚守榜单 Top 10 长达半个月,而且到了 6 月 24 日,另一款产品 Astra-Life Advice 也进入了美榜前 10,两款同类产品相继进入 Top 10,并双双持续在榜超 1 周的时间。

来自主题: AI资讯
8055 点击    2025-07-02 11:39
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

大模型可以不再依赖人类调教,真正“自学成才”啦?新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”!

来自主题: AI技术研报
7770 点击    2025-07-01 10:06
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

大模型的预训练-微调范式,正在悄然改写强化学习!伯克利团队提出新方法InFOM,不依赖奖励信号,也能在多个任务中实现超强迁移,还能做到「读心术」级别的推理。这到底怎么做到的?

来自主题: AI技术研报
7579 点击    2025-06-30 10:52
用文字创造宇宙:Runway 推出全新 AI 游戏创作平台「Game Worlds」!

用文字创造宇宙:Runway 推出全新 AI 游戏创作平台「Game Worlds」!

用文字创造宇宙:Runway 推出全新 AI 游戏创作平台「Game Worlds」!

在 AI 生成技术不断颠覆创意行业的今天,Runway 再次迈出了激动人心的一步。作为全球领先的生成式 AI 公司,Runway 长期致力于打造下一代艺术与娱乐工具。

来自主题: AI资讯
10003 点击    2025-06-27 11:34
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报
10388 点击    2025-06-27 10:03
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习

近年来,随着人工智能从感知智能向决策智能演进,世界模型 (World Models)逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并预测未来状态,从而实现更高效的规划与决策。

来自主题: AI技术研报
9046 点击    2025-06-26 16:05
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。

来自主题: AI技术研报
8094 点击    2025-06-25 16:55
合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型

基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题,来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」(Synthetic Data RL)的通用框架。该框架仅需用户提供一个简单的任务定义,即可全自动地生成高质量合成数据。

来自主题: AI技术研报
10045 点击    2025-06-24 16:13
ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统

ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统

ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统

想象为《红楼梦》或《权力的游戏》创造一个AI的世界。书中的角色们变成AI,活在BookWorld当中。每天,他/她们醒来,思考,彼此对话、互动,建立感情和关系。

来自主题: AI技术研报
9970 点击    2025-06-24 15:59
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。

来自主题: AI技术研报
8189 点击    2025-06-22 16:32