AI资讯新闻榜单内容搜索-REG

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: REG
多轮Agent训练遇到级联失效?熵控制强化学习来破局

多轮Agent训练遇到级联失效?熵控制强化学习来破局

多轮Agent训练遇到级联失效?熵控制强化学习来破局

在训练多轮 LLM Agent 时(如需要 30 + 步交互才能完成单个任务的场景),研究者遇到了一个严重的训练不稳定问题:标准的强化学习方法(PPO/GRPO)在稀疏奖励环境下表现出剧烈的熵值震荡,导致训练曲线几乎不收敛。

来自主题: AI技术研报
7475 点击    2025-10-19 12:06
Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。

来自主题: AI技术研报
7463 点击    2025-10-15 14:00
7 小时连续重构不掉线!一骑绝尘的Claude 终于遇到对手:Greg Brockman亲自解读AI编程重大突破

7 小时连续重构不掉线!一骑绝尘的Claude 终于遇到对手:Greg Brockman亲自解读AI编程重大突破

7 小时连续重构不掉线!一骑绝尘的Claude 终于遇到对手:Greg Brockman亲自解读AI编程重大突破

9 月 16 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具而设计。该公司表示,新模型 GPT-5-Codex 的“思考”时间比之前的模型更加动态,完成一项编码任务所需的时间从几秒到七个小时不等。因此,它在代理编码基准测试中表现更佳。

来自主题: AI技术研报
9245 点击    2025-09-18 15:19
开学 AI 大礼包:OpenAI谷歌微软免费课程,从入门到精通,还有实战模板

开学 AI 大礼包:OpenAI谷歌微软免费课程,从入门到精通,还有实战模板

开学 AI 大礼包:OpenAI谷歌微软免费课程,从入门到精通,还有实战模板

现在做 AI 课程的,不计其数,吴恩达、Andrej Karpathy,Greg Isenberg 等人更是大神下凡支教。高校如斯坦福、MIT、哈佛等也有公开课资源。

来自主题: AI资讯
9295 点击    2025-09-03 11:53
巨头收购a16z投资的AI初创企业,团队来自Palantir和Oracle

巨头收购a16z投资的AI初创企业,团队来自Palantir和Oracle

巨头收购a16z投资的AI初创企业,团队来自Palantir和Oracle

Salesforce近日官宣收购Regrello,这是一家专注于制造业和供应链的自动化工作流公司,也可以定位为AI驱动的制造业运营编排平台,核心技术是将非结构化业务数据转化为动态的自动化工作流。

来自主题: AI资讯
11461 点击    2025-08-21 15:13
dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

近年来,扩散大语言模型(Diffusion Large Language Models, dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。与传统自回归(Autoregressive, AR)模型从左到右逐字生成不同,dLLM 依托迭代去噪的生成机制,不仅能够一次性生成多个 token,还能在对话、推理、创作等任务中展现出独特的优势。

来自主题: AI技术研报
8956 点击    2025-08-20 16:26
AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」

AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」

AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」

我们都爱AI带来的「认知捷径」,但CEO Greg Shove却分享了他认知滑坡的亲身经历。真正的分水岭不是用或不用AI,而是你选择成为驾驭AI的「驾驶员」,还是被其淘汰的「乘客」。

来自主题: AI资讯
7296 点击    2025-08-11 10:24
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。

来自主题: AI技术研报
7733 点击    2025-08-11 10:17