10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck
搜索
Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck
您有没有发现,现在市面上的AI角色扮演的Agent总有种「隔靴搔痒」的感觉?用户和AI聊天时,AI虽然能说出符合角色设定的话,但总觉得缺了点什么——就像演员在背台词,而不是真的在思考。感觉很假,也很奇怪。
人形机器人、无人机、智能汽车这三个领域将成为空间智能的爆发点。对于具身智能(Embodied Intelligence),真实的物理环境就是最好的老师
如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选?
谷歌深夜携全新Gemini 2.5 Pro强势归来,仅用一个月碾压旧版Gemini 2.5。数学、编程、推理全面封神,稳坐所有榜单第一。
大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略?
随着大型语言模型(LLM)技术的不断发展,Chain-of-Thought(CoT) 等推理增强方法被提出,以期提升模型在数学题解、逻辑问答等复杂任务中的表现,并通过引导模型逐步思考,有效提高了模型准确率。
数据公司收购热潮在周一持续升温,云数据平台Snowflake 宣布收购Postgres 数据库合作伙伴Crunchy Data。知情人士透露此次交易估值约为 2.5 亿美元。
Agent 能力边界正在快速演进,未来随着更强的规划和推理能力的不断提升,Agent 们将参与到社会经济运作中。在这一趋势下,将可能诞生类似 Visa 或 Stripe 级别的商业基础设施的机会。
差不多一个半月前,是我第一次使用 Fellou,也是我第一次使用这类 Agent 形式的浏览器。