快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
搜索
在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨大潜力。
近日,有消息人士称,曾红极一时的 AI 聊天机器人公司 Character.AI 苦于运营 AI 模型的高昂成本,正在权衡两个选择:要么可能被出售,要么筹集新的资金。这几周,该公司与潜在买家、银行家以及员工进行了磋商。
8月18日,百度文库上线了一款名为 GenFlow2.0 的 Agent 产品。 在 Agent 层出不穷的 2025 年,市场的第一反应很可能是:「又一个而已」。
据知情人士透露,Anthropic 即将达成协议,在新一轮融资中筹集高达 100 亿美元资金,这一金额超出预期,成为人工智能初创企业迄今规模最大的超级融资轮之一。
8 月 21 日,快手科技发布的 2025 年第二季度业绩报告,各项核心财务指标表现稳健,超出了市场普遍预期。
人在从杭州回北京的路上,想趁着脑子里的记忆还火热的时候,写下一些感悟。
知情人士透露,作为人工智能热潮中关键基础设施供应商的 Crusoe 能源系统公司,正计划以近 100 亿美元的估值进行新一轮融资。这笔交易将突显支撑 AI 系统运作所需的庞大资源。
软件+硬件的全链路国产 AI 体系来了? 这几天,不论国内国外,人们都在关注 DeepSeek 发布的 V3.1 新模型。
为什么在这个科技高度发达的时代,我们在预约医生、租房看房、维修报修这些最基本的生活场景中,仍然要忍受漫长的等待和糟糕的体验?为什么一个简单的医疗预约需要等待数小时才能接通电话,一次房屋维修申请要等几天甚至几周才有回复?这些看似琐碎的日常痛点,实际上揭示了两个关键行业的深层问题:它们仍然停留在手工操作的石器时代。
DeepSeek-V3.1官宣了,作为首款「混合推理」模型,将开启智能体新时代。新模型共有671B参数,编码实力碾压DeepSeek-R1、Claude 4 Opus,登顶编程开源第一。