RL特训出「押题大师」?破解模型微调中的多样性危机与灾难性遗忘
RL特训出「押题大师」?破解模型微调中的多样性危机与灾难性遗忘RL之后,大模型为什么更容易「越训越单一」?面对五花八门的改进思路,也许答案并不复杂:先试着改一改KL项。
RL之后,大模型为什么更容易「越训越单一」?面对五花八门的改进思路,也许答案并不复杂:先试着改一改KL项。
Anthropic推出平台级产品:Claude Managed Agents,开发周期从数月压缩到几天,To B业务更进一步,这是直接给了一个Harness Agent的盒子,用户只管干活就行了,随着产品发布,A厂还发布了一篇Harness(Managed Agents)工程细节文章,感觉A厂就差说在座的都是xx了,再一次遥遥领先!我们一文来说清楚
用13个月时间完成5轮融资,实现估值30倍暴涨。
AI 购物是下一代消费的核心入口?
穆迪最新报告揭示了两条平行宇宙:要么AI让生产率狂飙,失业率降至3.8%;要么泡沫破裂,460万人失去饭碗。Anthropic CEO预警白领消亡,经济学家却说还没到时候。2026年1月创纪录的裁员数据,似乎正在验证前者。
大模型(LLM)的世界知识和推理能力是实现下一代推荐系统,即基于大模型的推荐系统(LLM4Recsys)的重要基石。来自meta ai的研究者们尝试将推理模型引入再排序阶段,推荐系统的最后一环。
不更是不更,一更就是个大动作,DeepSeek V4可能真的要来了!
我们的AIFUT大会,今天终于正式开始了。
面壁智能宣布完成新一轮数亿元人民币融资。本轮由深圳市创新投资集团(深创投)和汇川产投联合领投,道禾长期投资、国泰君安创新投、武岳峰科创等跟投。
AI 时代最赚钱的公司,可能从来不是做 AI 的那个。