深度|养马、养虾、练模型:MiniMax 的 Agent 三线布局到底在赌什么?
深度|养马、养虾、练模型:MiniMax 的 Agent 三线布局到底在赌什么?“给我们剧透一下 M3 吧。”
“给我们剧透一下 M3 吧。”
今天,阿里发布了其下一代旗舰模型的早期预览版:Qwen3.6-Max-Preview。在第三方评测榜单Artificial Analysis的智能指数排名中,Qwen3.6-Max-Preview的得分为52分,小幅超过GLM-5.1、MiniMax-M2.7,成为这一榜单上得分最高的国产模型。
阿里版「电商龙虾」正式打通国际站!Accio Work深度进化,选品、发品、广告、客服等7个岗位的活,现在一个工作台、一句话就能全包。28岁金融男零代码部署8个Agent,竟跑出100%好评。
中国人民大学团队打造的AiScientist,旨在解决长程机器学习研究工程的持续性难题。该系统从论文理解开始,跨越环境配置、代码实现与实验迭代,保持状态连续与决策连贯,显著提升科研效率。其核心在于通过File-as-Bus机制,稳定保存项目状态,使AI能真正接手科研流程,而非仅辅助单个环节。
前几天,Anthropic 开源了 claude-desktop-buddy,用一块小屏幕显示 Claude Code 里 Buddy 的状态。结果做着做着,它变成了一个完全不同的东西:M5 Paper Buddy (https://github.com/op7418/m5-paper-buddy)。
GitButler最近发布的CLI工具引起了我很大的兴趣。这不是一个简单的Git包装器,而是从根本上重新思考了命令行工具应该如何设计。Scott提到了一个有趣的观察:大约80%的开发者仍然使用命令行工具来操作Git,即使有各种GUI工具存在。
伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。
上个月,智元刚刚跨过“机器人量产下线一万台”的门槛。4月17日,这家由前华为“天才少年”彭志辉与前华为副总裁邓泰华共同创立的机器人公司在合作伙伴大会上,花了大量的时间和篇幅介绍软件上的新产品。相较之下,硬件的篇幅反倒很少。
近日,AI内容电商OS K2Lab宣布再次完成数千万元天使轮融资,这也是K2Lab三个月以来完成的第二轮融资,本轮融资由华控资本领投、云时资本跟投,心流资本FlowCapital担任长期财务顾问。本轮融资资金将用于A2A原生电商Agent OS建设、多模态垂直模型打造、海外用户规模化增长和AI Native团队的持续建设。
Claude性能降智,已经成了重度用户们绕不开的槽点。而且发现这一点的,还是AMD高级总监Stella Laurenzo。在翻烂了近7000份会话日志后直言,Stella发现现在的Claude在处理复杂任务时已经变傻了。