
Talk is cheap. Show me the code.
Linus Torvalds
今天,我们发布并开源 Kimi K2.6 模型,带来行业领先(state-of-the-art)的代码、长程任务执行和 Agent 集群能力。
Kimi K2.6 现已上线 kimi.com、最新版 Kimi 应用、Kimi API 和 Kimi Code 编程助手,所有用户都可以开始使用。

( 完整基准测试成绩见技术博客 )
Kimi K2.6 的通用 Agent、代码、视觉理解等综合能力得到全面提升,其中在博士级难度的完整版人类最后的考试(Humanity's Last Exam)、在考察模型真实软件工程能力的 SWE-Bench Pro、评估 Agent 深度检索能力的 DeepSearchQA 等基准测试中均取得行业领先的成绩,持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro等闭源模型。
Kimi K2.6 是我们迄今最强的代码模型,其长程编码能力也得到显著提升,在测试中可以不间断编码 13 小时,编写或修改超过 4000 行代码,完成复杂系统的开发和优化。通过将代码与视觉能力的深度融合,K2.6 将代码驱动的设计能力提升到了新高度,可以交付极具设计创意的专业级 Web 应用。
Kimi K2.6 大幅增强了 Agent 自主化执行能力,帮助我们进一步扩展 Agent 的能力范围:
长程编码能力突破
K2.6 在长程代码任务中的表现取得了突破,面对不同编程语言(如 Rust、Go、Python)和任务场景(如前端、运维、性能优化)均具备更可靠的泛化能力。
在涵盖了多种复杂端到端任务的、Kimi 内部严格代码评测基准 Kimi Code Bench 中,K2.6 的成绩比 K2.5 提升了约 20%。

根据我们的实测,Kimi K26 模型在复杂软件工程任务中,展现了强大的长程推理能力:
场景一:K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型,通过使用小众 Zig 语言实现并优化模型推理,证明了新模型的泛化能力。经过 4,000 多次工具调用,超过 12 小时的不间断运行,K2.6 模型共迭代了 14 轮,将吞吐量从约 15 tokens/s 提升至约 193 tokens/s,最终实现比 LM Studio 快 20% 的推理速度。

场景二:Kimi K2.6 自主完成了对拥有 8 年历史的开源金融撮合引擎 exchange-core 的深度重构。历经 13 小时的连续作业,模型迭代了 12 套优化策略,通过 1,000 余次工具调用,对 4,000 多行代码进行了精准修改。化身专家级系统架构师,Kimi K2.6 深入分析 CPU 及内存分配火焰图以定位隐蔽瓶颈,并大胆调整核心线程拓扑结构(由 4ME+2RE 优化为 2ME+1RE)。即便在该引擎性能已接近极限的情况下,Kimi K2.6 仍实现了 185% 的中位吞吐量跃升(由 0.43 增至 1.24 MT/s),峰值吞吐量更是大幅提升 133%(由 1.23 飙升至 2.86 MT/s)。

Baseten、Blackbox AI、CodeBuddy、Factory(Droid)、飞书妙搭、Fireworks AI、Nous Research(Hermes Agent)、Kilo Code、Ollama、OpenCode、Qoder 和 Vercel 等企业客户提前测试了 K2.6 模型,这里摘录部分来自他们的真实反馈:
首字母顺序(1-6)






←首字母顺序(7-12)






←
代码驱动设计的标杆
我们相信,美本身就是一种生产力。K2.6 Agent 模式现在可以制作极具设计感和视觉冲击力的网站。
凭借对图像和视频生成工具的熟练调用,K2.6 Agent 能够生成视觉风格高度统一的素材,构建视觉焦点突出的首屏区(Hero Section),并且实现各种交互元素和丰富的滚动触发等动效。


K2.6 Agent 不局限于写前端页面,也支持基础的后端数据库模块,例如在生成网页中嵌入表单信息收集的功能。

凭借更强的多模态编程能力,K2.6 能够更精准地将图像和视频素材转化为代码:

我们创建了一套专门的前端开发设计评测基准( Kimi Design Bench),涵盖视觉输入任务、落地页构建、全栈应用开发以及通用 Web 开发这四个维度。对比 Google AI Studio 中的 Gemini 3 模型,基于 kimi.com 框架的 K2.6 Agent 展现出了非常明显的领先优势。

Agent 集群全面升级
突破单体 Agent 性能的限制,才能实现 Agent 能力的规模化扩张。「Agent 集群」是我们从 K2.5 模型开始引入的新能力——动态拆解复杂任务,自主生成专项 Agent 并行处理。

在 K2.5 的基础上,K2.6 的 Agent 集群的协同能力全面升级。Agent 集群现在可以调度不同技能特长的 Agent 互补协作,将搜索、深度研究、文档分析和长文创作等能力进行组合,任务完成质量相比于 K2.5 有显著提升。Agent 集群在单次运行中,就能独立完成从文档到网页、再到 PPT 和表格的多产物端到端交付。
此外,Agent 集群的架构也升级了,现在最多支持 300 个子 Agent 并行完成 4000 个协作步骤,实现更大规模的并行化,进一步推高多 Agent 系统协作的能力上限。
我们看两个使用案例:
案例一:Agent 集群针对全球 100 个半导体标的设计并执行了 5 套量化策略。它将麦肯锡风格的 PPT 逻辑沉淀为可复用的技能,最终交付了详尽的建模表格和一整套汇报演示文档。

案例二:Agent 集群把一篇包含海量视觉数据的高质量天体物理论文转化为可复用的学术技能。通过提取论文的推理流程和可视化方法,系统产出了 40 页、长达 7000 字的研究论文,以及包含 2 万多条数据的结构化数据集和 14 张天文级图表。

自主 Agent:与 OpenClaw/Hermes 等框架完美协同
K2.6 显著增强了 Agent 的自主化执行能力,特别是在 OpenClaw、Hermes Agent 式自动化任务中表现突出——这些场景要求 AI 能够跨应用实现 24/7 不间断运行。
与传统的对话交互不同,这类工作流需要 AI 以后台常驻 Agent 的形式主动管理任务计划、执行代码、协调跨平台操作。
我们的 RL 基础设施团队使用基于 K2.6 的 Agent 实现了连续 5 天自主运行。该 Agent 负责监控、故障响应和系统运维,展现了持久的上下文维持能力、多线程任务处理能力,以及从接收告警到彻底解决的全流程执行能力。以下是 K2.6 的工作日志(敏感信息已做匿名化处理):

K2.6 在实际使用中的可靠性有了切实提升:API 调用更加精准,长时间运行更加稳定,在执行复杂研究任务时的安全意识也得到了加强。

Kimi 内部的 Claw Bench 测试结果显示,K2.6 相比 K2.5 综合性能提升了 10%。这项基准测试涵盖五大维度:编程任务、即时通讯生态集成、信息检索与分析、定时任务管理,以及记忆调用能力。在所有评测指标上,K2.6 的任务完成率和工具调用准确率均领先 K2.5,在无需人工干预、需要长时间自主运行的工作流中优势尤为显著。
Office 办公能力持续精进

借助 K2.6 模型更强的代码和视觉理解能力,现在 Kimi Agent 模式支持创建和调用技能(Skill)。
系统已内置了上百个官方推荐技能。其中包括 Kimi 内部专家团队创建的投研技能包,通过封装机构级投资研究工作流,让用户一键生成专业排版的A股港股美股公司一页纸或者深度的投资研报,快速对一家公司上手,全方位速览公司关键基本面、行业全景和市场最关注的股价核心驱动因素。
后续我们将持续更新推荐技能库,帮助更多知识工作者实现「即插即用」,完成从找资料、理思路到出成果的全流程效率提升。
现在开始,在 Kimi Agent 模式下输入斜杠「 / 」,就可以开始创建和调用技能了。每个用户都可以从零开始,通过与 Kimi 对话创建技能。

但创建出真正实用的技能,仍然需要很多知识储备和专业能力,有很高的门槛。为了帮助大家把自己精心创建的文档轻松变成可复用的技能(Skill),Kimi Agent 已支持「Office 文档转技能」:上传高质量 Office 文档,Kimi 就会尝试理解原文档的结构与风格基因,为你生成专属的可复用文档创建技能。

One More Thing
人类通过团队协作和组织分工,创造了互联网、做出了大模型、登上了月球,AI Agent 想要帮助人类处理现实世界的复杂难题,也必然会向团队协作和组织分工的方向进化。
「Agent 集群」是我们在 AI 自动化分工方向的探索。今天将开始探索另一个方向:把人类和各种全天候 Agent 放在一个群组中,他们如何分工协作,完成一个人或一个 Agent 无法完成的任务?

这就是我们已开启小范围内测的「Claw 群组」。
「Claw群组」的目标是拥抱开放、异构的生态:多个 Agent 与人类作为真正的协作者共同运行。用户可以接入来自任何设备、任何供应商、运行任何模型的全天候 Agent(首批支持 OpenClaw,后续会加入对 Hermes Agent 等框架的支持),每个 Agent 可携带各自的专业工具包、技能和持久化记忆上下文。无论是部署在本地笔记本电脑、移动设备还是云端实例,这些各异的 Agent 都能进入同一个协同办公群组。
在「Claw群组」中,K2.6 担任协调者。它根据 Agent 的技能画像和可用工具动态匹配任务,实现能力的最优配置。当某个 Agent 遇到故障或停滞时,协调者会检测到中断,自动重新分配任务或生成子任务,并对 Agent 交付物的全生命周期(从启动、验证到完成)进行主动管理。
Kimi Claw 用户会陆续收到「Claw群组」的内测邀请,敬请期待。
开始使用 Kimi K2.6
Kimi K2.6 现已面向所有免费用户、付费订阅用户、Kimi Code 和企业 API 用户开放,欢迎访问 kimi.com、最新版 Kimi App、Kimi Code 和 Kimi API 开放平台(platform.kimi.com)开始使用。
企业和开发者只需在 Kimi API 中指定模型为kimi-k2.6,即可开始使用。为庆祝 K2.6 模型 API 上线,Kimi 开放平台同步开启了最高 30% 的限时充赠活动。

此外,我们推荐直接调用 Kimi 官方 API 复现 Kimi K2.6 基准评测成绩。如需使用第三方 API 服务,可通过 Kimi 模型供应商验证服务(Kimi Vendor Verifier, KVV) ,挑选精度更高的服务商。了解更多:https://kimi.com/blog/kimi-vendor-verifier
快速开始
↓ 对话 K2.6、处理Office文档或创建 Web 应用
↓ 用 K2.6 辅助编程
↓使用 Kimi API 创建应用
↓ 本地部署模型
文章来自于微信公众号 "Kimi智能助手",作者 "Kimi智能助手"
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI