超越TurboQuant:Together AI把2-bit KV Cache推向真实服务
超越TurboQuant:Together AI把2-bit KV Cache推向真实服务长上下文模型越来越能“记”,但真正让它们跑到线上时,最先顶不住的往往不是算力,而是KV Cache。
搜索
长上下文模型越来越能“记”,但真正让它们跑到线上时,最先顶不住的往往不是算力,而是KV Cache。
在ChatGPT拥有10亿用户后,AI问答这一定位,显然已经难以撑起其下一阶段的增长。另一方面,Codex每周活跃用户已超500万。很多人囿于名字,以为这是Coding产品。。。。限制了其在编程圈外的增长。
我们今天以 PDF 写论文的方式,已经持续了三百多年。然而论文其实是把一段混乱反复、充满试错的真实研究,讲成一个干净利落、足以服人的完美故事。
靠程序员发家,如今却因为AI要裁掉程序员。
8000元预算推7元玩具?AI购物或许有用,但不多。
我做产业研究这么多年,第一次被一组数字震住,是在今年年初。
Notion 最近发了一篇工程文章,复盘过去两年他们怎么做向量搜索基础设施。
训练大模型时,工程师绝对不会指望网络做一次前向传播就能收敛。它需要数据喂养、Batch切分、学习率控制、验证集筛选以及优化器状态的迭代试错。
其实大概半年前,我就有这个需求了。那阵子我也注意到,阿里、字节这些平台都各自出了提示词优化器。但它们都得专门跑到对应的网站上去用,对我来说不够顺手。所以这回干脆借着深度复盘了 Anthropic 的 Prompt 讲座,用 Codex vibe coding 了一个全局提示词优化器。
Paperboy 正在尝试找到一种更自然、更连续、更可协作的 Agent 界面与记忆结构——Agent 应该通过观察你用电脑来自己学习,用 IM 而不是 session 来组织对话,主动找你,而不是等你 prompt。