超越TurboQuant:Together AI把2-bit KV Cache推向真实服务
超越TurboQuant:Together AI把2-bit KV Cache推向真实服务长上下文模型越来越能“记”,但真正让它们跑到线上时,最先顶不住的往往不是算力,而是KV Cache。
搜索
长上下文模型越来越能“记”,但真正让它们跑到线上时,最先顶不住的往往不是算力,而是KV Cache。
连续创业的 York 开启了又一段新征程。过去十几年里,他几乎一直在做软硬一体系统:从计算机视觉、嵌入式,到后来的机器人。他的上一个创业项目——智能购物车 Caper AI,在 2021 年被 Instacart 以 3.5 亿美元收购。
前段时间开源了 guizang-ppt-skill,之后我自己用它做内容的时候发现一件事。
上个月我做了 M5 Paper Buddy,把一块墨水屏接到 Claude Code 上,监控 AI 在干什么、需要审批什么。当时挺兴奋的,物理按键审批操作那个仪式感很好。但用了几周之后我发现,它放在桌上的时间,远比我看它的时间长。
01 那个问题 ::: 什么是游戏? 这个问题比听起来要难。画面逼真不算,操控流畅不算,连开放世界都不算——你还需要有目标,有规则,有「我死了」和「我赢了」的判断。 Alberto Hojel 在 X
你可以直接跟 Claude 说想做什么,它帮你写代码、刷固件、装应用,几分钟之后,这台信用卡大小的设备就跑起了你要的东西。这台小设备叫 M5Stack Cardputer ADV,基于 ESP32-S3 芯片,真的只有信用卡那么大。
就在今天,Carnegie Mellon University(CMU:卡内基梅隆大学)2026 年毕业典礼上,身价逼近 1860 亿美元的「皮衣刀客」黄仁勋站上演讲台,接过科学与技术荣誉博士学位。
如果你这周自己写了求职信,你输给的并不是更好的候选人。你输给了一个更差的候选人,他花了 20 美元给 OpenAI。 今年初,马里兰大学、新加坡国立大学和俄亥俄州立大学的三位研究者从 LiveCare
上个月刚充了 ChatGPT Plus,这个月又买了Cursor Pro,OpenClaw 也研究的差不多了。我们对 AI 的期待,说起来非常简单:给最好的方案、最准确的代码、最精确的回答。
Anthropic 研究科学家 Nicholas Carlini 在 [un]prompted 2026 安全会议上用不到 25 分钟演示了一件事:语言模型现在可以自主找到并利用零日漏洞,目标包括 Linux 内核这种被人类安全专家审计了几十年的软件。