AI资讯新闻榜单内容搜索-压缩

2倍提速！KV缓存压缩不只看重要性，上交大团队让模型推理「又快又稳」 | ICLR'26

长上下文推理已经成了VLM/LLM的默认形态。

来自主题: AI技术研报

5996 点击 2026-04-01 09:40

在生成式 AI 领域，视觉分词器（Visual Tokenizer）通常采用固定压缩率 —— 无论是单调的监控画面，还是复杂的动作大片，都被切分为等量的 Token。这种 "一刀切" 的做法不仅会造成巨大的计算冗余，也产生了 “信息量” 不同的 Token，不利于下游理解生成任务处理。

来自主题: AI技术研报

5820 点击 2026-03-31 10:03

前几天，Google Research 在 X 平台正式发布了名为 TurboQuant 的 AI 压缩算法，24 小时内浏览量破千万。但就在刚刚，苏黎世联邦理工学院博士后高健扬在知乎发出一封公开澄清信。他是论文里被比较算法 RaBitQ 的第一作者，指出 TurboQuant 存在三处严重问题：

来自主题: AI资讯

7945 点击 2026-03-28 22:15

看过 HBO 神剧《硅谷》（Silicon Valley）的朋友，想必都对那个名为 Pied Piper（魔笛手）的虚构公司念念不忘。

来自主题: AI资讯

9947 点击 2026-03-26 15:23

谷歌一篇论文，直接让存储巨头们「集体失眠」，一夜市值蒸发几百亿！最新博客官宣TurboQuant算法，直接将缓存压到3-bit，内存占用只有1/6。

来自主题: AI资讯

8845 点击 2026-03-26 12:01

随着大模型长上下文能力快速增长，海量 KV Cache 存储需求急剧增加，各类 KV Cache 压缩方法如雨后春笋般涌现。然而，这些方案在真实场景中的工程落地却常常陷入困境。

来自主题: AI技术研报

9250 点击 2026-03-25 13:41

我们在很多地方都看到了一个词，叫「压缩即智能」

来自主题: AI技术研报

7312 点击 2026-03-24 16:30

随着多模态大语言模型（MLLM）支持更长上下文，高分辨率图像和长视频会产生远多于文本的视觉 Token，在自注意力二次复杂度下迅速成为效率瓶颈。

来自主题: AI技术研报

9377 点击 2026-03-24 10:13

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

来自主题: AI技术研报

9351 点击 2026-03-17 08:49

一段几十秒的音视频，上万Token，一半以上是冗余——Omni-LLM的计算浪费，比想象中更严重。

来自主题: AI技术研报

8604 点击 2026-03-11 15:06