AI资讯新闻榜单内容搜索-Fill

普通网线也能跑万亿大模型！月之暗面抛出王炸架构，亲证：不用全买 H100！1T模型实测：延迟暴降64%！大模型推理“围城”攻破了！

在 AI 工程界，长文本推理一直是个“富贵病”。

来自主题: AI技术研报

8276 点击 2026-04-21 16:16

Kimi新论文：把KVCache玩成新商业模式了

把长上下文做到极致的Kimi又发新成果！

来自主题: AI技术研报

7392 点击 2026-04-20 09:46

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

TL;DR：DuoAttention 通过将大语言模型的注意力头分为检索头（Retrieval Heads，需要完整 KV 缓存）和流式头（Streaming Heads，只需固定量 KV 缓存），大幅提升了长上下文推理的效率，显著减少内存消耗、同时提高解码（Decoding）和预填充（Pre-filling）速度，同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报

5319 点击 2024-10-24 11:33

Adobe正在开发AI视频处理技术

Adobe公开了“Project Fast Fill”功能，这是一种使用生成式人工智能，通过文本提示互动的方式，可以在视频中移除人物、添加物体以及替换颜色的功能

来自主题: AI资讯

8344 点击 2023-10-13 14:41