AI资讯新闻榜单内容搜索-长上下文

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 长上下文
超越TurboQuant:Together AI把2-bit KV Cache推向真实服务

超越TurboQuant:Together AI把2-bit KV Cache推向真实服务

超越TurboQuant:Together AI把2-bit KV Cache推向真实服务

长上下文模型越来越能“记”,但真正让它们跑到线上时,最先顶不住的往往不是算力,而是KV Cache。

来自主题: AI技术研报
5268 点击    2026-06-05 09:53
牛津、英伟达等提出记忆压缩新范式:训练时让模型学会断舍离

牛津、英伟达等提出记忆压缩新范式:训练时让模型学会断舍离

牛津、英伟达等提出记忆压缩新范式:训练时让模型学会断舍离

2026 年初,各大 AI 厂商在上下文窗口长度上展开激烈角逐。Google 的 Gemini 3 Pro 已支持 100 万级 token 上下文,Meta 的 Llama 4 Scout 更宣称可处理 1000 万 token。GPT-5 系列也在快速推进长上下文能力。

来自主题: AI技术研报
9870 点击    2026-06-02 11:23
MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你

MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你

MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你

MiniMax M3 今日正式发布。MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA (MiniMax Sparse Attention),最高支持 1M 超长上下文。如外界所期待的那样,它也是一个原生多模态模型,支持图片和视频的输入,并能操作电脑桌面。

来自主题: AI资讯
9134 点击    2026-06-01 09:49
DeepSeek-V4 预览版:迈入百万上下文普惠时代

DeepSeek-V4 预览版:迈入百万上下文普惠时代

DeepSeek-V4 预览版:迈入百万上下文普惠时代

今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:

来自主题: AI资讯
9006 点击    2026-04-24 11:20
Kimi新论文:把KVCache玩成新商业模式了

Kimi新论文:把KVCache玩成新商业模式了

Kimi新论文:把KVCache玩成新商业模式了

把长上下文做到极致的Kimi又发新成果!

来自主题: AI技术研报
7392 点击    2026-04-20 09:46
Mac用户可以在oMLX中使用TurboQuant了,搭配Gemma-4-31B,谷歌全家桶实测很能打!

Mac用户可以在oMLX中使用TurboQuant了,搭配Gemma-4-31B,谷歌全家桶实测很能打!

Mac用户可以在oMLX中使用TurboQuant了,搭配Gemma-4-31B,谷歌全家桶实测很能打!

对本地部署玩家,尤其是Mac用户来说,长上下文推理最大的痛点往往不是“模型不够聪明”,而是稍微多用点上下文,统一内存就被撑爆了”,这一点在最近的Gemma-4 31B的部署中尤为明显,在同等上下文的情况,显存占用比Qwen3.5-27B高约一倍不止,直接劝退了不少人。但好消息是,谷歌近期提出的TurboQuant KV缓存量化算法,正是为了解决这个痛点而生。

来自主题: AI技术研报
8424 点击    2026-04-09 09:47
对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌

对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌

对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌

随着大模型长上下文能力快速增长,海量 KV Cache 存储需求急剧增加,各类 KV Cache 压缩方法如雨后春笋般涌现。然而,这些方案在真实场景中的工程落地却常常陷入困境。

来自主题: AI技术研报
9254 点击    2026-03-25 13:41
东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

随着多模态大语言模型(MLLM)支持更长上下文,高分辨率图像和长视频会产生远多于文本的视觉 Token,在自注意力二次复杂度下迅速成为效率瓶颈。

来自主题: AI技术研报
9379 点击    2026-03-24 10:13