AI资讯新闻榜单内容搜索-tokenizer

无需视觉 tokenizer，北大PRA解锁自回归图像生成潜力，135M模型性能反超1.9B基线

过去几年，扩散模型几乎定义了高质量图像生成：从随机噪声出发，经过多轮迭代，逐步 “雕刻” 出一张图像。但随着大语言模型席卷人工智能领域，另一条路线正迅速走到舞台中央 —— 图像，能否也像语言一样，通过自回归方式逐步生成？

来自主题: AI技术研报

7263 点击 2026-07-14 11:07

单个tokenizer胜任图像视频理解生成！南大&腾讯混元HYDRA打通多模态统一难题

南大王利民团队&腾讯混元的HYDRA系列（HYDRA，HYDRA-X）工作挑战了这个惯例，用一个基于ViT的统一视觉Tokenizer，帮助原生多模态模型更好地“看懂”和“创作”。训练一个基于ViT的Unified Tokenizer，使其同时具有理解和生成的能力，进而同时作为理解和生成的Autoencoder，来支持原生多模态模型（Unified Multimodal Models）的训练。

来自主题: AI技术研报

8535 点击 2026-06-28 11:13

OpenAI明升，Anthropic暗涨：AI包月折扣没了

4月，OpenAI Codex正式把计费口径从按消息估算转向按token用量；Anthropic侧的企业续约和新版模型tokenizer（分词器），也让 Claude Code的实际账单压力集中显现。明升与暗涨，两家各有各的玩法。

来自主题: AI资讯

8355 点击 2026-05-31 12:10

ICLR 2026 Oral | 大道至简！斯坦福、英伟达、新国立联合推出InfoTok，用信息论重新定义高效视频分词

在生成式 AI 领域，视觉分词器（Visual Tokenizer）通常采用固定压缩率 —— 无论是单调的监控画面，还是复杂的动作大片，都被切分为等量的 Token。这种 "一刀切" 的做法不仅会造成巨大的计算冗余，也产生了 “信息量” 不同的 Token，不利于下游理解生成任务处理。

来自主题: AI技术研报

6131 点击 2026-03-31 10:03

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队不藏了！首次开源就揭晓了一个困扰行业已久的问题的答案——为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的生成效果？翻译成大白话就是，虽然图像/视频生成模型的参数越做越大、算力越堆越猛，但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比，模型离完全真正可用总是差一段距离。

来自主题: AI技术研报

8765 点击 2025-12-22 17:07

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP（Visual Tokenizer Pre-training）项目。他们同步发布了一篇相当硬核的论文，它最有意思的地方在于 3 个点：「重建做得越好，生成反而可能越差」，传统 VAE 的直觉是错的

来自主题: AI技术研报

9493 点击 2025-12-20 10:04

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

扩散模型「去噪」，是不是反而忘了真正去噪？何恺明携弟子出手，回归本源！

来自主题: AI技术研报

11067 点击 2025-11-20 15:26

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

12018 点击 2025-11-14 10:21

Being-VL的视觉BPE路线：把「看」和「说」真正统一起来

为此，北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置：先在纯自监督、无 language condition 的设定下，把图像离散化并「分词」，再与文本在同一词表、同一序列中由同一 Transformer 统一建模，从源头缩短跨模态链路并保留视觉结构先验。

来自主题: AI技术研报

8813 点击 2025-10-14 09:58

无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

最近，Mamba 作者之一 Albert Gu 又发新研究，他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net，其用模型内部的动态分块过程取代 tokenization，从而自动发现和操作有意义的数据单元。

来自主题: AI技术研报

9018 点击 2025-07-13 11:37