AI资讯新闻榜单内容搜索-文生图

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

在生成式 AI 浪潮中，文生图技术已实现跨越式发展，在视觉呈现上达到了前所未有的高度。然而，在生成图像中准确合成拼写正确、结构规范且风格协调的文字 —— 视觉文本渲染（Visual Text Rendering, VTR），至今仍是该领域尚未攻克的核心难题。

来自主题: AI技术研报

10116 点击 2026-03-12 14:10

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval，旨在通过长文本、高信息密度的 T2I prompt 设计，以及围绕空间感知

来自主题: AI技术研报

10850 点击 2026-02-22 11:17

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

编辑｜Panda 在文生图模型的技术版图中，VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX，再到一系列扩散 Transformer，主流路线高度一致：先用 VAE 压缩视

来自主题: AI技术研报

8284 点击 2026-01-24 10:52

任意条件，「可控」文生图扩散模型综述 | TPAMI'25

北邮最新综述探讨了文生图扩散模型的可控生成技术，总结了在文本条件之外引入新条件信号的方法，从任务和方法两个层面梳理了可控生成技术。

来自主题: AI技术研报

9399 点击 2026-01-19 08:55

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

香港大学（The University of Hong Kong）与 Adobe Research 联合发布 Self-E（Self-Evaluating Model）：一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接：让同一个模型在极少步数也能生成语义清晰、结构稳定的图像，同时在 50 步等常规设置下保持顶级质量，并且随着步数增加呈现单调提升。

来自主题: AI技术研报

9503 点击 2026-01-18 14:57

AI 参数战争下的"隐秘战场"：为何全球顶级厂商集体转向"游戏"？

回顾 2025 年，如果问普通人对 AI 行业最深刻的印象是什么？答案依然是激烈的“参数战争”：有 DeepSeek、Gemini 3 等大模型的集体爆发，也有文生图、文生视频能力的持续惊艳。

来自主题: AI资讯

9809 点击 2025-12-24 10:10

让AI像人类画家一样边画边想，港中文&美团让模型「走一步看一步」

在文生图（Text-to-Image）和视频生成领域，以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

来自主题: AI技术研报

11533 点击 2025-12-22 16:05

首个文本到3D生成RL范式诞生，攻克几何与物理合理性

在大语言模型和文生图领域，强化学习（RL）已成为提升模型思维链与生成质量的关键方法。

来自主题: AI技术研报

7138 点击 2025-12-22 09:38

又一国产图像大模型开源！实测连续P图绝了，中文渲染是短板

今日，美团正式发布并开源图像生成模型LongCat-Image，这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型，重点瞄准文生图与单图编辑两大核心场景。在实际体验中，它在连续改图、风格变化和材质细节上表现较好，但在复杂排版场景下，中文文字渲染仍存在不稳定的情况。

来自主题: AI资讯

8929 点击 2025-12-08 19:51

继 Nano Banana 2 之后，国产 AI 生图又杀出「一致性标杆」，Vidu 生图限时无限免费

现在，终于也有国产 AI 接力，进一步把这条路跑通。Vidu Q2 最新上线的文生图、参考生图、图像编辑功能就是这个路子：卷完「好看」，它开始死磕「稳定性」。这次 Vidu Q2 直接把技能点全加在了「一致性」上。什么概念？就是把「人设崩坏」、「产品变形」、「画风突变」这些老大难问题统统按在地上摩擦。

来自主题: AI资讯

8997 点击 2025-12-01 16:13