AI资讯新闻榜单内容搜索-生成模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 生成模型
京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东首次开源长音视频生成框架JoyAI-Echo。它直击长视频生成中的角色一致性、声音稳定性和生成速度三大核心难题,一举在多个核心指标上超越行业标杆模型。根据公开评测结果,JoyAI-Echo在跨镜头一致性、语音准确率、用户偏好等关键指标上均取得领先表现,与业内主流长视频生成模型相比优势明显,出道即跻身全球第一梯队。

来自主题: AI资讯
7911 点击    2026-06-05 22:06
一步生成 ImageNet FID 1.29!斯坦福用 Wasserstein 梯度流重写一步生成模型

一步生成 ImageNet FID 1.29!斯坦福用 Wasserstein 梯度流重写一步生成模型

一步生成 ImageNet FID 1.29!斯坦福用 Wasserstein 梯度流重写一步生成模型

训练时让分布沿最优传输的 “下山方向” 走,推理时只需一次网络前向。W-Flow 把多步演化压进静态生成器,在 ImageNet 256×256 上刷新一步生成指标。

来自主题: AI技术研报
9176 点击    2026-06-03 14:34
图灵奖得主Sutton新作:AI的下一步,是走向「生成认知」

图灵奖得主Sutton新作:AI的下一步,是走向「生成认知」

图灵奖得主Sutton新作:AI的下一步,是走向「生成认知」

从 LLM 的超长文本处理、视频生成模型的以假乱真、Agent 自主规划与执行的日趋成熟,到 VLA、世界模型等开始进入物理世界,AI 正在不断拓宽其能力边界。

来自主题: AI技术研报
6339 点击    2026-06-02 15:05
小云雀短剧Agent升级2.0,我花200元就做了一部AI版的《给阿嬷的情书》

小云雀短剧Agent升级2.0,我花200元就做了一部AI版的《给阿嬷的情书》

小云雀短剧Agent升级2.0,我花200元就做了一部AI版的《给阿嬷的情书》

近日,字节旗下AI视频创作工具小云雀的短剧Agent正式更新到2.0版本。自Seedance 2.0这一视频生成模型横空出世以来,小云雀一直是其原生支持的平台。由于整体使用门槛相对较低,小云雀也逐渐积累起一批AI短剧和AI短片创作者。

来自主题: AI资讯
8886 点击    2026-05-29 15:28
高分辨率视频生成不再慢半拍:让大模型保留“原味”的同时提速十余倍

高分辨率视频生成不再慢半拍:让大模型保留“原味”的同时提速十余倍

高分辨率视频生成不再慢半拍:让大模型保留“原味”的同时提速十余倍

当下视频生成模型正在快速逼近真实世界的画面质感,但一个现实瓶颈也越来越突出—— 那就是分辨率越高,生成所需要的时间就越长。

来自主题: AI技术研报
7909 点击    2026-05-28 14:50
VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。

来自主题: AI技术研报
7441 点击    2026-05-26 10:26
久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了

久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了

久不发声的美团AI,一开口就开源商用数字人——还把三个闭源大佬给超了

就在今天,美团龙猫大模型团队突然开源了商用级数字人视频生成模型 LongCat-Video-Avatar 1.5。在权威评测中,它的用户偏好胜率全面超越 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 这三个头部玩家,并且直接以 MIT 协议开放,连商用限制都懒得设。

来自主题: AI资讯
9292 点击    2026-05-22 21:38
刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

AI 图像生成通常遵循「能力越强、代价越高」的铁律;与此同时,学界却在悄悄质疑另一个更根本的浪费:传统 VAE 对图像语义几乎一无所知,而 DINOv2、SigLIP 等视觉编码器早已从数亿张图片中习得了丰富的视觉常识。图像生成模型,真的需要从零开始「发明」对图像的理解吗?

来自主题: AI技术研报
8373 点击    2026-05-21 16:45
ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?

来自主题: AI技术研报
9330 点击    2026-05-20 15:16