AI资讯新闻榜单内容搜索-长视频

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 长视频
京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东开源音视频生成框架JoyAI-Echo,5分钟叙事角色不崩,声音不乱,秒出片

京东首次开源长音视频生成框架JoyAI-Echo。它直击长视频生成中的角色一致性、声音稳定性和生成速度三大核心难题,一举在多个核心指标上超越行业标杆模型。根据公开评测结果,JoyAI-Echo在跨镜头一致性、语音准确率、用户偏好等关键指标上均取得领先表现,与业内主流长视频生成模型相比优势明显,出道即跻身全球第一梯队。

来自主题: AI资讯
7875 点击    2026-06-05 22:06
东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速

随着多模态大语言模型(MLLM)支持更长上下文,高分辨率图像和长视频会产生远多于文本的视觉 Token,在自注意力二次复杂度下迅速成为效率瓶颈。

来自主题: AI技术研报
9378 点击    2026-03-24 10:13
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:

来自主题: AI技术研报
9355 点击    2026-03-17 08:49
关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ,带来极高的显存占用和延迟,限制了模型的可扩展性和本地部署。

来自主题: AI技术研报
9822 点击    2026-01-26 14:22
让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

上海AI Lab联合多家机构开源的Yume1.5,针对这一核心难题提出了时空信道联合建模(TSCM),在长视频生成中实现了近似恒定计算成本的全局记忆访问。

来自主题: AI技术研报
8031 点击    2026-01-09 14:36