AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

近年来,视频多模态大模型(VideoLLM)发展迅猛,在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强,业界也开始思考一个更重要的问题:视频大模型能不能不再只是 “看完一段视频再回答”,而是真正进入实时世界,持续观察、实时理解,并在关键时刻主动给出反馈?

来自主题: AI技术研报
5676 点击    2026-04-21 09:23
速递|AI内容电商OS「K2 Lab」再完成数千万天使轮融资,内测用户首周出单率70%,抢跑A2A原生电商新时代

速递|AI内容电商OS「K2 Lab」再完成数千万天使轮融资,内测用户首周出单率70%,抢跑A2A原生电商新时代

速递|AI内容电商OS「K2 Lab」再完成数千万天使轮融资,内测用户首周出单率70%,抢跑A2A原生电商新时代

近日,AI内容电商OS K2Lab宣布再次完成数千万元天使轮融资,这也是K2Lab三个月以来完成的第二轮融资,本轮融资由华控资本领投、云时资本跟投,心流资本FlowCapital担任长期财务顾问。本轮融资资金将用于A2A原生电商Agent OS建设、多模态垂直模型打造、海外用户规模化增长和AI Native团队的持续建设。

来自主题: AI资讯
8947 点击    2026-04-18 07:26
阿里首个世界模型:快乐…生蚝

阿里首个世界模型:快乐…生蚝

阿里首个世界模型:快乐…生蚝

就在刚刚,成立恰满一个月的阿里ATH(Alibaba Token Hub)事业群,发布全球首个主动式实时交互的世界模型产品。名也挺有趣的,叫HappyOyster(快乐生蚝)。HappyOyster搭载原生多模态架构,背后是支持多模态输入与音视频联合生成的流式生成世界模型,核心主打漫游(Wander)、导演(Direct)、创造(Create)、分享(Share)。

来自主题: AI资讯
7887 点击    2026-04-17 15:24
智象未来完成超5亿元新一轮融资,全力打造下一代原生全模态世界模型|AlphaFamily

智象未来完成超5亿元新一轮融资,全力打造下一代原生全模态世界模型|AlphaFamily

智象未来完成超5亿元新一轮融资,全力打造下一代原生全模态世界模型|AlphaFamily

近日,国内多模态生成式人工智能公司智象未来(HiDream.ai)宣布完成超5亿元新一轮融资。本轮融资由东方富海、安徽省投资集团旗下的省产业投资公司、峰华资本等新股东联合投资,同时合肥产投、兴泰集团、合肥高投、安徽省人工智能母基金等老股东持续加注。

来自主题: AI资讯
7430 点击    2026-04-16 13:01
刚刚,腾讯最新世界模型开源!一句话造出3D世界,兼容游戏引擎

刚刚,腾讯最新世界模型开源!一句话造出3D世界,兼容游戏引擎

刚刚,腾讯最新世界模型开源!一句话造出3D世界,兼容游戏引擎

今日,腾讯正式发布并开源混元3D世界模型2.0(HY-World 2.0)。作为一款多模态的世界模型,HY-World 2.0支持文字、图片和视频等形式输入,可自动生成、重建并模拟完整的3D世界。

来自主题: AI资讯
8546 点击    2026-04-16 11:14
OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2!

OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2!

OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2!

近日,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学,将OpenClaw的成功应用于多模态生成领域。他们提出GEMS(Agent-Native Multimodal Generation with Memory and Skills),激发小模型潜力,甚至让6B小模型在部分任务超越了Nano Banana 2。

来自主题: AI技术研报
7902 点击    2026-04-11 10:36
多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态大推理模型的幻觉,很多时候并非「没看见」,而是在最不确定的推理阶段想偏了。最新研究发现,模型在生成because、however、wait等transition words时,往往处于高熵关键节点,更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token,而是先在潜在语义空间保留多种候选推理方向,并通过视觉锚点持续拉回图像证据,显著缓解幻觉。

来自主题: AI技术研报
9089 点击    2026-04-11 09:37
全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模

全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模

全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模

今天,智谱发布 GLM-5V-Turbo,定位「面向视觉编程的多模态 Coding 基座模型」。一句话概括:在 GLM-5-Turbo 的编程和龙虾能力基座上,加入了原生的视觉理解和推理能力

来自主题: AI资讯
8041 点击    2026-04-02 10:43