AI资讯新闻榜单内容搜索-多模态架构

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态架构
阿里首个世界模型:快乐…生蚝

阿里首个世界模型:快乐…生蚝

阿里首个世界模型:快乐…生蚝

就在刚刚,成立恰满一个月的阿里ATH(Alibaba Token Hub)事业群,发布全球首个主动式实时交互的世界模型产品。名也挺有趣的,叫HappyOyster(快乐生蚝)。HappyOyster搭载原生多模态架构,背后是支持多模态输入与音视频联合生成的流式生成世界模型,核心主打漫游(Wander)、导演(Direct)、创造(Create)、分享(Share)。

来自主题: AI资讯
7891 点击    2026-04-17 15:24
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报
8943 点击    2025-12-05 14:46
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样,囊括像素级别的图标到数小时的视频。现有的多模态大语言模型(MLLM)通常将视觉输入进行分辨率的标准化或进行动态切分等操作,以便视觉编码器处理。然而,这些方法对多模态理解并不理想,在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯
4649 点击    2024-09-29 14:44