AI资讯新闻榜单内容搜索-多模态智能体

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态智能体
阿里通义千问发布多模态智能体模型Qwen3.7-Plus,让AI从“读懂世界”,走向“动手完成任务”。

阿里通义千问发布多模态智能体模型Qwen3.7-Plus,让AI从“读懂世界”,走向“动手完成任务”。

阿里通义千问发布多模态智能体模型Qwen3.7-Plus,让AI从“读懂世界”,走向“动手完成任务”。

今天,阿里通义千问发布多模态智能体模型Qwen3.7-Plus。相比传统“看图说话”式多模态模型,Qwen3.7-Plus在识别图像的基础上,进一步打通界面感知、工具调用、代码生成和任务交付,让AI从“读懂世界”,走向“动手完成任务”。

来自主题: AI资讯
8983 点击    2026-06-02 21:40
字节Seed开源长线记忆多模态Agent,像人一样能听会看

字节Seed开源长线记忆多模态Agent,像人一样能听会看

字节Seed开源长线记忆多模态Agent,像人一样能听会看

字节Seed发布全新多模态智能体框架——M3-Agent。 像人类一样能听会看、具备长期记忆,并且免费开源!?

来自主题: AI技术研报
7538 点击    2025-08-19 10:16
演讲生成黑科技,PresentAgent从文本到演讲视频

演讲生成黑科技,PresentAgent从文本到演讲视频

演讲生成黑科技,PresentAgent从文本到演讲视频

我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。

来自主题: AI技术研报
8853 点击    2025-07-19 11:31
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

现在的AI Agent在文档生成PPT或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行。

来自主题: AI技术研报
8356 点击    2025-07-11 16:41
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%

在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。

来自主题: AI技术研报
7933 点击    2025-06-21 16:56
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
11095 点击    2025-05-27 16:53
2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

在谷歌I/O大会后,创始人谢尔盖·布林惊喜现身,与Hassabis深入探讨AI的推理能力、规模与算法、测试时计算及多模态智能体的应用前景。布林强调AI时代是计算科学家不应退休的黄金期,AI影响将远超互联网与手机。

来自主题: AI资讯
6808 点击    2025-05-23 11:50