AI资讯新闻榜单内容搜索-AI视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI视觉
AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

近年来,视频多模态大模型(VideoLLM)发展迅猛,在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强,业界也开始思考一个更重要的问题:视频大模型能不能不再只是 “看完一段视频再回答”,而是真正进入实时世界,持续观察、实时理解,并在关键时刻主动给出反馈?

来自主题: AI技术研报
5676 点击    2026-04-21 09:23
速递|Pinterest集中资源转向AI,获Elliott 10亿美金背书,新功能AI视觉搜索、AI购物助手

速递|Pinterest集中资源转向AI,获Elliott 10亿美金背书,新功能AI视觉搜索、AI购物助手

速递|Pinterest集中资源转向AI,获Elliott 10亿美金背书,新功能AI视觉搜索、AI购物助手

激进投资者艾略特投资管理公司已持有Pinterest 价值 10 亿美元股份,该公司以积极参与企业决策而闻名。该机构首次投资这家社交平台是在 2022 年。

来自主题: AI资讯
8831 点击    2026-03-05 09:09
VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

近年来,Vision-Language Models(视觉—语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报
6478 点击    2026-01-31 12:30
任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

BiCo是一种创新的AI视觉内容生成方法,能灵活组合图像和视频中的视觉概念,实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新,解决了现有方法在概念提取和组合上的问题,让AI真正理解并融合视觉元素。

来自主题: AI技术研报
6403 点击    2026-01-06 16:16
最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM!港科大开源「退化感知推理新范式」 | AAAI'26

多模态大语言模型(MLLMs)已成为AI视觉理解的核心引擎,但其在真实世界视觉退化(模糊、噪声、遮挡等)下的性能崩溃,始终是制约产业落地的致命瓶颈。

来自主题: AI技术研报
8924 点击    2025-12-25 09:44
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

比LoRA更快更强,全新框架LoFA上线,秒级适配大模型

在个性化视觉生成的实际应用中,通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果,通常需对大模型进行针对性的自适应微调,但当前以 LoRA 为代表的主流方法,仍受限于定制化数据收集与冗长的优化流程,耗时耗力,难以在真实场景中广泛应用。

来自主题: AI技术研报
6607 点击    2025-12-18 09:12
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年

不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。

来自主题: AI技术研报
10664 点击    2025-12-12 09:36