准确回答视频细节!11B模型挑战视频理解「证据级」任务,开源可商用
准确回答视频细节!11B模型挑战视频理解「证据级」任务,开源可商用让一个模型概括“这是一段什么视频”,并不难。
来自主题: AI技术研报
5726 点击 2026-04-14 08:41
让一个模型概括“这是一段什么视频”,并不难。
模思智能成立于2024年,位于上海徐汇区,由上海创智学院与复旦大学联合孵化,是国内少数完成“全模态基座模型能力闭环”的初创公司之一,致力于构建统一Token表达框架下的“情境智能”能力,推动Agent系统在真实世界中的自主交互与任务执行。
今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 —— MOVA(MOSS-Video-and-Audio)。
近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。