AI资讯新闻榜单内容搜索-人工智能实验室

Lumina-DiMOO：多模态扩散语言模型重塑图像生成与理解

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模（Discrete Diffusion Modeling），Lumina-DiMOO 打破了多模态任务之间的壁垒，在同一离散扩散框架下，完成从文本→图像、图像→图像、图像→文本的全栈能力闭环。

来自主题: AI技术研报

9619 点击 2025-11-17 14:33

上海AI Lab发布混合扩散语言模型SDAR：首个突破6600 tgs的开源扩散语言模型

近日，上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。该方法通过「训练-推理解耦」的巧妙设计，无缝融合了 AR 模型的高性能与扩散模型的并行推理优势，能以极低成本将任意 AR 模型「改造」为并行解码模型。

来自主题: AI技术研报

8897 点击 2025-11-01 12:57

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型在强化学习过程中，终于知道什么经验更宝贵了！来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队，最近提出了一套经验管理和学习框架ExGRPO—— 通过科学地识别、存储、筛选和学习有价值的经验，让大模型在优化推理能力的道路上，走得更稳、更快、更远。

来自主题: AI技术研报

7171 点击 2025-10-23 15:42

ICCV 2025 | 浙大、港中文等提出EgoAgent：第一人称感知-行动-预测一体化智能体

在今年的国际计算机视觉大会（ICCV 2025）上，来自浙江大学、香港中文大学、上海交通大学和上海人工智能实验室的研究人员联合提出了第一人称联合预测智能体 EgoAgent。

来自主题: AI技术研报

8594 点击 2025-10-18 11:48

100 页 Agentic RL 综述！牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校，伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者，共同撰写并发布了长达百页的综述：《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报

9847 点击 2025-10-03 14:15

首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒

AI生成第三视角视频已经驾轻就熟，但第一视角生成却仍然“不熟”。为此，新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布EgoTwin ，首次实现了第一视角视频与人体动作的联合生成。

来自主题: AI技术研报

10187 点击 2025-10-01 11:43

十亿级参数，千亿级性能，上海AI Lab发布新一代文档解析大模型，复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果，该模型仅以1.2B参数规模，就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上，全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型，以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报

10201 点击 2025-09-30 10:45