AI资讯新闻榜单内容搜索-大模型评测

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300 + 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报

10876 点击 2026-04-13 15:01

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

8272 点击 2026-04-13 13:48

林俊旸离职后，阿里Qwen3.5首次发新

今日，阿里千问最新旗舰模型预览版Qwen3.5-Max-Preview正式亮相，并登上全球大模型评测平台LMArena。在最新榜单中，该模型拿下1464分，进入第一梯队，同时带动阿里千问跻身全球大模型实验室前五、国内第一。

来自主题: AI资讯

8850 点击 2026-03-20 14:40

国产医疗大模型登顶权威榜单！核心秘籍：PB级训练数据、模拟医生真实会诊过程

2月7日，中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单，数坤科技的数坤坤多模态医学大模型V3以63.6分拿下第一。在榜单中，V3的表现超过微医、云知声旗下医疗行业大模型，以及OpenAI、谷歌、阿里千问旗下通用大模型。

来自主题: AI资讯

8275 点击 2026-02-14 10:38

中国AI开源16强，最新出炉

知名AI大模型评测Chatbot Arena放榜！阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三，月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五，以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯

11393 点击 2025-08-05 10:47