AI资讯新闻榜单内容搜索-大模型评测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大模型评测
挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300 + 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报
10073 点击    2026-04-13 15:01
南大团队直击大模型高分神话:人类90分,最强模型仅49分

南大团队直击大模型高分神话:人类90分,最强模型仅49分

南大团队直击大模型高分神话:人类90分,最强模型仅49分

现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及3300+人工时高质量标注,揭示模型与人类的巨大鸿沟(49vs90)、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报
7609 点击    2026-04-13 13:48
林俊旸离职后,阿里Qwen3.5首次发新

林俊旸离职后,阿里Qwen3.5首次发新

林俊旸离职后,阿里Qwen3.5首次发新

今日,阿里千问最新旗舰模型预览版Qwen3.5-Max-Preview正式亮相,并登上全球大模型评测平台LMArena。在最新榜单中,该模型拿下1464分,进入第一梯队,同时带动阿里千问跻身全球大模型实验室前五、国内第一。

来自主题: AI资讯
8023 点击    2026-03-20 14:40
国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

2月7日,中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单,数坤科技的数坤坤多模态医学大模型V3以63.6分拿下第一。在榜单中,V3的表现超过微医、云知声旗下医疗行业大模型,以及OpenAI、谷歌、阿里千问旗下通用大模型。

来自主题: AI资讯
7692 点击    2026-02-14 10:38
中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

知名AI大模型评测Chatbot Arena放榜!阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三,月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五,以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯
10712 点击    2025-08-05 10:47
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事

对话中国信通院魏凯:AI下半场,大模型要少说话,多做事

对话中国信通院魏凯:AI下半场,大模型要少说话,多做事

今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院)的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所所长魏凯。

来自主题: AI资讯
7828 点击    2025-07-01 10:17
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。在普特南测试上,新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题,为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。

来自主题: AI技术研报
10040 点击    2025-05-01 22:52
中文大模型幻觉测评系列:事实性幻觉测评结果发布!

中文大模型幻觉测评系列:事实性幻觉测评结果发布!

中文大模型幻觉测评系列:事实性幻觉测评结果发布!

SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。

来自主题: AI资讯
12424 点击    2025-04-15 17:04
蚂蚁医疗大模型拿下MedBench测评“双料”冠军

蚂蚁医疗大模型拿下MedBench测评“双料”冠军

蚂蚁医疗大模型拿下MedBench测评“双料”冠军

近日,记者发现,国内权威医疗大模型评测平台MedBench在官网更新了榜单。多个医疗AI产品及研究团队入榜,其中蚂蚁AI健康管家团队研发的蚂蚁医疗大模型以评测榜单97.5、自测榜单98.2的高分再度夺得双料冠军。

来自主题: AI资讯
8338 点击    2025-03-13 10:30