AI资讯新闻榜单内容搜索-模型评分

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型评分
挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300 + 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报
10072 点击    2026-04-13 15:01
南大团队直击大模型高分神话:人类90分,最强模型仅49分

南大团队直击大模型高分神话:人类90分,最强模型仅49分

南大团队直击大模型高分神话:人类90分,最强模型仅49分

现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及3300+人工时高质量标注,揭示模型与人类的巨大鸿沟(49vs90)、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报
7607 点击    2026-04-13 13:48
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估

每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估

每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估

在LLM能力突飞猛进的当下,所有研究者似乎都在关注数据、算力、算法等模型开发的各个方面,但OpenAI研究员Jason Wei最近发布的一篇博客文章提醒我们,模型评估的工作同样非常重要。如何开发出优秀的评估测试,对AI能力的发展方向至关重要。

来自主题: AI技术研报
11230 点击    2024-05-30 15:32