AI资讯新闻榜单内容搜索-模型评估

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型评估
AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。

来自主题: AI技术研报
8967 点击    2026-05-24 10:11
破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”

语言模型遭遇严重的位置偏见,即模型对不同上下⽂位置的敏感度不⼀致。模型倾向于过度关注输⼊序列中的特定位置,严重制约了它们在复杂推理、⻓⽂本理解以及模型评估等关键任务上的表现。

来自主题: AI技术研报
6699 点击    2025-10-27 10:33
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验: 看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的

来自主题: AI技术研报
9106 点击    2025-10-15 12:30
这篇超有用!手把手教你搭建 AI 产品 Evals

这篇超有用!手把手教你搭建 AI 产品 Evals

这篇超有用!手把手教你搭建 AI 产品 Evals

AI 下半场,模型评估比模型训练更重要。我们需要从根本上重新思考评估的方式。

来自主题: AI资讯
8786 点击    2025-08-21 16:41
贝索斯投资的Toloka:human-AI co-agency是什么?如何从简单的标注任务发展到专家判断和与智能体的共同执行

贝索斯投资的Toloka:human-AI co-agency是什么?如何从简单的标注任务发展到专家判断和与智能体的共同执行

贝索斯投资的Toloka:human-AI co-agency是什么?如何从简单的标注任务发展到专家判断和与智能体的共同执行

Toloka是一家专注于AI数据标注与模型评估的众包平台,成立于2014年,创始人Olga Megorskaya曾是俄罗斯科技巨头Yandex董事会成员。公司总部位于阿姆斯特丹,之前由AI基础设施公司Nebius Group控股。

来自主题: AI资讯
9826 点击    2025-06-19 11:51
OpenAI 收购 Context.ai 团队,AI 评估能力再升级

OpenAI 收购 Context.ai 团队,AI 评估能力再升级

OpenAI 收购 Context.ai 团队,AI 评估能力再升级

科技媒体 maginative 今天(4 月 16 日)发布博文,报道称 OpenAI 宣布收购 Context.ai团队,后者是一家由 GV 支持的初创公司,以评估和分析 AI 模型见长。Context.ai的联合创始人 Henry Scott-Green(首席执行官)和 Alex Gamble(首席技术官)将加入 OpenAI,专注于研发模型评估工具。

来自主题: AI资讯
10184 点击    2025-04-16 10:58
评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

能够深入大模型内部的新评测指标来了! 上交大MIFA实验室提出了全新的大模型评估指标Diff-eRank。 不同于传统评测方法,Diff-eRank不研究模型输出,而是选择了分析其背后的隐藏表征。

来自主题: AI技术研报
4884 点击    2024-11-08 19:43
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估

每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估

每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估

在LLM能力突飞猛进的当下,所有研究者似乎都在关注数据、算力、算法等模型开发的各个方面,但OpenAI研究员Jason Wei最近发布的一篇博客文章提醒我们,模型评估的工作同样非常重要。如何开发出优秀的评估测试,对AI能力的发展方向至关重要。

来自主题: AI技术研报
11472 点击    2024-05-30 15:32
CoT提出者Jason Wei:大模型评估基准的「七宗罪」

CoT提出者Jason Wei:大模型评估基准的「七宗罪」

CoT提出者Jason Wei:大模型评估基准的「七宗罪」

Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。

来自主题: AI资讯
11143 点击    2024-05-27 16:18