AI资讯新闻榜单内容搜索-Arena

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Arena
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报
8602 点击    2026-04-19 13:40
比Nano Banana还夯的生图模型泄露,截图不再是证据了 | 附提示词

比Nano Banana还夯的生图模型泄露,截图不再是证据了 | 附提示词

比Nano Banana还夯的生图模型泄露,截图不再是证据了 | 附提示词

4 月初,LM Arena 评测平台上出现了三个匿名图像模型,代号分别是 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。几小时后它们消失了。OpenAI 官方还没有正式宣布这个模型,但根据 API 返回的元数据和用户侧的测试记录,它已经有了一个被广泛接受的名字:GPT Image 2。

来自主题: AI资讯
8048 点击    2026-04-19 13:39
给6个AI各发10万美元炒股半年,大部分跑赢了大盘

给6个AI各发10万美元炒股半年,大部分跑赢了大盘

给6个AI各发10万美元炒股半年,大部分跑赢了大盘

一家叫 Rallies Arena 的团队,6 个月前干了一件事:给 6 个主流大模型各发了 10 万美元,让它们在真实股票市场上自己做研究、自己下单、自己管仓位。

来自主题: AI资讯
7779 点击    2026-04-07 11:04
OpenAI 新图像模型 GPT-Image-2 泄露

OpenAI 新图像模型 GPT-Image-2 泄露

OpenAI 新图像模型 GPT-Image-2 泄露

OpenAI 的下一代图像模型 GPT-Image-2,今天在 Chatbot Arena 上被人发现了。独立开发者 levelsio 率先爆料,这个模型以三个代号悄悄上线了 Arena:maskingtape-alpha、gaffertape-alpha、packingtape-alpha。

来自主题: AI资讯
8967 点击    2026-04-04 22:38
Qwen3.6-Plus 深度测评报告

Qwen3.6-Plus 深度测评报告

Qwen3.6-Plus 深度测评报告

本报告基于XSCT Arena平台,对 Qwen3.6-Plus-Preview(阿里云,2026-04-02 发布)在文字能力(xsct-l)、网页生成(xsct-w)、Agentic 任务(xsct-a)三大场景下的表现进行系统评测,并与Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5、

来自主题: AI产品测评
8490 点击    2026-04-04 16:19
力压李飞飞团队登顶WorldScore,黑马Manifold AI领跑世界动作模型新范式

力压李飞飞团队登顶WorldScore,黑马Manifold AI领跑世界动作模型新范式

力压李飞飞团队登顶WorldScore,黑马Manifold AI领跑世界动作模型新范式

通用世界模型评测榜单 WorldScore 登顶、建立具身世界模型评测榜单 WorldArena 、发布通用世界模型 WorldScape 、发布世界-动作模型 WorldScape Policy,这家低调的世界模型创业公司 Manifold AI(流形空间)近期走出隐身模式频频出手,开始领跑世界-动作模型具身新路线。

来自主题: AI资讯
8066 点击    2026-04-04 11:03
林俊旸离职后,阿里Qwen3.5首次发新

林俊旸离职后,阿里Qwen3.5首次发新

林俊旸离职后,阿里Qwen3.5首次发新

今日,阿里千问最新旗舰模型预览版Qwen3.5-Max-Preview正式亮相,并登上全球大模型评测平台LMArena。在最新榜单中,该模型拿下1464分,进入第一梯队,同时带动阿里千问跻身全球大模型实验室前五、国内第一。

来自主题: AI资讯
8023 点击    2026-03-20 14:40
更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

过去一年,具身智能领域迎来了爆发式增长。从后空翻到托马斯回旋,从整理衣物到冲泡咖啡……各类令人惊艳的机器人演示视频层出不穷。

来自主题: AI技术研报
10317 点击    2026-03-19 09:46
训练机器人方式对了吗?英伟达DreamZero双榜第一新反思

训练机器人方式对了吗?英伟达DreamZero双榜第一新反思

训练机器人方式对了吗?英伟达DreamZero双榜第一新反思

近日,NVIDIA 发布的世界 - 动作模型 DreamZero,在两项颇具代表性的机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶。

来自主题: AI技术研报
9653 点击    2026-03-04 14:32