AI资讯新闻榜单内容搜索-GPT

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPT
AI权威清洗: 一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体造谣

AI权威清洗: 一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体造谣

AI权威清洗: 一张肉眼难辨的图片,就能让GPT-5.4、Claude Opus 4.6集体造谣

来自 ETH Zurich 的 Florian Tramèr 团队在最新论文中抛出了一个出乎意料的问题:如果 AI"看到" 的图,根本不是你肉眼看到的那张,会发生什么样的后果呢?他们把这种现象称作 AI 权威清洗(AI Authority Laundering)。

来自主题: AI技术研报
8905 点击    2026-05-31 11:27
Opus 4.8连夜算尽1170亿人命运,一句话敲出人类投胎模拟器!

Opus 4.8连夜算尽1170亿人命运,一句话敲出人类投胎模拟器!

Opus 4.8连夜算尽1170亿人命运,一句话敲出人类投胎模拟器!

你此刻喝的干净水、用的电、看的病,1170亿人里绝大多数做梦都够不着。而算清这串概率的Opus 4.8,前天刚把GPT-5.5踢下全球第一的王座。

来自主题: AI资讯
10319 点击    2026-05-30 15:58
横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?

普通人看排行榜估计越看越疑惑,写文章该用哪个?数据分析该用哪个?写代码、审 PR、拆任务又该用哪个?我挑了四款最近讨论度很高的模型:Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,做一次横评,看看它们在真实任务里的交付表现。

来自主题: AI产品测评
8819 点击    2026-05-30 15:26
Anthropic官宣融资4407亿,估值超越Openai,同时最强通用模型 Claude Opus 4.8 登场

Anthropic官宣融资4407亿,估值超越Openai,同时最强通用模型 Claude Opus 4.8 登场

Anthropic官宣融资4407亿,估值超越Openai,同时最强通用模型 Claude Opus 4.8 登场

Anthropic最强通用模型Claude Opus 4.8正式发布,新模型基准测试全面超越Gemini 3.1 Pro、Opus 4.7,仅一项逊色于GPT-5.5,但其标准模式价格不变,快速模式价格仅为Opus 4.7的1/3。与此同时,Anthropic还官宣一笔650亿美元(约合人民币4406.94亿元)H轮巨额融资,投后估值冲上9650亿美元(约合人民币6.54万亿元)

来自主题: AI资讯
9787 点击    2026-05-29 10:40
GPT-5.5彻底击穿300个黑客评测任务,仅需5000万Token!

GPT-5.5彻底击穿300个黑客评测任务,仅需5000万Token!

GPT-5.5彻底击穿300个黑客评测任务,仅需5000万Token!

GPT-5.5 把进攻性网络安全最难的 7 个基准全部打穿,92.4% 正确率,评估体系直接失灵。AI 黑客能力每 6 个月翻一倍,而衡量它有多危险的尺子,已经先被干碎了。

来自主题: AI资讯
9058 点击    2026-05-29 10:11
GPT-5.5翻倍,Gemini涨3倍:这波涨价游戏还能玩多久?

GPT-5.5翻倍,Gemini涨3倍:这波涨价游戏还能玩多久?

GPT-5.5翻倍,Gemini涨3倍:这波涨价游戏还能玩多久?

Epoch AI刚刚发布的《梯度更新》报告,做了一件简单粗暴的事:把全球所有Blackwell芯片能处理的Token数量算出来,再和实际需求一比。结论只有一个字——不够。

来自主题: AI技术研报
8285 点击    2026-05-28 20:59
DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力,看Qwen3.7 Max 是否实至名归?!

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力,看Qwen3.7 Max 是否实至名归?!

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力,看Qwen3.7 Max 是否实至名归?!

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名,仅次于 Claude Opus 4.7。除了真实场景的用户选择,在传统的大模型固定评测榜单上,像是终端能力 Terminal Bench、编程能力 SWE Bench 等,Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

来自主题: AI产品测评
9139 点击    2026-05-28 12:06
GPT-5.5反杀Claude登顶,AI编码旧榜不准了?

GPT-5.5反杀Claude登顶,AI编码旧榜不准了?

GPT-5.5反杀Claude登顶,AI编码旧榜不准了?

一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。

来自主题: AI资讯
8652 点击    2026-05-28 10:51
实锤!GPT-5.5「降智」被抓,OpenAI官方文档认了

实锤!GPT-5.5「降智」被抓,OpenAI官方文档认了

实锤!GPT-5.5「降智」被抓,OpenAI官方文档认了

GPT-5.5被扒出「假思考」,用两小时就被偷偷换成mini,200美元月费买了个「薛定谔的脑子」。Trace命令实锤,官方文档亲自认领。往后有纷纷吐槽:OpenAI,你糊弄谁呢?

来自主题: AI资讯
8640 点击    2026-05-27 23:48