OpenAI今晚放大招!奥特曼亲自上阵,GPT-5.6本周反杀
OpenAI今晚放大招!奥特曼亲自上阵,GPT-5.6本周反杀刚刚,OpenAI今晚直播预告,奥特曼或现身。明天,OpenAI将于美国东部时间上午举行「Intelligence at Work」直播活动,奥特曼将出席。随后,纳德拉将于美国东部时间下午发表Microsoft Build大会的开幕主题演讲。
搜索
刚刚,OpenAI今晚直播预告,奥特曼或现身。明天,OpenAI将于美国东部时间上午举行「Intelligence at Work」直播活动,奥特曼将出席。随后,纳德拉将于美国东部时间下午发表Microsoft Build大会的开幕主题演讲。
2026 年初,各大 AI 厂商在上下文窗口长度上展开激烈角逐。Google 的 Gemini 3 Pro 已支持 100 万级 token 上下文,Meta 的 Llama 4 Scout 更宣称可处理 1000 万 token。GPT-5 系列也在快速推进长上下文能力。
o3被封「GOAT」、GPT-4.5被叫「灵魂写手」,OpenAI说退就退。GPT-5.6已在热身——但「更强」能不能信?OpenAI自己说:未必。
来自 ETH Zurich 的 Florian Tramèr 团队在最新论文中抛出了一个出乎意料的问题:如果 AI"看到" 的图,根本不是你肉眼看到的那张,会发生什么样的后果呢?他们把这种现象称作 AI 权威清洗(AI Authority Laundering)。
你此刻喝的干净水、用的电、看的病,1170亿人里绝大多数做梦都够不着。而算清这串概率的Opus 4.8,前天刚把GPT-5.5踢下全球第一的王座。
普通人看排行榜估计越看越疑惑,写文章该用哪个?数据分析该用哪个?写代码、审 PR、拆任务又该用哪个?我挑了四款最近讨论度很高的模型:Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,做一次横评,看看它们在真实任务里的交付表现。
Anthropic最强通用模型Claude Opus 4.8正式发布,新模型基准测试全面超越Gemini 3.1 Pro、Opus 4.7,仅一项逊色于GPT-5.5,但其标准模式价格不变,快速模式价格仅为Opus 4.7的1/3。与此同时,Anthropic还官宣一笔650亿美元(约合人民币4406.94亿元)H轮巨额融资,投后估值冲上9650亿美元(约合人民币6.54万亿元)
GPT-5.5 把进攻性网络安全最难的 7 个基准全部打穿,92.4% 正确率,评估体系直接失灵。AI 黑客能力每 6 个月翻一倍,而衡量它有多危险的尺子,已经先被干碎了。
Epoch AI刚刚发布的《梯度更新》报告,做了一件简单粗暴的事:把全球所有Blackwell芯片能处理的Token数量算出来,再和实际需求一比。结论只有一个字——不够。
医学AI会写解释,但不代表它真的“看到”了关键证据。