视频模型也能推理,Sora2推理能力超过GPT-5
视频模型也能推理,Sora2推理能力超过GPT-5DeepWisdom研究团队提出:视频生成模型不仅能画画,更能推理。 为了验证这一观点,团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理(spatial reasoning)能力的基准测试
DeepWisdom研究团队提出:视频生成模型不仅能画画,更能推理。 为了验证这一观点,团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理(spatial reasoning)能力的基准测试
OpenAI真的急了!最新代码截图流出,一款全新「企鹅」家族模型秘密测试,有四款推理预算不同的模型。说不定不用等到明年,就能看到GPT-5.2出世了。
OpenAI搞了个新活:让ChatGPT自己“坦白从宽”。
面对谷歌攻势,OpenAI内部炸锅了。
三年河东三年河西,曾经逼疯谷歌的奥特曼,如今也被谷歌逼得拉响了「红色警报」,AI王座之下已是刀光剑影。更劲爆的是,最强「Garlic」在预训练取得重大突破,正面硬刚Gemini 3.
我们正在经历一次静悄悄、但本质性的AI范式转换。
OpenAI,亟需一场翻身仗!今天,全网最大的爆料:GPT-5基石实为GPT-4o。自4o发布之后,内部预训练屡屡受挫,几乎沦为「弃子」。
在AI数据中心里,数以万计的英伟达H100 GPU,正静静地躺在地上吃灰。这些单价3万美元、被黄仁勋称为「工业黄金」的芯片,本该全速运转,为GPT-5或Sora注入灵魂,但此刻——它们没有电。
沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。
最近两周的模型竞赛非常热闹:OpenAI 在 11 月 12 日发布 GPT-5.1,引入更强的推理深度与更高效的对话体验;Google 在 11 月 18 日发布 Gemini 3,全面强化多模态理解与复杂推理能力;Anthropic 在 11 月 24 日又发布了 Claude Opus 4.5,模型在专业文档处理、代码生成与长流程 agent 方面有显著提升。