AI资讯新闻榜单内容搜索-国产模型测评

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力，看Qwen3.7 Max 是否实至名归？！

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名，仅次于 Claude Opus 4.7。除了真实场景的用户选择，在传统的大模型固定评测榜单上，像是终端能力 Terminal Bench、编程能力 SWE Bench 等，Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

来自主题: AI产品测评

10710 点击 2026-05-28 12:06

千元横测GPT、DeepSeek、Xiaomi、MiniMax的最强模型，我找到了跟Agent们的绝配

上周太集中发的后果就是光在用GPT -5.5了，小米的Mimo-V2.5-Pro，DeepSeek V4 Pro还没有放在Agent的场景上测。所以我跟钱包一拍即合，复制了4个一模一样的Hermes Agent，记忆一样，skill一样，系统设置一样，能调用的工具也一样。

来自主题: AI产品测评

11448 点击 2026-05-03 08:49

国产大模型杀疯了！一手横测 MiniMax、DeepSeek V4、Kimi K2.6、MiMo 后，我找到了最能干活的 AI 牛马

从去年开始做这个账号以来，我其实写过不少测模型的文章。我相信也有很多朋友是因为看了我测评的文章关注我的。但从过年之后，真的就很少写模型评测的文章了。主要是我写文章的速度甚至一度跟不上模型发布的速度了。

来自主题: AI产品测评

11196 点击 2026-05-02 11:01