AI产品测评-这里有最详细的人工智能工具测评解析

速测 Qwen3.8 预览版：我用 1 小时，开发了套撒币系统

我刚刚 AGI Bar 小程序里建了一个共享钱包，并往里面充了 1 万块，未来 24h可点开领取

来自主题: AI产品测评

9982 点击 2026-07-20 15:20

Kimi K3 一手开发实测，前端、Agentic、长任务全面拉满！

发布之前，我在 X 上看到有人说，测 K3 的感觉就像在测 Fable 5。虽然离 Fable 5 还差一点点 🤏，但超过 Opus 4.8 和 GPT 5.5 基本没有问题。在前端能力，K3 的提升非常明显，我已经用它复刻了前段时间爆火的独立工作室 Abeto 推出的一款 3D 网页游戏《 Messenger》（ps. 音乐手动配的，主角模型是 K3 自己判断、自主去游戏官网找的）

来自主题: AI产品测评

8821 点击 2026-07-19 13:57

连夜实测 Kimi K3，建议改名 Kable

今天凌晨看到 Arena AI 更新 Code Arena 榜单时，我第一反应是有点意外。刚刚发布的 Kimi K3 拿到了 1679 分，排在全球第一，压过了 Claude Fable 5 的 1631 分和 GPT-5.6 Sol 的 1618 分。

来自主题: AI产品测评

9190 点击 2026-07-17 11:12

告别版本号！豆包首款无限进步模型：Seed-Evolving实测

大家好，我是袋鼠帝。前几天，火山的朋友提前跟我同步了一个消息，说豆包Seed模型又更新了。

来自主题: AI产品测评

7969 点击 2026-07-17 11:05

LibTV把100+AI视频魔法，封装进了这个全球最大的Skill商店里｜测评

不知不觉，整个AI影像行业全线迈进了Agent创作与AI视频C端普及的时代。

来自主题: AI产品测评

7481 点击 2026-07-14 15:52

豆包、WorkBuddy、QoderWork怎么选？我用8个真实办公任务把三家桌面Agent测明白了

过去半年，国产大厂扎堆发布一种新东西：桌面Agent。如果你最近在刷相关讨论，会发现 WorkBuddy、豆包专业版、QoderWork 这三个名字出现得特别频繁。如果一个普通办公用户今天就想选一款桌面 Agent，到底该先试谁？

来自主题: AI产品测评

9390 点击 2026-07-14 12:22

用Grok 4.5 连写了 7 个小项目，发现它最大的优势不是代码

7 月 8 日，xAI 发布了 Grok 4.5。马斯克给的定位很直白，「Opus 级别，但更快，更便宜」。

来自主题: AI产品测评

9492 点击 2026-07-14 11:08

实测完这个国产 AI 生图，我发现了下一个刷屏玩法

AI 生图最难的地方，早就从「生成一张好看的图」变成了「把那张差一点的图改对」。

来自主题: AI产品测评

8267 点击 2026-07-13 15:30

字节把 PS 做进了生图模型里，实测 Seedream 5.0 Pro 指哪改哪

用 AI 生图的人，应该都体会过这种痛苦。

来自主题: AI产品测评

7740 点击 2026-07-13 14:42

一个人+一个Agent，我把开店要的图全跑通了，方法全公开

大家好，我是冷逸。前段时间，我设计了一家民宿「冷同学的院子」，视觉还算有点意思，不少朋友跑来问设计上的事。也有人问我：要是自己网上开店，有没有那种“够简单、说一句就能出设计”的电商工具？

来自主题: AI产品测评

6297 点击 2026-07-13 09:43

深度测评：Trae、WorkBuddy、ZCode，谁才是打工人真命天子？

我自己花时间，把三款主流国产桌面 Agent 从头到尾测了一遍：Trae、WorkBuddy、ZCode。用三个最日常的工作任务——做 PPT、分析表格、写小游戏，看看它们到底能不能帮普通打工人干活。这篇文章就是完整的实测记录，希望对你选工具有点帮助。

来自主题: AI产品测评

9084 点击 2026-07-12 10:08

实测 ChatGPT Work vs Claude Cowork，OpenAI 这次真追上来了

7 月 9 日，OpenAI 一口气发了三样东西，新模型 GPT-5.6，一个把 Chat、Work、Codex 装进同一个壳的新桌面应用，以及本文的主角 ChatGPT Work。官方的说法是，ChatGPT 从此不再只是回答问题，而是把活真正干完，交出来的不是聊天记录，是表格、文档、PPT，甚至一个能直接分享的网站。

来自主题: AI产品测评

8030 点击 2026-07-11 11:17

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

最近这段时间，国内外模型更新得很快。

来自主题: AI产品测评

9075 点击 2026-07-03 09:48

再测LongCat 2.0长任务，这次我让他在codex里面做了个游戏

上个月也就是昨天，我写了一篇LongCat 2.0的实测，用四个任务测了一下它的编程能力，当时我的评价是「有些地方惊艳，有些地方还差点意思」。

来自主题: AI产品测评

7593 点击 2026-07-02 10:36

我们拿到了企微 AI Agent 的内测资格，提前替你试了一周

微信和企业微信的 Agent，同时出牌。

来自主题: AI产品测评

9446 点击 2026-07-01 10:27

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

你有没有想过一个问题：我们平时选模型，到底有多少是因为它真的好用，又有多少是因为它便宜？

来自主题: AI产品测评

9778 点击 2026-06-30 09:55

我们让DuMate当了一天采购员，结果差点拿着假报价去砍价

阿辉又跟我们吐槽了。

来自主题: AI产品测评

6461 点击 2026-06-29 10:19

智谱与Anthropic是母凭子贵

Anthropic增加绿卡认证后，最开心是智谱，直接原地化身战狼，高呼「前沿智能属于所有人」，提前把专注Coding的GLM5.2发了。

来自主题: AI产品测评

8598 点击 2026-06-24 16:36

Codex兼容国产开源模型！实测DeepSeek接入：门槛还是太高

6月17日，X 上 OpenAI Codex 团队负责人 Tibo（@thsottiaux）发了一条推文，提醒大家 Codex App、CLI 和 SDK 现在可以接任何开源模型，不只限于 OpenAI 自己的模型。

来自主题: AI产品测评

8308 点击 2026-06-24 10:53

Seed 2.1 Pro 测评，终于能胜任 Agent 工作了

今天 Seed 2.1 Pro 正式发布，我提前用它做了一些测试。

来自主题: AI产品测评

7178 点击 2026-06-24 10:30

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0（Seed-Audio 1.0）。

来自主题: AI产品测评

8428 点击 2026-06-24 10:29

微信 AI 全网最细体验，我又爱上了刷朋友圈

微信 AI 终于来了。

来自主题: AI产品测评

7701 点击 2026-06-24 09:55

设计进入 Agent 时代：交付物不再是设计稿，而是产品原型

未来设计的交付物，可能就是产品原型本身。

来自主题: AI产品测评

10145 点击 2026-06-18 15:05

实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

前几天 Fable 5 对海外用户关停的时候，智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2，并表示「前沿智能不应只属于少数人，也不应被少数规则随手收回。」

来自主题: AI产品测评

6991 点击 2026-06-17 14:28

字节最便宜视频模型Seedance 2.0 Mini来了！1.6毛/秒，比Fast快，实测让黄仁勋和豆包一起踢球

昨晚，字节新模型Seedance 2.0 Mini深夜来袭，该模型主打性价比，侧重于提供更低的价格以及更快的生成速度。Seedance 2.0 Mini虽然定价更低，但保留了核心能力参考生成，用户可以通过融合提示词与最多12个多种模态的参考素材（包括6张图片、3段音频、3段视频）来锁定人物一致性、精细化控制运动轨迹、卡准剧情节奏。

来自主题: AI产品测评

9150 点击 2026-06-16 14:41

最近的流量焦虑，被这两个开源Skill解决了。

大家好，我是袋鼠帝前两天一个朋友问我，怎么边工作，边把自媒体持续做下去，还能做得好。

来自主题: AI产品测评

6209 点击 2026-06-16 14:17

实测 OiiOii 2.0：让AI视频创作者少折腾一点

Agent + 无限画布带来的想象力。

来自主题: AI产品测评

7988 点击 2026-06-16 13:58

不到 5 分钟复刻《我的世界》，Kimi K2.7 Code 到底有多能打？

朋友们，Kimi 又更新了。

来自主题: AI产品测评

9441 点击 2026-06-15 09:48

实测GLM-5.2，国产Coding模型的又一座新高峰。

最近整个世界的魔幻程度，真的让人唏嘘。今天早上，Anthropic收到了美国商务部的一封信。信的内容很简单，以国家安全为由，要求Anthropic立刻暂停所有外国公民对Fable 5和Mythos

来自主题: AI产品测评

9336 点击 2026-06-13 22:54

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

全球大模型的军备竞赛，正在“智商”之外开辟新的战场—— 推理速度。

来自主题: AI产品测评

6406 点击 2026-06-11 09:58

AI产品测评-这里有最详细的人工智能工具测评解析

速测 Qwen3.8 预览版：我用 1 小时，开发了套撒币系统

Kimi K3 一手开发实测，前端、Agentic、长任务全面拉满 ！

连夜实测 Kimi K3，建议改名 Kable

告别版本号！豆包首款无限进步模型：Seed-Evolving实测

LibTV把100+AI视频魔法，封装进了这个全球最大的Skill商店里｜测评

豆包、WorkBuddy、QoderWork怎么选？我用8个真实办公任务把三家桌面Agent测明白了

用Grok 4.5 连写了 7 个小项目，发现它最大的优势不是代码

实测完这个国产 AI 生图，我发现了下一个刷屏玩法

字节把 PS 做进了生图模型里，实测 Seedream 5.0 Pro 指哪改哪

一个人+一个Agent，我把开店要的图全跑通了，方法全公开

深度测评：Trae、WorkBuddy、ZCode，谁才是打工人真命天子？

实测 ChatGPT Work vs Claude Cowork，OpenAI 这次真追上来了

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

再测LongCat 2.0长任务，这次我让他在codex里面做了个游戏

我们拿到了企微 AI Agent 的内测资格，提前替你试了一周

ZenMux 的 Token 经济学实验：当主流模型的价格被降到 DeepSeek 斩杀线，你会选择谁？

我们让DuMate当了一天采购员，结果差点拿着假报价去砍价

智谱与Anthropic是母凭子贵

Codex兼容国产开源模型！实测DeepSeek接入：门槛还是太高

Seed 2.1 Pro 测评，终于能胜任 Agent 工作了

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

微信 AI 全网最细体验，我又爱上了刷朋友圈

设计进入 Agent 时代：交付物不再是设计稿，而是产品原型

实测 GLM-5.2 ：Claude 5 关停后，它真能稳稳接住这波用户

字节最便宜视频模型Seedance 2.0 Mini来了！1.6毛/秒，比Fast快，实测让黄仁勋和豆包一起踢球

最近的流量焦虑，被这两个开源Skill解决了。

实测 OiiOii 2.0：让AI视频创作者少折腾一点

不到 5 分钟复刻《我的世界》，Kimi K2.7 Code 到底有多能打？

实测GLM-5.2，国产Coding模型的又一座新高峰。

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

Kimi K3 一手开发实测，前端、Agentic、长任务全面拉满！