AI资讯新闻榜单内容搜索-Mark

AI冷战升级！美国财政部开始审查Benchmark投资Manus，套壳应用也无法躲避科技地缘政治风暴

根据TechCrunch和Semafor等报道，美国财政部正在审查Benchmark Capital对中国初创公司Manus AI的7500万美元投资，据两位知情人士透露，这已经反映出中美之间的科技竞争已经升级到政治层面。

来自主题: AI资讯

13601 点击 2025-05-10 22:48

OpenAI和Google正在玩一个99%的人都不知道的游戏

AI研究中，基准测试（benchmark）和排行榜在评估模型性能上扮演着关键角色。

来自主题: AI技术研报

10261 点击 2025-05-10 14:29

外媒爆料：Manus完成7500万美元融资，估值近5亿美元、比上轮增长5倍

外媒报道，Manus 最近完成了一轮由美国风险投资公司 Benchmark 领投的 7500 万美元的融资。蝴蝶效应计划利用这笔资金将其服务扩展到包括美国、日本和中东在内的其他市场。据 The Information 上周报道，Manus 使用 Anthropic 的 Claude AI 模型及其他工具，平均每个任务需向 Anthropic 支付 2 美元。

来自主题: AI资讯

10210 点击 2025-04-25 21:44

947元买个AI书签？又一个“脱裤子放屁”式创新

一叠便签纸、一个普通书签和一支笔，售价2美元（折合人民币14.7元）。一个能做类似事情的钛合金AI书签，售价129美元（折合人民币947元），你会心动吗？

来自主题: AI资讯

10149 点击 2025-04-17 10:52

MIT惊人神作：AI独立提出哈密顿物理！0先验知识，一天破译人类百年理论

MIT物理学大牛Max Tegmark团队，再出重磅力作。他们发现：AI能够在没有任何先验知识的情况下，完全独立地提出哈密顿物理量，或拉格朗日方程式。仅仅通过尝试解释数据，AI就自己收敛到了这些物理原则，发现了宇宙间的奥秘！

来自主题: AI技术研报

9973 点击 2025-04-16 15:47

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

路由LLM是指一种通过router动态分配请求到若干候选LLM的机制。论文提出且开源了针对router设计的全面RouterEval基准，通过整合8500+个LLM在12个主流Benchmark上的2亿条性能记录。将大模型路由问题转化为标准的分类任务，使研究者可在单卡甚至笔记本电脑上开展前沿研究。

来自主题: AI技术研报

6928 点击 2025-04-08 14:26

本地也能运行Deep Research！支持arXiv平台，兼容PDF、Markdown等

今年年初，OpenAI 上线 Deep Research，开启了智能体又一新阶段，其能根据用户需求自主进行网络信息检索、整合多源信息、深度分析数据，并最终为用户提供全面深入的解答。

来自主题: AI资讯

9697 点击 2025-03-18 19:06

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

近年来，代码评测集数量激增，但质量参差不齐。为规范其开发，香港科技大学联合多所高校研究了过去十年的274个代码评测集，发现诸多问题，如数据重复、测试用例错误、隐私信息未删除等。基于此，他们推出了《代码评测集发展指南55项》（How2Bench），涵盖设计、构建、评测、分析、发布五大阶段，旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报

9849 点击 2025-03-18 10:54

解构Manus AI：这是通用Agent革命，还是精巧缝合怪？

自媒体的反应堪称狂热：“通用Agent终于实现了！”“这是继DeepSeek之后的又一技术革命！”这样夸张的赞誉随处可见。从Benchmark来看，它的表现确实非常亮眼，在GAIA测试中超越了之前的各种Agent以及OpenAI的DeepResearch。

来自主题: AI技术研报

10945 点击 2025-03-09 02:07

OWL：复刻Manus通用智能体，完全开源！GAIA Benchmark最强性能！

最近AI圈最炸的瓜，毫无疑问是——Manus！一个AI Agent，不仅能刷GAIA Benchmark，还能远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」。听起来确实很能打？但我们 CAMEL-AI的🦉OWL项目看完Manus视频，集体摊手：就这？0天复刻走起！

来自主题: AI资讯

14319 点击 2025-03-07 14:33