在一台1970年代的PDP-11上训练Transformer需要多久?答案是5.5分钟
在一台1970年代的PDP-11上训练Transformer需要多久?答案是5.5分钟试想一下,如果把当下大火的大模型技术带回 1970 年,会发生什么?
搜索
试想一下,如果把当下大火的大模型技术带回 1970 年,会发生什么?
Vidu Q3带着「全家桶」重磅回归,视觉、听觉、场景能力全面进化。AI视频的生产级交付时代,真的来了。
南洋理工大学MMLab团队推出Hand2World,让AI世界模型真正「伸手」互动。只需在空中比划手势,模型就能生成逼真第一人称交互视频,实时响应调整。它摒弃旧有遮挡误导,用3D手部结构与射线编码解耦手与头运动,首次实现闭环持续交互。
近日,刚带着对标顶级闭源模型的强悍性能登场不久的 MiniMax M2.7 模型,悄悄变更了开源使用条款。尽管先前将权重公开在 Hugging Face,但当下已然收紧授权:商业用途需获得 MiniMax 书面授权。非商业用途依旧免费且不受限制,科研、个人项目、自用微调等场景均不受影响;但若是搭建托管服务或开发商业产品,则必须申请授权。
前两天我刷到一个工具的时候,第一反应其实不是拿真人照片试,也不是拿潮玩图试。
文本驱动的人体动作生成是游戏NPC、虚拟主播、机器人控制等实时交互系统的核心技术。
2026年再看Agent,一个越来越难回避的事实是:能力正在从模型里流到模型外。真正决定系统上限的,不再只是参数、Prompt和tool calling,而是记忆、技能、协议以及统摄这一切的harness。
随着机器人操作从短程、单步技能逐步走向长程、富接触、需要持续协调与恢复能力的复杂任务,传统以二元成功率为核心的评测方式开始暴露出明显局限。它能够回答 “任务是否完成”,却难以回答 “策略推进到了哪里”“执行过程是否高效稳定”“失败究竟发生在什么阶段”。
今天这篇文章,来分享一下我自己最近几个月高强度使用Agent之后,我自己总结出来的怎么给Agent设定规则,如何让它Agent更好的工作更聪明的一个非常重要的心得。
OpenAI 刚刚发了一份 13 页的政策文件,探讨 AGI 时代的产业政策应该如何设立,这份文件有几个值得注意的地方:
Cisco 正在洽谈收购 Astrix Security,这是一家成立五年的以色列网络安全初创公司,专门销售用于监控和保护 AI Agent 的软件,交易价格在 2.5 亿美元至 3.5 亿美元之间,知情人士透露。据其中一位人士表示,这将比该初创公司上一次估值约 2 亿美元至少溢价 25%。
斯坦福「2026年AI指数报告」重磅出炉!这份432页长文含金量极高:中美AI巅峰对决,差距几乎抹平,缩减至仅2.7%。全球顶尖AI年产95个,基本都聚集在大厂。最残酷的是,22-25岁开发者的就业已被切掉20%。
多数 AI 创业公司卖的是一个更好的模型。CREAO AI 卖的是一个更好的循环。 这家公司刚刚完成千万级美金融资,领投方为 Prosperity7 Ventures——阿美风险投资(Aramco V
4 月 14 日,智在无界发布第三代旗舰模型 Being-H0.7,该模型将数据规模扩展至 20 万小时人类视频,并提出一种全新的范式 —— 基于潜空间推理的世界模型。在 6 项国际性权威评测中,H0.7 综合排名全球第一(其中 4 项登顶),同时也是首个覆盖跨本体、跨场景、连续动态、流体、柔性物体、物理规律与上下文推理等七大关键维度的通用世界模型。
对「AI 原住民」而言,创造的新范式,除了 AI,还有在小红书 build in public。
2026 开年以来,OpenClaw 带来的 Agent 热度正以惊人的速度从科技圈向全行业扩散。
一不小心,查理芒格和巴菲特就被炼化,个个加入投资Agent军团,人人可用了。
AI医疗,又一巨头涌入!
同样是做儿童 AI 硬件,奇朵的切入点有些不一样。
太疯狂了!Meta和METR刚测出的AI进化数据,与中国团队两年前提出的「密度定律」完美重合。硅谷猛然回头,发现中国研究者在这条路上已领先两年!
看到 Anthropic 内测中的下一代旗舰模型 Mythos 强大的网络攻防能力带来的巨大影响和讨论度,奥特曼坐不住了,也计划内测 OpenAI 具有强大的网络攻防能力的 AI。
不与世界交手,何以理解世界?
Google DeepMind调查了一万个人,结果让整个AI安全评估体系汗颜:AI做了三倍多的「坏事」,但造成的实际伤害几乎一样。这意味着,我们现在用来证明AI安全的那套逻辑,可能从一开始就是错的。
AI产品、生态协同双升级,中兴通讯交出战略升级满新答卷。
一封内部备忘录,让 AI 行业最大的两家公司之间的战争,第一次有了清晰的文字记录。OpenAI 首席营收官 Denise Dresser 在本周日向全体员工发出了一份长达四页的战略备忘录。文件随后被外媒 The Verge 获取并公开全文。
过去一段时间,生成理解统一模型(Unified Model)经常被理解成一种「既能看懂图、又能生成图」的多模态通用系统。
当前具身智能的VLA(Vision-Language-Action)赛道正陷入典型的「碎片化」泥潭:不同团队采用异构的动作解码范式、强耦合的数据管线、互不兼容的评测协议,导致方法难以横向对比,复现成本极高。
办公室里,一排排工位整整齐齐,每个人对着屏幕敲敲打打,看起来和平常没什么两样。
在具身智能快速发展的今天,高质量数据已成为驱动能力提升的关键基础,然而一个核心问题也随之而来: 如何让机器人数据采集更快、更稳、更有效?
让一个模型概括“这是一段什么视频”,并不难。