ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
搜索
在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。
GPT-5和“还我GPT-4o”的风波,闹得沸沸扬扬。 今天,奥特曼还有一次认怂了,不仅调了UI,还把o3这些老模型还了回来。
就在刚刚,昆仑万维发布了 Mureka V7.5,一个专门为中文升级的音乐大模型。
现在这个时代,啥都讲究一句话生成。一句话P图、一句话写文案、生成画作、音乐、视频… 不过这些,在今天的想法面前,都显得有些弱了。
Figure人形机器人首秀,靠神经网络叠衣服! 在没有任何架构改变、仅增加了数据的情况下,就让原本在物流场景干活的它,轻松习得了新技能。
GPT-5刚发布没多久,DeepSeek-R2就快来了,好热闹的8月份! DeepSeek预计将于8月发布其新一代旗舰模型DeepSeek-R2。
GPT-5来了!智商148、数学纪录被刷新、英伟达点头认可,但OpenAI真正的杀手锏,不在智商,而在分配智商的「路由器」。
过去几年,AI 的巨大突破赋予了机器语言的力量。而下一个前沿,是给予它们关于世界的记忆。当大模型只能分析短暂的视频内容时,一个根本性的鸿沟依然存在:AI 能够处理信息,却无法真正地“记住” 信息。如今的瓶颈已不再是“看见”,而是如何保留、索引并回忆构成我们现实世界的视觉数据流。
AI 编程助手虽备受追捧、话题不断,但现实远没有想象中光鲜。许多热门工具——如 Cursor、Windsurf——其实都在亏本运营。TechCrunch 报道称,这类产品毛利率极低,甚至为负,也就是说,每新增一个用户,亏损就会进一步扩大。这并非初创公司为抢占市场的短期现象,而是市场在传递一个明确信号:这种商业模式走不通。
视频Agent生成过程中顶多也就是让我点点选项,或者直接针对某一处不满意的地方用对话形式修改,甚至可能我提了一个意见,直接整个片子都给我换了个不一样的。