多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL
多变量神经缩放定律迈向大一统:Mila联手DeepMind提出UNSL过去的大模型 scaling law 通常回答的是:当模型参数量、数据量和训练计算量增加后,loss 会如何下降。
搜索
过去的大模型 scaling law 通常回答的是:当模型参数量、数据量和训练计算量增加后,loss 会如何下降。
超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名,仅次于 Claude Opus 4.7。除了真实场景的用户选择,在传统的大模型固定评测榜单上,像是终端能力 Terminal Bench、编程能力 SWE Bench 等,Qwen3.7 Max 的表现也是拿下了国产模型的冠军。
前段时间开源了 guizang-ppt-skill,之后我自己用它做内容的时候发现一件事。
当一家年赚 500 亿美元的公司,决定把几乎同等规模的钱砸向 AI 基建,这件事本身就值得重新审视中国科技巨头的战略决心。
8.99万元操作天花板,6月发货,具身智能的「苹果时刻」!中国版Figure,星尘智能自研「AI模型-具身OS-绳驱本体」三位一体架构,用击穿底线的定价,推动Physical AI落地。一句话:今年必Buy!
昨晚,AI模型聚合平台OpenRouter宣布完成1.13亿美元(约合人民币7.67亿元)的B轮融资。本轮融资由谷歌母公司Alphabet旗下的成长基金CapitalG领投,英伟达NVentures、ServiceNow等一众风险投资机构跟投,a16z、Menlo Ventures持续加注。外媒报道,该公司融资过后估值飙升至13亿美元(约合人民币88.22亿元)。
过去十年,大模型世界里很多最关键的技术路线背后,都能看到Andrew Dai的身影。从早期预训练与监督微调,到后来主流的MoE(Mixture of Experts)架构;从Google Brain最初只有几十人的研究时代,到后来支撑Gemini的大规模数据体系,这位在 Google 工作超过14年的研究科学家,几乎站在了大模型时代每一次关键转折的现场。
法国巴黎银行正与法国人工智能初创公司 Mistral AI 及其他合作伙伴合作,为应对 Anthropic 旗下 Mythos 等新模型带来的网络安全威胁做准备。
过去几年,大模型竞争主要发生在 AI 公司之间。但随着 AI 开始从数字世界进入真实设备与物理世界,竞争逻辑正在发生变化。
一家几乎尚未公开具体产品的AI初创公司,刚刚拿下硅谷最受关注的一笔融资。AI初创公司Hark宣布完成7亿美元A轮融资,投后估值达60亿美元。本轮融资阵容堪称豪华,由Parkway Venture Capital领投,英伟达、AMD、高通、英特尔、Salesforce等产业资本集体押注。