北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库
北大提出首个可验证的仓库级生成基准RepoZero,评测LLM能否从0生成一个代码仓库投稿来自北京大学与百度联合团队,他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero,通过跨语言复现任务与自验证框架 ACE,推动代码补全更近一步迈向自动化软件工程。
搜索
投稿来自北京大学与百度联合团队,他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero,通过跨语言复现任务与自验证框架 ACE,推动代码补全更近一步迈向自动化软件工程。
训练强化学习智能体时,一个常见问题是:有些 level 太简单,智能体跑几遍就会;有些 level 又太难,智能体几乎得不到有效反馈。前者只是在重复已有能力,后者则会把训练预算消耗在无效探索上。真正有价值的训练环境,往往位于二者之间。
马斯克起诉OpenAI刚刚被驳回,高盛和摩根士丹利,已经在替OpenAI起草那份IPO招股书草案了。与此同时,SpaceX也被曝接近公布IPO文件。一场围绕「AI基建」的资本市场卡位战,开始了。
硅谷世纪审判大结局!马斯克诉OpenAI 1500亿美元案件,90分钟全票驳回,原因竟是「告晚了」。下一局,OpenAI与SpaceX在万亿级IPO决赛圈的飙车,已无法暂停了。
扩散模型杀进了文本生成的地盘,而巨头们为了抢它,已经打起来了。
最近一两年,AI 行业有一个很微妙的变化:大家不再满足于问 “模型会不会回答”,也不再只关心 “Agent 能不能调用工具”。越来越多的讨论开始回到一个更终极的问题:AI 到底能不能完全自动化接管工作区,理解个性化需求,像一个真实的人类劳动力一样,把一件事情从头到尾做完?
5月11日,韩国总统府(青瓦台)政策室长金容范(Kim Yong-beom)在其Facebook发文提出,应考虑设立所谓“公民红利”,资金来源为人工智能(AI)产业产生的超额利润。“人工智能基础设施时代的收益,并非仅由个别企业创造,而是源于整个国家在过去半个多世纪中所构建的产业基础。
最近,Anthropic估值逼近1万亿美元,IPO或超越SpaceX,ARR 5个月暴涨至450亿美元!甚至它正在联手高盛干掉麦肯锡。联创警告:2028年AI可能开始「自己造自己」,智能爆炸倒计时,已经正式启动。
xAI撤销后,新的SpaceXAI正在建立。
今天,马斯克官宣解散xAI并入SpaceX。同时,他把全球最强超算Colossus 1,全部租给OpenAI死对头Claude。一边在法庭要罢免奥特曼,一边给对手送算力,老马这波釜底抽薪绝了。