UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7
UPenn提出Graph of Skills:把海量Skill连成技能图 |CC可用、支持Minimax2.7很多人以为,给Agent装上更多Skill,它就会变得更强。
很多人以为,给Agent装上更多Skill,它就会变得更强。
Agent 的持续学习和自我进化是最近行业内的讨论热点。
大模型写代码这件事,越来越像「既能写片段,又离真实工程差一截」。
本文是北京大学彭宇新教授团队在视觉定位方向的最新研究成果,相关论文已被顶级国际期刊 IEEE TPAMI 接收。为视觉定位模型赋予「自知之明」能力 —— 通过自监督的关联校正与验证模块,在训练过程中动态识别、衰减并纠正错误的监督信号。大量实验证明,让模型学会「自我纠错」,是突破弱监督视觉定位瓶颈的有效途径。
AI模型只看了一串纯数字序列,就能继承另一个模型的危险偏好,即使删掉敏感词没有用,合成数据时代最隐蔽的安全裂缝,被撕开了。
有这样一种 “模型玄学”:明明是同一个 Prompt,仅仅换一种说法,模型的回答可能就天差地别。
大模型写代码这件事,越来越像「既能写片段,又离真实工程差一截」。
当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力,推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL,通过「FP4 先探索、BF16 再训练」的后训练框架,将达到等效 reward 水平的收敛速度最高提升到 4.64x,在训练速度与对齐效果之间给出了一条更具工程可行性的解法。
最新研究提出合成数据的全新分类框架,突破「生成模型=合成数据」的传统认知,涵盖反演、仿真与数据增强等方法,并按应用层次划分为数据中心AI、模型中心AI、可信AI和具身AI。
一个在 AI 社区广泛流传的架构思路,正在让大量团队走弯路。