103K「硬核」题,让大模型突破数学推理瓶颈
103K「硬核」题,让大模型突破数学推理瓶颈本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
来自主题: AI技术研报
10395 点击 2025-06-11 14:50
搜索
本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
视觉注意力机制,又有新突破,来自香港大学和英伟达。
第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化。
近年来,大语言模型(LLM)以其卓越的文本生成和逻辑推理能力,深刻改变了我们与技术的互动方式。然而,这些令人瞩目的表现背后,LLM的内部机制却像一个神秘的“黑箱”,让人难以捉摸其决策过程。
大幅缓解LLM偏科,只需调整SFT训练集的组成。
在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的重点
为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?
游戏直播等实时渲染门槛要被击穿了?Adobe 的一项新研究带来新的可能。
为什么语言模型很成功,视频模型还是那么弱?
给大模型当老师,让它一步步按你的想法做数据分析,有多难?