AI资讯新闻榜单内容搜索-监督微调

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 监督微调
吃透大模型SFT底层机理:终结实践争议,规避无效算力

吃透大模型SFT底层机理:终结实践争议,规避无效算力

吃透大模型SFT底层机理:终结实践争议,规避无效算力

长期以来,监督微调(Supervised Fine-Tuning,SFT)一直是深度神经网络中最常用的模型适配手段。在中小规模的传统神经网络中,SFT 通常能够稳定提升下游任务表现。

来自主题: AI技术研报
6129 点击    2026-06-04 08:38
Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

Z Tech|对话Andrew Dai:14年DeepMind生涯,见证PaLM到Gemini,下一站押注视觉推理

过去十年,大模型世界里很多最关键的技术路线背后,都能看到Andrew Dai的身影。从早期预训练与监督微调,到后来主流的MoE(Mixture of Experts)架构;从Google Brain最初只有几十人的研究时代,到后来支撑Gemini的大规模数据体系,这位在 Google 工作超过14年的研究科学家,几乎站在了大模型时代每一次关键转折的现场。

来自主题: AI资讯
9039 点击    2026-05-27 16:31
用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

在大模型后训练阶段,监督微调(SFT)和强化学习(RL)是两根不可或缺的支柱。SFT 利用高质量的离线(Off-policy)数据快速注入知识,但受限于静态数据分布,泛化能力往往容易触及天花板并带来灾难性遗忘;RL 则允许模型在探索中不断自我迭代,产生与当前策略同分布(On-policy)的数据,上限极高,但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报
5770 点击    2026-03-26 10:47
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。

来自主题: AI技术研报
9835 点击    2025-11-17 14:32
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

在大模型微调实践中,SFT(监督微调)几乎成为主流流程的一部分,被广泛应用于各类下游任务和专用场景。比如,在医疗领域,研究人员往往会用领域专属数据对大模型进行微调,从而显著提升模型在该领域特定任务上的表现。

来自主题: AI技术研报
8482 点击    2025-10-24 10:13
RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化

来自主题: AI技术研报
9915 点击    2025-10-13 10:28
听说,大家都在梭后训练?最佳指南来了

听说,大家都在梭后训练?最佳指南来了

听说,大家都在梭后训练?最佳指南来了

既然后训练这么重要,那么作为初学者,应该掌握哪些知识?大家不妨看看这篇博客《Post-training 101》,可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随; 监督微调(SFT) 基本原理,包括数据集构建与损失函数设计;

来自主题: AI技术研报
8341 点击    2025-10-12 14:59
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。

来自主题: AI技术研报
8418 点击    2025-09-23 14:59
来自MIT的最新研究-RL's Razor|展望LLMs Post-Training下的前沿探索与思考

来自MIT的最新研究-RL's Razor|展望LLMs Post-Training下的前沿探索与思考

来自MIT的最新研究-RL's Razor|展望LLMs Post-Training下的前沿探索与思考

来自MIT Improbable AI Lab的研究者们最近发表了一篇题为《RL's Razor: Why Online Reinforcement Learning Forgets Less》的论文,系统性地回答了这个问题,他们不仅通过大量实验证实了这一现象,更进一步提出了一个简洁而深刻的解释,并将其命名为 “RL's Razor”(RL的剃刀)。

来自主题: AI技术研报
7872 点击    2025-09-18 14:26
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报
8060 点击    2025-08-22 16:35