AI资讯新闻榜单内容搜索-模型训练

7B超越GPT！1/20数据，无需知识蒸馏，马里兰等推出全新视觉推理方法

通过蒙特卡洛树搜索筛选高难度样本，ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力，无需知识蒸馏，为高效训练提供了新思路。

来自主题: AI技术研报

9712 点击 2025-04-28 16:59

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高了采样效率，而非真正赋予模型全新推理能力。

来自主题: AI技术研报

8592 点击 2025-04-28 16:51

7x24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

自主通才科学家（AGS）正成为现实！

来自主题: AI技术研报

10080 点击 2025-04-28 15:57

模型压缩到70%，还能保持100%准确率，无损压缩框架DFloat11来了

大型语言模型（LLMs）在广泛的自然语言处理（NLP）任务中展现出了卓越的能力。

来自主题: AI技术研报

9051 点击 2025-04-28 15:42

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

「工欲善其事，必先利其器。」如今，人工智能正以前所未有的速度革新人类认知的边界，而工具的高效应用已成为衡量人工智能真正智慧的关键标准。

来自主题: AI技术研报

7951 点击 2025-04-28 14:53

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报

8492 点击 2025-04-28 14:09

OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者

自回归模型，首次生成2048×2048分辨率图像！来自Meta、西北大学、新加坡国立大学等机构的研究人员，专门为多模态大语言模型（MLLMs）设计的TokenShuffle，显著减少了计算中的视觉Token数量，提升效率并支持高分辨率图像合成。

来自主题: AI技术研报

10316 点击 2025-04-28 09:16

70%大小，100%准确！完美压缩LLM性能0损失，推理速度最高飙升39倍

LLM的规模爆炸式增长，传统量化技术虽能压缩模型，却以牺牲精度为代价。莱斯大学团队的最新研究DFloat11打破这一僵局：它将模型压缩30%且输出与原始模型逐位一致！更惊艳的是，通过针对GPU的定制化解压缩内核，DFloat11使推理吞吐量提升最高38.8倍。

来自主题: AI技术研报

9737 点击 2025-04-28 09:05

用"ADL"Agent声明式语言，让你几分钟上线一个Agent | UCSB最新

今天的Agent框架虽然功能强大，但对于没有编程经验的客户服务专业人员来说却过于复杂。这些框架如AutoGen、LangGraph、CrewAI等通常将Agent声明嵌入到复杂的Python代码中，使整体工作流程难以把握，门槛过高。对于仅需构建带有业务逻辑的客服聊天机器人的非技术人员而言，这些框架犹如天书，让他们望而却步。

来自主题: AI技术研报

9638 点击 2025-04-27 13:27

Hugging Face论文热榜第一！AI推理新方法，打破强化学习天花板，全面开源

本文提出 LUFFY 强化学习方法，一种结合离线专家示范与在线强化学习的推理训练范式，打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY 通过将高质量专家示范制定为一种离策略指引，并引入混合策略优化与策略塑形机制，稳定地实现了在保持探索能力的同时高效吸收强者经验。

来自主题: AI技术研报

9024 点击 2025-04-27 09:22