AI资讯新闻榜单内容搜索-ALE

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。

来自主题: AI资讯

9061 点击 2025-02-11 15:26

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

AI的新进展频频，人才动态也愈加重磅。新年第一则大牛人事动向，引发业内关注。许主洪，IEEE Fellow，新加坡管理大学终身教授，被曝加盟阿里。

来自主题: AI资讯

8116 点击 2025-02-07 19:04

DeepSeek R1 Zero中文复现教程来了！

各位同学好，我是来自 Unlock-DeepSeek 开源项目团队的骆师傅。先说结论，我们（Datawhale X 似然实验室）使用 3 张 A800(80G) 计算卡，花了 20 小时训练时间，做出了可能是国内首批 DeepSeek R1 Zero 的中文复现版本，我们把它叫做 Datawhale-R1，用于 R1 Zero 复现教学。

来自主题: AI技术研报

10301 点击 2025-02-07 17:54

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

VARGPT是一种新型多模态大模型，能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解，预测下一个scale完成视觉生成，展现出强大的混合模态输入输出能力。

来自主题: AI技术研报

8281 点击 2025-01-28 12:07

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上，很多观点认为 scale law is dead. 然而，我们认为，高质量的 “无监督” 数据才是 scaling law 的关键，尤其是教科书级别的高质量的知识语料。此外，尽管传统的语料快枯竭了，但是互联网上还有海量的视频并没有被利用起来，它们囊括了丰富的多种模态的知识，可以帮助 VLMs 更好好地理解世界。

来自主题: AI技术研报

8250 点击 2025-01-20 19:01