AI资讯新闻榜单内容搜索-模型训练

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

近日，卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench，这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本（Natural Adversarial Samples）——对视觉语言模型发起严峻挑战。

来自主题: AI技术研报

4188 点击 2024-11-09 10:27

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

随着大语言模型在长文本场景下的需求不断涌现，其核心的注意力机制（Attention Mechanism）也获得了非常多的关注。

来自主题: AI技术研报

5584 点击 2024-11-08 19:19

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

最近，来自上海大学、山东大学和埃默里大学等机构的研究人员首次提出了文本边图的数据集与基准，包括9个覆盖4个领域的大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究，有利于自然语言处理与图数据挖掘领域的深度合作。

来自主题: AI技术研报

4365 点击 2024-11-08 14:20

针对医学图像分割的基础模型应用探索

来自美国医学院的研究团队聚焦于医学图像分割领域中人工智能基础模型的开发与应用，提供了一个全面的基础模型开发框架。

来自主题: AI技术研报

4966 点击 2024-11-08 13:51

全面思考，从目标到起点规划，提升LLM规划能力4%至24% |普林斯顿最新

在Prompt工程领域，规划任务一直以来都是一个巨大的挑战，因为这要求大语言模型（LLMs）不仅能够理解自然语言，还能有效执行复杂推理和应对长时间跨度的操作。

来自主题: AI资讯

5105 点击 2024-11-08 10:16

50s完成7B模型量化，4bit达到新SOTA，大模型低比特量化有新招了 | NeurIPS 2024 Oral

消除激活值(outliers)，大语言模型低比特量化有新招了—— 自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024（Oral Presentation），他们针对LLM权重激活量化提出了两种正交变换，有效降低了outliers现象，达到了4-bit的新SOTA。

来自主题: AI技术研报

5729 点击 2024-11-07 20:51

免训练加速DiT！Meta提出自适应缓存新方法，视频生成快2.6倍

现在，视频生成模型无需训练即可加速了？！ Meta提出了一种新方法AdaCache，能够加速DiT模型，而且是无需额外训练的那种（即插即用）。

来自主题: AI技术研报

5222 点击 2024-11-07 20:43

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

最近，以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升，在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称，推理可以让模型更好的遵守安全政策，是提升模型安全的新路径。

来自主题: AI技术研报

4366 点击 2024-11-07 18:17

结构化表格也成模态！浙大TableGPT2开源，最强表格AI问世

现在正是多模态大模型的时代，图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据（包括数据库、数仓、表格、json 等）视为了一种独立模态。

来自主题: AI技术研报

6767 点击 2024-11-07 17:45

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

来自主题: AI技术研报

6650 点击 2024-11-07 17:41