AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

北大王选所:让多模态大模型更懂人类在做什么|ECCV 2024

只用提示词,多模态大模型就能更懂场景中的人物关系了。

来自主题: AI技术研报
11000 点击    2024-08-13 16:56
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。

来自主题: AI技术研报
5567 点击    2024-08-12 17:18
数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science

数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science

数百万晶体数据训练、解决晶体学相位问题,深度学习方法PhAI登Science

时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。

来自主题: AI技术研报
10878 点击    2024-08-11 16:58
ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?

ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?

ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?

在过去的几年中,大型语言模型(Large Language Models, LLMs)在自然语言处理(NLP)领域取得了突破性的进展。这些模型不仅能够理解复杂的语境,还能够生成连贯且逻辑严谨的文本。

来自主题: AI技术研报
10322 点击    2024-08-11 13:25
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

来自主题: AI技术研报
10569 点击    2024-08-11 13:18
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA

CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA

CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA

LLM数学水平不及小学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。

来自主题: AI技术研报
7783 点击    2024-08-10 11:45
LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」

LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」

LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」

前段时间冲上热搜的问题「9.11比9.9大吗?」,让几乎所有LLM集体翻车。看似热度已过,但AI界大佬Andrej Karpathy却从中看出了当前大模型技术的本质缺陷,以及未来的潜在改进方向。

来自主题: AI技术研报
9924 点击    2024-08-09 14:38
MSU世界视频编码器大赛成绩出炉,腾讯包揽全部指标第一名

MSU世界视频编码器大赛成绩出炉,腾讯包揽全部指标第一名

MSU世界视频编码器大赛成绩出炉,腾讯包揽全部指标第一名

今日获悉,由莫斯科国立大学举办的 MSU 世界视频编码器大赛结果揭晓。在全部参赛编码器中,腾讯编码器包揽所有 15 项指标的全部第一,再次斩获全场最佳。

来自主题: AI技术研报
9185 点击    2024-08-09 13:09
ICML 2024 | 人物交互图像,现在更懂你的提示词了,北大推出基于语义感知的人物交互图像生成框架

ICML 2024 | 人物交互图像,现在更懂你的提示词了,北大推出基于语义感知的人物交互图像生成框架

ICML 2024 | 人物交互图像,现在更懂你的提示词了,北大推出基于语义感知的人物交互图像生成框架

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 MIPL实验室,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。MIPL 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表,多次荣获国内外 CV 领域重量级竞赛的冠军奖项,和国内外知名高校、科研机构广泛开展合作。

来自主题: AI技术研报
6442 点击    2024-08-08 18:44
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。

来自主题: AI技术研报
10200 点击    2024-08-08 14:41
无比喻,不论文!用「画家流水线」的方式理解Transformer中间层

无比喻,不论文!用「画家流水线」的方式理解Transformer中间层

无比喻,不论文!用「画家流水线」的方式理解Transformer中间层

Transformer架构层层堆叠,包含十几亿甚至几十亿个参数,这些层到底是如何工作的?当一个新奇的比喻——「画家流水线」,被用于类比并理解Transformer架构的中间层,情况突然变得明朗起来,并引出了一些有趣的发现。

来自主题: AI技术研报
11322 点击    2024-08-08 14:37
八问八答搞懂Transformer内部运作原理

八问八答搞懂Transformer内部运作原理

八问八答搞懂Transformer内部运作原理

七年前,论文《Attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。

来自主题: AI技术研报
10116 点击    2024-08-07 14:31
李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念,作为回应,来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot,并提出了训练数据 SpatialQA 和测试榜单 SpatialBench, 尝试让多模态大模型在通用场景和具身场景下理解深度、理解空间。

来自主题: AI技术研报
11392 点击    2024-08-07 14:12
实战:手把手教你Prompt到底该怎么写

实战:手把手教你Prompt到底该怎么写

实战:手把手教你Prompt到底该怎么写

新加坡举办了首届GPT-4提示工程竞赛,Sheila Teo取得了冠军,我们来学习借鉴她采用的三项提示技巧: 使用CO-STAR框架构建提示词 2.使用分隔符将提示词分段 3.使用LLM系统提示

来自主题: AI技术研报
9458 点击    2024-08-06 14:47
智谱开源清影CogVideoX 2B 模型,单张 RTX 4090 即可进行推理

智谱开源清影CogVideoX 2B 模型,单张 RTX 4090 即可进行推理

智谱开源清影CogVideoX 2B 模型,单张 RTX 4090 即可进行推理

随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。然而,截至目前,仍未有一个开源的视频生成模型能够满足商业级应用的要求。

来自主题: AI技术研报
9397 点击    2024-08-06 14:37