AI资讯新闻榜单内容搜索-GA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GA
高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

大模型的能力边界正在不断拓展,从文字到视觉,再到音频,全模态理解已渐成现实。然而,当你问一个多模态大模型「这首歌的高潮从第几秒开始?」或者「第 30 秒之后乐器编配发生了什么变化?」,得到的往往是一个模糊甚至错误的回答。

来自主题: AI技术研报
6387 点击    2026-05-20 09:51
ICML 2026 | 突破3DGS光度多义性瓶颈:北航/新国立提出AmbiSuR,重塑高保真3D几何重建

ICML 2026 | 突破3DGS光度多义性瓶颈:北航/新国立提出AmbiSuR,重塑高保真3D几何重建

ICML 2026 | 突破3DGS光度多义性瓶颈:北航/新国立提出AmbiSuR,重塑高保真3D几何重建

近年来,3D 高斯泼溅(3D Gaussian Splatting, 3DGS)凭借其卓越的新视角合成能力和实时的渲染效率,极大地推动了神经渲染技术的发展。然而,当研究者试图直接从 3DGS 中提取精确的 3D 几何表面(Mesh 等)时,往往会面临严重的几何失真问题。

来自主题: AI技术研报
7277 点击    2026-05-19 14:57
24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷

24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷

24小时从零写一个GBA模拟器!GPT-5.5跑出53分登顶,Gemini得了0.8分,底部还有两家交白卷

Mechanize 发布了一项硬核测试:给前沿 AI coding agents 24 小时,用 Rust 从零写一个完整的 Game Boy Advance 模拟器,再和顶级开源模拟器 Mesen2 逐帧对比打分。

来自主题: AI技术研报
7887 点击    2026-05-18 16:48
Codex直接剪视频,剪辑软件都不用开,PR AE瑟瑟发抖

Codex直接剪视频,剪辑软件都不用开,PR AE瑟瑟发抖

Codex直接剪视频,剪辑软件都不用开,PR AE瑟瑟发抖

传统视频制作N个产品来回横跳的工作流模式,这次可能真的要Game Over了?因为嘛——现在你只用跟Codex说一句话,它就能把剪辑、PS、视频生成等一箩筐子的活儿全包了!!

来自主题: AI资讯
9233 点击    2026-05-16 13:45
大厂让程序员卷 AI,4 个月烧掉全年预算,CTO 懵了

大厂让程序员卷 AI,4 个月烧掉全年预算,CTO 懵了

大厂让程序员卷 AI,4 个月烧掉全年预算,CTO 懵了

四个月后,Uber 的 CTO Praveen Neppalli Naga 向管理层汇报了一个令人尴尬的情况:公司为 2026 年全年准备的 AI 工具预算,已经在今年的前四个月,全部花完了。Uber 内部的数据是这样的:95% 的工程师每个月都在用 AI 编程工具。

来自主题: AI资讯
8731 点击    2026-05-11 21:11
告别Prompt抽卡和评分通胀:一个让AI游戏真正「机制化迭代」的框架

告别Prompt抽卡和评分通胀:一个让AI游戏真正「机制化迭代」的框架

告别Prompt抽卡和评分通胀:一个让AI游戏真正「机制化迭代」的框架

让大模型写一个小游戏,已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面,甚至还能补上按钮、分数和简单动画。但真正的问题是:这些游戏到底有没有新的玩法?它们是在创造,亦或只是把已有游戏换了一层皮?

来自主题: AI技术研报
10364 点击    2026-05-11 09:02
突发,OpenAI总裁当庭「认罪」!自曝零元购300亿,马斯克这回真要赢了?

突发,OpenAI总裁当庭「认罪」!自曝零元购300亿,马斯克这回真要赢了?

突发,OpenAI总裁当庭「认罪」!自曝零元购300亿,马斯克这回真要赢了?

太炸裂了!刚刚,OpenAI总裁Brockman当庭承认:自己投入0美元,持有OpenAI营利部门300亿美元股份(马斯克捐了3800万,得到的是0)。更炸的是,Brockman和奥特曼都悄悄持有Cerebras个人股份。Gary Marcus直言,这是马斯克最接近赢的一次。

来自主题: AI资讯
8054 点击    2026-05-05 13:49
DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

近日,由普林斯顿大学 Tri Dao(FlashAttention 的一作)和加州大学伯克利分校 Ion Stoica 领导的一个联合研究团队也做出了一个超快的索尼克:SonicMoE。据介绍,SonicMoE 能在英伟达 Blackwell GPU 上以峰值吞吐量运行!并且运算性能超过了 DeepSeek 之前开源并引发巨大轰动的 DeepGEMM。

来自主题: AI技术研报
7929 点击    2026-05-04 10:17
Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA

Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA

Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA

Google悄悄干了一件大事——Gemini Embedding 2正式进入GA阶段,成为Gemini API中第一个原生多模态embedding模型。它能把文本、图片、视频、音频、PDF文档全部映射进同一个统一向量空间,支持100多种语言。

来自主题: AI资讯
10510 点击    2026-05-02 15:05