AI技术研报-这里有最前沿的人工智能技术解读

《2024年度AI十大趋势报告》发布：技术创新、产品洗牌、行业动态一文看尽

站在年尾来看，奔涌的AI浪潮呈现出怎样的趋势？又给2025年留下了什么样的伏笔？ 3个视角维度，10大年度趋势，在量子位智库今日重磅发布的《2024年度AI十大趋势报告》中清晰详尽地呈现。

来自主题: AI技术研报

8863 点击 2024-12-13 11:10

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

来自主题: AI技术研报

6903 点击 2024-12-12 21:57

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

Hyper-YOLO是一种新型目标检测方法，通过超图计算增强了特征之间的高阶关联，提升了检测性能，尤其在识别复杂场景下的中小目标时表现更出色。

来自主题: AI技术研报

8609 点击 2024-12-12 14:35

Sora终于来了，但卷王可灵已经「拍」上了AI电影

6个月迭代10余次，快手可灵一路狂飙。这次，轮到名导们下场整活了。短片一开场就相当震撼：钟馗手持一把斩鬼剑，穿行在一片乌漆麻黑、虬枝盘曲的密林中。

来自主题: AI技术研报

9787 点击 2024-12-12 10:57

Prompt"肿瘤"的克星：Language Hooks框架将工具与提示分离，增强LLM推理

开发AI应用的朋友们都有深刻的感受，在实际应用开发中，如何让LLM高效地使用外部工具，一直是困扰Prompt工程师的一个关键问题。最近，来自Faculty Science Ltd的研究团队提出的Language Hooks框架，为这个问题提供了一个令人耳目一新的解决方案。

来自主题: AI技术研报

7938 点击 2024-12-12 10:30

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

一般而言，LLM 被限制在语言空间（language space）内进行推理，并通过思维链（CoT）来表达推理过程，从而解决复杂的推理问题。

来自主题: AI技术研报

8821 点击 2024-12-12 10:19

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了

在这篇论文中，我们专注于人类互动中的信任行为，这种行为通过依赖他人将自身利益置于风险之中，是人类互动中最关键的行为之一，在日常沟通到社会系统中都扮演着重要角色。

来自主题: AI技术研报

9061 点击 2024-12-12 10:11

数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面

目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务。

来自主题: AI技术研报

9206 点击 2024-12-12 10:06

DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA

PaliGemma 2在多个任务上取得了业界领先的成绩，包括图像描述、乐谱识别和医学图像报告生成；并且提供了不同尺寸和分辨率的版本，用户可以根据不同的任务需求进行微调，以获得更好的性能。

来自主题: AI技术研报

6335 点击 2024-12-11 17:22

ChatGPT深夜福利，Canvas生产力神器史诗级升级！跑代码改bug，AGI界面大革新

OpenAI Day 4，Canvas重大升级，所有用户皆可使用！它不仅能与人类写作编辑文档、运行和调试Python，还整合进自定义GPTs中，成为更丝滑的打工神器。

来自主题: AI技术研报

7681 点击 2024-12-11 17:10

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

多模态大模型在听觉上，居然也出现了「9.11>9.8」的现象，音量大小这种简单问题都识别不了！港中文、斯坦福等大学联合发布的AV-Odyssey基准测试，包含26个视听任务，覆盖了7种声音属性，跨越了10个不同领域，确保测试的深度和广度。

来自主题: AI技术研报

8478 点击 2024-12-11 16:46

AI用北京话念绕口令，清华、智谱团队打造GLM-4-Voice，更智能、懂情绪，已开源

实现智能、类似人类的端到端语音聊天。

来自主题: AI技术研报

8379 点击 2024-12-11 16:03

TypedThinker框架，多维度推理Prompt让LLM推理更精准，卡梅隆和Qwen团队最新

大语言模型（LLMs）在推理任务上展现出了令人瞩目的能力，但其推理思维方式的单一性一直是制约性能提升的关键瓶颈。目前的研究主要关注如何通过思维链（Chain-of-Thought）等方法来提升推理的质量，却忽视了一个重要维度——推理类型的多样性。

来自主题: AI技术研报

9986 点击 2024-12-11 10:16

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

随着 ChatGPT 掀起的 AI 浪潮进入第三年，人工智能体（AI Agent）作为大语言模型（LLM）落地应用的关键载体，正受到学术界和产业界的持续关注。

来自主题: AI技术研报

8640 点击 2024-12-11 09:48

从线性注意力视角揭秘视觉Mamba，清华、阿里合作提出全新MILA模型

Mamba 是一种具有线性计算复杂度的状态空间模型，它能够以线性计算复杂度实现对输入序列的有效建模，在近几个月受到了广泛的关注。

来自主题: AI技术研报

9093 点击 2024-12-11 09:33

1600万视频解锁「空间智能」？智源3D生成模型See3D全套开源

上周，李飞飞空间智能首个3D生成模型刚刚交卷。这边，国内来自智源的See3D模型，在学习了无标注的1600万个视频之后，重建出全新的3D世界，效果令人惊叹。

来自主题: AI技术研报

8409 点击 2024-12-10 16:40

73页，开源「后训练」全流程！AI2发布高质量Tülu 3系列模型，拉平闭源差距，比肩GPT-4o mini

Allen Institute for AI（AI2）发布了Tülu 3系列模型，一套开源的最先进的语言模型，性能与GPT-4o-mini等闭源模型相媲美。Tülu 3包括数据、代码、训练配方和评估框架，旨在推动开源模型后训练技术的发展。

来自主题: AI技术研报

9181 点击 2024-12-10 16:23

Grok祭出首款生图模型Aurora！两位95后华人立大功，耗时6月自研MoE

消失一天后的Aurora，正式上线了。一大早，马斯克官宣了Grok集成了自研图像新模型Aurora，MoE架构自回归模型，直接将生成编辑能力一统。在人物肖像生成上，已经逼真到肉眼无法辨别。

来自主题: AI技术研报

7503 点击 2024-12-10 16:22

速度提升1000倍，效果还全面碾压！JHU等提出首个可渲染HDR场景的3DGS

研究人员提出首个可以渲染高动态范围（High Dynamic Range, HDR）自然光的3DGaussian Splatting模型HDR-GS，以用于新视角合成（Novel View Synthesis, NVS）。

来自主题: AI技术研报

10253 点击 2024-12-10 16:08

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

家人们！OpenAI o1 满血版（o1 Pro）大家用上了吗！

来自主题: AI技术研报

7493 点击 2024-12-10 16:07

深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

最近OpenAI Day2展示的demo可能把ReFT带火了。实际上这不是一个很新的概念，也不是OpenAI原创的论文。接下来，本文对比SFT、ReFT、RHLF、DPO、PPO这几种常见的技术。

来自主题: AI技术研报

10780 点击 2024-12-10 15:01

拿下诺贝尔奖、Anthropic创始人最看好的领域，AI for Science行业万字解析

AI for Science 是目前大模型落地的热门场景之一。

来自主题: AI技术研报

8644 点击 2024-12-10 14:54

Sora V2 即将发布，AI Creativity 赛道有哪些机会？

OpenAI 连续 12 天 “Shipmas”发布活动终于要发布让大家期待已久的视频生成模型 Sora，这再一次激起人们对图片生成、视频生成的关注。而AI Creativity 一直是我们非常关注的 GenAI 落地方向，图像生成和视频生成模型快速迭代，离商业可用越来越近。

来自主题: AI技术研报

9952 点击 2024-12-10 14:38

OpenAI王炸Sora正式上线，网站挤爆，奥特曼紧急关闭用户注册

就在今天凌晨，OpenAI Sora正式登场。

来自主题: AI技术研报

7622 点击 2024-12-10 10:31

Ai 开发新秩序 - Ai全栈应用开发技术栈推荐

最近给自己公司业务独立开发了几个全栈demo，分享一下架构和技术栈经验

来自主题: AI技术研报

9660 点击 2024-12-09 15:27

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

SOLAMI是一个创新的VR端3D角色扮演AI系统，用户可以通过语音和肢体语言与虚拟角色进行沉浸式互动。该系统利用先进的社交视觉-语言-行为模型，结合合成的数据集，提供更自然的交流体验，超越了传统的文本和语音交互。

来自主题: AI技术研报

9565 点击 2024-12-09 15:14

o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

美国本科生最难数学竞赛，o1 pro竟然只用半小时就全部做出来了？要知道，参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现，错误率似乎高达100%，12道题没有一道完全正确？

来自主题: AI技术研报

10294 点击 2024-12-09 15:09

LLM最大能力密度100天翻一倍！清华刘知远团队提出Densing Law

支持大模型一路狂飙的 Scaling Law 到头了？近期，AI 圈针对 Scaling Law 是否到头产生了分歧。一派观点认为 Scaling Law 已经「撞墙」了，另一派观点（如 OpenAI CEO Sam Altman）仍然坚定 Scaling Law 的潜力尚未穷尽。

来自主题: AI技术研报

8472 点击 2024-12-09 14:59

3D具身基础模型！北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

为了构建鲁棒的 3D 机器人操纵大模型，Lift3D 系统性地增强 2D 大规模预训练模型的隐式和显式 3D 机器人表示，并对点云数据直接编码进行 3D 模仿学习。Lift3D 在多个仿真环境和真实场景中实现了 SOTA 的操纵效果，并验证了该方法的泛化性和可扩展性。

来自主题: AI技术研报

8802 点击 2024-12-09 14:55

北交开源o1代码版！强化学习+蒙特卡洛树搜索，源代码、精选数据集以及衍生模型通通开源

北京交通大学研究团队悄默声推出了一版o1，而且所有源代码、精选数据集以及衍生模型都开源！

来自主题: AI技术研报

10115 点击 2024-12-09 14:52

AI技术研报-这里有最前沿的人工智能技术解读

《2024年度AI十大趋势报告》发布：技术创新、产品洗牌、行业动态一文看尽

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

Sora终于来了，但卷王可灵已经「拍」上了AI电影

Prompt"肿瘤"的克星：Language Hooks框架将工具与提示分离，增强LLM推理

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了

数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面

DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA

ChatGPT深夜福利，Canvas生产力神器史诗级升级！跑代码改bug，AGI界面大革新

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

AI用北京话念绕口令，清华、智谱团队打造GLM-4-Voice，更智能、懂情绪，已开源

TypedThinker框架，多维度推理Prompt让LLM推理更精准，卡梅隆和Qwen团队最新

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

从线性注意力视角揭秘视觉Mamba，清华、阿里合作提出全新MILA模型

1600万视频解锁「空间智能」？智源3D生成模型See3D全套开源

73页，开源「后训练」全流程！AI2发布高质量Tülu 3系列模型，拉平闭源差距，比肩GPT-4o mini

Grok祭出首款生图模型Aurora！两位95后华人立大功，耗时6月自研MoE

速度提升1000倍，效果还全面碾压！JHU等提出首个可渲染HDR场景的3DGS

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

拿下诺贝尔奖、Anthropic创始人最看好的领域，AI for Science行业万字解析

Sora V2 即将发布，AI Creativity 赛道有哪些机会？

OpenAI王炸Sora正式上线，网站挤爆，奥特曼紧急关闭用户注册

Ai 开发新秩序 - Ai全栈应用开发技术栈 推荐

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

LLM最大能力密度100天翻一倍！清华刘知远团队提出Densing Law

3D具身基础模型！北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

北交开源o1代码版！强化学习+蒙特卡洛树搜索，源代码、精选数据集以及衍生模型通通开源

Ai 开发新秩序 - Ai全栈应用开发技术栈推荐