AI资讯新闻榜单内容搜索-香港

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 香港
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注。为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报
7749 点击    2026-01-11 10:01
CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent的核心思想很简单:与其让LLM费力地去“读”数据的文本快照,不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学(HKUST)领衔的研究,为我们展示了一种“Code as Action, State as Memory”的全新可能性。它解决了所有开发过复杂Agent的工程师最头疼的多轮对话中的“失忆”与“漂移”问题。

来自主题: AI技术研报
8945 点击    2026-01-09 14:34
语义分割别无脑用Argmax!港中文新算法:三行代码,推理速度提升10倍

语义分割别无脑用Argmax!港中文新算法:三行代码,推理速度提升10倍

语义分割别无脑用Argmax!港中文新算法:三行代码,推理速度提升10倍

香港中文大学提出了一个全新的算法框架RankSEG,用于提升语义分割任务的性能。传统方法在预测阶段使用threshold或argmax生成掩码,但这种方法并非最优。RankSEG无需重新训练模型,仅需在推理阶段增加三行代码,即可显著提高Dice或IoU等分割指标。

来自主题: AI技术研报
9596 点击    2026-01-05 14:27
训练时间爆砍80%!港大快手联合打造了一个AI炼金师:专挑“有营养”数据,20%数据达成50%效果

训练时间爆砍80%!港大快手联合打造了一个AI炼金师:专挑“有营养”数据,20%数据达成50%效果

训练时间爆砍80%!港大快手联合打造了一个AI炼金师:专挑“有营养”数据,20%数据达成50%效果

由香港大学丁凯欣领导,联合华南理工大学周洋以及快手科技Kling团队共同完成的这项研究,开发出了一个名为“炼金师”(Alchemist)的AI系统。它就像一位挑剔的大厨,能从海量图片数据中精准挑选出最有价值的一半。

来自主题: AI技术研报
8055 点击    2025-12-27 10:30
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报
9403 点击    2025-12-21 12:39
给AI装上细胞之眼:新框架CHMR破解药物研发数据缺失难题

给AI装上细胞之眼:新框架CHMR破解药物研发数据缺失难题

给AI装上细胞之眼:新框架CHMR破解药物研发数据缺失难题

近日,中山大学博士生李孟燃和中国科学院香港创新研究院臧泽林博士及合作者打造出一种名为 CHMR 的 AI 系统,堪比一位拥有细胞之眼的 AI 化学家,能让药物研发变得更精准和更安全。

来自主题: AI技术研报
7008 点击    2025-12-15 10:43
港大开源ViMax火了,实现AI自编自导自演

港大开源ViMax火了,实现AI自编自导自演

港大开源ViMax火了,实现AI自编自导自演

想象一下,只需要一句话描述,AI 就能为你拍出一部完整的短剧?为了让这个想法变成现实,香港大学黄超教授团队开源了 ViMax 框架,并在 GitHub 获得 1.4k + 星标,专注于 Agentic Video Generation 的前沿探索。通过多智能体协作,ViMax 实现了真正的 "自编自导自演"—— 从创意构思到成片输出的完整自动化,把传统影视制作的每个环节都搬进了 AI 世界。

来自主题: AI技术研报
9179 点击    2025-12-13 11:06
AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

在推荐系统迈向多模态的今天,如何兼顾数据隐私与个性化图文理解?悉尼科技大学龙国栋教授团队联合香港理工大学杨强教授、张成奇教授团队,提出全新框架 FedVLR。该工作解决了联邦环境下多模态融合的异质性难题,已被人工智能顶级会议 AAAI 2026 接收为 Oral Presentation。

来自主题: AI技术研报
8656 点击    2025-11-25 15:30
AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

今天,来自快手可灵团队和香港城市大学的研究者们,正在尝试打破这一界限。他们提出了一个全新的任务范式——「视频作为答案」,并发布了相应模型VANS。而这项工作则开创性地提出了Video-Next Event Prediction任务,要求模型直接生成一段动态视频作为回答。

来自主题: AI技术研报
8777 点击    2025-11-22 11:34