微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。
搜索
OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。
2025 年 3 月 5 日,佳士得拍卖行 “增强智能(Augmented Intelligence)”落下帷幕。这场聚焦 AI 艺术的专场拍卖以728,784 美元总成交额收官,34 件拍品中 28 件成交,成交率达 82%。其中,土耳其裔美国艺术家 Refik Anadol 的《机器幻觉 —— 国际空间站之梦 ——A》以27.7 万美元成为全场最高价拍品。
北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制
据ZP独家获悉,半图科技(SemiGraph)近日完成了一轮数千万人民币的天使轮融资,全球知名投资机构IDG资本独家投资。据了解,半图科技正式成立于2024下半年,致力于通过创新的技术推动AI应用领域的变革,尤其聚焦于AI技术在游戏、内容、情感交互等领域的深度应用。此次融资的成功为公司3D动画大模型底层技术的突破提供了强有力的资金支持,并有望加速其产品和技术的市场落地。
Ilya团队再次拿到20亿美元新一轮融资,估值300亿美元。与此同时,SSI在以色列特拉维夫办公室的首支研究团队的成员曝光,阵容堪称豪华。硅谷当下投资最热门,不是某个产品,而是一个人。
藏了下一代Ray-Ban Meta的影子。
M3 Ultra终极引擎,可跑千亿模型
StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题,通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导,实现精准控制风格元素,提升生成图像的质量和稳定性,无需额外训练,使用门槛更低!
张涛此前在字节跳动负责国际化产品的战略规划与落地,2023年,他加入王慧文创办的人工智能公司光年之外,担任产品负责人,主导AI产品的研发与商业化探索。2024年7月,张涛与首席科学家季逸超(Peak)、连续创业者肖弘(Red)共同创立Manus AI,并担任合伙人。他目前主要负责产品战略、市场沟通及用户体验优化。
故事从去年10月26日说起,在那天,黄叔非常喜欢的Arc浏览器被创始人Josh Miller决定战略性放弃,开始开发新的AI Agent浏览器Dia: 同一天,HideCloud和Peak刚从武汉飞回北京,落地后,HideCloud震惊的发现,打开手机刷的第一条推特就是上面这条,因为,此前的两天,他们在武汉决定了终止AI浏览器的研发工作,莫名其妙的中美两只团队在同一刻达成了共识。