生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」
生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。
本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。
2024 年,AI 音乐生成产品 Suno 的成绩很亮眼。
前谷歌 CEO Eric Schmidt 在不久前与华盛顿邮报专栏作者 Bina Venkataraman 的对话中透露了对中美科技竞争以及 AI 发展的最新观点。
pentagramdesign (五角设计公司)是全球知名的创意设计公司,最近该公司使用 AI工具Midjourney ,创作了1000个图标,引发了外网设计师群体的吐槽。
在数字化浪潮席卷全球的今天,数据已成为企业最宝贵的资产之一。如何从海量数据中提取有价值的信息,转化为决策支持,是每个企业都在积极探索的问题。
近日,《Mechanical System and Signal Processing》(MSSP)在线发表刊登北航 PHM 团队最新研究成果:基于大语言模型的轴承故障诊断框架(LLM-based Framework for Bearing Fault Diagnosis)。
半小时内,两大巨头前后脚放出两大重磅更新,AI视频真是卷疯了!Runway放出生图模型Frames,一键让你拥有特定风格的世界。Luma则把文字、图像、视频全融合,只用自然交互就让脑海中画面成真。
不管是编写和调试代码,还是通过函数调用来使用外部工具,又或是控制机器人,都免不了需要 LLM 生成结构化数据,也就是遵循某个特定格式(如 JSON、SQL 等)的数据。 但使用上下文无关语法(CFG)来进行约束解码的方法并不高效。针对这个困难,陈天奇团队提出了一种新的解决方案:XGrammar。
如今,人们选择餐厅,多半会打开app搜索一番,再看看排名。然而美国奥斯汀的一家餐厅Ethos,社交媒体instagram宣称它是当地排名第一,拥有7万余粉丝。但这家看起来很靠谱的餐厅根本不存在,食物和场地的照片都由人工智能生成。可它家发布在社媒上的帖子却得到了数千名不知情者的点赞和评论。大模型通过视觉形式误导公众认知,这样的例子在今天比比皆是。
新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦!