Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界今日份炸弹又来了!深夜,Stability AI放出了Stable Diffusion 3.0,它采用了和爆火Sora同样的DiT架构,画面质量、文字渲染、复杂对象理解大提升,Midjourney、DALL-E 3都显得黯然失色了。
今日份炸弹又来了!深夜,Stability AI放出了Stable Diffusion 3.0,它采用了和爆火Sora同样的DiT架构,画面质量、文字渲染、复杂对象理解大提升,Midjourney、DALL-E 3都显得黯然失色了。
Sora表现强大的3点关键原因,以及我们作为普通人,应该如何面对新技术带来的冲击?
单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这一难题的下一代虚拟人技术。它旨在从单张图片中重建出目标人的三维化身 (3D Avatar)
今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的一篇关于零阶优化深度学习框架的文章 ,本文被 ICLR 2024 接收,代码已开源。
谷歌推出Gemini大规模商业化,将其聊天机器人Bard改名为Gemini,并推出Gemini的Android版App。谷歌还将Gemini的能力加入iOS的Google App中,并免费向公众开放。Gemini还可替代原来的Google Assistant成为手机的默认语言助手。
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT,一种在掩码生成序列建模方法。
AI绘画王者Midjourney,开始进军硬件领域!它家已经从苹果挖来Vision Pro工程师担任主管,官方秘而不宣,但消息不胫而走。
最近,来自Meta和UC伯克利的研究人员,发布了一种最新的音频到人像模型。操作简单,输出极致逼真。
Stable Diffusion是一个生成式AI模型,简单点来说就是一个会画画的AI,当你输入一个关键词后,它就能创作出一个相关的图像。
加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《Language models for quantum simulation》 的 Perspective 文章,强调了语言模型在构建量子计算机方面所做出的贡献,并讨论了它们在量子优势竞争中的未来角色。