5k星星!无GPU都能跑的「开源声音克隆工具」,646种语言,多系统支持一键安装
5k星星!无GPU都能跑的「开源声音克隆工具」,646种语言,多系统支持一键安装ElevenLabs的声音克隆和长文本音频生成质量确实很好,但也太贵了。
搜索
ElevenLabs的声音克隆和长文本音频生成质量确实很好,但也太贵了。
最近,谷歌的日子不太好过。
很多人以为,AI视频的终点是“生成一段让人惊艳的画面”。
a16z Speedrun SR006里有60家公司,57%做B2B。只有一家做Audio。我们和它的创始人Artin聊了45分钟,发现它踩中的东西比看起来大得多。SUN — AI-native audio learning, built around youAI让音频内容的生成成本暴跌80倍,但没有人把这件事变成一个主动为你服务的消费级学习产品
《读佳》获知,Soul推出AI语音创作平台“AudioFactory”,基于生成式人工智能模型技术为用户提供丰富、多样的AI功能服务,包括但不限于播客AI生成、语音生成合成、AI生成文案等,具体以播客生成、音色克隆等AI语音功能为主,或为其冲击港股IPO再添技术筹码。
阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景,在架构上引入Multi-Token Prediction(多Token预测)以提升推理效率,并通过扩展上下文窗口强化长内容识别能力。
想象一下:你打开浏览器,没有代码、没有 HTML、没有 CSS 布局引擎。屏幕上每一帧画面,都是 AI 模型实时生成的像素视频流。满满的科幻降临既视感!这就是 Zain Shah(前 OpenAI、YC 校友)和团队刚刚发布的 Flipbook 原型。
去年营收1.1亿的原生影视工作室Utopai火起来,又一次彻底刷屏!奥斯卡编剧下场背书,这家公司直接复刻了皮克斯的神话。从剧本到4K大片一键直出,AI视频刚刚完成了一次史诗级升级。
模思智能成立于2024年,位于上海徐汇区,由上海创智学院与复旦大学联合孵化,是国内少数完成“全模态基座模型能力闭环”的初创公司之一,致力于构建统一Token表达框架下的“情境智能”能力,推动Agent系统在真实世界中的自主交互与任务执行。
语音合成大家都不陌生,这两年市面上各种AI配音也层出不穷。