最新新闻:

WellSaid为更高质量的合成语音吸引了1000万美元的融资

时间:2021-07-11 19:41:56来源:

WellSaid Labs 的工具可以创建可能被误认为是真实事物的合成语音,它已经筹集了 1000 万美元的 A 轮融资以发展业务。该公司自制的文本转语音引擎的工作速度比实时快,可以生成几乎任何长度的听起来自然的剪辑,从快速片段到长达数小时的阅读。

WellSaid 于 2019 年从艾伦人工智能研究所孵化器出来,其目标是为培训和营销内容等常见商业目的制作听起来不太机器人的合成声音。

它首先通过基于 Tacotron 的解决方案实现了这一目标,Tacotron 是由谷歌和学术研究人员开发的语音引擎。但很快它就建立了自己的更高效、更令人信服的声音并可以制作任意长度的剪辑。语音引擎通常会在几句话后跳闸,变得含糊不清或语气不稳,但 WellSaid读完了玛丽雪莱的“弗兰肯斯坦”,没有打嗝。

声音足够好,以至于他们被听众评为人类或与人类一样好——当他们说的不仅仅是几个词时,你真的不能说普通的虚拟助理嫌疑人。不仅如此,语音生成速度比实时快得多,其他高质量选项通常以十分之一实时或更慢的速度运行——这意味着 WellSaid 生成三分钟的语音需要一分钟,半小时或更长时间通过 Tacotron。

最后,该系统允许根据现有的语音人才创建新的“语音头像”,例如值得信赖的公司发言人或配音艺术家。最初需要大约 20 小时的音频来构建他们的怪癖和声音风格的模型,但现在只需两个小时即可完成,首席执行官马特霍金说。

该公司目前严格以业务为中心,也就是说没有面向用户的应用程序可以将您的声音数字化为头像或任何东西。有随之而来的风险,并且没有现实的商业模式,所以现在不在讨论范围内。

如此逼真的声音可能仍然对残疾人有巨大帮助,然而,霍金承认但承认他们还没有准备好应对这一问题。

“我们致力于扩大对这项技术的使用,以便非语言传播者、非营利组织和其他人可以从中受益,”他说。

与此同时,该公司已从其第一个市场、企业培训视频扩展到营销、更长的副本、具有大量文本和应用程序体验的交互式产品。人们希望这些化身所基于的才能因帮助创建他们声音的数字图像而得到适当的补偿。

超额认购的 1000 万美元轮次由 FUSE 牵头,重复投资者 Voyager、Qualcomm Ventures LLC 和 GoodFriends 参与其中,他们都可能对产品和业务增长印象深刻。合成声音已为少数流行用例提供服务,但内容并不是很大——因此还有很大的增长空间。该公司将投资于深化其产品供应并随之壮大团队。

声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。

图文推荐

热点排行

精彩文章

热门推荐