(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=38832317
此评论强调,之前创建令人信服的合成声音的尝试已经存在多年,但由于准确性和真实性的限制,没有一个获得广泛普及。 然而,人工智能和机器学习的进步使我们更接近实现真实的会话语音合成。
声音克隆可以证明有用的领域之一是对于受言语障碍影响的个人。 通过重新创造他们的自然声音,他们可以拥有更大的自主权和沟通能力。
此外,在专业游戏或视频制作等领域,该技术可以提供一种经济实惠的解决方案,通过后期制作技术来提高音频质量。 这对于以前仅依赖自然录音设备的小型制作来说尤其有价值,而这种设备的成本可能过高。
此外,根据地区口音或方言定制虚拟助理声音,可以为当地受众提供独特的体验。
然而,该领域的进步所提供的易于访问和简单使用引起了人们对其促进欺诈活动(例如语音网络钓鱼或身份盗窃)的能力的担忧。 因此,它强调了在探索语音克隆带来的机会时解决与安全和验证过程相关的问题的重要性。
总之,利用语音克隆的影响和结果涉及各个领域,包括个人表达、创造性努力、个性化选项和社会考虑——既有巨大的希望,也有取决于应用程序和部署策略的相关影响。
Audio sample: https://storage.googleapis.com/dalle-party/sample.mp3
Cloned voice (converted to mp3): https://storage.googleapis.com/dalle-party/output_en_default...
All I did was install the packages with pip and then run "demo_part1.ipynb" with my audio sample plugged in. Ran almost instantly on my laptop 3070 Ti / 8GB. (Also, I admit to not reading the paper, I just ran the code)
reply