跳至主要内容
1 分钟阅读 SCBX 解锁 AI

目录摘要来自SCBX解锁AI研讨会(EP1)的AI语音克隆和定位

สรุปเนื้อหา การโคลนเสียง AI และการแปลเป็นภาษาท้องถิ่น AI Voice Cloning & Localization จากงานสัมมนา SCBX Unlocking AI (EP1)

基调: AI 语音克隆和定位

议长: Dr. Winn Worawutkunchai,创始人兼首席执行官 BOTNOI 集团

事件: SCBX Unlocking AI EP1 , 泰国 AI 机会之路

协作:  SCBX 系列 Insiderly.ai  

场地: SCBX NextTech,暹罗百丽宫,4 楼

今天的 AI 有很多能力,不仅可以提出问题和突然获得答案。

但它也可以创建图像。您可以通过输入几个关键字来创建内容。

声音本身也是 AI 可以创造的东西,这听起来可能令人生畏,但如果积极使用它来帮助他人,它会带来很大的好处。

BOTNOI 是一位企业家,他使用 AI 创建语音、克隆或语音克隆来创造美好的事物。

BOTNOI集团的创始人兼首席执行官Wynn Worawutchai博士通过举安德鲁·吴(Andrew Ng)的例子介绍了语音克隆的发展,他是一位人工智能专家,他发现有人在LinkedIn上克隆了他的语音。AI 克隆了哪个声音?

因此,人们很难分辨哪个声音是真正的 Andrew Ng 的声音。

目前在一些网站上,例如: 泰语 PBS 通过提供“Read to Listen”服务更进一步,该服务克隆新闻主播的声音并按下以阅读新闻。它适合想要听声音而不是阅读文本的人。

BOTNOI 克隆了 ThaiPBS 的一名记者的声音,然后单击它以阅读网站上的新闻,就好像它真的在阅读这条新闻一样。

这个技巧很神奇,但 ThaiPBS 也受到了广泛的批评,因为即使它使用 BOTNOI 让 AI 阅读新闻,AI 仍然无法阅读缩写词,例如监察长,使人误读记者误读。

但它显示了声音的克隆是多么顺利,所以最后,我不得不包括一个免责声明,即这是 AI 生成的声音,而不是真正的播音员。防止误解

最后人类一直试图模仿自然,包括建造鸟形的飞机、老虎形的剑和刀。

一些过去有限制的事情,比如制造一辆不能自己驾驶的汽车,今天不再是可以为汽车创造一个大脑,然后在没有力的情况下自行驾驶的障碍。

BOTNOI 将这一概念应用于声音生成。它试图模仿人脑的结构,直到产生与现实相匹配的声音的输入输出方程。

Wynn 博士说,我们人类在 4 岁之前什么都记不起来。

他自己试图观察他的儿子如何与周围的声音互动。他在那个年龄学到的是,听母亲声音的孩子的大脑会试图将他们听到和看到的东西联系起来,这将是他应用于 Botnoi 作品的学习。

如果 BOTNOI 想要克隆某人的声音,它将让该人阅读大约 200 个文本句子,然后将他们的声音和文本导入系统供 AI 学习。

尽管早期实验的结果并没有得到好的声音。然而,当它得到改进时,质量会显着提高。

除了语音克隆,还有深度伪造,或者克隆一个人的语音克隆脸,可以模仿这个人的嘴巴动作。这个人可能也没有说这个词,这非常微妙。

BOTNOI 还开发了能够发出个人声音的技术说另一种语言,同时保持口音并保持自己的身份,这是值得骄傲和建立的基础。它可以用于电影配音。

如果技术进步很大,就有可能在好莱坞电影中为英雄配音。能够说泰语,同时保持自己的口音等。

我们发现的另一个案例研究是,在 COVID-19 大流行期间,小商店的销售额下降,因此吉百利发明了一种模式,利用著名的宝莱坞演员帮助为商店做广告以增加销售额。

发生的事情是,著名演员 Shah Rukh Khan 的声音被拿走了,让人们关注了很多。因为它可以修改声音并调整图像以使其在无限制地销售各种产品时具有特定性。

但是,我们也必须小心滥用的情况。尽管 Wynn 博士本人是创造者,但 Wynn 博士已被他人克隆以欺骗他人。

这已成为 BOTNOI 的教训。这会是什么样子?尤其是在呼叫中心帮派每天都猖獗的时代。

今天的预防可能仍然很困难,而且几乎没有有效的方法可以做到这一点。其中一种方法可能是将 AI 语音中的水印隐藏到人类听不到的频率,但也需要找到更流畅的方式。因为如果打算在骗局中使用语音的人已经能够删除频率并滥用它。

Wynn 博士希望所有相关机构或 AI 开发人员都能意识到这一点,并帮助以正确的方式使用克隆语音。同时尽可能填补犯罪空白。

图片信用 : SCBX 系列