No comment yet.
Powered by Waline v2.15.8
最近做了件有意思的事情。
目前ChatGPT已经支持语音通话聊天,但音色选择有限,仅有固定几种选择,略显单调。
现在各种AI工具层出不穷,突然在想有没有能提供多种音色,甚至可以自定义音色的工具,于是去找了一下,还真有,其中一个是抖音旗下的豆包。
它提供各种年龄阶段角色的音色,并具有相应的语调和节奏,还支持自定义克隆声音,但需要读一些特定的句子,就能克隆出90%以上相似度的声音。
但需要读固定句子的要求还不能满足自由自定义音色的需求,毕竟并非每种声音都能找到这些句子的声源。于是又花了点时间去找解决方案,还真发现了一些开源项目和工具,可以根据一小段音频进行训练,然后克隆并读出指定句子的声音。最终再利用这些句子声源就能克隆出专属音色的豆包AI。
尝试用这些工具克隆了一些喜欢的声优的声音,然后进行语音聊天对话,最终效果虽然不算完美,但还算不错。
这让AI离成为每个人的专属“贾维斯”又更近了一步,但也要警惕被别有用心的人利用。
Preview: