AI模仿人声工具问世,2秒定制“我的声音”效果如何?

来源:劳动观察 作者:陈宁 发布时间:2024-04-10 16:08

摘要: 克隆声音,正在变得越来越容易。

克隆声音,正在变得越来越容易。近日,全球知名人工智能研究机构Open AI发布了一款人工智能语音引擎:Voice Engine。仅通过单个15秒的音频样本和文本输入,便能生成与原始说话者声音高度相似的自然语音。无独有偶,国内头部科技企业阿里、百度也先后上线了与AI语音相关的开源大模型,以及在AI产品中嵌入相关功能。这意味着,继文本、视频后,生成式AI迎来语音赛道的新发展阶段。


“喂”音频和文本,15秒复刻人类原声


近日,Open AI在官网上首次公开展示了其最新研发的语音生成模型——Voice Engine。这一系统可以从15秒的音频样本中生成与原始说话者声音高度相似的自然语言语音。也就是说,如果你上传一段自己的录音和一段文字,这款语音引擎就可以使用听起来和你声音一样的合成声音。


此外,语音引擎“复制”出来的声音不仅能朗读原始说话者的母语文字,它还能用西班牙语、法语、汉语等多种语言“重现”原始说话者的声音。


Open AI的语音引擎不是行业内唯一在AI语音领域的研究,微软也在拟人语音方面颇有建树。2023年初,微软也曾宣布推出了一款名为VALL-E的全新文本转语音人工智能模型,可以基于仅有3秒钟的语音样本,生成几近真实的人类声音。微软将VALL-E称为“神经编解码器语言模型”,它根据文本输入和目标说话者的短样本生成音频。


记者在网上搜索到两段微软官方最近发布的中文语音样本,音频中的“说话者”字正腔圆,没有一点杂音,像播音主持专业毕业生坐在录音棚聊天,咬字、语气、笑声、停顿都非常像真人,听起来确实非常自然。


2秒实现定制,但功能太有限


虽然目前Open AI和微软的语音模型正处于小规模预览阶段,仅与精心挑选的合作伙伴共同推进试点应用,普通用户接触AI声音定制似乎存在距离。但国内已有两款AI软件能支持普通用户,通过手机、电脑等常见录音设备“训练”出自己的AI声音。


其中就包括目前用户数已超过1亿的“文心一言”。记者通过测试发现,操作确实简单,基本符合官方宣传的“2秒生成自己的AI声音”。


图为“文心一言“截图


只需打开App,点击下方“+”号,就可以进入到智能体的创建界面。点击“创建我的声音”,系统要求记者用自然的语气朗读给出的70字左右的文字,随后“我的声音”就正式创建成功。值得注意的是,系统在录制前会对环境音进行短暂的识别,确认噪声符合录制要求后,才正式进入录制环节。


不过,最终录制的音色方面,记者本人认为相似度并不高,并不能如网上所传“差点以为是自己在说话”。而且情绪和语气的表现也差强人意。特别是“智能体”整体语速稍慢,且“机械化”迹象明显,因此更难与录制者本人声音产生联系。


同样是个性化声音定制服务,阿里通义实验室提供的服务则需要用户录制20句话,用于定制自己的AI声音,但记者体验下来,整体效果与文心一言相差不大,效果上依旧存在瓶颈。不过,这也是由于此类“快餐式创建AI声音”输入和训练的素材不够导致的。


AI语音还需“谨慎”发布


无论是全球领先的Open AI,还是国内百度、阿里、科大讯飞等头部科技企业,大模型、应用等相继问世也标志着AI在语音合成领域正在大跨步前进。不过,通过AI“复制”出的声音也正在带来一定的安全隐患。


Open AI称,他们非常担心这种技术还可能被错用来破解在线银行账户和其他个人应用程序的语音认证。Open AI产品经理杰夫·哈里斯表示:“这是一件敏感的事情,重要的是要把它做好。”目前,Open AI正在探索对合成声音加上水印或加强管控的方法。


尽管顶尖科研机构仍在探索,用技术手段替AI语音加上“安全枷锁”,但目前已有针对个人买家的相关“克隆声音”服务面世。记者以“AI克隆声音”“AI视频生成”等为关键词在电商平台搜索,出现不少提供相关服务的商家。有些提供专业的声音定制模型,价格需要几百元到数千元不等。有些则直接出售相关教程,部分价格低至9.8元。商家表示,这类教程适合于对AI这类工具感兴趣的人,并且愿意学习和摸索。


近几年,随着AI合成技术日益发展,一些不法分子也开始利用这一技术手段实施诈骗。据报道,最近多地出现的AI换脸诈骗案件,均具备定制性、迷惑性等特征。


不少业内专家表示,随着文生视频大模型Sora等多模态人工智能的探索和出现,人们可能陷入“眼见也不一定为实”的困局。在AI技术监管尚未完善之前,不管是在互联网上还是社交软件上,用户还是应该尽量避免过多地暴露自己的隐私信息。


头图来源:图虫

责任编辑:王卫朋
劳动观察新闻,未经授权不得转载
收藏

相关新闻

如何“面试”AI 2.0数字人?...

百度文心一言上线新功能,可快速定...

加码智适应大模型算法升级,松鼠A...

首页

顶部