Meta 的开源语音 AI 可识别 4000 多种口语
Meta 开发了一种 AI 语言模型,它不是 ChatGPT 的复制品。 该公司的大规模多语言语音项目 (MMS) 可以识别 4,000 多种口语,并生成 1,100 多种语音。 Meta 与大多数公开宣布的 AI 项目一样,开源 MMS 以保持语言多样性并鼓励研究人员在其基础上继续发展。 该公司表示,“今天我们公开分享我们的代码和模型,以便其他研究人员可以在我们的工作基础上继续发展。”通过这项工作,我们希望为保护全球令人惊叹的语言多样性做出一点贡献 。
语音识别和文本转语音模型需要数千小时的带有转录标签的录音。 标签对于机器学习至关重要,因为它们允许算法正确地对数据进行分类并“理解”。 梅塔表示,对于工业化国家中尚未广泛使用的语言(其中许多可能在未来几十年内消失),“这些数据并不存在。”
Meta 采用了一种新颖的方法来收集音频数据。 它利用了已翻译的宗教文本的录音。 该公司解释说,他们使用圣经等宗教文本,这些文本已被翻译成多种语言。 这些翻译对于基于文本的翻译研究进行了深入研究。 该公司表示,这些翻译有人们用不同语言阅读文本的录音。
来源和详细信息:
https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html
