Meta公布AI語音模型 支持4000種語言
世界上許多語言正面臨消失的危機(jī),而現(xiàn)有的語言辨識與生成技術(shù)上的限制更加快此趨勢。Meta今天發(fā)布新聞稿指出,Meta發(fā)表一系列的AI模型,希望幫助用戶以自己習(xí)慣的語言,更輕松獲取信息及使用電子裝置。
本文引用地址:http://www.ex-cimer.com/article/202305/446999.htmMeta表示,公司研發(fā)的大規(guī)模多語言語音(Massively Multilingual Speech,簡稱MMS)模型,擴(kuò)展文字轉(zhuǎn)語音及語音轉(zhuǎn)文字技術(shù)的應(yīng)用范圍,從最初的100種語言,至今已可轉(zhuǎn)換超過1100種語言,超越過去的10倍。還能辨識超過4000種口語語言,是過去的40倍。
應(yīng)用案例方面,從VR(虛擬現(xiàn)實(shí))、AR(擴(kuò)增實(shí)境)至訊息服務(wù),不僅能使用偏好語言操作,更可理解每個人的聲音。
Meta指出,將開源這項(xiàng)技術(shù)的原始碼及模型,讓研究社群能夠以現(xiàn)有的工作成果為基礎(chǔ)繼續(xù)開發(fā),一同保存全球的語言,并拉近人們間的距離。
過去最大型的語音數(shù)據(jù)庫最多僅涵蓋100種語言,因此開發(fā)此技術(shù)所面臨的第一個挑戰(zhàn)即為「搜集數(shù)千種語言的語音訓(xùn)練數(shù)據(jù)」。為了克服這項(xiàng)挑戰(zhàn),Meta使用已翻譯成多種語言、譯文已被廣泛閱讀及研究的宗教經(jīng)典,例如「圣經(jīng)」,作為語言的文字訓(xùn)練數(shù)據(jù)。
Meta表示,圣經(jīng)譯文有多種語言的公開錄音文件,作為大型多語言語音模型計(jì)劃的一部分,Meta創(chuàng)造的數(shù)據(jù)集,搜集超過1100種語言的「新約圣經(jīng)」有聲讀物數(shù)據(jù)集,平均為每種語言提供32小時的語音訓(xùn)練數(shù)據(jù),后續(xù)又加入其他未標(biāo)注的基督教有聲讀物后,可用的語言訓(xùn)練數(shù)據(jù)已涵蓋超過4000種語言。
Meta強(qiáng)調(diào),將持續(xù)擴(kuò)增大規(guī)模多語言語音模型的涵蓋范圍,以支持更多語言的轉(zhuǎn)換及辨識,并努力克服現(xiàn)有語音技術(shù)難以處理方言的挑戰(zhàn)。
評論