7月12日消息,據(jù)媒體報道,微軟公司近期成功研發(fā)了一款名為VALL-E2的革命性AI語音生成技術(shù),該技術(shù)的問世標志著AI語音合成領域的一個重大突破。僅需短短三秒鐘的音頻樣本,VALL-E2便能以前所未有的精確度與自然度,復現(xiàn)出說話者的獨特聲線,其表現(xiàn)幾乎達到了以假亂真的人類水準。
科學家表示,這是AI語音首次達到人類水平,由于太過危險,無法向公眾發(fā)布。
鑒于當前AI語音詐騙案件頻發(fā),該技術(shù)若落入不法分子之手,可能加劇此類犯罪的風險,詐騙者能夠輕易克隆他人聲音,進行高度逼真的電話詐騙,誘導受害者進行財務交易,造成巨大經(jīng)濟損失。
與此同時,VALL-E2技術(shù)的快速發(fā)展也對傳統(tǒng)聲音演員行業(yè)構(gòu)成了挑戰(zhàn)。聲音演員們擔心,隨著AI語音合成技術(shù)的日益成熟,他們的聲音可能被輕易復制并用于各種場合,而他們所應得的經(jīng)濟補償卻難以得到合理保障,這無疑對他們的職業(yè)生涯構(gòu)成了潛在威脅。
盡管VALL-E2 AI語音生成器不會對公眾開放,但也證明了AI在這方面的技術(shù)進步,以及未來在合適的時候可以應用,包括教育學習、娛樂、新聞、聊天機器人等。
本文鏈接:http://morphism.cn/news41021.htmlAI語音首次達到人類水平 科學家:太過危險 無法向公眾發(fā)布