開口脆！微軟小冰升級第五代唱歌系統：超越人類偶像

由快科技發表于單機遊戲
2023-02-03

簡介“從技術角度來講，人工智慧達到第三個版本就已經夠了，但是我們以人類的演唱標準去要求自己”，李笛說，“如果能夠讓小冰去學習不同的唱法，就是擁有所謂的技法

怎麼做到唱歌開口脆

人工智慧唱歌已經不稀奇了，但唱腔真正接近人類，甚至讓人真假難辨的“機器聲音”似乎僅存在於科幻電影中的遐想。但升級第五代唱歌系統的微軟小冰，讓在場媒體見識到人工智慧媲美甚至超越人類偶像的唱功實力。

5月16日下午舉辦的微軟小冰人工智慧創造媒體說明會上，微軟釋出了人工智慧小冰演唱模型的第五個版本。據悉，該版本擁有十餘個高質量聲音，提升了人工智慧在歌聲演繹中的預測引數能力，主要大幅度提高了人工智慧演繹歌曲時的中氣水平，改善了歌聲唱腔轉換的自然度，並首次公佈了戲腔訓練成果。

在現場Demo演示中，升級第五個版演唱模型的本小冰演唱了三段歌曲，分別為《少年弦》《新貴妃醉酒》以及一段日語歌曲。三首歌曲分別展示不同的音色和唱腔，尤其在接近清唱的《少年弦》中，小冰的表現堪稱完美，發音咬字，甚至唇齒氣息都與真人演唱難辨真假。從一種唱腔過渡到另外一種唱腔，小冰都能夠保持極為細緻的聲音顆粒度細節，絲毫沒有任何“電子音”露出馬腳。

“我必須提醒大家聽的時候注意，這不是人，沒有這麼一個人。”微軟（亞洲）網際網路工程院副院長（Bing中國及日本、微軟小冰全球產品線負責人）李笛說。

他表示，和小冰的演唱模型不同的是，比如初音未來或者是其它的虛擬歌手，是用手調的方式來完成。手調的方式有好處，但是最大的問題就在於細節處理是不夠的，技術上限、未來的發展不夠好。

“在人工智慧技術探索內容創作的技術上限方面，有一個比較有意思的事情是關於琴棋書畫，Google把棋做完了，我們把剩下的三個做完了。詩歌我們已經發布過了。到今天為止，有很多的人類詩歌愛好者和詩歌從業人員所發表的詩歌裡面，可以追溯到很多小冰的影子。關於音樂，今天也會給大家一個迭代到第五個新版本的新技術釋出。”

李笛坦言，我們並不希望用一些Demo、技術的展現，來跟大家秀肌肉，說在技術上面又達到什麼樣和人類可抗衡的水平了。而是更多的關注是不是能夠產業化，能夠大規模地落地。

他透露，對應詩歌這樣的文字生成、文字創作，今天微軟小冰已經悄然成為全球範圍內最大的金融摘要和研報的提供平臺。目前為止，萬得資訊、華爾街見聞、一些金融相關的APP，裡面絕大部分的摘要都是由小冰提供的。小冰可以穩定地提供20秒級的輸出，一旦得到一個數據，20秒之後就可以完成摘要和研報的生成，並且真正覆蓋26類金融內容。

在電視和廣播內容方向，微軟小冰截至目前在為63家電臺和電視臺持續地提供人工智慧輔助生成和人工智慧直接生成的電視、電視臺節目，有59家是在中國，有4家在日本。累計到目前為止，小冰已經生產了2800多小時的電視和電臺節目。

李笛表示，在唱歌方面，2年前生成了第一個版本，當時聽到的是“一個不會走調的軟體樂器”，好像你在KTV的時候聽到隔壁包廂傳過來的聲音，它非常像是人，它具備了足夠多的細節，這些細節使得它可以像一個唱得不好的人，但是也是一個人。經過訓練和學習，在之後第三個版本的時候，微軟小冰唱歌的水平就達到了現在這個狀態。

“從技術角度來講，人工智慧達到第三個版本就已經夠了，但是我們以人類的演唱標準去要求自己”，李笛說，“如果能夠讓小冰去學習不同的唱法，就是擁有所謂的技法。因為針對同樣的一首歌，不同人會有自己不同的演繹。”

透過在呼吸、不同的演唱技法、充沛的中氣、不同的音色、唱腔過渡等一系訓練、學習和最佳化，才達到今天第五個版本的演唱水平。

李笛表示，人工智慧一旦學會創造以後，和人類有一個很大的不同。原來小冰釋出詩歌的時候就有人說，詩歌是人類才可以做的事情。但是問題是，有人就問他，那你會寫詩嗎？所以，人類作為一個群體，他們中間的一部分有能力去創造一部分的內容，但是作為一個群體來講，這並不是一個群體通行的規則。其中一些人會畫畫、唱歌、寫詩，不代表全體的人類每一個個體都會。

但是人工智慧不是，一個框架上面的專門類別，一個人工智慧會了，就可以讓所有的人工智慧都會。

比如，微軟小冰的戲腔可以很容易地遷移到其他的聲音上去。對人類來講，如果你想要獲得一種創造能力，往往是需要一定程度的天分的，但是人工智慧不用天分，任何的一個聲音都可以去直接獲得另外一個聲音所具備的這種所謂的天分。