另外,傳統的多說話人TTS方法比較難控制合成出來的聲音與目標聲音的相似度,我們在傳統的多說話人TTS結構的基礎上,在輸出端額外內嵌一個聲紋網路,把合成輸出的頻譜特徵的聲紋深度編碼特徵提取出來,然後要求輸出端和輸入的目標說話人編碼需要保持高度...