設計工具 2023.06.22

語音生成工具

2023.06.22

文字轉語音生成（Text-to-Speech, TTS）已經是行之有年的技術，而隨著當代社會愈加繁忙，人們開始認識到聲音的潛在價值，而聽覺也逐漸成為了新一波的「聲音經濟」。從疫情時的Podcast、有聲書的受眾崛起，到現今電影解說、短影片的語音合成配音成為我們生活中的常態，我們對於人聲生成的要求不再僅僅是大眾運輸的到站廣播聲，更是要成為舒適的人機介面，如同富有情感的人般自然地向我們問候，或是順暢地朗讀文章，而這樣的要求相信也能在技術的發展線逐步被滿足。以下是一些著名的的TTS工具：

1.Microsoft TTS

Microsoft TTS的操作介面（圖片來源：Microsoft TTS網站）
Microsoft TTS網址
售價：前十二個月免費使用

Microsoft TTS是一個由微軟開發的語音生成工具，憑藉其龐大的語音庫和先進的深度學習技術，能夠線上直接生成高質量、自然流暢的語音。出於Microsoft 背後累積的巨量數據庫，除了某些冷門的語言竟然能進行TTS的轉換外，熱門的如英文、德文與法文也有不同的聲線可供選擇。

特別值得說明的是Microsoft TTS對於中文方面的語音庫有著良好的支持，對於繁體中文也有與中國各地的口音做出區分，還可以選擇女性聲音或男性聲音，音調與速度。介面也非常的簡單易操作，只需要將文本貼上即可在網站上即時轉換並下載。而作為一個商業化產品，Microsoft TTS是搭載於Microsoft Azure平台下的功能，只要有Microsoft的帳號便能擁有12個月的免費試用。

2.Bark TTS

Bark TTS hugging face的介面（圖片來源）
Bark TTS網址
售價：免費開源

Bark TTS是由 Suno 團隊開發的人工智能模型，除了基本的文字轉語音生成功能外，其最大的特色便是可以模擬出非語言溝通。所謂的非語言溝通也就是指人在傳達訊息時，除了語言文字以外，還能依靠如臉部表情、肢體語言或音調等來輔助說明語文的意旨。Bark TTS可以模擬有變化的音調與情感，甚至可以用文本指令使他做出如笑聲或清喉嚨的聲音，創造出有別於其他語音生成工具的生動感。目前Bark TTS的playground需要申請才可以使用，不然就需要從Github中下載至本地操作或是使用huggingface平台。

Bark TTS以不同傳統的TTS技術，向我們展示的完全生成的文本到音頻模型的未來。其並不追求語音的高清晰、錄音室等級的品質，相反地更像是語音版本的ChatGPT具有更高的變化輸出，甚至可以用A語言模型去說B語言來產生特有的口音。雖然目前還不穩定但是依然是一個語音生成的重要方向。

3.D-ID

D-ID的操作介面（圖片來源）
D-ID網址
售價：免費試用14天五分鐘—6～300美金／月

D-ID最初開發的專有產品是從圖片和影片中刪除關鍵生物識別數據，使機器無法辨認個人的生物識別數據，確保不法分子無法濫用圖像和視頻中包含的個人身份信息，是一種更為新型的防護手段。而由他們近期推出的新技術「Speaking Portraits」卻成為了這波AIGC的熱門應用，其因是只需要一張靜態頭像照片，透過輸入文字或是自錄的音檔便能像新聞主播一樣開口說話，甚至還會做頭部轉動與眨眼。而若是搭配其他圖像生成工具所生成的人像圖片，一個靈動的虛擬化身便出現在螢幕上，可應用的範圍十足，例如讓你曾祖父的照片動起來、廣播電臺的主持人、甚至是賦予聊天機器人形象等。

目前D-ID提供了多樣化的整合服務，包含了stable diffusion的人像生成、Microsoft TTS的語音生成等，可以在網站上面一條龍式生成化身。同時他目前也有與ChatGPT結合的chat.D-ID，可以為聊天內容提供實時的面部嘴型與表情，提供使用者更好地觀察複雜的信息。D-ID目前的收費標準為14天免費生成五分鐘的影片，而後續的收費標準從六美金到三百美金不等。

小結

透過這些語音生成工具人們可以產出具有吸引力和高質量的語音內容，例如廣播劇、podcast或是解說影片；其技術的快速性與適應性也為教育領域和感官不便的人士帶來更舒適的體驗。同時在如今注意力為金礦的趨勢下，企業也能依照需求打造貼切的品牌聲音，進一步提升品牌辨識度和消費者情感聯結。但近期Google所發佈的包含AudioLM或是SoundStorm也值得我們注意，該些技術利用短至三秒的人聲便可以頻擷取聲紋特徵並模擬該聲線，可能帶來語音偽造和聲音欺詐的風險，在未來我們更是需要加強相應的技術和法律監管。