鄉音是一個地方的名片,說一句家鄉話就能展顯我漢文化的博大精深。然而,現在不少流動人口家庭,為了更好的生活不斷使自己融入當地。他們的下一代,接受通用的普通話教育,偶爾學幾句父母輩的話,并沒有真正意義地掌握方言。由此看來,方言的未來不容樂觀。在吳語區,一些網友指出最發達的上海話也變得越來越“塑料”。出于促進人類語言大互動和保護方言的雙重使命,訊飛輸入法開始嘗試用人工智能助力鄉音表達。

由于歷史和地理的原因,中國漢語方言分布大概有7大方言語系,其中6大方言多集中在中國東南部。根據調研,國際語言文化組織已確認吳語為嚴重瀕危語言,并把吳語放入國際瀕危語言列表。現實情況是,作為吳語中最發達的上海話已經存在了嚴重的傳承斷層。說到底,方言背后是一種文化。如果那么多方言都消失的話,我們的語言顯得太單薄了。保存上海話,除了在鄉野草莽間通過口耳傳播之外,科大訊飛首家通過人機耦合的智能語音方式進行“語言復制”,從而有望記錄下所承載的文化,亦有其不可替代的作用。

不久前,訊飛輸入法主辦的“方保文化沙龍”除了展示蘇州方言語音識別技術之外,還帶來了上海話合成的成果。科大訊飛多語種研究院高級研究員祖漪清介紹,科大訊飛A.I.技術不但可以分析方言的孤立音節和孤立詞匯,還可對連續話語進行建模,實現對一個語言的完整“復制”。即完全忠實記錄語言,包括實現目標方言的語音合成系統、語音識別系統以及向主流語言的翻譯系統。

在研究中發現,作為機器學習的數據量嚴重不足,真正能標準朗讀的發音人少之又少,使得上海話語音的采集工作極為艱難,所以必須依靠全社會的支持。2015年,訊飛輸入法上線了上海話語音識別,與上海話用戶建立有效連接。2017年訊飛輸入法面向大眾發起“方言保護計劃”,邀請全民參與共建“中國方言庫”。至此,科大訊飛利用統一的文本分析框架,深耕語言和語音的研究,加速方言合成。通過海量的上海話語音數據,完成吳語上海話系統完整的語言復制,包括語音結構、語言結構、語言翻譯,有條件的實現了上海話的永久留存。

雖然上海話的傳承遠不如粵語、四川話等等,但A.I.已經挽回上海話流失的局面。如今,機器已經能夠操著一口流利的上海話,發音清晰、自然、親切,具有高表現力。在方保沙龍現場,業界專家、方保組織及愛好者一起聆聽了上海話的合成效果,讓人感受到未來方言語音合成的無限可能性。
截至目前,只實現吳語完整復制的階段性勝利,更難的是復制逐漸式微的蘇州話。蘇州話與普通話相比,其發音相差甚遠。同時,蘇州話還有很多特征詞、俚語和特殊的語言現象。即使在蘇州話內部,也有新派、老派之分,城區、郊區不同地域的蘇州話也是有所差異,構建蘇州話的語音識別系統是較難、較復雜的。這表明蘇州話正逐漸消失,這使得研究人員在收集蘇州話的相關資源、采集和制作訓練數據上面臨了更大的困難。

日前,訊飛輸入法發起“A.I.蘇州方言保護計劃”,呼吁熱愛蘇州話、懂蘇州話的人參與其中。研究人員將針對性地在蘇州地區方言采集語料,加速蘇州話語音識別率的提升,實現蘇州話的語音合成,最終達到蘇州話的完整復制,從而傳承蘇州方言文化。在人工智能發展浪潮中,科大訊飛的技術研究既注重全球視野,也不忘民族特色,讓人機溝通從“可用”變得更加“好用”,力爭在語音與語言核心處理技術上不斷突破,為大規模產業化做好準備。