揭祕:Siri是如何學會一門語言的?

ADVERTISEMENT

自從Siri面世後,市場上各種各樣的私人語音助手大量出現,其中比較出名的包括Google助手、Amazon Alexa以及微軟的小娜。這些語音助手都有各自的優勢,也存在不足。蘋果語音助手Siri的優勢就是本地化:Siri支援24種語言,並且還能支援36種方言。Google助手隻支援5種語言,Alexa僅僅支援英語和德語。

iOS 10.3測試版中,蘋果為Siri增加了上海話支援,繼續擴充套件Siri的本地化優勢。蘋果公司言語團隊主管Alex Acero最近接受了路透社採訪,並解釋了Siri如何學習一門全新的語言。

Acero目前在蘋果公司負責言語團隊,他在2013年加入蘋果。最初,Siri語音識別基於Nuance的技術,幾年前蘋果自主研發了語音平臺,並取代了Nuance的技術。蘋果的語音平臺很大程度上依靠機器學習來提高對詞語的理解。

當蘋果團隊想要為Siri增加新語言時,首先需要邀請能說新語言的真人閱讀不同的段落和單詞,並需要涵蓋不同的方言和口音。

真人說出的語音被其他人錄製和轉錄。這形成了語言的規範,以及單詞如何發聲。這些語音都有真實的人讀出,以確保準確性。然後將該原始訓練資料傳送到演算法機器訓練模型中。

ADVERTISEMENT

計算機語言模型試圖預測任意字串的轉錄。隨著時間的推移,演算法可以根據更多資料的訓練而自動改進。蘋果會在內部稍微調整一下資料,然後進入下一個階段。蘋果並沒有直接將語音與Siri整合,而是將新語言作為iOS和macOS的聽寫功能,當使用者點選iPhone鍵盤左下角的麥克風按鍵時,可以進行聽寫操作。通過這種方式,蘋果可以從更廣泛的人群中獲得更多的語音範例。

這些真實世界的音訊剪輯自然包括背景噪聲和非完美的語音,如咳嗽,停頓和口齒不清。蘋果將樣本採集並由員工轉錄,然後使用這種新驗證的音訊和文字配對作為語言模型的更多輸入資料。第二個過程可以將聽寫錯誤率降低一半。

蘋果會重複這個過程,直到公司認為系統足夠準確,隨後會作為Siri的新語言出現。與此同時,配音員會記錄語音序列,使Siri可以合成音訊並執行文字-語音。最後,蘋果會通過系統更新為Siri帶來新語言,比如iOS 10.3和macOS 10.12.4中新增加的上海話。蘋果會將一些常用的問題進行預設,比如給我講個笑話,查詢附近的餐館等。

Acero表示,當Siri新增加一種語言後,蘋果會收集真實世界使用者的問題,並每隔兩週更新一次資料庫。

» IT之家

ADVERTISEMENT