正在閱讀:

少說三個字母,成了Siri近十年最大升級

掃一掃下載界面新聞APP

少說三個字母,成了Siri近十年最大升級

技術(shù)上很簡單,也可以很復(fù)雜。

文|雷科技  

大家平時有使用手機(jī)語音助手的習(xí)慣嗎?

作為人工智能技術(shù)在我們?nèi)粘I钪凶钪庇^的應(yīng)用,手機(jī)的智能語音助手卻總是以一副“人工智障”的面孔出現(xiàn)在大家身邊。無論是外來的Alexa、Google Assistant、Siri還是國內(nèi)的小愛、小度,由于其智能程度和真正的“人類”還差很長一段距離,這也導(dǎo)致我們能在網(wǎng)上找到許多“戲?!闭Z音助手,讓它進(jìn)入死鎖不斷循環(huán)的有趣場面。

而蘋果的Siri,毫無疑問就是“人工智障”中的“佼佼者”。

對于Siri的“智能”程度,一句話來概括就是“甚至還不如聯(lián)通的語音機(jī)器人”,畢竟即使是聯(lián)通的機(jī)器客服,也只會在聽到“機(jī)器人”這個關(guān)鍵詞后播放語音回復(fù),而蘋果的Siri可是能在成語接龍中被“為所欲為”自己進(jìn)入無限循環(huán)的存在。

不過從工作原理來說,Siri能有這樣的“人工智障”表現(xiàn)其實(shí)也說得過去:Siri是目前手機(jī)語音助手中為數(shù)不多的可以選擇不向蘋果分享數(shù)據(jù)、甚至可以只在設(shè)備本地運(yùn)行的語音助手。這些對用戶信息的隱私處理讓Siri成為了可能是“發(fā)展最慢”的語音助手——Siri的第一個初始版本誕生于2011年10月,誕生至今已經(jīng)超越10年。但在部分冠軍愛你功能上,Siri能實(shí)現(xiàn)的甚至還不如一些國內(nèi)公司的“后起之輩”。

不過對于廣大Siri用戶來說,未來使用Siri的體驗(yàn)有望踏上一個全新的臺階,因?yàn)镾iri終于要迎來一個“史詩級”的升級:

以后使用Siri時,不再需要喊“Hey Siri”了,直接喊Siri就可以了。

取消喚醒詞有多難?

說實(shí)話,取消“Hey”直接“Siri”并不能從根本解決Siri不好用這個問題,無論你怎么縮減Siri的喚醒詞,Siri能實(shí)現(xiàn)的功能依舊只有這么點(diǎn):你依然沒辦法用一句話讓Siri控制兩個不同的智能家電,也不能阻止Siri用網(wǎng)頁搜索的結(jié)果回復(fù)你提出的復(fù)雜問題,更不能像Google Assistant或小愛同學(xué)那樣幫你自動接電話。

但從技術(shù)層面來看,取消“Hey”直接“Siri”背后的技術(shù)挑戰(zhàn)其實(shí)并不簡單。

可能有人認(rèn)為取消“Hey”背后沒什么單獨(dú),甚至有效降低了Siri識別用戶語音所消耗的時間。如果我們只是簡單把“Hey”從喚醒詞中移除,那確實(shí)很簡單。但在此之前,我們還需要考慮另一個問題:如何保證用戶是真的需要喚醒語音助手?不能理解?那我們就要從語音助手喚醒詞背后的選擇條件開始說起了。怎樣的短語才是一個“好的”語音喚醒詞?從產(chǎn)品的角度來看,除了便于傳播之外我們還要考慮兩個從一定程度上互斥的因素:容易觸發(fā)和不容易誤觸。

我們先說第一個“容易觸發(fā)”的問題,顧名思義,語音助手的喚醒詞一定要容易觸發(fā),具體來說就是這個喚醒詞必須好讀、不容易讀錯,同時也不能太長,最好讓用戶可以在一句話里一口氣說完喚醒詞和語音指令。

但另一方面,喚醒詞也不能太短,更不能是日常生活中的高頻常用詞。試想一下如果Siri的觸發(fā)詞時“Hey”,那高頻誤觸只會讓Siri變得更加難用。更重要的是觸發(fā)詞必須具有“排他性”,即當(dāng)用戶說出“觸發(fā)詞”時,用戶想且只想觸發(fā)語音助手。亞馬遜的Alexa就是語音助手在誤觸這方面的典型代表:

由于亞馬遜語音助手Alexa名字過于大眾,且智能設(shè)備的觸發(fā)靈敏度過高,這些設(shè)備會對日常生活中所有的“Alexa”做出響應(yīng),甚至?xí)浑娪半娨晞≈邪珹lexa的臺詞喚醒。這也是從喚醒詞中去掉“Hey”背后的技術(shù)難點(diǎn):修改喚醒詞很容易,但在縮短喚醒詞后避免語音助手誤觸,這并不簡單。

智能的邊界在哪里?

當(dāng)然有人認(rèn)為語音助手誤觸無所謂,畢竟誤觸也就手機(jī)上的事,把懸浮球劃掉不就好了。但事實(shí)并非如此,語音助手觸發(fā)詞背后其實(shí)還藏著更長遠(yuǎn)的問題:智能助手的邊界應(yīng)該在哪里?

在各企業(yè)的設(shè)想中,智能助手就像是一個貼心的“管家”,這一點(diǎn)在智能家居品牌中尤為常見:作為用戶的我們只要一開口,家里的電器就會自動工作。如果大家有見過TikTok上關(guān)于“智能生活”的設(shè)想,一定對這種生活“有所耳聞”。

但實(shí)際上,還需要依靠語音交互的智能家居已經(jīng)是智能家居2.0時代的“過時產(chǎn)物”了,在智能家居3.0中,智能助手不再需要你的語音指令,就可以在幕后“觀察”用戶的狀態(tài)并

“主動出擊”調(diào)整智能家居的設(shè)置。在智能家居體系中,這個特性叫“無感化”,即用戶不需要給出實(shí)質(zhì)性指令(語音、文字或機(jī)械開關(guān)),智能家居系統(tǒng)就會根據(jù)用戶的實(shí)際狀況主動響應(yīng)。

在技術(shù)成熟的情況下,一個優(yōu)秀的智能家居系統(tǒng)能主動識別用戶的真實(shí)場景。但對部分關(guān)注個人隱私的用戶來說,這種時刻被機(jī)器、算法甚至屏幕背后的人觀察的生活卻一刻都不能忍受。這種體驗(yàn)從好的方面看叫“無感化”,但從另一面看,這仿佛就在“黑鏡”中生活,是魚缸中的“人類生活觀察樣本”。

以此次話題中心的Hey Siri為例:既然我們可以只用Siri來喚醒Siri,那這至少意味著兩件事:

1. 手機(jī)時時刻刻在錄音,以響應(yīng)我的語音喚醒;

2. 手機(jī)在錄音后還會經(jīng)過處理,明白我說的話是什么意思,知道我什么時候想喚醒Siri,什么時候只是說話時提到。

而與其他智能助手不同的是,Siri在這里保持著高度的“克制”,即使Siri能做到剛剛提到的兩件事,但設(shè)備端處理的機(jī)制保證錄音數(shù)據(jù)只會保存在手機(jī)本地,不會上傳到其他服務(wù)器中(飛行模式可以證明這一點(diǎn));另外本地數(shù)據(jù)也在硬件加密設(shè)備中保存。

但從iPhone 4S的長按觸發(fā)Siri到后來的語音觸發(fā)Siri,再到手表的“抬腕”喚醒以及未來的“免Hey直接Siri”,可以預(yù)見的是智能語音助手必將進(jìn)一步朝著“無感化”進(jìn)發(fā)。至于未來的語音助手還能不能把持住功能與隱私之間的界限,以及絕大多數(shù)用戶究竟擔(dān)不擔(dān)心自己被“大數(shù)據(jù)”,之前魅族的“三零手機(jī)”的市場回應(yīng)已經(jīng)給了我們的答案。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

少說三個字母,成了Siri近十年最大升級

技術(shù)上很簡單,也可以很復(fù)雜。

文|雷科技  

大家平時有使用手機(jī)語音助手的習(xí)慣嗎?

作為人工智能技術(shù)在我們?nèi)粘I钪凶钪庇^的應(yīng)用,手機(jī)的智能語音助手卻總是以一副“人工智障”的面孔出現(xiàn)在大家身邊。無論是外來的Alexa、Google Assistant、Siri還是國內(nèi)的小愛、小度,由于其智能程度和真正的“人類”還差很長一段距離,這也導(dǎo)致我們能在網(wǎng)上找到許多“戲?!闭Z音助手,讓它進(jìn)入死鎖不斷循環(huán)的有趣場面。

而蘋果的Siri,毫無疑問就是“人工智障”中的“佼佼者”。

對于Siri的“智能”程度,一句話來概括就是“甚至還不如聯(lián)通的語音機(jī)器人”,畢竟即使是聯(lián)通的機(jī)器客服,也只會在聽到“機(jī)器人”這個關(guān)鍵詞后播放語音回復(fù),而蘋果的Siri可是能在成語接龍中被“為所欲為”自己進(jìn)入無限循環(huán)的存在。

不過從工作原理來說,Siri能有這樣的“人工智障”表現(xiàn)其實(shí)也說得過去:Siri是目前手機(jī)語音助手中為數(shù)不多的可以選擇不向蘋果分享數(shù)據(jù)、甚至可以只在設(shè)備本地運(yùn)行的語音助手。這些對用戶信息的隱私處理讓Siri成為了可能是“發(fā)展最慢”的語音助手——Siri的第一個初始版本誕生于2011年10月,誕生至今已經(jīng)超越10年。但在部分冠軍愛你功能上,Siri能實(shí)現(xiàn)的甚至還不如一些國內(nèi)公司的“后起之輩”。

不過對于廣大Siri用戶來說,未來使用Siri的體驗(yàn)有望踏上一個全新的臺階,因?yàn)镾iri終于要迎來一個“史詩級”的升級:

以后使用Siri時,不再需要喊“Hey Siri”了,直接喊Siri就可以了。

取消喚醒詞有多難?

說實(shí)話,取消“Hey”直接“Siri”并不能從根本解決Siri不好用這個問題,無論你怎么縮減Siri的喚醒詞,Siri能實(shí)現(xiàn)的功能依舊只有這么點(diǎn):你依然沒辦法用一句話讓Siri控制兩個不同的智能家電,也不能阻止Siri用網(wǎng)頁搜索的結(jié)果回復(fù)你提出的復(fù)雜問題,更不能像Google Assistant或小愛同學(xué)那樣幫你自動接電話。

但從技術(shù)層面來看,取消“Hey”直接“Siri”背后的技術(shù)挑戰(zhàn)其實(shí)并不簡單。

可能有人認(rèn)為取消“Hey”背后沒什么單獨(dú),甚至有效降低了Siri識別用戶語音所消耗的時間。如果我們只是簡單把“Hey”從喚醒詞中移除,那確實(shí)很簡單。但在此之前,我們還需要考慮另一個問題:如何保證用戶是真的需要喚醒語音助手?不能理解?那我們就要從語音助手喚醒詞背后的選擇條件開始說起了。怎樣的短語才是一個“好的”語音喚醒詞?從產(chǎn)品的角度來看,除了便于傳播之外我們還要考慮兩個從一定程度上互斥的因素:容易觸發(fā)和不容易誤觸。

我們先說第一個“容易觸發(fā)”的問題,顧名思義,語音助手的喚醒詞一定要容易觸發(fā),具體來說就是這個喚醒詞必須好讀、不容易讀錯,同時也不能太長,最好讓用戶可以在一句話里一口氣說完喚醒詞和語音指令。

但另一方面,喚醒詞也不能太短,更不能是日常生活中的高頻常用詞。試想一下如果Siri的觸發(fā)詞時“Hey”,那高頻誤觸只會讓Siri變得更加難用。更重要的是觸發(fā)詞必須具有“排他性”,即當(dāng)用戶說出“觸發(fā)詞”時,用戶想且只想觸發(fā)語音助手。亞馬遜的Alexa就是語音助手在誤觸這方面的典型代表:

由于亞馬遜語音助手Alexa名字過于大眾,且智能設(shè)備的觸發(fā)靈敏度過高,這些設(shè)備會對日常生活中所有的“Alexa”做出響應(yīng),甚至?xí)浑娪半娨晞≈邪珹lexa的臺詞喚醒。這也是從喚醒詞中去掉“Hey”背后的技術(shù)難點(diǎn):修改喚醒詞很容易,但在縮短喚醒詞后避免語音助手誤觸,這并不簡單。

智能的邊界在哪里?

當(dāng)然有人認(rèn)為語音助手誤觸無所謂,畢竟誤觸也就手機(jī)上的事,把懸浮球劃掉不就好了。但事實(shí)并非如此,語音助手觸發(fā)詞背后其實(shí)還藏著更長遠(yuǎn)的問題:智能助手的邊界應(yīng)該在哪里?

在各企業(yè)的設(shè)想中,智能助手就像是一個貼心的“管家”,這一點(diǎn)在智能家居品牌中尤為常見:作為用戶的我們只要一開口,家里的電器就會自動工作。如果大家有見過TikTok上關(guān)于“智能生活”的設(shè)想,一定對這種生活“有所耳聞”。

但實(shí)際上,還需要依靠語音交互的智能家居已經(jīng)是智能家居2.0時代的“過時產(chǎn)物”了,在智能家居3.0中,智能助手不再需要你的語音指令,就可以在幕后“觀察”用戶的狀態(tài)并

“主動出擊”調(diào)整智能家居的設(shè)置。在智能家居體系中,這個特性叫“無感化”,即用戶不需要給出實(shí)質(zhì)性指令(語音、文字或機(jī)械開關(guān)),智能家居系統(tǒng)就會根據(jù)用戶的實(shí)際狀況主動響應(yīng)。

在技術(shù)成熟的情況下,一個優(yōu)秀的智能家居系統(tǒng)能主動識別用戶的真實(shí)場景。但對部分關(guān)注個人隱私的用戶來說,這種時刻被機(jī)器、算法甚至屏幕背后的人觀察的生活卻一刻都不能忍受。這種體驗(yàn)從好的方面看叫“無感化”,但從另一面看,這仿佛就在“黑鏡”中生活,是魚缸中的“人類生活觀察樣本”。

以此次話題中心的Hey Siri為例:既然我們可以只用Siri來喚醒Siri,那這至少意味著兩件事:

1. 手機(jī)時時刻刻在錄音,以響應(yīng)我的語音喚醒;

2. 手機(jī)在錄音后還會經(jīng)過處理,明白我說的話是什么意思,知道我什么時候想喚醒Siri,什么時候只是說話時提到。

而與其他智能助手不同的是,Siri在這里保持著高度的“克制”,即使Siri能做到剛剛提到的兩件事,但設(shè)備端處理的機(jī)制保證錄音數(shù)據(jù)只會保存在手機(jī)本地,不會上傳到其他服務(wù)器中(飛行模式可以證明這一點(diǎn));另外本地數(shù)據(jù)也在硬件加密設(shè)備中保存。

但從iPhone 4S的長按觸發(fā)Siri到后來的語音觸發(fā)Siri,再到手表的“抬腕”喚醒以及未來的“免Hey直接Siri”,可以預(yù)見的是智能語音助手必將進(jìn)一步朝著“無感化”進(jìn)發(fā)。至于未來的語音助手還能不能把持住功能與隱私之間的界限,以及絕大多數(shù)用戶究竟擔(dān)不擔(dān)心自己被“大數(shù)據(jù)”,之前魅族的“三零手機(jī)”的市場回應(yīng)已經(jīng)給了我們的答案。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。