┊文章閱讀:次
【編者按】AI時代正在到來,人機交互的形態(tài)也將隨之革新。伴隨著百度語音、視覺、自然語言處理、知識圖譜等百度AI技術(shù)落地輸入法,“全感官”的輸入變成現(xiàn)實。百度輸入法AI探索版是百度AI落地應(yīng)用的又一重要成果,全語音交互是它最大的特點之一。全語音交互對于語音識別準確率要求極高,百度推出全語音交互輸入法的信心,還來自于百度領(lǐng)先業(yè)界的語音技術(shù),語音技術(shù)創(chuàng)新正在帶動交互變革。
當我們討論AI的時候,常常會將注意力放在人類未來、城市發(fā)展、經(jīng)濟動能等等宏大敘事上,卻往往忽略了很多日常細節(jié)中AI帶來的變化。比如,輸入法。
輸入法早已充斥在我們生活的每一個角落,如同一雙虛擬的手,為每一個人延展出恢弘多彩的網(wǎng)絡(luò)世界。
而輸入法所連接的每一條評論、每一次對話、每一段博文,都或多或少有著可以被AI所改變的地方。
在今天看來,更好的智能輸入法,意味著更清晰的用戶剪影,更順滑的使用體驗,也意味著更多流量和交互入口,正在技術(shù)帝國中發(fā)揮越來越重要的作用。
如今,各大輸入法廠商都在暗自發(fā)力,希望掌握更強大的智能輸入技術(shù)。今天剛剛亮相的百度輸入法AI探索版,就把全語音引入了輸入法,讓我們看到了一場值得思考的輸入法技術(shù)進階感官實驗。
新渴求與新方向:網(wǎng)上沖浪注定投入AI的懷抱?
在探討百度輸入法AI探索版之前,有必要先梳理一下,AI對輸入法的改變到底能在哪些維度進行滲透。
比如我們能感受到,輸入法行業(yè)之怪現(xiàn)象,就是我們能在網(wǎng)上沖浪的各個環(huán)節(jié)看到輸入法工作的身影,而且每個頭部產(chǎn)品的用戶體量都不小,可仔細一想,卻集體面目模糊,很少有明顯的差異化,更不用提讓人產(chǎn)生改變世界的興奮感。
這樣一個超級流量入口,在渠道成本持續(xù)增長的今天,是廠商們必須努力刷出存在感的必爭之地。不能再依靠用戶慣性混吃等死,但那些長期存在于全行業(yè)的問題并不能以常規(guī)方式克服:
比如文本輸入,存在著輸入效率低、詞匯聯(lián)想錯誤率高、功能個性化不足等種種問題,很難滿足用戶的體驗需求。尤其是在大量老年人、兒童、殘障人士涌入互聯(lián)網(wǎng)之后,文本輸入的弊端越來越清晰地顯現(xiàn)出來。
這種情況下,我們希望語音輸入承擔起更多的工具角色,卻又受困于識別準確率、NLP技術(shù)瓶頸的限制,需要投入很大的技術(shù)研發(fā)資源,決定了只能是少數(shù)硬核技術(shù)玩家的舞臺。
另外,網(wǎng)絡(luò)交互場景也前所未有地碎片化。比如兒童既有查閱資料的需求,也有游戲交流、視頻直播的需求,如何同時滿足不同人群多樣化的交互場景且穩(wěn)定可靠,非常有挑戰(zhàn)性。
總的來說,輸入法可以說是互聯(lián)網(wǎng)世界的一面鏡子,各種用戶各種需求的痛點和問題在這里被集中投射出來。那么要刷出存在感的路徑也就很清晰了,做出讓絕大多數(shù)人能夠無學習成本、多場景耦合的輸入法產(chǎn)品。
要做到這一點當然很難,但幸好技術(shù)的發(fā)展也帶來了很多命運的禮物,比如說——AI。
打造AI交互“樣板間”:聲情并茂的百度AI輸入法有何不同
死磕AI的百度,這次在輸入法上的體驗革命,堪稱決絕。最清晰地體現(xiàn)在,這是國內(nèi)首款默認全語音輸入的產(chǎn)品,并且把表情、肢體等互動與虛擬世界相連接,形成了一種顛覆式的交互方式。
在暢想中,用語音這種最為簡單、老少皆宜的方式進行輸入,無疑是學習門檻最低、群體包容性最高的方式。但在現(xiàn)實中,很少有廠商能夠如此大刀闊斧孤注一擲。
從這個角度來看,百度輸入法AI探索版,無疑為AI交互技術(shù)在輸入法領(lǐng)域的應(yīng)用打造了一個獨一無二的“樣板間”,讓AI的作用清晰地躍然眼前。
首先是語音技術(shù)上,百度的流式截斷多層注意力建模(SMLTA),解決了傳統(tǒng)Attention模型在識別中的時延性問題,成為網(wǎng)絡(luò)大規(guī)模在線語音實時交互的現(xiàn)實基礎(chǔ)支撐。百度輸入法在線語音準確率依然好于最優(yōu)競品15%。
而在一些網(wǎng)絡(luò)連續(xù)性不太強的地方,比如海外旅游、電梯地鐵隧道等離線場景中,百度持續(xù)優(yōu)化的Deep Peak 2系統(tǒng),也能實現(xiàn)精準的語音輸入,高于行業(yè)平均水平35%。
AI在語音方面的另外一個比較重要的能力,就是識別算法對語音特征的精準細分。基于此,百度輸入法AI探索版輕松carry中英文混雜、花式普通話、中英方言口音等障礙,大大降低了“五環(huán)外人口”網(wǎng)上沖浪的難度,成為目前唯一實現(xiàn)了高精度“中英自由說”和“方言自由說”的輸入法產(chǎn)品。
另一個AI帶來的突破,在于全感官的交互成為可能。網(wǎng)絡(luò)已經(jīng)成為復雜的社交功能載體,除了文字交流之外,還可能涉及直播、虛擬人像等新玩法。但在傳統(tǒng)輸入法中,這些需求幾乎很難被滿足。除了硬件上的諸多限制,更多需要人臉識別、圖像分割、神經(jīng)遷移一類的技術(shù)。百度就結(jié)合AI技術(shù),得到了新的解決方案,推出了拍立活、秀場、凌空手寫等新功能玩法。
比如可以讓寵物或偶像照片,結(jié)合用戶自己的動作做出相同的表情;或者是讓用戶自由穿越各種虛擬場景,打破次元壁;凌空手寫如同隔空打怪,在空中書寫也能被流暢識別,據(jù)說目前整體識別率已達到大規(guī)模應(yīng)用的要求,不失為一種新的裝逼神器。
AI在產(chǎn)業(yè)端登場之后,我們已經(jīng)見證了它在眾多領(lǐng)域提升效率的傳奇故事。從百度“第一個吃螃蟹”推行全語音的舉措來看,一旦沖破識別精度和語義理解的技術(shù)瓶頸,語音輸入就可以憑借絕佳的技術(shù)普適性,從“常年輔助”變成“最強王者”。而在這背后,AI作為勝負手,是毋庸置疑的。
不止于輸入法:AI崛起意味著什么
AI的能量正在將老人、外國人等人群無差別地引入自由輸入的暢快世界,可能是科技體現(xiàn)出人文溫度的瞬間,也是輸入法從工具屬性到AI連接點的自我進化。
而對于百度這樣將AI作為產(chǎn)業(yè)抓手的企業(yè)來說,輸入法也正在反哺AI,從三個角色改變技術(shù)的面貌:
1.最貼近大眾的技術(shù)抓手:截至2018年底,百度輸入法月活躍人數(shù)已達5億,語音日請求量峰值突破5.5億,AR表情使用次數(shù)超過1億。正是大眾行為的自發(fā)選擇,讓下一代輸入法的形態(tài)呼之欲出??緼I來協(xié)助提升輸入效率甚至革新社交方式,輸入法顯然是最好的AI技術(shù)輸出窗口和連接點。
2. 新交互技術(shù)的試驗田:在越多越多企業(yè)將人臉識別作為互動新想象力的時候,選擇輸入法作為AR、annimoji等CV技術(shù)的輸出窗口,顯然成為百度技術(shù)版圖中必不可少的重要補充。
3.海外市場的“春風化雨手”:出海對于大多數(shù)中國科技企業(yè)而言都是挑戰(zhàn),也是難題。而輸入法這樣的工具型產(chǎn)品,可以“潤物細無聲”地潛移默化,快速打入市場并輸出技術(shù)能力,同時更好地輸入和適應(yīng)不同文化的知識結(jié)構(gòu)。
比如百度輸入法AI探索版,其日文輸入法的語音識別精度目前位列行業(yè)第一,已經(jīng)成為日本最大的第三方輸入法產(chǎn)品;在印度市場的表現(xiàn)也很出色,語音功能的使用率達到21%。
在AI的加持下,還和Hello Kitty、小黃鴨、小王子、格林奇等全球100余個知名IP達成合作,推出了一系列IP皮膚和表情,讓本地化運營如虎添翼。
不難看出,利用AI實現(xiàn)輸入法的能力進擊,雖然只是一個產(chǎn)品方向的小切口,卻把錯綜復雜的技術(shù)升級、功能迭代和全球市場需求,帶到了有序的新方向上,不僅僅是一項增益技術(shù),更是產(chǎn)業(yè)掘金的必由之路。
Copyright @ 2013-2018 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。