┊文章閱讀:次
眾所周知,人工智能目前的快速發(fā)展得益于深度學習的興起,但在具體應用上,深度學習主要在模式識別(感知智能)中獲得成功,同時從智能機理研究上, 腦科學也逐漸跟人工智能深度融合。人工智能領域,正在由感知智能的初步成功,慢慢走向百花齊放。
近期,由中科院自動化研究所主辦的“人工智能:技術創(chuàng)新與社會影響”百千萬人才工程創(chuàng)新大講堂成功舉辦,論壇從技術前沿到產(chǎn)業(yè)熱點、人類倫理到社會變革為主線探討了人工智能。
也借此采訪了中科院自動化研究所副所長劉成林,作為將模式識別、深度學習等研究方法應用于文字識別等領域的大家,劉成林重新闡釋了人工智能方興未艾之時,人臉識別、文字識別等典型模式識別問題的研究難點和重點。
人臉識別、文字識別背后的方法,模式識別是什么?
模式識別是什么?作為人工智能的一個重要方向,模式識別的主要任務是模擬人的感知能力,如通過視覺和聽覺信息去識別理解環(huán)境,又被稱為“機器感知”或“智能感知”。
人們在觀察事物或現(xiàn)象的時候,常常要尋找它與其他事物或現(xiàn)象的不同之處,并根據(jù)一定目的把相似、但又細節(jié)不同的事物或現(xiàn)象組成一類。字符識別就是一個典型的例子,如數(shù)字“4”可以有各種寫法,但都屬于同一類別。人腦具有很強的模式識別和推廣能力,即使對于某種不同寫法的“4”,以前雖未見過,也能把它分到“4”所屬的這一類別。人腦的這種對模式(事物、現(xiàn)象等)進行歸類和分類的能力,就是模式識別,也就是感知能力。
隨著20世紀40年代電子計算機出現(xiàn),50年代人工智能興起,模式識別在20世紀60年代初迅速發(fā)展成為一門新學科。21世紀以來,模式識別又逐漸與深度學習融合。近年來,深度學習和大數(shù)據(jù)的出現(xiàn)推動了模式識別的快速發(fā)展。
對此,劉成林解釋道,“模式識別是一個智能任務,是人工智能的一種形式。機器學習,包括深度學習是模式識別背后的基本方法,通過學習(訓練)使機器具備識別模式的能力。當前,用深度學習的方法來實現(xiàn)模式識別,能更好的解決問題?!?/span>
深度學習作為機器學習的一種,是對生物神經(jīng)網(wǎng)絡結構和信息處理機制的簡單模擬。人工神經(jīng)網(wǎng)絡早在上世紀40年代就有人研究,50年代和80年代都曾產(chǎn)生較大的影響。近年來,隨著計算能力的提升,可以訓練層數(shù)較多的神經(jīng)網(wǎng)絡(稱為深度神經(jīng)網(wǎng)絡)來提升數(shù)據(jù)擬合和識別能力,有的甚至達到了1000多層。深度學習一般就是指利用深度神經(jīng)網(wǎng)絡來進行學習。
復雜條件下,人臉識別正確率不到50%
得益于深度學習,目前人臉識別和文字識別都是人工智能領域應用比較成功的方向,可以算是模式識別借助深度學習形成的研究成果。
但劉成林認為,目前人臉識別、文字識別雖然已應用得較為廣泛,但還不能算“應用得很好”。
人臉識別目前應用得比較成熟的是門禁、通關等領域,原因在于被識別的對象能主動配合,距離攝像頭較近,能拍攝到比較清楚的圖像。很多廠商在用戶配合、光照可控的場景下人臉識別正確率能達到99%以上。但在更加復雜的情況下,如在室外光照不均、距離遠、人臉視角多變情況下,用監(jiān)控攝像頭進行人臉識別,識別正確率就會明顯降低。
目前在計算機前端加入AI模塊,只能起輔助作用,復雜條件下的人臉識別依舊難以達到成熟應用的程度。劉成林表示,室外自然光照條件下,“人臉識別正確率還達不到50%”。
文字識別領域也是如此。文字識別目前主要應用在書籍和報紙等的數(shù)字化上。報紙、金融機構、保險機構以及快遞行業(yè)的的大量單據(jù),都需要電子化后才能方便檢索、管理和進行大數(shù)據(jù)分析。司法界推行智能法務,辦案的文書(有印刷體,也有手寫體)需要電子化。醫(yī)院的病例、教育領域的作業(yè)題、考試答卷等,也都有很大的電子化需求。
同人臉識別一樣,圖像清晰度和光照等問題也是文字識別的一大難點。平板掃描儀由于光照均勻,對紙質材料掃描得到的圖像清晰度高,文字識別率較高。而拍照圖片的識別率則會降低,室外自然場景圖片中的文字檢測和識別更是當今研究的熱點和難點問題。
對抗學習、腦科學并肩,加速AI進程
要克服人臉識別中低分辨率和光照的問題,深度學習也存在局限,而運用對抗學習的方法來處理圖像則能提高其清晰度或生成更多樣本。
什么是對抗學習?對抗學習是一種很新的機器學習方法,由加拿大學者Ian Goodfellow首先提出。對抗學習實現(xiàn)的方法,是讓兩個網(wǎng)絡相互競爭對抗,“玩一個游戲”。其中一個是生成器網(wǎng)絡,它不斷捕捉訓練庫里真實圖片的概率分布,將輸入的隨機噪聲轉變成新的樣本(也就是假數(shù)據(jù))。另一個是判別器網(wǎng)絡,它可以同時觀察真實和假造的數(shù)據(jù),判斷這個數(shù)據(jù)到底是不是真的。通過反復對抗,生成器和判別器的能力都會不斷增強,直到達成一個平衡,最后生成器可生成高質量的、以假亂真的圖片。
文字識別領域要解決的問題,除了上文提到的拍照圖片、以及手寫筆跡的識別,小樣本條件下的文字識別,如古籍的識別也是一大挑戰(zhàn),因為用于訓練的標記樣本不足,深度學習難以取得較高的識別率。
小樣本泛化性、自適應性、可解釋性、魯棒性是當前以深度學習為主的模式識別技術的主要局限所在,而這些恰恰是人腦的長處。因此,模式識別可以從腦科學和神經(jīng)科學上尋找新的借鑒,發(fā)展新的類人感知和認知機理的模式識別學習理論與方法。
以泛化能力為例,在訓練樣本較少時,可以設計與人的記憶方式類似的模型進行訓練,使機器記住文字的結構和關鍵特征,如構成文字的筆畫、組合和關系。這種模型叫“生成模型”,可以記住每一類模式的關鍵特征及分布,并能生成數(shù)據(jù),如生成滿足一類文字基本結構、細節(jié)不同的手寫字。生成模型也具有很好的解釋性,在識別模式的同時能解釋這個模式是由哪幾部分構成的,幾部分之間是什么關系。
模式識別、深度學習、對抗學習、腦科學……越來越多的人工智能研究路徑進入了我們的視野。而對于人工智能發(fā)展的未來,劉成林也認為,深度學習依然會是人工智能研究的主流,但對抗學習、腦科學、認知科學等的理論方法,都會與其進行融合,共同推進人工智能的發(fā)展。
Copyright @ 2013-2018 中國福建網(wǎng) 版權所有
聯(lián)系我們
免責聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權益構成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。