┊文章閱讀:次
? 作為全球優(yōu)秀科技青年的溝通橋梁,劍橋國際青年學(xué)術(shù)論壇圍繞人工智能、光電信息技術(shù)、新能源、生物醫(yī)藥等全球應(yīng)用廣闊的新興技術(shù)展開,邀請了英國皇家工程院院士David Cardwell、中科院外籍院士王中林以及來自哈佛大學(xué)、帝國理工、諾丁漢大學(xué)、清華大學(xué)等高校極具影響力的教授學(xué)者與學(xué)術(shù)代表匯聚一堂,共話技術(shù)革新,吸引全球數(shù)千名學(xué)者觀看討論。
近日,以“技術(shù)革新,十年可期”為主題的首屆劍橋國際青年學(xué)術(shù)論壇開幕。第四范式、華為、Google DeepMind作為僅有的三家AI企業(yè)代表,分享了AI領(lǐng)域最新的學(xué)術(shù)成果及前沿趨勢。其中,第四范式副總裁、主任科學(xué)家涂威威發(fā)表了題為Towards AI for Everyone的主題演講,并詳細介紹了第四范式在推動人工智能應(yīng)用普及過程中的思考與實踐。
涂威威觀察到,近年來,機器學(xué)習(xí)在推薦系統(tǒng)、在線廣告、金融市場分析、計算機視覺、語言學(xué)、生物信息學(xué)等領(lǐng)域都取得了成功。但其背后,頂尖的機器學(xué)習(xí)專家團隊參與了包括定義問題、收集數(shù)據(jù)、數(shù)據(jù)預(yù)處理、特征工程、選擇或設(shè)計模型架構(gòu)、調(diào)整模型超參數(shù)、性能評估等機器學(xué)習(xí)的所有階段。極高的技術(shù)門檻、人才匱乏、專家經(jīng)驗難以復(fù)制、高成本投入等因素成為阻礙AI在各領(lǐng)域落地的“絆腳石”。
為了推動機器學(xué)習(xí)技術(shù)在更廣泛的場景得以應(yīng)用,AutoML自動機器學(xué)習(xí)成為了學(xué)術(shù)界和工業(yè)界的研究重點。其目的是將機器學(xué)習(xí)過程自動化,以低門檻的形式實現(xiàn)AI構(gòu)建和應(yīng)用。而真正讓AutoML從學(xué)術(shù)走向應(yīng)用,解決真實業(yè)務(wù)場景需求,則需要從性能、效率等方面著手,提高模型精度與計算效率,降低計算成本,擴展AutoML應(yīng)用范圍。
目前,以Google為首的AutoML主要以非結(jié)構(gòu)化數(shù)據(jù)自動化技術(shù)為研究方向,覆蓋了語音、圖像、文本、NLP等領(lǐng)域。事實上,表數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)在AutoML應(yīng)用方面同樣具有廣闊應(yīng)用范圍,并帶來了極高的業(yè)務(wù)價值。且隨著業(yè)務(wù)需求的飛速發(fā)展與急速擴張,半結(jié)構(gòu)化數(shù)據(jù)異構(gòu)信息網(wǎng)絡(luò)、知識圖譜等也在AutoML技術(shù)探索應(yīng)用中占據(jù)一席之地。
現(xiàn)如今,AutoML算法層出不窮,AI頭部公司以及研究機構(gòu)都將其列為重要研究方向。第四范式已實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)自動特征組合、自動時序特征、自動半監(jiān)督學(xué)習(xí)等、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)AutoCV、AutoSpeech、AutoNLP等、自動決策優(yōu)化AutoRL、AutoDFO等的AutoML算法全覆蓋。然而,在實際落地中,算法只是其中一環(huán),解決業(yè)務(wù)問題,還面臨數(shù)據(jù)、模型應(yīng)用系統(tǒng)等諸多挑戰(zhàn)。以數(shù)據(jù)為例,僅依靠高質(zhì)量標注數(shù)據(jù)遠遠不夠,離線數(shù)據(jù)分析時數(shù)據(jù)不一致,也會極大影響算法效果。此外,AutoML技術(shù)在落地過程中還需進一步解決多目標優(yōu)化、可解釋性等問題。
在涂威威看來,人機結(jié)合的交互式AutoML能有效解決上述挑戰(zhàn),正在成為AutoML落地的新路徑。該理念采取人與機器協(xié)作的方式優(yōu)化目標與配置空間,各自負責(zé)擅長的領(lǐng)域,通過人的少量輔助提高AutoML在業(yè)務(wù)應(yīng)用的效果和落地效率。具體來說,企業(yè)業(yè)務(wù)人員基于業(yè)務(wù)經(jīng)驗定義問題,設(shè)定目標,使AutoML始終朝向效果提升的方向迭代。機器則負責(zé)計算,算出特定目標下的較優(yōu)配置選擇。這樣的組合可以使AutoML快速高效應(yīng)用于各業(yè)務(wù)場景中。
在計算效率方面,除了提升配置優(yōu)化算法效率以外,還需要在底層計算架構(gòu)上進行深度優(yōu)化,其原因在于目前主流計算框架如 Tensorflow、PyTorch 等只為單次機器學(xué)習(xí)模型訓(xùn)練優(yōu)化,而非針對AutoML重復(fù)迭代的計算方式所優(yōu)化,這影響了AutoML在主流計算框架的計算效率。第四范式則為AutoML設(shè)計了專屬的底層計算架構(gòu),對多次模型學(xué)習(xí)提供了配置評估和橫向、縱向的動態(tài)計算,同時在參數(shù)上探索共享計算,只用增加單次模型學(xué)習(xí)60左右的計算代價,就可獲得數(shù)十次的配置評估,極大提高了計算效率。此外,算法與底層硬件的深度融合同樣重要,需從在計算、存儲、網(wǎng)絡(luò)、調(diào)度等方面進行軟硬一體化設(shè)計,進一步降低AI算力投入。
通過持續(xù)不斷的研究和投入,第四范式已覆蓋了多方向的AutoML算法研究,并在效率、泛化性、動態(tài)環(huán)境AutoML、安全性、可解釋性等方面取得了突破。未來,第四范式還將從學(xué)術(shù)、應(yīng)用兩個角度出發(fā),在算法層面有更深層次研究的同時,更好地解決數(shù)據(jù)治理、模型應(yīng)用等AutoML上下游問題,推動技術(shù)在更多行業(yè)、更多場景中落地應(yīng)用。
Copyright @ 2013-2020 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。