┊文章閱讀:次
2019年10月29日,閃馬智能正式入駐華為好望(HoloSens Store),成為首批算法合作伙伴之一。截止目前,雙方已經(jīng)在產(chǎn)品共研、市場應(yīng)用拓展等方面取得了令人滿意的成果。
在近半年的共同研發(fā)的過程中,閃馬智能的「算法研發(fā)核心驅(qū)動力」ATOM深度學(xué)習(xí)平臺發(fā)揮了至關(guān)重要的作用。3月25日,閃馬智能創(chuàng)始人兼CEO彭垚受邀來到2020年度華為HDC DevRun Live開發(fā)者沙龍,并作了《ATOM 深度學(xué)習(xí)平臺聯(lián)合華為Holo Sens 打造云邊端一體化交通城市治理異常行為分析》主題演講,獲得了萬余名在線觀眾的高度好評。
以下是現(xiàn)場錄像及文字實(shí)錄
分享內(nèi)容主要結(jié)構(gòu)如下:
1. ATOM深度學(xué)習(xí)平臺簡介
2. ATOM數(shù)據(jù)處理系統(tǒng)架構(gòu)
3. ATOM數(shù)據(jù)標(biāo)注系統(tǒng)的創(chuàng)新
4. ATOM深度學(xué)習(xí)平臺在閃馬AI業(yè)務(wù)生產(chǎn)平臺中的作用
ATOM深度學(xué)習(xí)平臺簡介
ATOM的歷史
大家知道我們閃馬智能前身是七牛的人工智能實(shí)驗(yàn)室。在16年的時候,ATOM前身是AVA深度學(xué)習(xí)平臺,這是我跟另一位閃馬創(chuàng)始人林亦寧博士兩個人在七牛云內(nèi)部人工智能實(shí)驗(yàn)室的一個項(xiàng)目。當(dāng)時我們就開始構(gòu)建AVA的深度學(xué)習(xí)平臺,那個時候主要是面向每天超過20億的視頻、圖像數(shù)據(jù),我們要去進(jìn)行數(shù)據(jù)的、視頻的、圖像的訓(xùn)練,那么多數(shù)據(jù)怎么做?肯定要想辦法去提升效率。
我們當(dāng)時也訓(xùn)練了很多的算法,包括參加全球的一些大型視頻分類比賽。這個過程中都會耗費(fèi)很多GPU資源。所以從16年開始,我就徒手開始去打造這么一個深度學(xué)習(xí)平臺,那個時候還叫AVA。19年我創(chuàng)立了閃馬智能,我們就把原先的AVA平臺重新升級成ATOM整體的深度學(xué)習(xí)平臺。這里面其實(shí)它跟業(yè)務(wù)環(huán)節(jié),整個的一個生產(chǎn)端到端的能力就實(shí)現(xiàn)了完整的閉環(huán),這是ATOM深度學(xué)習(xí)平臺的起源。
ATOM的能力全貌
ATOM深度學(xué)習(xí)平臺現(xiàn)有功能里面主要包括幾大塊,訓(xùn)練是整個ATOM平臺的一個核心組件。除了訓(xùn)練以外,它有很多基礎(chǔ)設(shè)施的支撐,包括存儲能力、資源管理能力、監(jiān)控能力,還有對深度學(xué)習(xí)框架的支持、資源Interface框架的支持。最后還有一些管理上的作用。比方說可以設(shè)置管理員、用戶這樣的整套平臺的框架。
發(fā)展了那么多年以后,ATOM平臺形成了目前的整體架構(gòu)。從最底層開始介紹,最底層的實(shí)際上是IaaS的一些硬件服務(wù),包括GPU服務(wù)器,以及一些網(wǎng)絡(luò)這樣的設(shè)備。第2層是虛擬化層,我們主要是去用容器的方式對整個計(jì)算實(shí)體,包括GPU的計(jì)算實(shí)體進(jìn)行了一些編排系統(tǒng),應(yīng)用的是Kubernetes的一套系統(tǒng)。再之上我們又有一套專門針對數(shù)據(jù)、資源的管理,包括塊存儲和對象存儲的管理。
如何提高整個訓(xùn)練性能呢?我們采用的是一套分布式的緩存系統(tǒng)。
因?yàn)闆]有分布式緩存系統(tǒng),使用者就需要從對象存儲和塊儲存里去讀取視頻圖像數(shù)據(jù),這就會造成更多的延遲,導(dǎo)致整個訓(xùn)練過程相當(dāng)耗時。因此,整體的訓(xùn)練調(diào)度過程就成為ATOM很核心的一些組件。在此之上,我們在19年又完成了比較重要的兩個模塊,就是對分布式的云存儲和云平臺的一個融合。這是什么意思?就是說我們原來可能只能在一個機(jī)房,或者說一個云,比如華為云或者是阿里云中的一家云平臺的基礎(chǔ)上去做。今年我們實(shí)現(xiàn)了跨云平臺,其中有包括有華為云、阿里云、滴滴云、七牛云這樣一個跨多平臺的融合系統(tǒng)。
最后,再上層我們有4個應(yīng)用系統(tǒng),標(biāo)注系統(tǒng)、數(shù)據(jù)集管理系統(tǒng)、訓(xùn)練管理系統(tǒng),以及模型管理系統(tǒng)。
使用ATOM深度學(xué)習(xí)平臺的訓(xùn)練流程
ATOM平臺的整個訓(xùn)練流程如圖所示。首先算法工程師先到ATOM平臺上開始編寫程序,開發(fā)整套的模型。有了模型以后,我們就會去調(diào)整模型的一些參數(shù)偏差。加載完參數(shù)以后,我們就會分配到一些GPU資源,這些資源會掛載一些算法鏡像,就可以開始自動訓(xùn)練。
到了一定條件以后,任務(wù)完成。ATOM平臺會自動化地完成模型驗(yàn)證,之后,就可以自動發(fā)布。根據(jù)效果的反饋和新的數(shù)據(jù)來源,我們在發(fā)布后可以對這個模型進(jìn)行再次的研發(fā)。所以這是一個閉環(huán)的學(xué)習(xí)、開發(fā)、調(diào)整的過程。
ATOM數(shù)據(jù)處理系統(tǒng)架構(gòu)
數(shù)據(jù)處理系統(tǒng)是ATOM里面整個計(jì)算系統(tǒng)的一個基礎(chǔ)設(shè)施和核心,包含了幾大塊功能,一是整個數(shù)據(jù)處理系統(tǒng)可以兼容一些云平臺基礎(chǔ)設(shè)施的管理,包括一些基礎(chǔ)的數(shù)據(jù)處理的管理、上傳下載數(shù)據(jù)、數(shù)據(jù)同步等。另外數(shù)據(jù)在跨計(jì)算中心的存儲中,我們可以實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理和數(shù)據(jù)集的管理,這些是我們對數(shù)據(jù)處理的基礎(chǔ)能力。
在數(shù)據(jù)處理能力之上,我們有整套的作業(yè)系統(tǒng)。這些作業(yè)系統(tǒng)可以幫助我們?nèi)ネ瓿梢粋€個任務(wù),包括像圖片的過濾,及對圖片進(jìn)行標(biāo)注。
再上層是一些業(yè)務(wù)系統(tǒng)在閃馬的作業(yè)棧當(dāng)中,其中包括了深度訓(xùn)練的作業(yè)。因?yàn)槊總€深度訓(xùn)練的作業(yè)都有自己的一些退出條件,當(dāng)觸發(fā)這些條件后,就會自動從計(jì)算設(shè)計(jì)中退出。當(dāng)然我們也會面臨各種各樣的業(yè)務(wù)場景,比方對海量數(shù)據(jù)進(jìn)行認(rèn)知識別,都是通過整個ATOM的數(shù)據(jù)處理系統(tǒng)去進(jìn)行支撐的?,F(xiàn)在我們整體的數(shù)據(jù)處理系統(tǒng)全部都是部署在云端,可以看到我們跟華為云的對象存儲有深度的應(yīng)用合作。
ATOM數(shù)據(jù)標(biāo)注系統(tǒng)的創(chuàng)新
數(shù)據(jù)處理、訓(xùn)練系統(tǒng)之外,標(biāo)注系統(tǒng)也是非常核心的一個模塊,因?yàn)闃?biāo)注是一個比較復(fù)雜的過程,需要完成很多的任務(wù)。
比如對新員工的培訓(xùn)、上崗認(rèn)證,需要要去做一些考試系統(tǒng)。比如做機(jī)動車類別的識別,有哪些種類的車,然后我讓標(biāo)注人員進(jìn)行標(biāo)注,標(biāo)注完成以后系統(tǒng)會自動給他打分。達(dá)到一定標(biāo)準(zhǔn)后才可以上崗。還可以有師徒的關(guān)系,師父角色可以每天去檢查徒弟的作業(yè)情況,可以及時向徒弟反饋?zhàn)鳂I(yè)做得好或者不好,就可以看到他標(biāo)注能力的成長。另外就是質(zhì)量管理,標(biāo)注得如果特別好,我們就可以從系統(tǒng)上反映出來,并提供相應(yīng)的獎勵。我們系統(tǒng)支持很多種的質(zhì)量管理,包括一些Cross review,然后再加領(lǐng)導(dǎo)review的這種機(jī)制,保證質(zhì)量最高標(biāo)準(zhǔn)。此外,我們的平臺也支持外部標(biāo)注機(jī)構(gòu)和人員一同參與。
標(biāo)注系統(tǒng)在整個ATOM平臺流程中位于數(shù)據(jù)處理和清洗之后。標(biāo)注完成后我們就開始進(jìn)行審核和發(fā)布,再進(jìn)行訓(xùn)練一體化的過程。我們整個標(biāo)注系統(tǒng)也全是在云端,包括公有云私有云,結(jié)合閃馬的業(yè)務(wù)生產(chǎn)平臺后,就形成了整個閃馬的云邊端生產(chǎn)的完整閉環(huán)。
ATOM深度學(xué)習(xí)平臺在閃馬AI業(yè)務(wù)生產(chǎn)平臺中的作用
ATOM平臺實(shí)際上就是我們像工廠的生產(chǎn)線一樣,也是一個完整的閉環(huán)。主要分為以下幾步:
1.源數(shù)據(jù)的管理
2.標(biāo)注系統(tǒng)
3.數(shù)據(jù)集的維護(hù)、管理、清洗
4.模型訓(xùn)練
5.模型評估與優(yōu)化
6.模型上線
7.效果反饋
8.持續(xù)迭代
9.數(shù)字列表
ATOM的最大優(yōu)勢主要有三點(diǎn)。
首先從數(shù)據(jù)標(biāo)注來看,支持多種數(shù)據(jù)采集的能力,包括國標(biāo)攝像頭、VR、或者是一些標(biāo)準(zhǔn)的協(xié)議。第二可以支持公有云上的多云部署、更可以一鍵部署、擴(kuò)容或縮容。第三能夠支持多平臺多型號的GPU芯片計(jì)算實(shí)體。
ATOM的訓(xùn)練評估也可以做各種各樣的Interface,整個模型管理是統(tǒng)一化的。在我們平臺上其實(shí)有超過幾百種的模型,天天在ATOM平臺上進(jìn)行再次的訓(xùn)練、評估這么一個過程。模型Transfer模塊實(shí)際上是我們一個核心的技術(shù)模塊,我們叫Tron平臺。它能夠提升整個推理過程中的性能讓硬件可以去適配,像邊緣計(jì)算盒子、華為軟件定義攝像頭等。
在去年安博會上,閃馬就成了華為Holosens Store的首批合作伙伴。然后我們跟華為實(shí)際上是有很多方面的一些合作,主要是圍繞ATOM整個平臺的訓(xùn)練。訓(xùn)練完成后,就可以生成各行各業(yè)的一些模型,例如交通、物流、環(huán)保,金融生產(chǎn)等方面。后續(xù)這些模型都將會陸續(xù)上線到華為的Holosens Store 上,再部署到華為SDC攝像頭或者是IVS的整個視頻的智能計(jì)算平臺上,服務(wù)各行各業(yè)。
如果有對ATOM平臺感興趣的同學(xué),歡迎上知乎找我多多交流。
Copyright @ 2013-2020 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。