┊文章閱讀:次
近日,聯(lián)想大數(shù)據(jù)團(tuán)隊(duì)在全球知名的Kaggle數(shù)據(jù)科學(xué)競賽中,以優(yōu)異的表現(xiàn)在“網(wǎng)站流量預(yù)測”(Web Traffic Time Series Forecasting)競賽項(xiàng)目躋身前15名。該競賽云集了全球數(shù)據(jù)科學(xué)領(lǐng)域的眾多高手,獲得這一突破性的成績是對聯(lián)想大數(shù)據(jù)技團(tuán)隊(duì)技術(shù)與實(shí)踐能力的有力證明。
由Google贊助的Kaggle競賽致力于推動(dòng)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)的前沿發(fā)展,是該領(lǐng)域所有專業(yè)人士的試煉廠,考驗(yàn)數(shù)據(jù)相關(guān)理論知識在實(shí)踐中所需的各項(xiàng)能力。
此次聯(lián)想大數(shù)據(jù)團(tuán)隊(duì)參與的“網(wǎng)站流量預(yù)測”競賽項(xiàng)目重點(diǎn),是預(yù)測多個(gè)時(shí)間序列未來價(jià)值的問題,這一直是該領(lǐng)域最具挑戰(zhàn)性的問題之一。更具體地說,這個(gè)競賽項(xiàng)目的目標(biāo)是測試參與者所設(shè)計(jì)的最先進(jìn)的方法,預(yù)測約145000維基百科文章的未來網(wǎng)絡(luò)流量問題。
因此,聯(lián)想大數(shù)據(jù)團(tuán)隊(duì)面對的最大挑戰(zhàn)就是,網(wǎng)站數(shù)量和流量龐大,并且是關(guān)于不同主題、使用不同語言(中文、英文、德語、西班牙語、日語、法語)、又分為不同的瀏覽媒介(PC、手機(jī)等)和不同的瀏覽對象(人類、爬蟲)。這些復(fù)雜的組合使得這些網(wǎng)站的瀏覽量有著非常不同的表現(xiàn),極難通過單一的模型來刻畫,而由于數(shù)量過多,分別建模又不可行;不僅如此,需要預(yù)測未來60天每天的流覽量,時(shí)間距離遠(yuǎn)且單位小。
針對這一挑戰(zhàn),聯(lián)想大數(shù)據(jù)團(tuán)隊(duì)積極備戰(zhàn)近兩個(gè)月時(shí)間,最終拿出的方案是準(zhǔn)備多個(gè)不同的模型,在模型選取過程中加入一些自適應(yīng)性,即根據(jù)不同模型在歷史數(shù)據(jù)上的表現(xiàn)、數(shù)據(jù)的分布特征,時(shí)間距離讓算法自行選擇最優(yōu)模型,并且這些模型有著不同的側(cè)重點(diǎn),比如有的更注意周期性,有的更注意近期的局部表現(xiàn),將這些模型進(jìn)行集成。
最終,這一思路和方案得到了認(rèn)可,在該競賽項(xiàng)目中獲得第12名的好成績,取得歷史性突破。展望未來,這一技術(shù)突破有望運(yùn)用于供應(yīng)鏈管理(如產(chǎn)品銷量預(yù)測等),或者其他的時(shí)間序列預(yù)測類場景,能夠發(fā)揮重要的業(yè)務(wù)價(jià)值。
聯(lián)想大數(shù)據(jù)獲獎(jiǎng)團(tuán)隊(duì)成員表示:“很高興能夠在這一國際數(shù)據(jù)賽事中取得好成績,并得到業(yè)界的認(rèn)可。大家以絕不服輸?shù)木?,把專注、?yán)謹(jǐn)和精湛的專業(yè)素質(zhì)在比賽過程中發(fā)揮出來。這次給我們的最大啟發(fā),就是更多地走到實(shí)踐中,積累豐富的知識,靈活地運(yùn)用到各種場景中,發(fā)揮真正的價(jià)值?!?/P>
Copyright @ 2013-2018 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。