┊文章閱讀:次
在我們?yōu)g覽各大網(wǎng)站和APP時(shí),受推薦系統(tǒng)影響,大量相似產(chǎn)品反復(fù)出現(xiàn)的情況屢見(jiàn)不鮮,這不僅會(huì)產(chǎn)生視覺(jué)疲勞,而且很難讓我們做出理性的判斷和購(gòu)買(mǎi)決策。究其原因,主要是目前主流的推薦系統(tǒng)采用的都是大數(shù)據(jù)模型篩查方式,會(huì)產(chǎn)生較大的路徑依賴(lài)。
對(duì)此,騰訊天衍實(shí)驗(yàn)室近期另辟蹊徑推出推薦系統(tǒng)糾偏方法,與傳統(tǒng)方法相比,該方法無(wú)需執(zhí)行隨機(jī)流量實(shí)驗(yàn)以進(jìn)行無(wú)偏估計(jì),大大減小了無(wú)偏推薦算法的訓(xùn)練成本,降低了系統(tǒng)的路徑依賴(lài)。目前,騰訊已經(jīng)就研究成果發(fā)表論文《Information-theoretic counterfactual learning from missing-not-at-random feedback》,且成功入選NeurIPS-2020。
傳統(tǒng)推薦系統(tǒng)易導(dǎo)致路徑依賴(lài) 致使推薦質(zhì)量下降
作為現(xiàn)代互聯(lián)網(wǎng)領(lǐng)域的重點(diǎn)研究方向,推薦系統(tǒng)具有相當(dāng)高的商業(yè)價(jià)值。推薦系統(tǒng)模型需要在大量的候選項(xiàng)目中(通常為廣告、商品、短視頻等)尋找到用戶(hù)所喜愛(ài)的,從而提高曝光率或者點(diǎn)擊廣告收入。
傳統(tǒng)推薦系統(tǒng)研究一般著眼于設(shè)計(jì)更好的特征交叉方法以提高CTR預(yù)估的準(zhǔn)確性,從而給出更好的排序結(jié)果,提高廣告收入。通常,用戶(hù)看到的物品是推薦系統(tǒng)挑選出來(lái)的,它們?cè)谙到y(tǒng)中產(chǎn)生了存儲(chǔ)記錄,推薦模型在該記錄上進(jìn)行離線更新。然而已有的研究顯示,這種推薦方式會(huì)產(chǎn)生路徑依賴(lài),即模型會(huì)在得到曝光的項(xiàng)目上嚴(yán)重高估其對(duì)每個(gè)用戶(hù)的偏好程度,而會(huì)在未得到曝光的項(xiàng)目中低估其對(duì)每個(gè)用戶(hù)的偏好程度。長(zhǎng)此以往,推薦結(jié)果的多樣性將會(huì)急劇降低,從而危害推薦的質(zhì)量和用戶(hù)留存度。
如下圖所示,橙色表示來(lái)源于MNAR數(shù)據(jù)的用戶(hù)評(píng)分分布,藍(lán)色表示MAR的評(píng)分??梢钥吹剑琈NAR上用戶(hù)的評(píng)分要大大偏高,多集中在5分,而MAR的數(shù)據(jù)較為平均的分布在1到5分之間。隨著時(shí)間推進(jìn),MNAR的評(píng)分分布會(huì)越來(lái)越集中,加大和MAR評(píng)分的差距。
圖1隨機(jī)缺失數(shù)據(jù)和非隨機(jī)缺失數(shù)據(jù)上用戶(hù)反饋的偏差
為了解決這個(gè)問(wèn)題,傳統(tǒng)方法多基于inverse propensity score IPS來(lái)對(duì)在MNAR數(shù)據(jù)上進(jìn)行模型訓(xùn)練的目標(biāo)函數(shù)進(jìn)行加權(quán)糾偏。這類(lèi)方法需要相當(dāng)數(shù)量的隨機(jī)試驗(yàn) Randomized Controlled Trials, RCTs,即隨機(jī)地將項(xiàng)目推薦給用戶(hù)以獲得反饋,從而得到一個(gè)無(wú)偏的點(diǎn)擊率的估計(jì)。而另外,IPS方法需要收集一定數(shù)量的RCTs,即對(duì)用戶(hù)展示相當(dāng)數(shù)量的隨機(jī)項(xiàng)目來(lái)收集反饋,從經(jīng)濟(jì)效益上來(lái)說(shuō),會(huì)造成大量的收入上的損失。而且,這種施加權(quán)重的方法也使得訓(xùn)練的方差增大,有時(shí)候反而會(huì)對(duì)結(jié)果造成副影響。
借鑒信息理論構(gòu)建模型 推薦系統(tǒng)糾偏方法呈現(xiàn)創(chuàng)新優(yōu)勢(shì)
騰訊天衍實(shí)驗(yàn)室借鑒了信息論中的理論來(lái)構(gòu)建模型。模型的原始輸入會(huì)先經(jīng)過(guò)一個(gè)編碼器 Encoder得到表示 Representation,隨后經(jīng)過(guò)解碼器 Decoder將表示解碼成為最終的預(yù)測(cè)結(jié)果。此后,目標(biāo)函數(shù)分為兩部分:輸入和表示之間的互信息,表示和輸入目標(biāo)之間的互信息。在優(yōu)化這個(gè)目標(biāo)函數(shù)時(shí),騰訊天衍實(shí)驗(yàn)室團(tuán)隊(duì)采用了盡可能攜帶更多的目標(biāo)信息和壓縮輸入信息的方法。
圖2信息瓶頸的流程和定義形式
首先把原始的輸入 在此處是user-item對(duì)分為事實(shí)域 factual和反事實(shí)域 counterfactual。當(dāng)在counterfactual中發(fā)現(xiàn)無(wú)法得到用戶(hù)對(duì)項(xiàng)目的反饋,無(wú)法對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)時(shí),選擇將該問(wèn)題用信息瓶頸建模,由此得到一個(gè)無(wú)需反饋也可以在counterfactual上進(jìn)行學(xué)習(xí)的目標(biāo)函數(shù)。
圖3基于信息瓶頸理論的反事實(shí)學(xué)習(xí)框架流程圖
factual和counterfactual的事件分別是和,相對(duì)應(yīng)的表示為和。在此基礎(chǔ)上將原有的互信息項(xiàng)拆分,并引入一個(gè)超參數(shù),可以得到一個(gè)新的考慮counterfactual的信息瓶頸:
這一新的瓶頸將原有的項(xiàng)拆分成了兩個(gè)域的對(duì)比項(xiàng)加上factual的信息項(xiàng)。源于上式中的互信息項(xiàng)無(wú)法直接優(yōu)化,在將其經(jīng)過(guò)進(jìn)一步拆解變?yōu)榭蓛?yōu)化的形式后,最終的目標(biāo)函數(shù)形式為:
這一目標(biāo)函數(shù)具有很廣泛的適用范圍,領(lǐng)域內(nèi)絕大部分的模型均可以適用該目標(biāo)函數(shù)來(lái)進(jìn)行模型糾偏而無(wú)需對(duì)現(xiàn)有模型結(jié)構(gòu)進(jìn)行修改,比如MF模型等。
為驗(yàn)證其應(yīng)用潛力,騰訊天衍實(shí)驗(yàn)室使用領(lǐng)域內(nèi)的benchmark Yahoo R3!和 Coat公開(kāi)數(shù)據(jù)集進(jìn)行測(cè)試,使用MNAR的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),使用MAR作為測(cè)試數(shù)據(jù),從而能有效反映不同方法對(duì)于推薦模型的糾偏效果,最終實(shí)驗(yàn)結(jié)果如下表所示。
表格1實(shí)驗(yàn)結(jié)果(AUC和MSE指標(biāo))
表格2實(shí)驗(yàn)結(jié)果 (nDCG指標(biāo))
在模型的魯棒性測(cè)試中,該方法表現(xiàn)出較強(qiáng)的穩(wěn)健性。對(duì)超參數(shù)變化敏感性不強(qiáng),非常適用于實(shí)際場(chǎng)景的部署。相比于傳統(tǒng)推薦系統(tǒng),這種基于信息理論的推薦系統(tǒng)糾偏方法呈現(xiàn)出幾大創(chuàng)新點(diǎn):其一,基于信息論和反事實(shí)理論學(xué)習(xí)方法,無(wú)需執(zhí)行線上隨機(jī)流量試驗(yàn),節(jié)省了大量訓(xùn)練成本;其二,模型參數(shù)魯棒性較好,適合工業(yè)場(chǎng)景實(shí)際部署;其三,目標(biāo)函數(shù)具有很廣泛的適用范圍,領(lǐng)域內(nèi)絕大部分的模型均可以適用該目標(biāo)函數(shù)來(lái)進(jìn)行模型糾偏,而無(wú)需對(duì)現(xiàn)有模型結(jié)構(gòu)進(jìn)行修改,兼容性較強(qiáng)。
商業(yè)應(yīng)用無(wú)處不在 推薦系統(tǒng)糾偏方法重拾內(nèi)容多樣性
放眼當(dāng)下,推薦系統(tǒng)的商業(yè)應(yīng)用無(wú)處不在,不少主流APP都應(yīng)用到了推薦系統(tǒng)。例如,旅游出行類(lèi)中,攜程、去哪兒等會(huì)推薦機(jī)票、酒店等;外賣(mài)平臺(tái)類(lèi)中,餓了么、美團(tuán)等會(huì)推薦飯店;電商購(gòu)物類(lèi)中,京東、淘寶、亞馬遜等會(huì)推薦“可能喜歡”的物品;新聞資訊類(lèi)中,今日頭條、騰訊新聞等會(huì)推送用戶(hù)感興趣的新聞....幾乎所有APP或網(wǎng)站都在應(yīng)用推薦系統(tǒng)。
騰訊天衍實(shí)驗(yàn)室作為騰訊布局醫(yī)療領(lǐng)域背后的技術(shù)提供者,主要專(zhuān)注于醫(yī)療健康領(lǐng)域的AI算法研究及落地,并且不斷研究與拓展AI醫(yī)療技術(shù)發(fā)展的邊界。目前,騰訊天衍實(shí)驗(yàn)室主要將算法能力輸出到微信支付九宮格的騰訊健康小程序、QQ瀏覽器、微信搜一搜等。例如在疫情期間,天衍實(shí)驗(yàn)室運(yùn)用AI大數(shù)據(jù)技術(shù),通過(guò)騰訊健康疫情問(wèn)答推薦版塊,為用戶(hù)帶來(lái)關(guān)于疫情的多方面的內(nèi)容和咨詢(xún)服務(wù),而不僅僅關(guān)注用戶(hù)個(gè)人和集體偏好,基于信息理論模型,快速進(jìn)行模型訓(xùn)練對(duì)推薦系統(tǒng)進(jìn)行糾偏,極大的節(jié)省了時(shí)間和經(jīng)濟(jì)成本。
同時(shí),在騰訊覓影的AI導(dǎo)輔診平臺(tái)上,日常的醫(yī)療資訊推薦上也應(yīng)用了該方法為用戶(hù)推薦相關(guān)內(nèi)容,大大提升了推薦內(nèi)容的多樣性和公平性,同時(shí)也增強(qiáng)了用戶(hù)體驗(yàn)。比如對(duì)于患有糖尿病的患者,其日常關(guān)注的內(nèi)容可能都與糖尿病相關(guān),如果不對(duì)推薦系統(tǒng)進(jìn)行糾偏,系統(tǒng)會(huì)越來(lái)越傾向于推薦糖尿病相關(guān)內(nèi)容給到用戶(hù),而經(jīng)過(guò)系統(tǒng)糾偏之后,還會(huì)給患者推薦一些運(yùn)動(dòng)、睡眠等其他健康知識(shí),幫助用戶(hù)更加全面的了解自身健康??梢砸?jiàn)得,推薦系統(tǒng)糾偏方法具有非常廣泛的應(yīng)用價(jià)值,未來(lái),騰訊天衍實(shí)驗(yàn)室還將繼續(xù)擴(kuò)大其應(yīng)用范圍,以期為用戶(hù)提供更優(yōu)質(zhì)的服務(wù)。
Copyright @ 2013-2020 中國(guó)福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營(yíng)利性網(wǎng)站,部分圖片或文章來(lái)源于互聯(lián)網(wǎng)如果無(wú)意中對(duì)您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請(qǐng)您聯(lián)系,我們立即刪除。