中國福建網(wǎng)

當(dāng)前位置:中國福建網(wǎng) > 國際 > 正文

國際綜合頂會(huì)WWW2020落幕,帶你全面解讀百度入選論文

作者: 編輯 來源:互聯(lián)網(wǎng) 發(fā)布時(shí)間:2020-05-09

┊文章閱讀:

近日,國際頂級(jí)綜合學(xué)術(shù)會(huì)議WWW2020?(The Web Conference 2020)在中國臺(tái)灣如期舉辦。本次會(huì)議,百度研究院共有6篇論文入選,位居國內(nèi)科技企業(yè)前列。而且其中大部分論文的全部作者均來自百度,展現(xiàn)出百度公司超高的科研水準(zhǔn)和領(lǐng)先的技術(shù)實(shí)力。

image.png

創(chuàng)辦于1994年,WWW會(huì)議由國際萬維網(wǎng)會(huì)議委員會(huì)(IW3C2)和主辦地地方團(tuán)隊(duì)合作組織,每年召開一次,今年是第29屆。WWW會(huì)議被中國計(jì)算機(jī)學(xué)會(huì)(CCF)推薦為A類國際學(xué)術(shù)會(huì)議,每次都會(huì)吸引大批學(xué)者、研究人員、技術(shù)專家、政策制定者等人的廣泛關(guān)注和參與。自2018年開始,WWW會(huì)議有了另外一個(gè)別名——“The?Web?Science?(互聯(lián)網(wǎng)科學(xué))”,旨在為世界提供一個(gè)主要的論壇,以討論和辯論Web的發(fā)展,其相關(guān)技術(shù)的標(biāo)準(zhǔn)化以及這些技術(shù)對社會(huì)和文化的影響,成為互聯(lián)網(wǎng)領(lǐng)域最受關(guān)注的頂級(jí)學(xué)術(shù)會(huì)議之一。

下面將詳細(xì)解讀一下此次百度入選論文中的4篇,向行業(yè)分享研究成果:

論文1:Extracting?Knowledge?from?Web?Text?with?Monte?Carlo?Tree Search

image.png

每一天,互聯(lián)網(wǎng)都會(huì)產(chǎn)生海量的非結(jié)構(gòu)化文本數(shù)據(jù),這些文本數(shù)據(jù)(比如新聞、博客等)包含了大量的非結(jié)構(gòu)化的信息。對于人類而言,這些非結(jié)構(gòu)化的信息是易于理解的,但是計(jì)算機(jī)很難直接利用這些非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行運(yùn)算和邏輯處理。因此,從大量的非結(jié)構(gòu)化信息中提取出結(jié)構(gòu)化的知識(shí),為后續(xù)自動(dòng)化的信息處理、知識(shí)計(jì)算等任務(wù)構(gòu)筑了有力的基石。

在本篇論文中,百度把信息抽取任務(wù)通過蒙特卡洛過程建模,提出了基于蒙特卡洛樹搜索的開放領(lǐng)域信息抽取方法。在基于蒙特卡洛樹搜索的強(qiáng)化學(xué)習(xí)架構(gòu)中,信息抽取模型探索了大量的、可能的結(jié)構(gòu)化知識(shí),通過獎(jiǎng)勵(lì)函數(shù)的評價(jià),反哺給信息抽取模型,從而在訓(xùn)練過程和推理過程中顯著的提升了信息抽取模型的效果。在目前最大的人工標(biāo)注中文結(jié)構(gòu)化知識(shí)抽取數(shù)據(jù)集SAOKE中,模型取得了最好的效果。

論文2:Improved?Touch-screen?Inputting?Using?Sequence-level?Prediction?Generation

image.png

近年來,各種移動(dòng)觸屏設(shè)備不斷的深入普及,在觸屏軟鍵盤上的輸入效率則深深影響著人們的交流速度和用戶體驗(yàn)。本篇論文對“觸屏輸入結(jié)果預(yù)測”的問題進(jìn)行了形式化總結(jié),闡述了依據(jù)“用戶所輸”和“用戶所見”來預(yù)測“用戶所想”的一般框架。同時(shí),論文給出了在保證用戶隱私的前提下,以輸入效率為優(yōu)化目標(biāo)的特化問題描述。此外,論文描述了兩種評價(jià)方法,以適應(yīng)不同的用戶輸入習(xí)慣假設(shè)。實(shí)現(xiàn)方面,目前已有的輸入效率提升方法包含輸入糾錯(cuò)(包括字符替換、調(diào)序、刪除、插入)、單詞補(bǔ)全和候選打分排序等多個(gè)子步驟。本文提出了從“輸入坐標(biāo)序列”到“期望字符串”端到端的訓(xùn)練方法,并利用柱狀搜索進(jìn)行解碼,實(shí)現(xiàn)了多個(gè)候選的一次性生成與排序。較分步驟的人工規(guī)則方法,這一方法有效提升了準(zhǔn)確率,同時(shí)降低了特征構(gòu)建成本,達(dá)到降本增效的成果。

論文3:Efficient?Online?Multi-Task?Learning?viaAdaptive?Kernel?Selection?

image.png

因?yàn)闊o法在線性不可分的數(shù)據(jù)上應(yīng)用,傳統(tǒng)的多任務(wù)學(xué)習(xí)限制任務(wù)間結(jié)構(gòu)為線性相關(guān)。為了解決這一難題,百度提出在線多任務(wù)核方法來解決分類任務(wù),這個(gè)方法所在的再生核希爾伯特空間能夠提供更準(zhǔn)確的分類函數(shù)。特別的是,此方法為每一個(gè)子任務(wù)維持一個(gè)局部-全局高斯分布模型,以此指導(dǎo)參數(shù)更新的方向和規(guī)模。然而,在計(jì)算上優(yōu)化這一方法會(huì)相當(dāng)昂貴。大多數(shù)多任務(wù)方法需要獲取整個(gè)數(shù)據(jù)來訓(xùn)練算法,這就限制了其在大規(guī)模數(shù)據(jù)流場景的應(yīng)用。

為此,百度提出了一個(gè)隨機(jī)采樣的方法來為模型進(jìn)行可適應(yīng)素描。此方法不需要所有的數(shù)據(jù)標(biāo)簽,它會(huì)通過相似任務(wù)對標(biāo)簽預(yù)測的自信度,來決定是否需要數(shù)據(jù)的標(biāo)簽。理論上證明,與學(xué)習(xí)所有標(biāo)簽的方法比,此方法在采樣樣本上學(xué)習(xí)能夠得到相似的結(jié)果。實(shí)驗(yàn)上,此方法能夠提高準(zhǔn)確性,同時(shí)減少了計(jì)算復(fù)雜度和標(biāo)簽成本。

論文4:Estimate?theImplicit?Likelihood?of?Gas?with?Application?to?Anomaly?Detection

image.png

本篇論文提出了一種計(jì)算對抗生成網(wǎng)絡(luò)(GAN)隱含似然值(implicit likelihood value)的方法,并應(yīng)用于異常檢測。不同于基于極大似然估計(jì)的方法,訓(xùn)練良好的GAN可以學(xué)習(xí)和生成尖銳的圖像局部信息。但是,GAN是一種隱含模型,很難直接估計(jì)給定數(shù)據(jù)點(diǎn)的似然值。這是由于直接通過GAN獲取給定數(shù)據(jù)點(diǎn)(Data Sample)的隱藏變量(Latent Variable)比較困難,再者,對抗學(xué)習(xí)到的生成網(wǎng)絡(luò)(Generator)的雅可比矩陣(Jacobian Matrix)通常不是滿秩的,無法直接用變量變換的形式來通過隱藏變量(Latent Variable)計(jì)算數(shù)據(jù)點(diǎn)的似然值。

為克服上述困難,本篇論文提出通過對抗生成模型增加推理網(wǎng)絡(luò)(Inference Network)和方差網(wǎng)絡(luò)(Variance Network)。基于RBF核的方差網(wǎng)絡(luò),可以把生成網(wǎng)絡(luò)的輸出拓展到整個(gè)生成空間,并且可以學(xué)習(xí)數(shù)據(jù)點(diǎn)的局部不確定性。對于給定的數(shù)據(jù)點(diǎn),可以用學(xué)習(xí)到的推理網(wǎng)絡(luò)直接獲取數(shù)據(jù)點(diǎn)的隱藏變量。此外,通過方差網(wǎng)絡(luò)和推理網(wǎng)絡(luò)的結(jié)合,可以避免雅可比矩陣的奇異值的問題。本篇論文提出的模型在MNIST,CIFAR10,Imagenet32獲得優(yōu)于其他基于神經(jīng)網(wǎng)絡(luò)的成模型的似然估計(jì),在MNIST和 CIFAR10等數(shù)據(jù)集上有不錯(cuò)的異常檢測的表現(xiàn)。

以上介紹的4篇論文是百度研究院眾多出色研究成果的一小部分。百度研究院由百度CTO王海峰博士兼任院長,已經(jīng)取得了一系列前瞻的研究成果和技術(shù)落地應(yīng)用。后續(xù)還將持續(xù)向行業(yè)介紹更多來自百度研究院的學(xué)術(shù)論文成果。

  • 分類目錄
  • 軟文發(fā)布平臺(tái)
  • 勞務(wù)外包公司
  • 帆布水池
  • 運(yùn)維開發(fā)網(wǎng)
  • 小程序開發(fā)
  • 淘寶優(yōu)惠券
  • IT新聞
  • 淘寶erp
  • 植物提取物網(wǎng)
  • 站長網(wǎng)
  • 源碼論壇
  • 激光打標(biāo)機(jī)
  • 丹泊儀器
  • 礦山生態(tài)修復(fù)
  • 青島月子會(huì)所
  • 知識(shí)付費(fèi)
  • 辦公家具
  • 呱呱贊小程序
  • 淄博java培訓(xùn)
  • 小程序開發(fā)
  • seo外包公司
  • 盈江新財(cái)網(wǎng)
  • 工程拍照軟件
  • 速賣通論壇
  • 極客網(wǎng)
  • 甘州文化網(wǎng)
  • 優(yōu)鞋論壇
  • 寧波小程序開發(fā)
  • 域名論壇
  • 微軟crm
  • andon系統(tǒng)
  • 鄭州網(wǎng)站建設(shè)
  • seo學(xué)習(xí)網(wǎng)
  • 奢侈品回收
  • 一對一輔導(dǎo)
  • 黑客視野新聞