┊文章閱讀:次
百度AI技術(shù)在國際技術(shù)比拼中再奪佳績。在文檔智能國際權(quán)威榜單文檔視覺問答DocVQA任務(wù)中,百度ERNIE-Layout在4項文檔理解任務(wù)上刷新世界最好效果,成為文檔智能國際領(lǐng)域當(dāng)之無愧的“MVP”!
百度ERNIE-Layout登頂文檔智能國際權(quán)威榜單DocVQA
ERNIE-Layout,是一個基于文檔布局知識增強的跨模態(tài)預(yù)訓(xùn)練模型。它看似高冷,但可能正在你的身邊,幫你解決問題。比如報銷過程中,ERNIE-Layout可以自動、快速、準(zhǔn)確地識別和提取票據(jù)中的關(guān)鍵信息,實現(xiàn)智能化的實時財務(wù)報銷審核。
被ERNIE-Layout刷新記錄的文檔視覺問答DocVQA,是一個跨模態(tài)的文檔抽取任務(wù)評測,需要AI模型在抽取和理解文檔中文本信息的同時,還能充分利用文檔的布局、字體、顏色等視覺信息。簡單來說,就是讓AI看圖回答一些“刁鉆”問題。比如給AI一張圖片,問它“手掌中的卡片上寫了什么”。AI需要準(zhǔn)確找到圖像中的“手掌”并確定其中“卡片”的位置,進而結(jié)合文檔中文字和布局的信息得到“Trabon”這一答案。
DocVQA文檔視覺問答示例
人類完成這些任務(wù)尚且需要一定時間找到文字位置、分辨字體字形,對AI而言就更有挑戰(zhàn)性了。完成這項任務(wù)需要融合視覺解析、布局分析、語義理解、信息抽取等一系列技術(shù),是一項綜合能力的挑戰(zhàn)。只有全面發(fā)展的“學(xué)霸”級AI才有可能在這項挑戰(zhàn)中取得好成績。
ERNIE-Layout之所以能刷新DocVQA任務(wù)記錄,一定程度上得益于它的技術(shù)基底——文心ERNIE。文心ERNIE是百度自研的語義理解模型,自誕生一來,已經(jīng)刷新數(shù)十個世界權(quán)威榜單記錄、橫掃多項業(yè)界大獎。此次,研究人員創(chuàng)新性地基于文心ERNIE推出布局知識增強技術(shù),對文本、圖像、布局等信息進行聯(lián)合建模,真正縮小了AI在文檔理解能力上與人類的差距,讓它不僅能夠『看清』、更能『看懂』圖片上的文字。
除了登頂DocVQA之外,ERNIE-Layout還在文檔信息抽取權(quán)威榜單SROIE中奪冠,并在表單理解FUNSD、票據(jù)理解CORD等多個公開數(shù)據(jù)集上取得了目前業(yè)界最好的效果,技術(shù)實力不斷得到驗證。
在技術(shù)上持續(xù)突破的同時,ERNIE-Layout也已經(jīng)集成在百度旗下的智能文檔分析平臺TextMind上,為銀行、券商、法律、能源、傳媒、通信、物流等眾多行業(yè),為企業(yè)的數(shù)字化、智能化轉(zhuǎn)型提供AI技術(shù)助力。
比如,企業(yè)中的財務(wù)報銷智能審核這個“硬需求”,已經(jīng)基于ERNIE-Layout有了成熟的解決方案,不同樣式票據(jù)中的關(guān)鍵信息就能被自動、快速、準(zhǔn)確地識別和提取,實現(xiàn)智能化的實時財務(wù)報銷審核,解決人工審核帶來的人力成本高、審核時間長等問題。數(shù)據(jù)顯示,TextMind提供的實時財務(wù)報銷審核服務(wù)能為企業(yè)帶來5倍以上的效率提升。
Copyright @ 2013-2020 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責(zé)聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。