中國福建網(wǎng)

當(dāng)前位置:中國福建網(wǎng) > 熱文 > 正文

為減少AI偏見:IBM打造了一套更加多樣化的百萬人臉數(shù)據(jù)集

作者: 編輯 來源:互聯(lián)網(wǎng) 發(fā)布時間:2019-02-01

┊文章閱讀:

盡管技術(shù)本身是中立的,但在人工智能(AI)的開發(fā)過程中,難免會引入一些人類的偏見。為了減少這方面的偏差,IBM 研究院剛剛打造了一套更加多樣化的“百萬人臉數(shù)據(jù)集”。近年來,隨著智能手機的普及,面部識別已經(jīng)在許多領(lǐng)域得到了廣泛的運用。然而在一些測試中,某些看似很優(yōu)秀的 AI,竟然也會敗下陣來。

(圖自:IBM Research)

鑒于不少情況與某些膚色或年齡相關(guān),IBM 研究院希望進一步消除這方面的偏差。

顯然,這是一個多層次的問題,很大程度上歸咎于開發(fā)人員和創(chuàng)建者沒有深思熟慮。

此外,如果沒有包羅萬象的人臉數(shù)據(jù)集,AI 也難免在訓(xùn)練過程中有失偏頗。

憑借全新的“百萬多樣性人臉數(shù)據(jù)集”,AI 開發(fā)者將能夠充分考慮到多樣性的面部特征(DiF)。論文解釋稱:

為使面部識別能夠按照要求執(zhí)行(既公平又準(zhǔn)確),訓(xùn)練用的數(shù)據(jù),必須提供足夠的平衡和覆蓋。

它應(yīng)該足夠大、且多樣化,以便了解更多類型的面部固有差異。圖像必須反映我們在世界中看到的面部特征的多樣性。

據(jù)悉,這批面孔來自一套更加龐大的 1 億圖像數(shù)據(jù)集(Flickr 創(chuàng)作共用)。

通過運行另一套機器學(xué)習(xí)系統(tǒng),并找到盡可能多的到面孔。然后將它們隔離并裁剪,再開始真正的工作。

這些集合可被其它機器學(xué)習(xí)算法所攝取,因此需要多樣化、且準(zhǔn)確的標(biāo)記。

(圖自:IBM Research)

DiF 數(shù)據(jù)集中包含了一百萬張面孔,且每個都附有元數(shù)據(jù),以描述眼間距和額頭等特征。

結(jié)合上述多種措施,系統(tǒng)可用于匹配圖像與個人的‘面部印記’,但仍需考慮算法是否對某個種族群體是否合適。

有鑒于此,IBM 團隊整理了一套修訂版本,不僅包括了簡單的內(nèi)容,還描述了各措施之間的關(guān)聯(lián) —— 比如眼睛上方和鼻子下方區(qū)域的比例、膚色、對比度、以及著色類型。

此外,用戶的年齡也可被自動估計。人們被要求標(biāo)記男性或女性的面部,并猜測其年齡。

當(dāng)然,這里肯定會存在一定的偏差,但與其它任何公開的面部識別訓(xùn)練數(shù)據(jù)集相比,所有這些都可以在更廣義的尺度上去理解。

帶領(lǐng)這項研究的 IBM 研究員 John R. Smith 在一封電子郵件中稱:

在文化和生物學(xué)上,種族之間的界限并不明顯。我們選擇專注于能夠可靠測定的編碼方案,為多樣性分析提供一定規(guī)模的支持。

[來源:IBM Research]

  • 牙齒美容
  • 好愛卡
  • pe管
  • 石家莊小吃培訓(xùn)
  • 裝修平臺
  • 南京小吃培訓(xùn)
  • 植物提取物網(wǎng)
  • 源碼論壇
  • 激光打標(biāo)機
  • 丹泊儀器
  • 礦山生態(tài)修復(fù)
  • 青島月子會所
  • 南京刑事律師