推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能

項目鏈接:https://aistudio.baidu.com/aistudio/projectdetail/4622139?contributionType=1fork一下,由于內容過多這里就不全部寫出來了 。
前言TrustAI是集可信分析和增強于一體的可信AI工具集,助力NLP開發者提升深度學習模型效果和可信度 。在后續應用中,希望將TrustAI和智能標注以及模型構螺迭代打造持續學習鏈路 。

推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能

文章插圖
  • 解決訓練數據存在臟數據的問題
  • 解決訓練數據覆蓋不足的問題(稀疏數據)
  • 解決訓練數據分布偏置的問題
  • 解決文本冗余導致精度下降的問題
相關文章參考:
AiTrust下預訓練和小樣本學習在中文醫療信息處理挑戰榜CBLUE表現
注意上述項目中對訓練過程一些參數做了簡單調整如500steps保存一次模型等,而本項目為了快速實現效果展示就以epoch為保存最優模型單位 , 如果為追求更好性能請參考上述項目或者自己修正 。
項目參考:(更細算法原理請參考相關論文)https://github.com/PaddlePaddle/TrustAI
https://github.com/PaddlePaddle/TrustAI/blob/main/trustai/interpretation/token_level/README.md
https://github.com/PaddlePaddle/TrustAI/blob/main/trustai/interpretation/example_level/README.md
結果部分展示:
模型DuReader-robust devDuReader-robust Test【Zero shot】DuReader-checklist dev(Remove no answer)EMF1EMF1EMF1bert-base[官方數據]71.7085.4730.8053.14--roberta-base[復現]73.4886.9845.9769.4328.6650.47Selector-Predictor76.32(+2.84)89.03(+2.05)50.93(+4.96)72.22(+2.79)31.04(+2.33)53.29(+2.82)
推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能

文章插圖
0.例證分析算法簡介隨著深度學習模型的越發復雜,人們很難去理解其內部的工作原理 ?!昂诤小钡目山忉屝哉蔀樵S多優秀研究者的焦點 。
通過這些非常有效的可解釋性方法,人們可以更好知道模型為什么好,為什么不好,進而可以針對性提高模型性能 。
目前,可解釋性研究領域缺乏一個用于評估解釋方法的科學評估體系 。
對于ante-hoc可解釋性而言,其評估挑戰在于如何量化模型的內在解釋能力 。
對于post-hoc可解釋性而言,其評估挑戰在于如何量化解釋結果的保真度和一致性 。
0.1 實例級證據分析算法簡介0.1.1 表示點方法(Representer Point)論文:NeurIPS 2018 Representer Point Selection:https://proceedings.neurips.cc/paper/2018/file/8a7129b8f3edd95b7d969dfc2c8e9d9d-Paper.pdf
這篇論文做的跟ICML 2017 best paper influence function那篇論文一樣,想分析對于一個測試點來說,哪些訓練樣本對這個決策影響最大,包括positive(這里叫excitatory)和negative(這里叫inhibitory)的訓練樣本點 。方法上,這篇論文將輸出層的margin(pre-activation prediction)分解成訓練樣本點的激活值的加權線性組合,這個權重叫做representer value,表達訓練樣本點對網絡參數的影響 。文中主要claim的比influence function有優勢的是計算效率 。
開源的代碼里sklearn , tensorflow , pytorch都有用到 , 比較混亂 , 應用可能需要梳理這部分代碼,從雙方開源的代碼看,該論文也借鑒了一部分influence function的代碼,比如genericNeuralNet.py和genericNeuralNet.py 。論文中提出的方法需要一些fine-tune,預估到最后一層的輸入值等額外的步驟,也給工程框架上帶來一定的困難 。相比于文中3.2估計預估誤差是對比預估輸出和真實輸出的差異,influence function是對比去掉該訓練樣本前后訓練得到模型的loss 。輸出對不同的訓練樣本的依賴可能有相關性,有可能當前模型比較依賴該訓練樣本,但不見得去掉該訓練樣本后,預測值有大的變化 。相比之下,去掉該樣本重新訓練模型得到的結論會更魯棒一些 。這篇論文提出的方法相比influence function的主要優勢是計算量小,但也有一些限制(L2或者fine-tune),可以用在對計算效率要求比較高的場景 。
開源代碼:https://github.com/chihkuanyeh/Representer_Point_Selection
參考鏈接:https://zhuanlan.zhihu.com/p/114461143
0.1.2 基于梯度的相似度方法(Grad-Cosin, Grad-Dot)論文:Input Similarity from the Neural Network Perspective https://proceedings.neurips.cc/paper/2019/hash/c61f571dbd2fb949d3fe5ae1608dd48b-Abstract.html
https://proceedings.neurips.cc/paper/2019/file/c61f571dbd2fb949d3fe5ae1608dd48b-Paper.pdf
在許多應用中,了解模型做出特定預測的原因可能與預測的準確性一樣重要 。然而,大型現代數據集的最高精度通常是通過甚至專家都難以解釋的復雜模型來實現的,例如集成或深度學習模型,這在準確性和可解釋性之間造成了矛盾 。作為回應,最近提出了各種方法來幫助用戶解釋復雜模型的預測,但通常不清楚這些方法是如何相關的,以及何時一種方法優于另一種方法 。為了解決這個問題,我們提出了一個解釋預測的統一框架 , SHAP(SHapley Additive exPlanations) 。SHAP 為每個特征分配一個特定預測的重要性值 。其新穎的組件包括:(1) 識別一類新的加性特征重要性度量,以及 (2) 理論結果表明該類中存在一個具有一組理想屬性的唯一解 。新類統一了六種現有方法,值得注意的是,該類中最近的幾種方法缺乏建議的理想屬性 ?;谶@種統一的見解,我們提出了新的方法,這些方法顯示出比以前的方法更好的計算性能和/或與人類直覺更好的一致性 。

推薦閱讀