推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能( 三 )


Explanations: LIME是一種事后解釋方法 。
參考鏈接:https://cloud.tencent.com/developer/news/617057
https://blog.csdn.net/weixin_42347070/article/details/106455763
https://blog.csdn.net/weixin_42347070/article/details/106076360
0.2.3 Quantifying Attention Flow in TransformersRollout: Quantifying Attention Flow in Transformers, Abnar et al. 2020 https://arxiv.org/abs/2005.00928
在 Transformer 模型中,“self-attention”將來自參與嵌入的信息組合到下一層焦點嵌入的表示中 。因此 , 在 Transformer 的各個層中,來自不同令牌的信息變得越來越混合 。這使得注意力權重在解釋探測時變得不可靠 。在本文中,我們考慮通過自我注意來量化這種信息流的問題 。我們提出了兩種在給定注意力權重、注意力推出和注意力流的情況下將注意力近似于輸入令牌的方法,作為使用注意力權重作為輸入令牌的相對相關性時的事后方法 。我們表明,這些方法對信息流給出了互補的觀點,并且與原始注意力相比 , 

推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能

文章插圖
參考鏈接https://blog.csdn.net/Western_europe/article/details/109611695
1.項目主要內容:
推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能

文章插圖
推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能

文章插圖
7.總結各個方法對比可以看每個章節的小結
總結下來:實例級證據分析方法RepresenterPointModel和FeatureSimilarityModel整體取得效果更佳,主要原因在于可以判別出需要標注的數據,這樣在部分樣本下就能取得更好的效果 。
github提了一個issue關于PaddleNLP在持續學習這塊的迭代期待:https://github.com/PaddlePaddle/PaddleNLP/issues/3395
問題背景:2021-11-29 :百度ERNIE-Health登頂中文醫療信息處理CBLUE榜單冠軍:https://baijiahao.baidu.com/s?id=1717731573139745403&wfr=spider&for=pc
2022-04-13 :云知聲登頂中文醫療信息處理挑戰榜CBLUE 2.0:https://baijiahao.baidu.com/s?id=1729960390071520105&wfr=spider&for=pc
2022-05月份: 艾登&清華團隊在中文醫療信息處理挑戰榜喜創佳績:https://www.cn-healthcare.com/articlewm/20220606/content-1372998.html
1.可以看到在CBLUE榜單上,ERNIE最先刷榜登頂,后續有一些別的團隊再更新刷榜 。通過模型對比,我相信ERNIE一定是NLP領域前沿模型,效果性能都很優越 。而后續新榜單模型,在算法模型的優化側重點可能沒那么大,感覺更多的會對數據集的處理上下了很大功夫 。模型差不多情況下 , 不同數據增強等技術影響還是比較大的,然后不斷迭代 。
2.看到paddlenlp已經推出了:pipelines面向 NLP 全場景為用戶提供低門檻構建強大產品級系統的能力,通過一種簡單高效的方式搭建一套語義檢索系統,使用自然語言文本通過語義進行智能文檔查詢 。
因此引出了一個問題:關于持續學習
目前看到在paddlenlp 提供了一些數據優化的方法:如:AITrust等可信分析,以及BML平臺上看到的智能標注(或者個人依賴ERNIE生成的教師模型) , 來提供相對較高質量的標注數據 。
但感覺在模型迭代過程中更多的是點狀,是靠人工進行一個個串行起來 。希望可以出現一個持續學習模型的流程(自動化)和這些技術結合起來,還是有很大意義的 。
項目鏈接:https://aistudio.baidu.com/aistudio/projectdetail/4622139?contributionType=1fork一下自己跑下項目即可,由于內容過多這里就不全部寫出來了 。
【推廣TrustAI可信分析:通過提升數據質量來增強在ERNIE模型下性能】

推薦閱讀