bootstrap


bootstrap

文章插圖
什么是bootstrap方法:
bootstrap

文章插圖
在統計學中,自助法是一種從給定訓練集中有放回的均勻抽樣,也就是說,每當選中一個樣本,它等可能地被再次選中并被再次添加到訓練集中 。
自助法由Bradley Efron于1979年在《Annals of Statistics》上發表 。當樣本來自總體,能以正態分布來描述,其抽樣分布(Sampling Distribution)為正態分布(The Normal Distribution);
但當樣本來自的總體無法以正態分布來描述,則以漸進分析法、自助法等來分析 。采用隨機可置換抽樣(random sampling with replacement) 。對于小數據集,自助法效果很好 。
最常用的一種Bootstrap自助法,假設給定的數據集包含d個樣本 。該數據集有放回地抽樣m次,產生m個樣本的訓練集 。這樣原數據樣本中的某些樣本很可能在該樣本集中出現多次 。沒有進入該訓練集的樣本最終形成檢驗集 。
顯然每個樣本被選中的概率是1/m,因此未被選中的概率就是(1-1/m),這樣一個樣本在訓練集中沒出現的概率就是m次都未被選中的概率,即(1-1/m)^m 。當m趨于無窮大時,這一概率就將趨近于e^-1=0.368,所以留在訓練集中的樣本大概就占原來數據集的63.2% 。
例如:人工樣本為1,2,3;只有三個樣本,則可以從隨機變量X,分布為P(X=k)=1/3, k=1,2,3; 這樣的經驗分布中用計算機根據上述分布自動產生樣本,如產生5個樣本:1 2 3 2 1;也可以是:3 3 2 1 1
自助法在數據集較小、難以有效劃分訓練集和測試集時很有用;此外,自助法能從初始數據集中產生多個不同的訓練集,這對集成學習等方法有很大的好處 。然而,自助法產生的數據集改變了初始數據集的分布,這會引入估計偏差 。因此,在初始數據量足夠時,留出法和交叉驗證法更常用一些 。
在統計學中,自助法是一種從給定訓練集中有放回的均勻抽樣,也就是說,每當選中一個樣本,它等可能地被再次選中并被再次添加到訓練集中 。
優點
bootstrap 的一大優點是它的簡單性 。這是導出復雜分布估計量的標準誤差和置信區間估計值的直接方法 。
Bootstrap 也是控制和檢查結果穩定性的合適方法 。盡管對于大多數問題不可能知道真正的置信區間,但自舉法比使用樣本方差和正態性假設獲得的標準區間漸近更準確 。Bootstrapping 也是一種方便的方法,它避免了重復實驗以獲取其他組樣本數據的成本 。
缺點
盡管自舉是漸近一致的,但它不提供一般的有限樣本保證 。結果可能取決于代表性樣本 。表面上的簡單性可能掩蓋了這樣一個事實,即在進行自舉分析時正在做出重要假設,而這些假設將在其他方法中更正式地說明 。此外,引導可能非常耗時 。
統計
如果參數可以寫為總體分布的函數,則總體參數的點估計量的自舉分布已被用于生成參數真實值的自舉置信區間 。
人口參數是用許多點估計器估計的 。點的估計器的流行家族包括均值無偏最小方差估計,中值無偏估計,貝葉斯估計器,和最大似然估計 。
根據漸近理論,貝葉斯點估計器和最大似然估計器在樣本大小無限時具有良好的性能 。對于有限樣本的實際問題,其他估計器可能更可取 。漸近理論提出了通??梢蕴岣咦耘e估計器性能的技術;最大似然估計量的自舉通??梢允褂门c關鍵量相關的轉換來改進 。
以上內容參考百度百科-自助法
什么是Bootstrap?為什么使用 Bootstrap:
bootstrap

文章插圖
Bootstrap 是一個用于快速開發 Web 應用程序和網站的前端框架 。Bootstrap 是基于 HTML、CSS、JAVASCRIPT 的 。
Bootstrap 是由 Twitter 的 Mark Otto 和 Jacob Thornton 開發的 。Bootstrap 是 2011 年八月在 GitHub 上發布的開源產品 。
為什么使用 Bootstrap?
移動設備優先:自 Bootstrap 3 起,框架包含了貫穿于整個庫的移動設備優先的樣式 。
瀏覽器支持:所有的主流瀏覽器都支持 Bootstrap 。
容易上手:只要您具備 HTML 和 CSS 的基礎知識,您就可以開始學習 Bootstrap 。
響應式設計:Bootstrap 的響應式 CSS 能夠自適應于臺式機、平板電腦和手機 。更多有關響應式設計的內容詳見 Bootstrap 響應式設計 。
它為開發人員創建接口提供了一個簡潔統一的解決方案 。
它包含了功能強大的內置組件,易于定制 。
它還提供了基于 Web 的定制 。

推薦閱讀