继夫的玩弄H辣文的小说|女人与拘性猛交视频|精品欧美高清不卡高清|一起做亏亏的事情的视频|啦啦啦在线视频观看|望月直播下载ios版本|国产日韩欧美一区二区三区

人工智能-機(jī)器學(xué)習(xí)筆試題目及答案詳解,帶你輕松過(guò)面!

1. 深度學(xué)習(xí)和過(guò)往的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有什么區(qū)別?列舉幾種深度學(xué)習(xí)的loss,并說(shuō)明意義
深度學(xué)習(xí)是一種方法,神經(jīng)網(wǎng)絡(luò)是個(gè)模型,深度學(xué)習(xí)方法呢可以有效解決層數(shù)多的神經(jīng)網(wǎng)絡(luò)不好學(xué)習(xí)的問(wèn)題,為了讓層數(shù)較多的多層神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,能夠起作用并演化出來(lái)的一系列的新的結(jié)構(gòu)和新的方法;
結(jié)構(gòu):一般分為兩大陣營(yíng),CNN,RNN,感覺這里欠妥,請(qǐng)指正 。
方法:權(quán)重初始化方法(逐層初始化,等) , 損失函數(shù),防止過(guò)擬合方法(, BN等) 。
這些方面主要都是為了解決傳統(tǒng)的多層神經(jīng)網(wǎng)絡(luò)的一些不足:梯度消失,過(guò)擬合等 。
分類問(wèn)題常用的損失函數(shù):
(1)交叉熵?fù)p失函數(shù),也稱作損失函數(shù) , 可用于解決多分類問(wèn)題,通過(guò)指數(shù)化將輸出轉(zhuǎn)換成概率的形式;
(2)合頁(yè)損失函數(shù),一般情況下 , 交叉熵?fù)p失函數(shù)的效果優(yōu)于合頁(yè)損失函數(shù);
(3)坡道損失函數(shù),對(duì)離群點(diǎn)或者噪聲的抗干擾能力強(qiáng),是一種魯棒性的損失函數(shù) , 對(duì)誤差較大的區(qū)域會(huì)進(jìn)行截?cái)啵?br /> (4)大間隔損失函數(shù),保證能夠正確分類的同時(shí),還滿足增大類間的差異,提升了特征的分辨能力,防止網(wǎng)絡(luò)發(fā)生過(guò)擬合;
(5)中心損失函數(shù) , 保證能夠正確分類的同時(shí),還滿足減少類內(nèi)的差異,提升了特征的分辨能力;
回歸問(wèn)題常用的損失函數(shù):
(1)l1損失函數(shù),衡量的是預(yù)測(cè)值與真實(shí)值之間的偏差;
(2)l2損失函數(shù) , 效果 優(yōu)于l1;
(3)tukey‘s 損失函數(shù),是一種具有魯棒性的損失函數(shù);
其他任務(wù)的損失函數(shù):
KL散度損失函數(shù),衡量的是樣本標(biāo)記分布與真實(shí)標(biāo)記分布的差異,可用于年齡估計(jì)等 。
2. 什么是卷積神經(jīng)網(wǎng)絡(luò)?請(qǐng)說(shuō)明卷積的意義
分開看就明確了 , “卷積” 和 “神經(jīng)網(wǎng)絡(luò)”.
卷積也就是說(shuō)神經(jīng)網(wǎng)絡(luò)不再是對(duì)每個(gè)像素的輸入信息做處理了,而是圖片上每一小塊像素區(qū)域進(jìn)行處理, 這種做法加強(qiáng)了圖片信息的連續(xù)性. 使得神經(jīng)網(wǎng)絡(luò)能看到圖形, 而非一個(gè)點(diǎn). 這種做法同時(shí)也加深了神經(jīng)網(wǎng)絡(luò)對(duì)圖片的理解.
具體來(lái)說(shuō), 卷積神經(jīng)網(wǎng)絡(luò)有一個(gè)批量過(guò)濾器, 持續(xù)不斷的在圖片上滾動(dòng)收集圖片里的信息,每一次收集的時(shí)候都只是收集一小塊像素區(qū)域, 然后把收集來(lái)的信息進(jìn)行整理, 這時(shí)候整理出來(lái)的信息有了一些實(shí)際上的呈現(xiàn), 比如這時(shí)的神經(jīng)網(wǎng)絡(luò)能看到一些邊緣的圖片信息, 然后在以同樣的步驟, 用類似的批量過(guò)濾器掃過(guò)產(chǎn)生的這些邊緣信息, 神經(jīng)網(wǎng)絡(luò)從這些邊緣信息里面總結(jié)出更高層的信息結(jié)構(gòu),比如說(shuō)總結(jié)的邊緣能夠畫出眼睛,鼻子等等.
卷積的重要的物理意義是:一個(gè)函數(shù)(如:?jiǎn)挝豁憫?yīng))在另一個(gè)函數(shù)(如:輸入信號(hào))上的加權(quán)疊加,這就是卷積的意義:加權(quán)疊加,不同的卷積核提供了不同的加權(quán)方式,從而得到魯棒的特征,進(jìn)行參數(shù)共享,大大減少了參數(shù)量,避免過(guò)擬合
3. 什么是中文分詞? 列舉出幾種你所知的分詞方法
中文分詞就是將中文按語(yǔ)義分出詞語(yǔ)來(lái),與英文不同,中文詞語(yǔ)之間沒有空格,需要根據(jù)語(yǔ)義經(jīng)驗(yàn)等知識(shí)來(lái)將一組漢字序列進(jìn)行切分出一個(gè)個(gè)詞語(yǔ)
中文分詞主要分為三種:
(1)機(jī)械分詞法:是一種基于詞典的方法 , 是將文檔中的字符串與詞典中的詞條一一匹配 , 如果在詞典中找到了某個(gè)字符串 , 則匹配成功,可以切分,否則不予切分 。該方法實(shí)現(xiàn)簡(jiǎn)單,使用性強(qiáng),但對(duì)于詞典的完備性要求很高 。
(2)基于語(yǔ)法和規(guī)則的分詞方法:是在分詞的同時(shí)進(jìn)行句法和語(yǔ)義分析,通過(guò)句法和語(yǔ)義信息來(lái)標(biāo)注詞性,以解決分詞歧義的現(xiàn)象 。但漢語(yǔ)語(yǔ)法籠統(tǒng),復(fù)雜 , 所以該種方法的精度不盡人意,目前仍處于試驗(yàn)階段 。
(3)基于統(tǒng)計(jì)的分詞法:根據(jù)字符串在語(yǔ)料中出現(xiàn)的統(tǒng)計(jì)詞頻來(lái)判斷其是否構(gòu)成一個(gè)詞 。詞是字的組合 , 相鄰的字同時(shí)出現(xiàn)的次數(shù)越多越有可能成為一個(gè)詞 。該種方法因精度高 , 效果穩(wěn)定中文分詞 人工智能 , 成為目前最流行的一種方法 , 常見的分詞模型有HMM, CRF, +CRF等
4. 現(xiàn)在深度學(xué)習(xí)在nlp領(lǐng)域有哪些應(yīng)用? 請(qǐng)具體說(shuō)明
1.機(jī)器翻譯 , or神經(jīng)機(jī)器翻譯(NMT)在翻譯中提供了統(tǒng)計(jì)方式之外的另一種方式 , 同時(shí)也更加簡(jiǎn)便 。
2.知識(shí)問(wèn)答 , 問(wèn)答機(jī)器人 , 可以用深度學(xué)習(xí)模型 , 從語(yǔ)料中學(xué)習(xí)獲得一些問(wèn)題的答案 。
3.自然語(yǔ)言生成 , 能夠根據(jù)一些關(guān)鍵信息及其在機(jī)器內(nèi)部的表達(dá)形式 , 經(jīng)過(guò)一個(gè)規(guī)劃過(guò)程 , 來(lái)自動(dòng)生成一段高質(zhì)量的自然語(yǔ)言文本 。
5. 傳統(tǒng)圖像處理提取的sift特征是什么意思?
sift指的是scale,即尺度不變特征變換 。
sift特征是一種對(duì)縮放、旋轉(zhuǎn)、光照變化等不敏感的局部圖像特征,其提取過(guò)程是先生成圖像的尺度空間,然后在尺度空間中檢測(cè)極值點(diǎn)作為關(guān)鍵點(diǎn),最后利用關(guān)鍵點(diǎn)鄰域的梯度信息生成特征描述符 。
6. 什么叫過(guò)擬合 , 避免過(guò)擬合都有哪些措施?
答:過(guò)擬合:就是在機(jī)器學(xué)習(xí)中,我么測(cè)試模型的時(shí)候,提高了在訓(xùn)練數(shù)據(jù)集的表現(xiàn)力時(shí)候,但是在訓(xùn)練集上的表現(xiàn)力反而下降了 。
解決方案:
1.正則化
2.在訓(xùn)練模型過(guò)程中,調(diào)節(jié)參數(shù) 。學(xué)習(xí)率不要太大.
3.對(duì)數(shù)據(jù)進(jìn)行交叉驗(yàn)證
4.選擇適合訓(xùn)練集合測(cè)試集數(shù)據(jù)的百分比,選取合適的停止訓(xùn)練標(biāo)準(zhǔn),使對(duì)機(jī)器的訓(xùn)練在合適
5.在神經(jīng)網(wǎng)絡(luò)模型中,我們可以減小權(quán)重
7. LR和SVM的聯(lián)系與區(qū)別是什么?
1.都是分類算法
2.如果不考慮核函數(shù),LR和SVM都是線性分類算法,也就是說(shuō)他們的分類決策面都是線性的
3.LR和SVM都是監(jiān)督學(xué)習(xí)算法
4.LR和SVM的損失函數(shù)不同
5.SVM只考慮局部的邊界線附近的點(diǎn)  , LR考慮全局,遠(yuǎn)離的點(diǎn)對(duì)邊界線的確定也起作用
8. 給你一個(gè)有1000列和1百萬(wàn)行的訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集是基于分類問(wèn)題的 。經(jīng)理要求你來(lái)降低該數(shù)據(jù)集的維度以減少模型計(jì)算時(shí)間,但你的機(jī)器內(nèi)存有限 。你會(huì)怎么做?(你可以自由做各種實(shí)際操作假設(shè) 。)
1.由于我們的RAM很小,首先要關(guān)閉機(jī)器上正在運(yùn)行的其他程序,包括網(wǎng)頁(yè)瀏覽器等 , 以確保大部分內(nèi)存可以使用 。
2.我們可以隨機(jī)采樣數(shù)據(jù)集 。這意味著 , 我們可以創(chuàng)建一個(gè)較小的數(shù)據(jù)集,比如有1000個(gè)變量和30萬(wàn)行,然后做計(jì)算 。
3.為了降低維度,我們可以把數(shù)值變量和分類變量分開,同時(shí)刪掉相關(guān)聯(lián)的變量 。對(duì)于數(shù)值變量,我們將使用相關(guān)性分析;對(duì)于分類變量 , 我們可以用卡方檢驗(yàn) 。
4.另外 , 我們還可以使用PCA(主成分分析) , 并挑選可以解釋在數(shù)據(jù)集中有最大偏差的成分 。
5.利用在線學(xué)習(xí)算法 , 如(在中可用)是一個(gè)不錯(cuò)的選擇 。
6.利用 (隨機(jī)梯度下降法)建立線性模型也很有幫助 。
7.我們也可以用我們對(duì)業(yè)務(wù)的理解來(lái)估計(jì)各預(yù)測(cè)變量對(duì)響應(yīng)變量的影響的大小 。但是 , 這是一個(gè)主觀的方法,如果沒有找出有用的預(yù)測(cè)變量可能會(huì)導(dǎo)致信息的顯著丟失 。
基礎(chǔ)人工智能面試題
(1)什么是人工智能?
人工智能 , 是一個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域,它強(qiáng)調(diào)智能機(jī)器的創(chuàng)造,它像人類一樣工作和反應(yīng) 。
(2)什么是人工智能神經(jīng)網(wǎng)絡(luò)?
人工智能神經(jīng)網(wǎng)絡(luò)可以模擬生物大腦的工作方式,使機(jī)器能夠以與人類相同的方式進(jìn)行思考和學(xué)習(xí):使它們能像我們一樣識(shí)別語(yǔ)音、物體和動(dòng)物 。
(3)可以使用AI(人工智能)的各個(gè)領(lǐng)域是什么?
人工智能可用于許多領(lǐng)域 , 如計(jì)算,語(yǔ)音識(shí)別,生物信息學(xué),人形機(jī)器人 , 計(jì)算機(jī)軟件,空間和航空等 。
(4)哪種是AI不常用的編程語(yǔ)言?
Perl語(yǔ)言不是AI常用的編程語(yǔ)言 。
(5)AI中的是什么?
在AI中,是一種基于邏輯的編程語(yǔ)言 。
(6)解釋強(qiáng)AI和弱AI之間的區(qū)別?
強(qiáng)大的AI聲稱計(jì)算機(jī)可以在與人類相等的水平上進(jìn)行思考,而弱AI只是預(yù)測(cè)一些類似于人類智能的功能可以合并到計(jì)算機(jī)中,使其成為更有用的工具 。
(7)提到統(tǒng)計(jì)AI和經(jīng)典AI之間的區(qū)別?
統(tǒng)計(jì)AI更“歸納”思想,如給定一組模式,誘導(dǎo)趨勢(shì)等 。經(jīng)典AI更作為一組約束給出的“演繹”思想,推導(dǎo)出一個(gè)結(jié)論等等 。
(8)什么是備用 , 人工,復(fù)合和自然鍵?
備用密鑰:排除主密鑰所有候選密鑰稱為備用密鑰 。
人工密鑰:如果沒有明顯的密鑰可以單獨(dú)使用或復(fù)合可用,那么最后的方法是,只需創(chuàng)建一個(gè)密鑰,通過(guò)為每個(gè)記錄或事件分配一個(gè)數(shù)字 。這被稱為人工密鑰 。
復(fù)合鍵:當(dāng)沒有單個(gè)數(shù)據(jù)元素唯一地定義構(gòu)造中的出現(xiàn)時(shí),則集成多個(gè)元素以為構(gòu)造創(chuàng)建唯一標(biāo)識(shí)符稱為復(fù)合鍵 。
自然鍵:自然鍵是存儲(chǔ)在構(gòu)造中的數(shù)據(jù)元素之一,并且用作主鍵 。
(9)FOPL代表并解釋其在人工智能中的作用是什么?
FOPL代表 Logic提供的First OrderLogic
a)表達(dá)關(guān)于某些“世界”的斷言的語(yǔ)言
b)演繹設(shè)備的推理系統(tǒng),我們可以從這種斷言中得出結(jié)論
c)基于集合論的語(yǔ)義
(10)FOPL的語(yǔ)言是什么?
a)一組常數(shù)符號(hào)
b)一組變量
c)一組謂詞符號(hào)
d)一組功能符號(hào)
e)邏輯連詞
f)通用量詞和存在限定符
g)平等的特殊二元關(guān)系
【人工智能-機(jī)器學(xué)習(xí)筆試題目及答案詳解,帶你輕松過(guò)面!】(11)在自上而下的歸納學(xué)習(xí)方法中,有多少文字可用?它們都是什么?
自上而下的歸納學(xué)習(xí)方法有三種文字:
a)謂詞
b)平等和不平等
c)算術(shù)文字
(12)使用哪種算法求解時(shí)間概率推理?
為了解決時(shí)間概率推理,使用HMM(隱馬爾可夫模型),與轉(zhuǎn)換和傳感器模型無(wú)關(guān)
(13)人工智能中的神經(jīng)網(wǎng)絡(luò)是什么?
在人工智能中,神經(jīng)網(wǎng)絡(luò)是生物神經(jīng)系統(tǒng)的仿真,它接收數(shù)據(jù),處理數(shù)據(jù)并根據(jù)算法和經(jīng)驗(yàn)數(shù)據(jù)給出輸出 。
機(jī)器學(xué)習(xí)工程師面試
1、你會(huì)在時(shí)間序列數(shù)據(jù)集上使用什么交叉驗(yàn)證技術(shù)?是用k倍或LOOCV?
都不是 。對(duì)于時(shí)間序列問(wèn)題,k倍可能會(huì)很麻煩,因?yàn)榈?年或第5年的一些模式有可能跟第3年的不同,而對(duì)數(shù)據(jù)集的重復(fù)采樣會(huì)將分離這些趨勢(shì),而我們最終可能只是需要對(duì)過(guò)去幾年的進(jìn)行驗(yàn)證,這就不能用這種方法了 。相反,我們可以采用如下所示的5倍正向鏈接策略:
fold 1 :[1], test [2]
fold 2 :[1 2], test [3]
fold 3 :[1 2 3], test [4]
fold 4 :[1 2 3 4], test [5]
fold 5 :[1 2 3 4 5], test [6]
1,2,3,4 , 5,6代表的是年份 。
2、你是怎么理解偏差方差的平衡的?
從數(shù)學(xué)的角度來(lái)看,任何模型出現(xiàn)的誤差可以分為三個(gè)部分 。以下是這三個(gè)部分:
偏差誤差在量化平均水平之上,預(yù)測(cè)值跟實(shí)際值相差多遠(yuǎn)時(shí)有用 。高偏差誤差意味著我們的模型表現(xiàn)不太好,因?yàn)闆]有抓到重要的趨勢(shì) 。而另一方面,方差量化了在同一個(gè)觀察上進(jìn)行的預(yù)測(cè)是如何彼此不同的 。高方差模型會(huì)過(guò)度擬合你的訓(xùn)練集,而在訓(xùn)練集以外的數(shù)據(jù)上表現(xiàn)很差 。
3、給你一個(gè)有1000列和1百萬(wàn)行的訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集是基于分類問(wèn)題的 。經(jīng)理要求你來(lái)降低該數(shù)據(jù)集的維度以減少模型計(jì)算時(shí)間,但你的機(jī)器內(nèi)存有限 。你會(huì)怎么做?(你可以自由做各種實(shí)際操作假設(shè) 。)
你的面試官應(yīng)該非常了解很難在有限的內(nèi)存上處理高維的數(shù)據(jù) 。以下是你可以使用的處理方法:
1.由于我們的RAM很小,首先要關(guān)閉機(jī)器上正在運(yùn)行的其他程序,包括網(wǎng)頁(yè)瀏覽器等,以確保大部分內(nèi)存可以使用 。
2.我們可以隨機(jī)采樣數(shù)據(jù)集 。這意味著,我們可以創(chuàng)建一個(gè)較小的數(shù)據(jù)集,比如有1000個(gè)變量和30萬(wàn)行 , 然后做計(jì)算 。
3.為了降低維度,我們可以把數(shù)值變量和分類變量分開,同時(shí)刪掉相關(guān)聯(lián)的變量 。對(duì)于數(shù)值變量,我們將使用相關(guān)性分析;對(duì)于分類變量,我們可以用卡方檢驗(yàn) 。
4.另外,我們還可以使用PCA(主成分分析) , 并挑選可以解釋在數(shù)據(jù)集中有最大偏差的成分 。
5.利用在線學(xué)習(xí)算法,如(在中可用)是一個(gè)不錯(cuò)的選擇 。
6.利用 (隨機(jī)梯度下降法)建立線性模型也很有幫助 。
7.我們也可以用我們對(duì)業(yè)務(wù)的理解來(lái)估計(jì)各預(yù)測(cè)變量對(duì)響應(yīng)變量的影響的大小 。但是,這是一個(gè)主觀的方法,如果沒有找出有用的預(yù)測(cè)變量可能會(huì)導(dǎo)致信息的顯著丟失 。
4、全球平均溫度的上升導(dǎo)致世界各地的海盜數(shù)量減少 。這是否意味著海盜的數(shù)量減少引起氣候變化?
不能夠這樣說(shuō) 。這是一個(gè)“因果關(guān)系和相關(guān)性”的經(jīng)典案例 。全球平均溫度和海盜數(shù)量之間有可能有相關(guān)性,但基于這些信息,我們不能說(shuō)因?yàn)槿蚱骄鶜鉁氐纳仙鴮?dǎo)致了海盜的消失 。我們不能斷定海盜的數(shù)量減少是引起氣候變化的原因 , 因?yàn)榭赡苡衅渌蛩兀摲蚧祀s因素)影響了這一現(xiàn)象 。
5、給你一個(gè)數(shù)據(jù)集,這個(gè)數(shù)據(jù)集有缺失值,且這些缺失值分布在離中值有1個(gè)標(biāo)準(zhǔn)偏差的范圍內(nèi) 。百分之多少的數(shù)據(jù)不會(huì)受到影響?為什么?
約有32%的數(shù)據(jù)將不受缺失值的影響 。因?yàn)?,由于?shù)據(jù)分布在中位數(shù)附近,讓我們先假設(shè)這是一個(gè)正態(tài)分布 。我們知道,在一個(gè)正態(tài)分布中中文分詞 人工智能,約有68%的數(shù)據(jù)位于跟平均數(shù)(或眾數(shù)、中位數(shù))1個(gè)標(biāo)準(zhǔn)差范圍內(nèi),那么剩下的約32%的數(shù)據(jù)是不受影響的 。因此,約有32%的數(shù)據(jù)將不受缺失值的影響 。
6、你意識(shí)到你的模型受到低偏差和高方差問(wèn)題的困擾 。那么,應(yīng)該使用哪種算法來(lái)解決問(wèn)題呢?為什么?
可以使用算法(如隨機(jī)森林) 。因?yàn)?,低偏差意味著模型的預(yù)測(cè)值接近實(shí)際值,換句話說(shuō) , 該模型有足夠的靈活性,以模仿訓(xùn)練數(shù)據(jù)的分布 。這樣貌似很好,但是別忘了,一個(gè)靈活的模型沒有泛化能力 , 意味著當(dāng)這個(gè)模型用在對(duì)一個(gè)未曾見過(guò)的數(shù)據(jù)集進(jìn)行測(cè)試的時(shí)候,它會(huì)令人很失望 。在這種情況下 , 我們可以使用算法(如隨機(jī)森林),以解決高方差問(wèn)題 。算法把數(shù)據(jù)集分成重復(fù)隨機(jī)取樣形成的子集 。然后,這些樣本利用單個(gè)學(xué)習(xí)算法生成一組模型 。接著 , 利用投票(分類)或平均(回歸)把模型預(yù)測(cè)結(jié)合在一起 。另外,為了應(yīng)對(duì)大方差 , 我們可以:
1.使用正則化技術(shù),懲罰更高的模型系數(shù) , 從而降低了模型的復(fù)雜性 。
2.使用可變重要性圖表中的前n個(gè)特征 ??梢杂糜诋?dāng)一個(gè)算法在數(shù)據(jù)集中的所有變量里很難尋找到有意義信號(hào)的時(shí)候 。
7、協(xié)方差和相關(guān)性有什么區(qū)別?
相關(guān)性是協(xié)方差的標(biāo)準(zhǔn)化格式 。協(xié)方差本身很難做比較 。
例如:如果我們計(jì)算工資($)和年齡(歲)的協(xié)方差,因?yàn)檫@兩個(gè)變量有不同的度量,所以我們會(huì)得到不能做比較的不同的協(xié)方差 。為了解決這個(gè)問(wèn)題,我們計(jì)算相關(guān)性來(lái)得到一個(gè)介于-1和1之間的值 , 就可以忽略它們各自不同的度量 。
8、真陽(yáng)性率和召回有什么關(guān)系?寫出方程式 。
真陽(yáng)性率=召回 。它們有相同的公式(TP / TP + FN) 。
9、 算法(GBM)和隨機(jī)森林都是基于樹的算法,它們有什么區(qū)別?
最根本的區(qū)別是 , 隨機(jī)森林算法使用技術(shù)做出預(yù)測(cè);而GBM是采用技術(shù)做預(yù)測(cè)的 。在技術(shù)中,數(shù)據(jù)集用隨機(jī)采樣的方法被劃分成n個(gè)樣本 。然后,使用單一的學(xué)習(xí)算法,在所有樣本上建模 。接著利用投票或者求平均來(lái)組合所得到的預(yù)測(cè) 。是平行進(jìn)行的,而是在第一輪的預(yù)測(cè)之后,算法將分類出錯(cuò)的預(yù)測(cè)加高權(quán)重,使得它們可以在后續(xù)一輪中得到校正 。這種給予分類出錯(cuò)的預(yù)測(cè)高權(quán)重的順序過(guò)程持續(xù)進(jìn)行 , 一直到達(dá)到停止標(biāo)準(zhǔn)為止 。隨機(jī)森林通過(guò)減少方差(主要方式)提高模型的精度 。生成樹之間是不相關(guān)的,以把方差的減少最大化 。在另一方面 , GBM提高了精度,同時(shí)減少了模型的偏差和方差 。
10、在k-means或kNN,我們是用歐氏距離來(lái)計(jì)算最近的鄰居之間的距離 。為什么不用曼哈頓距離?
我們不用曼哈頓距離 , 因?yàn)樗挥?jì)算水平或垂直距離,有維度的限制 。另一方面 , 歐氏距離可用于任何空間的距離計(jì)算問(wèn)題 。因?yàn)?,?shù)據(jù)點(diǎn)可以存在于任何空間,歐氏距離是更可行的選擇 。例如:想象一下國(guó)際象棋棋盤 , 象或車所做的移動(dòng)是由曼哈頓距離計(jì)算的,因?yàn)樗鼈兪窃诟髯缘乃胶痛怪狈较蜃龅倪\(yùn)動(dòng) 。
本文到此結(jié)束 , 希望對(duì)大家有所幫助 。