對數求導法公式 對數求導( 二 )


一種解決 *** 是將該函數的定義域限定為?? ∪ ?? \0,但對于負數來說,函數依然不可微 。因此,為了正確推導出復變指數函數x?的導數,只需要把該函數的定義域嚴格限定為正數即可 。排除0是因為此時導數也為0,左右導數需相等,但在這種情況下,此條件是不成立的 。因為左極限是沒有定義的,函數在0處不可微,因此函數的定義域只能限定為正數 。

對數求導法公式  對數求導

文章插圖
在繼續以下內容之前,先考考你,這里有一個比復變指數函數f(x) = x?更高級的函數f(x) = x?2 。如果你理解了之一個例子背后的邏輯和步驟,再加一個指數應該毫無難度,可以推導出以下結果:

對數求導法公式  對數求導

文章插圖

對數求導法公式  對數求導

文章插圖
導數3:多元輸入函數的梯度
對數求導法公式  對數求導

文章插圖
到目前為止,前面討論的函數導數都是從?映射到?的函數,即函數的定義域和值域都是實數 。但機器學習本質上是矢量的,函數也是多元的 。
下面這個例子最能闡釋這種多元性:當神經 *** 的輸入層大小為m和輸出層大小為k時,即f(x) = g(W?x + b),此函數是線性映射W?x(權陣W和輸入向量x)和非線性映射g(激活函數)按元素組成的 。一般情況下,該函數也可視作是從??到??的映射 。
我們把k=1時的導數稱為梯度 ?,F在來計算以下從?3映射到?的三元函數:

對數求導法公式  對數求導

文章插圖
可以把f看作是一個函數,它從大小為3的向量映射到大小為1的向量 。

對數求導法公式  對數求導

文章插圖
圖源:unsplash
多元輸入函數的導數被稱為梯度,用倒三角符號?(英文為nabla)表示 。從??映射到?的函數g的梯度是n個偏導數的 ***,每個偏導數都是一個n元函數 。因此,如果g是一個從??到?的映射,其梯度?g是一個從??到??的映射 。
要推導出函數f(x,y,z) = 2?? + zcos(x)的梯度,需要構造一個矢量的偏導數:?f/?x,?f/?y和?f/?z,結果如下:

對數求導法公式  對數求導

文章插圖
需要注意,此處也需要利用公式進行等值轉化,即2??=exp(xy ln(2)) 。
總之,對于一個從?3映射到 ?的三元函數f,其導數是一個從?3映射到?3的梯度? f 。從??映射到??(k > 1)的一般式中,一個從??映射到??的多元函數的導數是一個雅可比矩陣,而非一個梯度向量 。

對數求導法公式  對數求導

文章插圖
導數4:多元輸入輸出函數的雅可比矩陣
對數求導法公式  對數求導

文章插圖
上一節中已經提到從??映射到?的函數的導數,是一個從??映射到??的梯度 。但如果輸出域也是多元的,即從??映射到??(k > 1),那又當如何?
這種情況下,導數為雅可比矩陣 ??梢园烟荻群唵我暈橐粋€m x 1的特殊雅可比矩陣,此時m與變量個數相等 。雅可比矩陣J(g)是一個從??到??*?的映射,其中函數g從??映射到?? 。這也就是說輸出域的維數是k x m,即為一個k x m矩陣 。換言之,在雅可比矩陣J(g)中,第i行表示函數g?的梯度? g? 。
假設上述函數f(x, y) = [2x2, x √y]從?2映射到?2,通過推導該函數的導數可以發現函數的輸入和輸出域都是多元的 。在這種情況下,由于平方根函數在負數上沒有定義,需要把y的定義域限定為?? 。輸出雅可比矩陣的之一行就是函數1的導數,即? 2x2;第二行為函數2的導數,即? x √y 。

對數求導法公式  對數求導

文章插圖
雅可比矩陣在深度學習中的可解釋性領域中有一個有趣用例,目的是為了理解神經 *** 的行為,并分析神經 *** 的輸出層對輸入的靈敏度 。
雅可比矩陣有助于研究輸入空間的變化對輸出的影響,還可以用于理解神經 *** 中間層的概念 ??傊枰涀√荻仁菢肆繉ο蛄康膶?,雅可比矩陣是一個向量對另一個向量的導數 。

對數求導法公式  對數求導

文章插圖
導數5:多元輸入函數的黑塞矩陣
對數求導法公式  對數求導

文章插圖
目前僅討論了一階導數求導,但在神經 *** 中,會經常討論多元函數的高階導數 。其中一種特殊情況就是二階導數,也被稱為黑塞矩陣,用H(f)或? 2(微分算符的平方)表示 。從??映射到?的函數g的黑塞矩陣是從??到??*?的映射H(g) 。

推薦閱讀