MindStudio模型訓練場景精度比對全流程和結果分析( 二 )


MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
然后執行:wq!命令保存文件并退出 。
最后執行source ~/.bashrc命令使其立即生效 。
關于MindStudio的具體安裝流程可以參考Windows安裝MindStudio(點我跳轉),MindStudio環境搭建指導視頻(點我跳轉) 。MindStudio官方下載地址:點我跳轉 。
本文教程基于MindStudio5.0.RC2 x64 , CANN版本5.1.RC2實現 。
三、準備基于GPU運行生成的原始訓練網絡npy數據文件3.1 獲取項目代碼本樣例選擇resnet50模型 , 利用git克隆代碼(git clone -b r1.13.0 https://github.com/tensorflow/models.git),下載成功后如下圖所示:
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
3.2 生成數據前處理數據比對前,需要先檢查并去除訓練腳本內部使用到的隨機處理,避免由于輸入數據不一致導致數據比對結果不可用 。
編輯resnet_run_loop.py文件,修改如下(以下行數僅為示例,請以實際為準):
注釋掉第83、85行
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
注釋掉第587~594行
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
第607行,修改為“return None”
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
編輯cifar10_main.py文件,將train_epochs的值改為1 。
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
3.3 生成npy文件進入訓練腳本所在目錄(如“~/models/official/resnet”) , 修改訓練腳本,添加tfdbg的hook 。編輯resnet_run_loop.py文件,添加如下加粗字體的信息 。
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
配置環境變量
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
執行訓練腳本
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
訓練任務停止后,在命令行輸入run,訓練會往下執行一個step 。
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
執行lt>gpu_dump命令將所有tensor的名稱暫存到自定義名稱的gpu_dump文件里 。命令行中會有如下回顯 。
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
另外開啟一個終端,在linux命令行下進入gpu_dump文件所在目錄,執行下述命令,用以生成在tfdbg命令行執行的命令 。
timestamp=$[$(date +%s%N)/1000] ; cat gpu_dump | awk '{print "pt",$4,$4}' | awk '{gsub("/", "_", $3);gsub(":", ".", $3);print($1,$2,"-n 0 -w "$3".""'$timestamp'"".npy")}'>dump.txt
將上一步生成的dump.txt文件中所有tensor存儲的命令復制(所有以“pt”開頭的命令),然后回到tfdbg命令行(剛才執行訓練腳本的控制臺)粘貼執行,即可存儲所有的npy文件,存儲路徑為訓練腳本所在目錄 。
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
退出tfdbg命令行,將生成的npy文件保存到tf_resnet50_gpu_dump_data(用戶可自定義)目錄下 。
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
四、準備基于NPU運行生成的訓練網絡dump數據和計算圖文件4.1 分析遷移單擊菜單欄“File > New > Project...”彈出“New Project”窗口 。
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
在New Project窗口中,選擇Ascend Training 。輸入項目的名稱、CANN遠程地址以及本地地址 。點擊Change配置CANN,如下圖所示:
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖
  • Name:工程名稱,可自定義 。
  • Description:工程描述,可按需補充關于工程的詳細信息 。
  • CANN Version:CANN軟件包版本,如未識別或想要更換使用的版本 , 可單擊“Change”,在彈出界面中選擇Ascend-cann-toolkit開發套件包的安裝路徑(注意需選擇到版本號一級) 。
  • Project Location:工程目錄,默認在“$HOME/AscendProjects”下創建 。
點擊右側 + 進行配置遠程服務器,如下圖所示:
MindStudio模型訓練場景精度比對全流程和結果分析

文章插圖

推薦閱讀