继夫的玩弄H辣文的小说|女人与拘性猛交视频|精品欧美高清不卡高清|一起做亏亏的事情的视频|啦啦啦在线视频观看|望月直播下载ios版本|国产日韩欧美一区二区三区

#文獻研讀# 設備上的機器學習:一個算法與學習理論的角度

基于設備的機器學習:一個算法與學習理論的角度
【#文獻研讀# 設備上的機器學習:一個算法與學習理論的角度】摘要:目前在設備上使用機器學習模型的方式是在云中訓練一個模型,并使用在設備上訓練過的模型來執行推理 。然而,隨著智能設備數量的增加和硬件的改進,人們對對設備進行模型訓練很感興趣 。鑒于這種興趣的激增,從與設備無關的角度對該領域進行全面的調查,為理解最先進的技術和確定開放的挑戰和未來的研究途徑奠定了基礎 。由于設備上學習是一個廣闊的領域,與人工智能和機器學習中的大量相關主題(包括在線學習、模型適應、一/幾樣本學習等)有關 , 因此在一次調查中覆蓋如此大量的主題是不切實際的 。相反,這項調查發現了一個中間地帶,通過將設備上學習的問題重新定義為資源受限的學習,其中資源是計算和記憶的 。這種重新制定允許對來自各種研究領域的工具、技術和算法進行公平的比較 。除了總結最新的技術狀況外 , 該調查還確定了在設備上學習的算法和理論方面所面臨的一些挑戰和下一步的步驟 。
1.前言
在設備上添加智能可以帶來無縫體驗,適合每個用戶的特定需求matlab語言常用算法程序集,同時保持其個人數據的完整性 。目前制造這種智能設備的方法是基于云范例,即數據在設備級別收集并轉移到云中 。一旦傳輸,這些數據就會與從其他設備收集的數據聚合,進行處理,并用于訓練機器學習模型 。當訓練完成后,所得到的模型被從云推回設備,在那里它被用來改善設備的智能行為 。在云范式中,所有發生在設備上的機器學習都是推理,即在云中訓練的模型的執行 。這種分離的角色——數據收集和推理的邊緣 , 數據處理和模型訓練云是自然考慮到終端用戶設備的形式因素和成本考慮,限制的計算能力和內存支持,以及他們消耗的能量 。
基于云的系統可以訪問幾乎無限的資源,并且只受到成本考慮的限制,這使得它們成為數據存儲、數據處理和模型構建等資源密集型任務的理想選擇 。然而,隨著人工智能成為消費者生活中無處不在的一個方面,基于云計算的范式也存在一些缺點,這些缺點將變得更加明顯 。主要考慮的是用戶數據的隱私和安全性,因為這些數據需要傳輸到云并無限期地存儲在那里 。用戶數據的傳輸容易被干擾和捕獲,而存儲的數據也留下了未經授權的訪問的可能性 。
除了隱私和安全問題,對智能設備的期望將是他們的行為是專門為每個消費者定制的 。然而,云訓練的模型不那么個性化 , 因為它們是由從許多消費者聚合的數據構建的 , 而且每個模型都是它是針對廣泛的用戶群體而構建的 , 因為為每個消費者和每個設備構建單獨的模型是成本高昂的 。這種去個性化也適用于聯邦學習等分布式范式 , 這些范式通常傾向于改進基于平均單個模型[85]的全局模型 。
最后,支持人工智能的設備也將立即學習并響應新的場景,但基于云的訓練速度緩慢,因為需要額外的時間從設備來回傳輸數據和模型 。目前,大多數用例都不需要實時的模型更新,而且數據收集和模型更新之間的長時間延遲并不是一個嚴重的缺點 。但是,隨著智能行為變得普遍和預期,將需要實時更新 , 比如聯網車輛和自動駕駛 。在這種情況下,長延遲變得站不住腳,并且需要對模型更新發生在本地而不是在云中的解決方案 。
可以通過將部分或全部模型開發轉移到設備本身上來解決云模型的缺點 。模型訓練,特別是在深度學習時代,往往是模型開發過程中最耗時的部分,使其成為加快設備模型開發的明顯重點領域 。在設備上進行模型訓練通常被稱為邊緣學習和設備上學習 。然而,我們區分了這些術語,在邊緣學習作為一個廣泛的概念,以表示不上傳數據到云的實時或準實時學習的能力,而在設備上學習專門指的是在設備本身上進行模型訓練的概念 。
1.1 設備上學習
邊緣設備的定義 。在我們詳細闡述設備上學習之前,在設備上學習的背景下 , 定義我們所說的設備 , 或者特別是邊緣設備是很有幫助的 。我們將邊緣設備定義為其計算、內存和能量資源受到限制且不能輕易增加或減少的設備 。這些約束可能是由于形式因素考慮(不可能添加更多的計算或內存或電池沒有增加設備的大?。┗蠐捎誄殺究悸牽ㄓ兇愎壞目占涮砑右桓鯣PU洗衣機但這將增加其成本) 。邊緣設備的這一定義適用于所有此類消費設備和工業設備,其中的資源限制限制了可用于構建和訓練人工智能模型的內容甚至內部計算集群都不符合邊緣定義 , 因為它很容易根據需要提供額外的資源 。同樣地,工作站也不會被認為是一個邊緣設備,因為它可以直接更換CPUmatlab語言常用算法程序集,增加更多的內存,甚至添加一個額外的GPU卡 。另一方面,一個標準的筆記本電腦將被認為是一種邊緣設備,因為它不容易根據需要添加額外的資源 , 即使它們的資源通常遠遠超過通常認為在消費者邊緣設備中可用的資源 。
在邊緣設備上的訓練模型 。在一個合理的時間框架內 , 在設備上訓練模型的主要限制是在設備上缺乏計算和內存 。通過向設備添加更多資源 , 或者更有效地使用這些資源,或者兩者結合 , 可以加快培訓速度 。圖1顯示了這些方法可以應用的不同層次的高級細分 。這個層次結構中的每個級別都抽象了它以下級別的實現細節 , 并為它上面的級別提供了一個獨立的接口 。
硬件-在層次結構的底部是執行所有學習算法的實際芯片組 。這一領域的基礎研究旨在改進現有的芯片設計開發具有更多計算和內存,更低功耗和占用空間的芯片),或開發具有新架構的新設計,以加快模型訓練 。雖然硬件研究是改善設備學習的一個富有成效的途徑,但這是一個昂貴的過程,需要大量的資金支出來建立實驗室和制造設施,而且通常需要很長的開發時間 。
庫-每個機器學習算法都依賴于一些關鍵的操作(例如在神經網絡的情況下的乘法加法) 。支持這些操作的庫是將硬件與學習算法分開的接口 。這種分離允許不基于任何特定硬件體系結構的算法開發 。改進的庫可以支持更快的算法執行和加速設備上的訓練 。但是,這些庫主要適合于執行操作的硬件的獨特方面 。這種依賴關系限制了新庫所能獲得的改進量 。
算法——由于設備上的學習技術是基于其算法實現的,對新算法開發的研究是提高模型訓練效率的一個重要組成部分 。這種算法的開發可以考慮到資源約束 , 作為模型訓練過程的一部分 。算法的開發導致了硬件獨立的技術,但每個算法的實際性能都特定于確切的領域、環境和硬件,需要對每個配置進行經驗驗證 。根據每個維度中可用的選項的數量,驗證空間可能會變得非常大 。
理論——每一個學習算法都是基于一個潛在的理論,以保證其性能的某些方面 。開發針對邊緣學習的新理論有助于我們理解算法在資源有限的環境下如何表現 。然而,雖然理論研究足夠靈活,可以應用于各種算法和硬件系統 , 但由于這種研究的困難,需要實現算法的形式才能實現,它受到限制 。圖2顯示了邊緣學習堆棧的不同層次的擴展層次視圖,并突出顯示了在不同層次上提高設備上的模型訓練性能的不同方法 。硬件方法包括在設備的受限形式因素中添加額外的資源,或者開發更具資源效率的新架構 。改進模型訓練的軟件方法包括提高計算庫的性能等如、Cuda、CuDNN或提高機器學習算法本身的性能 。最后,理論方法有助于指導對ML算法的新研究,并提高我們對現有技術的理解,以及它們對新問題、環境和硬件的通用性 。
1.2 本次調查范圍
目前正在進行大量研究,主要是在學術界,從多個角度看待設備上的學習 , 包括單邊與多邊設備,硬件與軟件與理論,以及應用領域,如醫療保健與消費設備與自動駕駛汽車 。鑒于這些領域的大量研究,重要的是將該調查限制在一個可管理的子集,針對設備上學習最重要的方面 。
我們首先將這個調查限制在圖1中的算法和學習理論水平上 。這使我們能夠專注于設備上學習的機器學習方面,并開發獨立于特定硬件的新技術 。我們還將本次調查的范圍限制在在單一設備上學習 。這一限制使調查的范圍易于管理,同時也為擴展到分布式設置提供了基礎 。此外 , 在正確的抽象級別上,分布式邊緣系統可以被視為是一個具有額外資源集中的單個設備在通信延遲 。這種觀點允許我們在以后的階段將單個設備的算法和理論擴展到分布式框架中 。這次調查的目標是提供一個大規模的觀點,在單個設備上的當前最先進的算法和理論進展的設備上學習 。為了實現這一目標 , 該調查將設備上的學習重新定義為資源受限的學習之一 。這種重新表述描述了使用計算和內存——兩種資源——在設備上學習的效率,并為公平比較不同的機器學習和人工智能技術及其在設備上學習中的適用性提供了基礎 。最后,本調查確定了設備上學習在算法和理論考慮方面的挑戰,并為開發該領域未來的研究和發展提供了路線圖所需的背景 。
1.3如何閱讀這份調查報告
這項調查全面回顧了目前資源緊張設備的最先進的訓練模式 。除引言和結論外 , 它被分為4個主要部分 。第2節簡要介紹了這些資源及其與設備上學習的相關性 。第3節和第4節重點邊緣平臺層次結構的算法和理論層次 。最后 , 第5節提供了一個簡要的總結,并確定了在設備學習健壯框架方面進展的各種挑戰 。對于那些對設備上學習的特定方面感興趣的人,第3部分和第4部分大多是獨立的,可以單獨閱讀 。
設備上學習中的資源限制 。簡要討論了區分設備上學習與基于云的系統的相關資源 。圖1中不同層次的大多數現有研究都是針對在這些資源的可用性有限時的設備上學習問題 。
算法 。研究解決了最近的算法發展,以準確地捕獲軟件框架中的硬件約束 , 然后調查了考慮到資源約束的機器學習算法的最先進水平 。本節從計算的角度(即所使用的底層計算模型)對算法進行分類 。
理論研究從統計學的角度討論了設備上的學習,并調查了形成了第4節中提到的大多數算法設計基礎的傳統學習理論 。后來,它解決了資源約束環境中的“不可學習性”問題 , 并調查了較新的資源約束學習理論 。這些較新的理論將資源約束(即內存、處理速度等)抽象為信息瓶頸,并為資源約束設置下的學習提供了性能保證 。最后,第6節總結了前面的部分 , 并解決了設備上學習研究中的一些開放挑戰 。
結論
到目前為止,設備上的學習仍然在學術研究人員的范圍內,但隨著智能設備數量的增加和硬件的改進,人們有興趣在設備上而不是在云端進行學習 。在該行業,這種興趣主要是由硬件制造商推動特定芯片組優化,以及初創公司提供某些利基領域的特別解決方案 , 主要是計算機視覺和物聯網 。鑒于這種興趣的激增和適合在設備上學習的邊緣硬件的相應可用性,從算法和學習理論的角度對該領域的全面調查為理解最先進的技術和確定開放的挑戰和未來的研究途徑奠定了基礎 。
模型適應、一/幾樣本學習、資源受限學習等等 。在一次調查中涵蓋如此大量的研究主題是不切實際的,但與此同時 , 忽視在這些領域所做的工作,在任何方法比較中都留下明顯的差距 。這項調查發現了一個中間地帶,通過將設備上學習的問題重新定義為資源受限的學習,其中資源是計算和內存消耗 。這種重新制定允許對來自各種研究領域的工具、技術和算法進行公平的比較 。
我們將調查限制在單個設備上學習,即通過添加基于通信延遲的附加約束 , 所討論的思想可以以正常的方式擴展到分布式設置 。我們還集中調查了設備上學習的算法和理論方面,而忽略了系統層面(硬件和庫)的影響 。這個選擇是經過深思熟慮的,并允許我們將設備上學習的算法方面從實現和硬件選擇中分離開來 。這種區別也允許我們確定可以應用于各種系統的挑戰和未來的研究 。
基于將設備上的學習重新表述為資源受限的學習 , 調查發現有許多領域需要更多的研究和開發 。在算法層面上,很明顯,目前的努力主要是為了利用已經很輕量級的機器學習算法,或者以減少資源利用的方式限制現有的算法 。有許多挑戰我們確定在算法空間包括需要解耦算法從硬件約束,設計有效的損失函數和指標捕獲資源約束 , 擴展傳統ML算法除了當前的工作,和處理的情況下資源預算是動態的,而不是靜態的 。此外,還改進了模型分析的方法需要更準確地計算一個算法的資源消耗 。目前的這種測量方法是抽象的,專注于應用軟件工程原理,如漸近分析或低級測量,如失敗或mac(乘加計算) 。這兩種方法都沒有給出資源需求的整體概念,而且在許多情況下都不是系統在學習過程中所需的總資源的一部分 。
最后 , 目前資源約束算法學習理論的研究主要集中在資源約束下算法的不可學習性 。最自然的一步是識別出可以保證算法的可學習性和相關的估計誤差的技術 。現有的理論技術也主要這些算法的空間(內存)復雜性,而不是它們的計算需求 。即使在可以確定滿足資源約束的理想假設類的情況下,也需要進一步的工作來從該類中選擇最優模型 。
本文到此結束 , 希望對大家有所幫助 。