dropbox怎么用(iPad使用dropbox)


【CSDN 編者按】
Dropbox 借助機器學習的預測功能,每年能為公司節省了一百多七十多萬美元的基礎架構成本 。非常了不起的成就 。本文,一起來看一看 Dropbox 采用機器學習的經過,以及分析一下其中的利弊 。
譯者 | 彎月 責編 | 張文
出品 | CSDN(ID:CSDNnews)
最近,Dropbox 優化了生成和緩存文檔預覽的方式,并借助機器學習的預測能力,每年為公司節省了 170 萬美元的基礎架構成本 。Dropbox 的一些常用功能都采用了機器學習,例如搜索、文件與文件夾提示以及文檔掃描 OCR 。雖然用戶看不到 Dropbox 采用的機器學習,但這些應用程序仍以其他方式推動了業務的發展 。
在本文中,我們就來看一看 Dropbox 采用機器學習的經過,以及其中的利弊 。
預覽功能用戶可以利用 Dropbox 的預覽功能直接查看文件,而無需下載內容 。除了常見的縮略圖預覽之外,Dropbox 還提供交互式預覽界面,可供用戶共享文件和共同編輯文件,包括添加批注和標記其他用戶 。
我們的內部系統 Riviera 負責安全地生成文件預覽,它可以處理數百種支持的文件類型的預覽 。它可以將各種內容轉換操作鏈接在一起,創建適合特定文件類型的預覽 。例如,Riviera 可以將 PDF 文檔的某一頁柵格化,在 Dropbox 的 Web 界面中顯示高分辨率的預覽 。完整內容的預覽功能支持批注和共享之類的交互 。大型圖片可以轉換成縮略圖,以供在各種情況中顯示給用戶,包括搜索結果或文件瀏覽器 。
【dropbox怎么用(iPad使用dropbox)】在 Dropbox 的規模下,Riviera 每天需要處理數十 PB 的數據 。為了加快某些類別的大型文件的預覽,Riviera 會提前生成預覽,并緩存預覽結果(此過程稱為預熱) 。由于我們支持的文件量非常巨大,因此預熱消耗的 CPU 與存儲也非常可觀 。
圖:瀏覽文件時的縮略圖預覽 。預覽可以被放大,
并作為應用程序文件的代理與用戶交互 。
我們看到采用機器學習可以降低這些成本,因為有些預生成的內容從不會有人查看 。如果我們可以有效地預測某個預覽是否會被使用,則只需預熱我們確信一定會被查看的文件,從而節省計算和存儲空間 。我們的這個項目名叫 Cannes(戛納),這個名字的靈感來自法國戛納電影節 。
機器學習的利弊權衡在預覽的優化過程中,機器學習的兩項折衷決定了我們的指導原則 。
第一個挑戰是權衡機器學習為基礎設施帶來的成本效益 。減少預熱的文件可以節省成本,無人不喜歡,但也有可能漏掉一些文件,造成不良的用戶體驗 。如果緩存中沒有相應的文件預覽,則 Riviera 需要動態地生成預覽,而在這期間用戶只能等待 。我們與預覽團隊合作開發出了一種預防措施,防止用戶體驗降級,并通過這種預防措施來調整模型,以合理的方式節省費用 。
另一個需要權衡的是復雜性和模型的性能 vs. 可解釋性和部署的成本 。通常,你需要權衡機器學習的復雜性與可解釋性:通常模型越復雜,預測就越準確,但代價是可解釋性會降低,你很難解釋為何得出了這樣的預測,而且部署的復雜性可能也會增加 。在第一次迭代中,我們的目標是盡快提供可解釋的機器學習解決方案 。
由于 Cannes 是在現有系統內新構建的機器學習應用程序,因此我們偏向于使用一種比較簡單且可以解釋的模型,這樣我們就可以在研究更復雜的模型之前,集中精力建立模型、指標以及報告 。如果出現問題,或 Riviera 出現意外行為,機器學習團隊也能夠進行調試,并了解是 Cannes 的原因還是其他問題 。我們的解決方案必須相對簡單且成本低廉,因為我們每天都需要部署將近 5 億個請求 。目前的系統只能預熱所有的可預覽文件,因此任何改進都可以節省成本,而且越快越好!
Cannes v1考慮到這些權衡之后,我們選擇了一個簡單、易于訓練且易于解釋的模型 。第一版的模型是一個梯度提升分類器,訓練時采用了文件擴展名、存儲了文件的 Dropbox 賬號類型,以及該賬號最近 30 天的活動等作為輸入特征 。在離線預留數據上訓練時,我們發現該模型經過預熱后,預測的預覽準確率可以在最多 60 天內超過 70% 。該模型拒絕了預留數據中大約 40%的預熱請求,并且性能在我們為自己設定的預防指標以內 。假陰性的數量很少,假陰性指的是我們預測不會被查看、但最終在接下來的 60 天內被查看的文件,一旦出現這種情況,我們就需要動態生成預覽 。我們估算了一下成本:“拒絕百分比”- 假陰性,結果發現每年可以節省 170 萬美元 。

推薦閱讀