dropbox怎么用(iPad使用dropbox)

2026-05-09 dropbox ipad

【CSDN 編者按】
Dropbox 借助機器學習的預測功能，每年能為公司節省了一百多七十多萬美元的基礎架構成本。非常了不起的成就。本文，一起來看一看 Dropbox 采用機器學習的經過，以及分析一下其中的利弊。
譯者 | 彎月責編 | 張文
出品 | CSDN（ID：CSDNnews）
最近，Dropbox 優化了生成和緩存文檔預覽的方式，并借助機器學習的預測能力，每年為公司節省了 170 萬美元的基礎架構成本。Dropbox 的一些常用功能都采用了機器學習，例如搜索、文件與文件夾提示以及文檔掃描 OCR 。雖然用戶看不到 Dropbox 采用的機器學習，但這些應用程序仍以其他方式推動了業務的發展。
在本文中，我們就來看一看 Dropbox 采用機器學習的經過，以及其中的利弊。
預覽功能用戶可以利用 Dropbox 的預覽功能直接查看文件，而無需下載內容。除了常見的縮略圖預覽之外，Dropbox 還提供交互式預覽界面，可供用戶共享文件和共同編輯文件，包括添加批注和標記其他用戶。
我們的內部系統 Riviera 負責安全地生成文件預覽，它可以處理數百種支持的文件類型的預覽。它可以將各種內容轉換操作鏈接在一起，創建適合特定文件類型的預覽。例如，Riviera 可以將 PDF 文檔的某一頁柵格化，在 Dropbox 的 Web 界面中顯示高分辨率的預覽。完整內容的預覽功能支持批注和共享之類的交互。大型圖片可以轉換成縮略圖，以供在各種情況中顯示給用戶，包括搜索結果或文件瀏覽器。
【dropbox怎么用(iPad使用dropbox)】在 Dropbox 的規模下，Riviera 每天需要處理數十 PB 的數據。為了加快某些類別的大型文件的預覽，Riviera 會提前生成預覽，并緩存預覽結果（此過程稱為預熱）。由于我們支持的文件量非常巨大，因此預熱消耗的 CPU 與存儲也非常可觀。
圖：瀏覽文件時的縮略圖預覽。預覽可以被放大，
并作為應用程序文件的代理與用戶交互。
我們看到采用機器學習可以降低這些成本，因為有些預生成的內容從不會有人查看。如果我們可以有效地預測某個預覽是否會被使用，則只需預熱我們確信一定會被查看的文件，從而節省計算和存儲空間。我們的這個項目名叫 Cannes（戛納），這個名字的靈感來自法國戛納電影節。
機器學習的利弊權衡在預覽的優化過程中，機器學習的兩項折衷決定了我們的指導原則。
第一個挑戰是權衡機器學習為基礎設施帶來的成本效益。減少預熱的文件可以節省成本，無人不喜歡，但也有可能漏掉一些文件，造成不良的用戶體驗。如果緩存中沒有相應的文件預覽，則 Riviera 需要動態地生成預覽，而在這期間用戶只能等待。我們與預覽團隊合作開發出了一種預防措施，防止用戶體驗降級，并通過這種預防措施來調整模型，以合理的方式節省費用。
另一個需要權衡的是復雜性和模型的性能 vs. 可解釋性和部署的成本。通常，你需要權衡機器學習的復雜性與可解釋性：通常模型越復雜，預測就越準確，但代價是可解釋性會降低，你很難解釋為何得出了這樣的預測，而且部署的復雜性可能也會增加。在第一次迭代中，我們的目標是盡快提供可解釋的機器學習解決方案。
由于 Cannes 是在現有系統內新構建的機器學習應用程序，因此我們偏向于使用一種比較簡單且可以解釋的模型，這樣我們就可以在研究更復雜的模型之前，集中精力建立模型、指標以及報告。如果出現問題，或 Riviera 出現意外行為，機器學習團隊也能夠進行調試，并了解是 Cannes 的原因還是其他問題。我們的解決方案必須相對簡單且成本低廉，因為我們每天都需要部署將近 5 億個請求。目前的系統只能預熱所有的可預覽文件，因此任何改進都可以節省成本，而且越快越好！
Cannes v1考慮到這些權衡之后，我們選擇了一個簡單、易于訓練且易于解釋的模型。第一版的模型是一個梯度提升分類器，訓練時采用了文件擴展名、存儲了文件的 Dropbox 賬號類型，以及該賬號最近 30 天的活動等作為輸入特征。在離線預留數據上訓練時，我們發現該模型經過預熱后，預測的預覽準確率可以在最多 60 天內超過 70% 。該模型拒絕了預留數據中大約 40%的預熱請求，并且性能在我們為自己設定的預防指標以內。假陰性的數量很少，假陰性指的是我們預測不會被查看、但最終在接下來的 60 天內被查看的文件，一旦出現這種情況，我們就需要動態生成預覽。我們估算了一下成本：“拒絕百分比”- 假陰性，結果發現每年可以節省 170 萬美元。

推薦閱讀

上一篇：犬瘟熱怎么治療(犬瘟熱后期還能治好嗎)

下一篇：克萊斯勒怎么樣(克萊斯勒二手車能買嗎)