乾象投資:基于JuiceFS 構建云上量化投研平臺

背景乾象投資 Metabit Trading 成立于2018年,是一家以人工智能為核心的科技型量化投資公司 。核心成員畢業于 Stanford、CMU、清北等高校 。目前,管理規模已突破 30 億元人民幣 。
Metabit 非常重視基礎平臺的建設,有一支強大的 Research Infrastructure 團隊 。團隊試圖打破在單機上進行研發的壁壘,利用云計算進行更高效、安全的工具鏈研發 。
01 量化的研究都在做什么作為一家成立時間不久的量化投資機構,我們在對基礎存儲平臺進行選型時,會受到這樣兩方面的因素的影響:公司成立的時間比較短,沒有太多技術上的歷史負擔,在做技術選擇時 , 更偏向于使用更現代的技術棧;同時,量化投資中使用到的機器學習場景中的特性也會影響到技術的選擇 。

乾象投資:基于JuiceFS 構建云上量化投研平臺

文章插圖
上圖是我們研究場景中和機器學習關聯最緊密的策略研究模式的簡化示意圖 。首先,在模型訓練之前需要對原始數據做特征提取 。金融數據的信噪比特別低,如果直接使用原始的數據進行訓練,得到的模型噪音會非常大 。原始數據除了行情數據,即大家經常會看到的市場上的股價、交易量之類的數據,也包括一些非量價的數據,比如研報、財報、新聞、社交媒體等之類的非結構化數據,研究人員會通過一系列的變換提取出特征,再進行 AI 模型訓練 。
模型訓練會產出模型以及信號,信號是對未來價格趨勢的判斷;信號的強度意味著策略導向性的強度 。量化研究員會根據這些信息去優化投資組合,從而形成交易的實時倉位 。這個過程中會考慮橫向維度(股票)的信息來進行風險控制,例如某一行業的股票不要過度持倉 。當倉位策略形成之后,量化研究員會去模擬下單,而后得到實時倉位對應的盈虧信息,從而了解到這個策略的收益表現,以上就是一個量化研究的完整流程 。
量化研究業務特點研究需求產生大量突發任務:高彈性
在策略研究的過程中,量化研究員會產生策略想法,他們會通過實驗去驗證自己的想法 。伴隨著研究人員新想法的出現,計算平臺就會產生大量的突發任務,因此我們對計算的彈性伸縮能力的要求很高 。
研究任務多樣化:靈活性
從上面的例子可以看到 , 整個流程涵蓋了非常多不同的計算任務 , 例如:
  • 特征提取 , 時序數據上的計算;
  • 模型訓練 , 經典的機器學習的模型訓練場景;
  • 投資組合優化 , 會涉及到最優化問題的任務;
  • 策略回測,讀入行情的數據,再對策略的表現去做模擬撮合,得到倉位對應的表現 。
【乾象投資:基于JuiceFS 構建云上量化投研平臺】整個過程任務的種類是非常多樣化的,對計算的要求也很不一樣 。
研究內容需要保護:模塊化,隔離
研究員的投研內容是公司的重要 IP(知識產權) 。為了保護這些知識產權 , 公司的研究平臺會將每個策略研究環節抽象成包含標準輸入輸出和評價方式的模塊 。例如對模型的研究,輸入標準的特征值,輸出預測的信號和模型 。通過對模塊之間進行隔離,研究平臺可以有效保護 IP 的安全性 。在進行存儲平臺建設時,需要針對模塊化這個需求做相應的設計 。
量化研究數據特點大量任務的輸入來自于相同的數據,比如上文提到的回測 , 量化研究員需要對歷史策略去做大量的回測,同樣的倉位使用不同的參數去測試,觀察它們表現;或者特征提?。?經常有一些基礎特征和新特征的組合,其中大量的數據是來自于相同的數據源 。
以 A 股的股票為例:A 股市場十年的分鐘 K 線歷史行情,5000/2 股票 240 分鐘 250 天 10 年 8 字節*20 列=240GB,整體 10 年的數據量大約是 240G 。
如果使用更細力度的數據,數據量就會更大,一般來說原始數據不會超過 100TB 的范圍 。在大數據時代這算不上是特別大的數據量,但是當大量的計算任務去同時去訪問這些數據,這種場景就對數據存儲的有一些要求 。
另外,量化投研過程中伴隨著大量的突發任務,研究團隊希望能將這些任務的結果存儲起來,因此會產生大量 archive 數據,但這些數據的訪問頻率很低 。
量化研究計算任務特點基于以上特點 , 如果以傳統的機房方式,是很難去滿足我們的計算需求,因此把計算搬到云計算平臺對我們來講是一個相對合適的技術選擇 。

推薦閱讀