他選擇了更為穩(wěn)健、透明,且便于迭代和調(diào)整的“多因子加權(quán)合成+狀態(tài)機(jī)判別”的混合建模思路。整個(gè)過程,充滿了試錯(cuò)、驗(yàn)證、再調(diào)整。
------
第一步:因子預(yù)處理與標(biāo)準(zhǔn)化
來自不同源頭的數(shù)據(jù)首先需要進(jìn)行清洗和預(yù)處理,消除極端值、處理缺失值。然后,是關(guān)鍵的標(biāo)準(zhǔn)化。他需要將不同量綱、不同取值范圍的因子,映射到統(tǒng)一的、可比較的尺度上。
陸孤影沒有使用簡(jiǎn)單的min-max歸一化(縮放到0-1之間),因?yàn)槟承┲笜?biāo)(如漲跌停家數(shù))的分布可能高度偏斜,且極值會(huì)隨著時(shí)間推移而變化。他選擇了基于滾動(dòng)時(shí)間窗口的標(biāo)準(zhǔn)化。對(duì)于每個(gè)因子,計(jì)算其過去n個(gè)交易日(例如,n=60,代表一個(gè)季度)的滾動(dòng)均值和滾動(dòng)標(biāo)準(zhǔn)差,然后將當(dāng)前值轉(zhuǎn)換為“偏離其近期均值的標(biāo)準(zhǔn)差倍數(shù)”,即z-score。
例如:
當(dāng)前上漲家數(shù)比例=(當(dāng)前值-過去60日該比例均值)過去60日該比例的標(biāo)準(zhǔn)差
這意味著,因子值表達(dá)的是“相對(duì)于近期正常水平,當(dāng)前是異常的高還是低”。一個(gè)z-score為+2的因子,意味著其當(dāng)前值比近期的平均水平高出2個(gè)標(biāo)準(zhǔn)差,處于統(tǒng)計(jì)學(xué)意義上的顯著高位。這對(duì)于衡量情緒的“熱度”或“冷度”非常直觀。
他將所有連續(xù)型因子(如上漲家數(shù)比例、波動(dòng)率、新聞情感得分、論壇關(guān)鍵詞頻率等)都進(jìn)行了這樣的處理。對(duì)于分類或計(jì)數(shù)型因子(如漲停家數(shù)、跌停家數(shù)),則采用類似的思路,計(jì)算其相對(duì)于近期滾動(dòng)窗口內(nèi)均值(或中位數(shù))的偏離倍數(shù)。
_c