海量的、多維度的情緒數(shù)據(jù),如同未經(jīng)冶煉的礦石,源源不斷地流入“孤狼-幸存者系統(tǒng)”新建的“情緒維度”數(shù)據(jù)倉庫。屏幕上是滾動的數(shù)字、跳動的曲線、不斷更新的詞云和關(guān)鍵詞頻率統(tǒng)計。信息是豐富的,但也是雜亂、甚至互相矛盾的。新聞情緒可能在轉(zhuǎn)暖,但論壇恐慌指數(shù)卻在高位徘徊;價量指標(biāo)顯示拋壓減弱,但資金流向卻顯示大單仍在凈流出。如何從這些紛繁復(fù)雜、有時嘈雜的信號中,提煉出能夠刻畫市場整體情緒狀態(tài)、指示情緒演化方向、并具有一定前瞻性的“綜合情緒指數(shù)”及其分項指標(biāo)?這需要模型,一個能夠融合多源信息、過濾噪音、識別主要矛盾、并量化輸出的數(shù)學(xué)模型。
陸孤影面對的,不是一張白紙。現(xiàn)有的、系統(tǒng)內(nèi)那個相對簡單的“情緒坐標(biāo)”,是一個基于有限價量和技術(shù)指標(biāo)合成的單一數(shù)值,其邏輯相對直觀,但粗糙且滯后。新的模型需要在此基礎(chǔ)上進(jìn)行革命性的升級。他并非計量經(jīng)濟學(xué)或復(fù)雜系統(tǒng)領(lǐng)域的專家,但他擁有頂級的數(shù)學(xué)思維、對市場博弈的深刻洞察,以及一個能夠快速進(jìn)行海量計算和模擬的“系統(tǒng)”。
他首先明確了模型需要達(dá)成的核心目標(biāo):
1.綜合性:必須融合盡可能多的有效信息源(價、量、資、輿、衍),不能偏廢。
2.穩(wěn)健性:對單一數(shù)據(jù)源的異常波動(例如某篇極端報道、某個論壇水軍的刷屏)不敏感,能抓住市場整體、普遍的情緒傾向。
3.可解釋性:最終的情緒指數(shù)及其分項,需要有明確的經(jīng)濟或行為金融學(xué)含義,能夠?qū)?yīng)到市場參與者(散戶、機構(gòu)、媒體等)的某種群體心理狀態(tài)。
4.領(lǐng)先同步性:盡可能捕捉情緒的拐點,至少要與重要市場轉(zhuǎn)折點高度同步,不能過度滯后。
5.結(jié)構(gòu)化:不僅輸出一個綜合讀數(shù),還要能拆解情緒的內(nèi)部結(jié)構(gòu)(如恐慌與貪婪的成分、不同群體情緒的差異),并能評估情緒的“動能”(變化速度和加速度)。
這是一個典型的“多因子合成”問題,但其挑戰(zhàn)在于:各因子量綱不同、頻率不同、噪聲水平不同、與情緒的真實關(guān)系(可能是非線性)也不同。
他沒有選擇現(xiàn)成的、復(fù)雜的機器學(xué)習(xí)黑箱模型(如深度神經(jīng)網(wǎng)絡(luò))。雖然那些模型可能在數(shù)據(jù)擬合上更“精確”,但可解釋性差,且對訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量要求極高,在缺乏足夠長、且包含完整牛熊周期的歷史數(shù)據(jù)標(biāo)簽(什么是“極度貪婪”?什么是“極度恐慌”?本身就需要定義)的情況下,容易過擬合或產(chǎn)生不可預(yù)知的偏差。