社交媒體與股市(3)早期探索

悄然一笑 (2026-04-10 07:13:07) 評論 (2)

在 2000 年之前,人們普遍認為網上的投資討論價值不大,可以忽略。然而,一些學者研究發現,盡管網絡討論嘈雜,卻對股市有顯著的預測能力,包括預測股價(或股票收益,即股價的變化)、成交量、以及股價波動。

Antweiler & Frank(2004)是這方麵的經典研究之一。作者收集了雅虎財經(Yahoo! Finance)和Raging Bull兩個股票討論區中在2000年全年發布的帖子(messages),並對道瓊斯工業平均指數和互聯網商務指數中的45家企業進行分析。

對於這兩個討論區的帖子,他們著眼於三個方麵。第一是討論數量(帖子的多少)。當某隻股票突然成為熱點,被大量討論,它可能會吸引投資者關注,從而影響成交量甚至價格。同時,大量討論中也會摻雜許多噪聲交易者(noise traders)的帖子,導致股價波動擴大。

第二是帖子中的觀點(看漲、看跌),因為人們在做投資決策時往往會受到他人看法的影響。

第三是帖子中的意見分歧(有看漲的,也有看跌的)。根據意見分歧理論,分歧越大,成交量越高。

來看看作者的發現。討論數量與股票收益(負相關)、成交量(正相關)、波動(正相關)都有關聯;帖子對某一股票總體看漲,則其股票收益增加;意見分歧加大,則成交量增多。

不過,這些關聯都是短期的。長期看,股票收益、成交量、股價波動會回落。

這些結論符合你的想像嗎?可能有一個例外:討論數量與股票收益竟然是負相關。

考慮到研究的樣本包含互聯網企業,且數據來自2000年,而那一年正逢互聯網泡沫破裂,所以文章的結論是否適用於其他時期還有待驗證(其實在閱讀這篇文章時,我一直不理解為什麽作者要選擇2000年,這一特殊年份的數據)。

討論“情緒與股市”離不開Tetlock (2007)。作者考察《華爾街日報》中一個與股市有關的專欄“Abreast of the Market”,分析專欄中呈現的“悲觀語氣”(pessimism) 是否可以預測道瓊斯工業平均指數的表現。研究的時間跨度從1984年到1999年。

作者發現,《華爾街日報》上的消極、悲觀語氣對股票價格產生向下壓力,但這個影響隻是暫時的,隨後股價又會逆轉。他還發現,過度的悲觀語氣會使成交量大增。

作者進一步指出,專欄內容本身並沒有提供新的信息,隻是反映了投資者的悲觀或厭惡風險的情緒,卻仍能影響投資決策,即情緒驅動交易。文章對情緒與市場之間關係的分析,為後續研究社交媒體情緒效應指出了方向。

如何衡量投資者對某隻股票的關注程度(注意力)呢?不同於Antweiler & Frank(2004)用“發帖數量”來表示,Da 等三位學者(2011)提出使用“Google 搜索量”這個指標,這一做法後來被廣泛沿用。

三位學者考察2004年至2008年間投資者的注意力與Russell 3000中企業的股票收益是否有關聯。結果顯示,注意力的上升會伴隨著未來兩周的股價上漲。而且這種現象在散戶多,分析師覆蓋少的小企業股票上表現得尤為明顯。

然而,這種影響隻是短期的,隨後股價出現逆轉,在一年之內此前上漲的部分會完全消失。這種股市上短期的熱度與Barber & Odean的有限注意力理論相符。

我用一張圖來概括平台與股市的實證研究:平台用戶/投資者的關注度(注意力)、情緒、不同觀點是否能預測股價(或股票收益)、成交量和股價波動等股市變量。



看到這裏,有人會問:如何從平台、新聞媒體的發帖與討論中提取情緒和其他內容,即如何對它們進行量化呢?

得益於AI算法的進步,我們可以采用文本分析(textual analysis)的方法。也就是用算法去“閱讀”文字,從中找出所需要的內容,將其轉化成指標,並作為變量放入模型當中。

舉個例子,要研究發帖人的情緒是樂觀還是悲觀。首先製作一個詞典,裏麵有兩類詞匯:表示樂觀的與表示悲觀的。然後讓算法去閱讀文字,找出反映樂觀的詞和反映悲觀的詞各有多少,據此做成指標。最簡單的做法是:如果發帖人用的樂觀詞多於悲觀詞,那他就是樂觀的,反之亦然。

這種在文本中尋找單個詞匯並加以統計的方法,屬於最基礎的文本分析。一些早期的情緒分析,如Tetlock (2007),采用的就是這種方法。而Antweiler & Frank(2004)提取發帖人的看法也采用了類似的方法。

隨著文本分析在金融學中的使用不斷增多,Loughran & McDonald(2011)提出,一般的情緒詞典並不適用於金融領域,因此他們專門編寫了用於金融文本的詞典,在後來的金融、財會、經濟文本分析中被廣泛使用。

可以想見,如果沒有AI算法,光靠人工從海量的文字中提取所需信息,該是多麽艱難。

嚴格來講,這些早期文章並不是研究如今的社交媒體,而是當時的互聯網討論區和傳統新聞媒體。但它們首次證明了網上投資討論與股市之間的關聯,並提出了後來研究廣泛采用的指標。因此,盡管平台不同,依然把它們當作這一領域實證方麵的起點。

隨著社交媒體的興起、數據規模的擴大、AI技術的進步,研究也從這些早期探索走向了更細致、更前沿的分析。

主要參考文獻:

Antweiler, W., Frank, M.Z. 2004. Is all that talk just noise? The information content of internet stock message boards. The Journal of Finance 59(3), 1259–1294.    

Da, Z., Engelberg, J., Gao, P. 2011. In search of attention. The Journal of Finance 66(5), 1461-1499.

Loughran, T., McDonald, B. 2011. When is a liability not a liability? Textual analysis, dictionaries, and 10-Ks. The Journal of Finance 66(1), 35–65.

Tetlock, P.C. 2007. Giving content to investor sentiment: The role of media. The Journal of Finance 62(3), 1139–1168.