機器學習財務學
經濟學家,尤其是計量功夫不錯的,要學「機器學習」這現今人工智慧的顯學,困難度不算太高。所以一開始學,不少人都嗤之以鼻,這有什麼,明明是loss function, OLS, logit這些東西的變形,有什麼了不起。Sendhil Mullainathan這堂在年會開給財務經濟學家聽的課,一開始也是讓我這樣感覺,「又一個瞧不起機器學習的傢伙」。我自己也涉獵了一點點機器學習,所以我知道不是這樣的,人工智慧可深可廣,經濟學可以從中學到的東西可多了。
但Mullainathan很快進入正軌,沒有了嗤之以鼻,而指出了機器學習和經濟計量的最大不同,果然行家一出手,便知有沒有。他用的名詞是y hat和 beta的不一樣。讓我用一個簡單的例子說明。網路上有一些幫你算房價的服務,房價在預測模型裡,在等式的左邊,也就是y變數,等式的右邊就是一大堆x變數。x變數的前面有大小不等的係數,比如說房子大小,就是一個x變數,直觀來說,係數該為正,越大的房子,房價越高。
對經濟學家來說,模型好壞很重要,關乎到能不能解釋房價的差異,所以我們注重這些係數,我們上窮碧落追查係數的統計分佈,要知道這些係數有沒有統計上的意義,所以我們的問題是係數的問題,也就是beta的問題。我們擔心這些x變數彼此間的互動關係,會影響係數的準確度,所以我們不敢亂加x變數,但我們也擔心未知變數和x變數的關係太大,也影響準確,所以加與不加,都是一門學問。
但機器學習管你統計分佈去死。除了少數情況外,變數越多越好,數據越大越好,只要「預測」的工作做得好,模型再醜,再沒道理,都沒關係。如果你的服務只是提供客戶準確的房價預測,而不是決定房地產政策,你真的不用管統計分佈,不用管beta,只要管預測值y hat好不好就好。
Mullainathan說明beta問題和y hat問題的不同時,說得生動有趣。他說,經濟學家不但要知道係數有沒有統計意義,甚至還要找出因果關係,有點太貪心了,數據科學家根本不管這些。的確,我們在學院裡受訓練時,討論選題目的重要條件,其中一個要件就是這題目的政策意義是什麼。經濟學家關心的是建出來的模型對政策制定者的建議是什麼,關心的是跑出來的模型係數代表的意義。因果關係如果不是最重要的發現,至少也是追求的方向。但無人自動車仰賴的人工智慧,要的不是漂亮無比的模型,不是要了解環境對車子運行的影響,而是怎麼樣「預測」最好的路徑,不要撞到人車,而穩穩前進。兩種觀點有相關,但角度完全不同。
Mullainathan說,機器學習可以給經濟學家許多的新角度。比如說,機器學習的方法,可以帶來新的數據,real time即時的數據。建傳統的經濟模型,為求係數準確,變數值很少可以即時。但大數據的機器學習,不管係數準確,只管預測值好,所以什麼都用。如果什麼都用作變數,即時的預測,是可行的。而且,越多數據,預測越準。他講著講著,我就想到當年葛林斯潘講過的一個故事。葛林斯潘在福特總統的時候當CEA主席,遇到突如其來的景氣衰退,白宮不知道要採取什麼政策應對,很需要一套即時的景氣指標指導政策。當時還用GNP為主要數據,但GNP一季才統計一次,緩不濟時,葛林斯潘採了許多捷徑,硬弄出一套一週一次的GNP預估,而據以指出當時的景氣衰退只是庫存增加的短期衰退。如果有大數據支持的機器學習預測,憑著這許多即時的數據,其實經濟政策執行者,已經可以有很好的預測模型。這會是總體經濟學家很有用的工具。
又比如說,建造模型。經濟學家可以用機器學習的散彈槍打鳥方式,先求多不求準的塞入x變數,取得一個預測成果。再把經濟學家真正有興趣的變數拿走,再取得一個預測成果。比較下來,我們就可以猜測這x變數本身,是不是有價值,值得加入模型。史丹福的Susan Athey之前在EconTalk裡的一個訪談,也提到類似的模型選取方式,英雄所見略同。Athey也是個經濟學家涉足機器學習的例子。
Mullainathan整篇演講最有意思的一點就是,他說財務學之所以在經濟學的領域裡,堪稱發展最蓬勃的原因之一,就是我們一直都是在做「預測」有關的事。係數對我們來說很重要,但預測成果也很重要。資產鑑價的模型,最後都得拿到真實世界裡做樣本外的「預測」。沒錯,我們做財務的,本來就有許多沒有統計分佈的分析,像是「和random walk比賽」這樣的論文,比比皆是。而且許多財務學家,在找要素解釋資產回報異常的時候,也不一定是要了解係數和政策意涵,我們很多都是在找一個可以發財的要素而已!
從這演講衍生,我有兩個很重要的觀點。一是,社會科學常被詬病缺乏可複製性,不像自然科學,A實驗室做得出來,B實驗室做不出來,是不行的。社會科學多的是你做你的,我出我的論文,沒有可複製性,這樣怎麼推進科學呢? 問題出在那裡? 我覺得很大的一部份原因,就是社會科學家不管「預測」,只管「統計意義」。如果論文的結果,是以「預測」的成功度衡量,可複製性的問題,就去了一大半。
另外的一個觀點是,我相信華爾街的大quant避險基金如Renaissance, Two Sigma,一定早就用上了機器學習。人家早就用人工智慧在賺錢,小散戶還覺得自己有機會嗎?還不乖乖買大盤,抱長期嗎?但另外一個問題是,當主要投資者,都能準確預測未來時,未來還會是未來嗎?模型還會準嗎? Yogi Berra說,「預測是最難的了,尤是和未來有關的預測」,此話不假。
logit function 在 What is a Logit Function and Why Use Logistic Regression? 的相關結果
The logit function is the natural log of the odds that Y equals one of the categories. For mathematical simplicity, we're going to assume Y has only two ... ... <看更多>
logit function 在 The Logit Function - Freie Universität Berlin 的相關結果
The Logit Function ... π=β0+β1x1. However, the right term of the equation can take any real value, whereas the left term of the equation is a probability, on the ... ... <看更多>
logit function 在 邏輯斯迴歸- 維基百科,自由的百科全書 的相關結果
羅吉斯迴歸(英語:Logistic regression,又譯作對數機率迴歸、羅吉斯迴歸)是一種對數機率模型(英語:Logit model,又譯作邏輯模型、評定模型、分類評定模型)是離散 ... ... <看更多>