反欺詐,是通過對借款人的資料進行特征比對,從而發現其中的欺詐騙貸行為。根據互金行業調查統計,超過50%的不良資產來自欺詐,欺詐導致的壞賬風險遠遠大於信用違約。
數據反欺詐
反欺詐是風控的核心,數據是反欺詐的基石。數據反欺詐是數據風控的武器之一,就是結合用戶行為數據、業務數據、征信、黑名單等第三方數據對用戶畫像,找到欺詐者留下的線索,在欺詐行為之前將風險扼殺在搖籃裏,減少金融行業風險。
舉個例子:
A客戶來申請借款業務,說B是自己的妻子。但是在大數據係統中,曆史業務數據提示,存在另一逾期客戶C,說D是自己的妻子,但是B和D的手機號是相同的,且該手機號和A、C均有聯係。
所以我們推斷B、D是經過信息包裝的同一人,A、C是經過B連接的間接聯係人,所以他們有很大欺詐風險。
同時,又發現有E客戶,與A同單位工作。但是二人工資卡的發卡行不一致,且工作時間內的GPS定位不一致。所以, A、E都是欺詐客戶。依次類推,一個龐大的欺詐團夥構成的力導向關係圖越來越清晰。
簡陋的模型
為了精準的識別欺詐,風控基於海量用戶真實數據,深入分析用戶基本屬性、社會屬性、行為偏好等數據,憑借人工經驗,通過年齡、消費能力等用戶畫像標簽將用戶進行整理歸類,並通過對樣本數據調整及模型參數調整逐步優化模型。
下麵以借貸人標簽為例,根據借款人的特征預測是否會逾期還款。
首先假設有20萬訓練數據,其中有10%負樣本。我們從爬蟲、三方數據中挑選出10個特征數據和2個標簽數據,例如客戶的年齡、月消費收入比、GPS定位、2年內有無逾期記錄等。
建模的第一步是特征工程,數據和特征比模型更重要,決定了機器學習的上限,而模型和算法是為了逼近上限。
接下來通過邏輯回歸根據用戶特征搭建簡單模型,引入模型包,輸入參數後進行模型訓練。針對不同的特征,不同的模型之間參數不同。
我們可以采用XGBoost這個包模型訓練,畫出ROC曲線,再用GridsearchCV參數調優,挑出最合適的模型。
深度學習下的反欺詐
在上麵的模型案例中,訓練樣本是人們按照一定規則篩選標注的,但是,篩選的規則也應該模型學習維度中的一部分。
淺層模型的一個典型特點,就是假設依靠人工經驗選取特征。在模型運用不出錯的前提下,如果客群及其環境沒有發生較大變化,一套訓練好的模型沒有必要一次次的重複調優,因為特征是整個模型優化的瓶頸。
例如,我們可以通過形狀明顯的區分一隻貓和一隻羊,也可以根據毛色區分一隻黃貓和黑貓,但是區分一對外貌相同的雙胞胎黃貓,便顯得格外吃力,何況數以億計的黃貓。此時,我們可能會考慮采取對黃貓進行聲學建模。
因此,人工設計樣本特征的團隊,經常將更多的人力投入到思考和發掘更多更好的特征上。若要發現一個優秀的特征,則要求工作人員反複摸索,並不是一個可拓展的途徑,也無法滿足於越來越大的數據。
深度學習模型改變了這個模式,它和大數據二者則相輔相成,導入原始數據,通過搭建隱層的機器學習模型和海量的訓練數據,逐層特征變換,挖掘和刻畫客戶數據的內在信息,學習更加有用的特征,提升預測的準確性,遠遠超出了傳統風控基於評分卡係統的建模能力。
深度學習是無監督學習的一種,模仿人類大腦的機製對圖像、聲音、文本等數據進行分析和學習。利用深度學習反欺詐,可以更加高效準確。
例如,深度學習可以通過自主分析和學習垃圾郵件和正常郵件的差別,甚至學習理解郵件文本內容含義,攔截各種形式的垃圾郵件。
以前,騙貸者經常通過虛假照片和身份證,製作一份虛假身份信息,從而注冊虛假帳戶來騙取貸款或者其他服務。在經過訓練後,深層神經網絡便可以識別被操縱過的圖像。
從AlphaGo 到自動駕駛,再到風控反欺詐,深度學習迅速走紅。雖然似乎沒人說得清它的原理,但我們都聽到了它漸近的腳步聲。
-END-