<abbr id="8ggge"></abbr>
<kbd id="8ggge"><code id="8ggge"></code></kbd>
<pre id="8ggge"></pre>
  • <s id="8ggge"><dd id="8ggge"></dd></s>
    <s id="8ggge"><dd id="8ggge"></dd></s><cite id="8ggge"><tbody id="8ggge"></tbody></cite>
    <kbd id="8ggge"><code id="8ggge"></code></kbd>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網經濟論文》 大型電商平臺消費貸產品風控模型的構建> 正文

    大型電商平臺消費貸產品風控模型的構建

    所屬分類:經濟論文 閱讀869次 時間:2021-11-29 11:00

    本文摘要:摘要:信用評分模型的構建及應用實施是學術界及工業界不斷研究創新的重要課題。從機器學習模型的構建出發,從建模指標、模型構建、模型上線后預期表現幾個角度說明了模型應用策略。在建模指標處理方面,采用原始變量woe變換作為XGBoost等模型的輸入變量,并驗證了模型效果

      摘要:信用評分模型的構建及應用實施是學術界及工業界不斷研究創新的重要課題。從機器學習模型的構建出發,從建模指標、模型構建、模型上線后預期表現幾個角度說明了模型應用策略。在建模指標處理方面,采用原始變量woe變換作為XGBoost等模型的輸入變量,并驗證了模型效果提升;在模型構建上,創新采用多種算法單獨建模,用XGBoost算法擬合各單模型輸出結果,證明復合模型效果有明顯提升;在模型上線后預期表現方面,提出了確定模型切分點的方法,即從授信額度、風險級別以及群體分布三個維度,預測即將進件群體的壞賬率。本研究最后結合模型表現及業務模式給出實施建議,即對于部署難度高的復合模型可采用預授信的模式,而LR評分卡模型部署可延用申請-授信的模式。

      關鍵詞:信用評分;風控模型;XGBoost;機器學習;模型應用策略

    電商平臺

      近6年來,隨著電商平臺的迅猛發展,消費金融產品層出不窮。這些產品依托電商平臺的天然流量優勢迅猛發展,從商城內擴展到商城外,不斷拓展使用場景搶占市場。在版圖的不斷擴張中,信貸審批模型、模型在具體商業模式中的應用也隨著用戶流量的擴張、業務場景的拓展不斷更新迭代[1]。

      電商論文范例:佛山傳統制造業發展跨境電商策略研究

      目前,在信貸審批模型中,算法LogisticRegression(簡稱LR)依然是最為普及的,在一些特定的用戶群體和場景下依然有難以替代的地位,依據該算法建立的評分模型規則簡單、邏輯清晰、解釋性強,便于用戶理解。然而,LR模型并不能保證在各種場景、用戶群體中都有良好表現。比如從模型穩定性考慮,LR模型用到的變量維度一般不超過15個,在整體自變量與因變量相關性都不高的情況下,有限的變量數量難以達到較好的模型表現。模型表現不夠理想直接影響到通過率及日后壞賬風險,會對商城信貸收益產生直接影響。

      在本研究項目中,商城平臺主要信貸模型算法采用的就是LR模型,當前LR模型的應用在風控能力及通過率表現方面能基本達成一個平衡,但客戶仍然希望嘗試新的模型算法,通過提升模型效果達到保證壞賬率不增長的前提下提高模型通過率的目的;此外,客戶尤其強調好的模型需要應用于生產線產生實際效益,若一個模型太過復雜導致部署周期長、出錯率高而難以實施也是沒有意義的。

      根據用戶的上述2個要求,項目組從模型構建出發,提出確定模型切分點預測壞賬率的方法,并針對平臺實際不同業務場景及業務要求確立模型應用的方法。首先,在信貸風控模型構建上,筆者參考了如下學者提出的方法并將該方法應用在商城平臺上,再根據平臺數據特點以及模型表現作數據特征提取及模型算法的改善。近年來,信貸風控領域較受青睞的分類算法模型包括DecisionTree(決策樹)[2]、SVM(支持向量機)[3-4]、RandomForest(隨機森林)、GBDT(梯度提升決策樹)、XGBoost(極度梯度提升算法)、神經網絡算法(NeuralNetworks)[5-7]等。2014年,蕭超武等在實證分析中將隨機森林組合分類算法與KNN、SVM等單分類器模型以及組合模型GBDT比較,發現前者具有更高的精確度及穩定性[8]。

      2017年,Bequé將神經網絡極限學習算法(ELM)用于消費信貸風險管理,通過實驗發現該算法有計算量小、精準度高的特點[9]。2017年,LuoCuicui采用LR、SVM、深度信念網絡(DBN)算法進行信貸違約預測,發現DBN具有最好的預測效果[10]。2019年,陳秋華等探討了不同連接函數下廣義線性模型的分類問題,將線性模型評價指標與RF、SVM、XGBoost等模型進行分析比對,發現廣義線性模型中LR模型與SVM預測效果最佳[11]。2019年,黃志剛等人提出多源數據普適模型棧的概念,通過數據分類的自由選擇采用XGBoost算法生成子評分模型,再將子評分模型轉換為評分卡,通過實測證實有效[12]。

      在參考上述學者選用的算法并結合商城平臺數據特點,本文最終選用了LR算法、決策樹算法、XGBoost算法建立單模型。在LR模型變量交互方面,參比陳秋華[11]提出的變量相乘的交互方式,本文提出了用相關系數法尋找交互變量的方法,并驗證了該方法的有效性。受黃志剛[12]多源數據普適模型棧的想法啟發,借用不同數據特點采用不同模型算法最后用XGBoost模型整合的思路,本文采取首先用多種算法建立單模型,再用各單模型的結果輸出作為復合模型的輸入建立復合模型的方法,經驗證,復合模型效果較單模型有明顯提升。

      雖然學術界對風控模型算法的討論十分熱烈,然而對于客戶提出的第二點要求,模型在生產線上的實際應用方面卻略顯單薄。本文花了大量篇幅討論模型的應用問題。首先,傳統LR模型、復雜機器學習模型在實際部署應用方面各有優劣:LR模型部署通常借用風控決策引擎[13]來完成,優勢為部署門檻低、部署時間短、結果可靠性強,但模型效果不及復雜機器學習模型;而復雜機器學習模型雖在模型效果上更有優勢,但在部署方面,由于受模型復雜程度、數據量級、部署場景、上線時間緊迫等因素制約,不是都能滿足工程上的要求成功上線。

      所以,目前工業界在風控模型部署上,LR仍是主流[14],復雜機器學習模型部署還在不斷嘗試發展中,不同體量的電商平臺復雜機器學習模型實施的普及程度也不一樣。對于本項目,商城平臺剛開始嘗試復雜機器學習模型的部署,文章給出了兩者并舉的保守方案。本文首先提出風控模型在應用實施中不同切分點對應的預測壞賬率,然后比較并驗證了在相同風險前提下LR模型與XGBoost復合模型實際通過率差異,并結合具體業務模式及業務需求給出模型選擇的依據及部署方式。

      一、模型效果指標評價

      模型評價指標是用來評估模型對數據的擬合能力,二元分類的模型算法有很多,但無論是哪種模型算法都可以使用AUC[15]和KS這兩個指標來衡量。AUC的取值為0.5~1,AUC值越高代表該算法對模型整體擬合能力越強,AUC等于0.5代表模型沒有區辨能力,但大于0.9則模型擬合過于完美考慮異常,AUC在0.7~0.9之間的模型被視為可用。AUC在0.7與0.8之間代表模型有較好的區辨能力;AUC大于0.8代表模型有非常好的擬合能力。

      二、建模實證分析

      (一)建模數據構成及變量預處理

      目前,該平臺信貸產品申請用戶為在平臺商城近1年內有過歷史交易記錄的用戶,該產品運營已超過1年,有充足的壞用戶積累。建模用戶群體,我們選擇授信前1年內在平臺商城內有較為活躍表現的用戶,授信后6~12個月內出賬次數大于等于6的用戶確立建模樣本。y定義方面,通過分析逾期天數與回款率關系,以及通過逾期用戶M1~M4壞賬滾動率分析后確定的[16]。

      相同樣本,不同y定義,最終AUC和KS模型評價指標會有較大差異。通常y定義越嚴格,模型指標AUC及KS表現越好,比如把進入M4的用戶定義為壞用戶比把進入M2的用戶定義為壞用戶有更好的模型表現。然而,考慮到該評分卡是建立申請用戶審批模型,目的不是把最壞的用戶排除,而是把有可能進入M3或M4的用戶攔截在外。所以,y用戶定義采用進入M2或M3的用戶,但由于M3用戶數量有限,所以把多次進入M2的用戶列為壞用戶。經過多次嘗試,得到y定義為至少有2次出賬且2次出賬的逾期天數均大于30天(進入M2)的用戶為壞用戶,其余為好用戶。X變量共126個,為用戶申請消費貸前平臺商城的歷史行為數據。從分類來看,可將X變量分為用戶基本信息、用戶申請渠道、用戶信用資質、平臺活躍度、平臺交易信息、收貨方式、收貨人(地址)信息等類別。數據樣本共11180個觀測值,其中壞用戶為1118個,odds比9∶1。

      采用分層抽樣的方式將數據切分為7∶3兩部分,前者用作模型訓練及驗證,后者用于模型測試。在數據預處理環節,對每個X變量作單變量分析,進行變量一致性、完整性、準確性檢驗,剔除變量缺失率高于20%的變量;對變量進行woe轉換并計算其iv值,預測每個自變量x與因變量y的相關程度。在作變量woe轉換時,對自變量排序后切分為10等分進行粗分箱,然后對變量分箱進行合并,合并時確保變量woe值為單調趨勢,各分箱觀測值數量不低于25個,且相鄰分箱的woe值有較大差異。

      (二)LogisticRegression單模型

      篩選出iv值大于0.1的經過woe轉換的自變量作為模型輸入變量,采用stepwise逐步回歸法篩選變量,模型置信度設為95%,y變量共2個取值,“0”代表好用戶,“1”代表壞用戶,以“0”為目標構建模型。在模型變量調整上,通過計算自變量的相關性,使相關性較大的變量組合盡可能避免同時出現在模型中。根據模型輸出結果,刪除變量系數為正或者系數過小的變量,以減小共線性對模型效果的影響。

      檢查進入模型的x變量分類,確保模型盡可能覆蓋到每個分類。檢查模型評分確保評分均勻分布。當出現超過樣本量5%的觀測值對應同一個評分時,找到是哪個變量造成的,用別的變量加以替換。最后確認模型,入模變量及模型參數,模型變量分別為收貨人數量、近12個月的貨到付款次數、近3個月的貨到付款次數、近12個月拒收次數、近12個月每個月都有交易的月份數、近3個月交易金額、近3個月信用卡支付金額、近3個月借記卡支付次數、近3個月使用app登錄平臺次數、用戶婚姻狀況、用戶性別以及用戶進件渠道。

      1.LR變量交互。

      在不改變入模變量數量的前提下,將入模變量與待選變量做交互,以達到提升模型整體效果的目的。通常待選變量iv值過小難以進入模型,但待選變量與模型變量涵蓋信息不同,且與之交互的模型變量相關性低。為尋找待選變量,采用對需要交互的兩變量計算Pearson相關系數的辦法,最后發現兩組可以通過變量交互提升模型的變量。第一組,“授信渠道”、“商城卡包提取標志”進行變量交互替代原模型中“授信渠道”變量;第二組,“婚姻狀況”、“客單價”進行變量交互替代原模型中“客單價”變量;交互后模型效果提升,可以看出交互前后AUC沒有顯著提升,但模型KS值約有6‰的提升。

      2.決策樹單模型。

      在決策樹模型構建過程中使用了兩種葉節點分裂的算法,一個是熵分裂標準,另一個是Kolmogorov-Smirnov(FastCHAID)分裂標準,剪枝過程中均采用誤判率、最小葉子數作為剪枝標準[17-18]。兩模型輸入變量前者是原始變量,后者為經過woe轉換后的變量。本模型采用SASPROCHPSPLIT完成,通過對leafsize(葉節點最小觀測數)、最小葉子數量、maxdepth(最大樹深)、maxbranch(最大分枝數)參數調整完成決策樹的構建。對每片葉子目標變量預測概率排序,通過計算每個概率分箱中累計好壞用戶的占比,得到AUC及KS值。

      三、模型選擇及部署實施探索

      (一)風險評估

      評分模型在風控策略中有兩個重要作用:一個是確立拒絕分數線,即小于某一預測概率(評分)的用戶拒絕授信;另一個是根據預測概率(評分)劃分風險等級、確定授信額度。評分模型設立的目的是為了讓壞賬率在可控范圍內,那如何利用評分模型預測進件用戶的壞賬率便成了關鍵。電商平臺消費貸產品通常是分期的,根據消費貸產品設計,若用戶在某一期還款截止日10天內未還清賬款,賬戶自動凍結。賬款催收方面,逾期90天以內的賬款由平臺內部催收部門催收,逾期超過90天(進入M4)的賬戶因賬款難以回收,故采用外包形式,催回金額與外包公司按比例分成。

      所以這里我們把進入M4(逾期天數>90天)的用戶記為壞賬用戶,未還清金額(包括已出賬、未出賬)記為壞賬余額,表現時長取1年。由于使用余額、壞賬余額是一個動態平衡的過程,這里選取時點數據來定義,以賬戶成功授信之日起1年為時間節點,壞賬率定義為壞賬余額與使用余額之比。在作風險評估方面,需要用到2個群體:已授信群體和即將進件群體。已授信群體定義為成功授信且表現期滿1年的用戶;即將進件群體定義為近一個月內申請授信的用戶。

      (二)通過率評估

      通過率評估是將評分模型應用到當前進件用戶模擬進件用戶通過率的方式。通常業務部門與風控部門為通過率博弈,業務部門要求更高的通過率,風控部門則通過模型優化在保證風險的前提下提高通過率,但模型評價指標越好并不意味著使用該模型就一定有更高的通過率。

      本文采用傳統LR單模型、XGBoost復合模型進件通過率的模擬驗證以上觀點。設計思路為上述兩模型應用于102787名即將進件用戶群體,并計算其預測概率。分別對兩模型預測概率進行從小到大排序,每一個預測概率對應與風控模型中累計壞用戶數對應,而預測概率在該進件用戶群體的分位數即為拒絕率,進而計算得到進件群體的通過率。本文通過作圖的方法比較LR模型與XGBoost復合模型相同風控效果對應的通過率。以累計壞用戶數作為橫軸,進件用戶通過率(1-拒絕率)作為縱軸,分別對兩模型作散點圖。

      從中可以看出兩模型頭尾幾乎是重合的,只在中間段看出差異。通過計算得到在“抓壞人”能力相同條件下,兩模型通過率最大差異為7.9%,對應的LR模型和XGBoost復合模型通過率分別為44.8%和52.74%;若業務部門要求75%以上的通過率(假設容差為2%),且風險在可以接受范圍內,兩模型則在風險能力控制和通過率上幾乎沒有差別。

      四、結語

      本文通過真實數據從多個維度非常詳實地分析了從模型構建到模型應用實施全過程。模型特征工程方面,相比陳秋華[11]提出的自變量交互對模型指標效果的提升,本文進一步提出用相關系數法尋找交互變量的方法;在特征變量構建上,創新采用對原變量進行woe轉換的方式創建衍生變量。經驗證,該方法對于模型效果指標的提升是有效的。

      對于XGBoost模型,此方式相當于將分類變量轉換為可以計算的定距變量,解決了XGBoost模型矩陣不能處理字符型變量的問題,也避免了分類變量轉化為虛擬變量的麻煩。在復合模型變量構建方面,跳出通過原變量加減乘除的方式進行變量衍生的圈子,將LR單模型的woe變量連同決策樹、XGBoost單模型的輸出結果(概率&評分)作為輸入變量,并使用XGBoost進行擬合,經驗證,復合模型評價指標優于各單模型。

      本文創新之處在于不只對模型評價指標進行比較,更從模型應用實施角度提出了模型拒絕分數線(切分點)的確定方法[21]。該方法首先采用模型各分段壞賬率對模型進行風險等級劃分,并通過風險等級與授信額度交叉的方法模擬各單元格內壞賬率分布構成,并將模型運用于新進件的用戶,預測進件用戶預期壞賬率,以此確定拒絕用戶切分點。不僅如此,本文用模型表現與通過率之間的關系闡述了模型選用標準。以LR單模型、XGBoost復合模型為例,用數據驗證了在“抓壞人”能力相同的條件下兩模型通過率的大小及差異。

      并從通過率差異、業務部門通過率最低要求、模型部署實施難度及商城現有的業務模式進行綜合分析,給出模型選用建議[22]。在建議實施方面,對于選用難以部署的復合模型,建議采用預授信的模式。將模型應用在新進件用戶群體上,篩選出通過用戶,并用彈框或短信等方式通知,讓用戶選擇是否開通。與現有的申請-授信模式相比,此種方式在確保風險的同時,擴大了人群覆蓋面,提升了總體進件人數,繞開了模型部署實施難的障礙。

      [參考文獻]

      [1]何飛,張兵.互聯網金融的發展:大數據驅動與模式衍變[J].財經科學,2016,23(6):12-22.

      [2]涂艷,王翔宇.基于機器學習的P2P網絡借貸違約風險預警研究:來自“拍拍貸”的借貸交易證據[J].統計與信息論壇,2018,33(6):69-76.

      [3]BaesensB,VanGestelT,ViaeneS,StepanovaM.Benchmarkingstate-of-the-artclassificationalgorithmsforcreditscoring[J].JournaloftheOperationalResearchSociety,2003,54(6):627-635.

      [4]晏艷陽,蔣恒波.信用評分模型應用比較研究:基于個體工商戶數據的檢驗[J].統計與信息論壇,2010,25(5):30-35.

      [5]石慶炎,勒云匯.多種個人信用評分模型在中國度用的比較研究[J].統計研究,2004,21(6):43-47.

      [6]陳為民,馬超群,馮廣波.基于KMOD核函數的SVM方法在信用評分中的應用[J].經濟數學,2008(1):24-27.

      作者:汪曉曦1,馬穎2

    轉載請注明來自發表學術論文網:http://www.zpfmc.com/jjlw/28901.html

    多对一·精细化服务

    请填写信息,出书/专利/国内外/中英文/全学科期刊推荐与发表指导

    主站蜘蛛池模板: 国产成人理在线观看视频| 美女高潮黄又色高清视频免费| 老熟女五十路乱子交尾中出一区| 欧美日韩国产成人在线观看| 成人午夜私人影院入口| 四虎成人精品一区二区免费网站| 久久久国产精品| 67194线路1(点击进入)| 欧美日韩亚洲国产精品| 国产色无码精品视频国产| 亚洲成在人线在线播放无码| 一本丁香综合久久久久不卡网站| 陪读妇乱子伦小说| 日本不卡高清中文字幕免费| 国产一区二区精品在线观看| 久久精品国产亚洲一区二区| 高清欧美性暴力猛交| 欧美怡红院免费全部视频| 国产福利小视频在线| 亚洲欧美另类自拍| bt天堂中文资源在线| 精品人妻系列无码一区二区三区| 日日操夜夜操视频| 哒哒哒免费视频观看在线www | 一级一级女人真片| 男女免费爽爽爽在线视频| 放进去岳就不挣扎了| 国产人妖乱国产精品人妖| 亚拍精品一区二区三区| 韩国三级电影网| 成人国产一区二区三区| 偷自视频区视频真实在线| 91国内揄拍·国内精品对白| 特级aaaaaaaaa毛片免费视频 | 超碰色偷偷男人的天堂| 日韩在线观看网址| 国产热の有码热の无码视频| 亚洲人成伊人成综合网久久久| 337p色噜噜| 日韩国产欧美成人一区二区影院| 国产h片在线观看|