反洗錢風(fēng)控系統(tǒng)用戶信息智能識(shí)別錄入
反洗錢風(fēng)控系統(tǒng)用戶信息智能識(shí)別錄入
北京百度網(wǎng)訊科技有限公司
一、背景介紹
反洗錢是金融行業(yè)監(jiān)管體系中的重要一環(huán),眾多金融機(jī)構(gòu)和公司都會(huì)選擇使用反洗錢系統(tǒng)來(lái)量化和把控金融交易中的洗錢風(fēng)險(xiǎn)。某銀行資管系統(tǒng)需將用戶的開(kāi)戶資料全部錄入反洗錢系統(tǒng)中進(jìn)行審核和風(fēng)控的。由于用戶大多以圖片、PDF、掃描文件等不可直接復(fù)制的方式上傳信息(如身份證、營(yíng)業(yè)執(zhí)照、開(kāi)戶申請(qǐng)書(shū)、企業(yè)征信報(bào)告),人工錄入只能靠逐字鍵入,過(guò)程繁瑣、極易出錯(cuò),因此往往不得不設(shè)二次核驗(yàn)專崗,以確保信息的準(zhǔn)確性。針對(duì)以上問(wèn)題,上海金仕達(dá)軟件科技有限公司(以下簡(jiǎn)稱:金仕達(dá))基于百度飛槳深度學(xué)習(xí)平臺(tái)專門研發(fā)出一套反洗錢風(fēng)控系統(tǒng),幫助用戶信息智能識(shí)別錄入,提高了金融企業(yè)審核效率,降低人員成本。
二、創(chuàng)新思路
(一)業(yè)務(wù)整體架構(gòu)
圖1 產(chǎn)品方案架構(gòu)圖
金仕達(dá)反洗錢風(fēng)控系統(tǒng)用戶信息智能識(shí)別錄入,能提取出某銀行資管用戶數(shù)據(jù)集樣本進(jìn)行預(yù)處理,提高數(shù)據(jù)質(zhì)量,將處理后的數(shù)據(jù)通過(guò)飛槳文
字識(shí)別套件PaddleOCR對(duì)原始文本進(jìn)行快速和精準(zhǔn)的識(shí)別,分別從識(shí)別出的頁(yè)面文字和對(duì)關(guān)鍵字段進(jìn)行匹配,從而準(zhǔn)確定位到對(duì)應(yīng)文檔,并把對(duì)應(yīng)字段自動(dòng)填充到反洗錢系統(tǒng)中。
(二)系統(tǒng)功能與模塊
金仕達(dá)算法團(tuán)隊(duì)通過(guò)百度飛槳深度學(xué)習(xí)技術(shù),以“智”提“質(zhì)”對(duì)信息錄入時(shí)的復(fù)雜場(chǎng)景抽象出具體問(wèn)題并進(jìn)行任務(wù)求解,以下為金仕達(dá)通過(guò)深度學(xué)習(xí)算法的流程步驟和功能模塊。
反洗錢系統(tǒng)的用戶材料為PDF文件,可以先拆分為JPG圖片,再進(jìn)行頁(yè)面分析,頁(yè)面類型的判斷主要基于頁(yè)面的內(nèi)容,可以采用關(guān)鍵字模糊匹配的方式區(qū)分頁(yè)面。對(duì)任務(wù)抽象可以判定為典型的計(jì)算機(jī)視覺(jué)任務(wù)。因此,需要先使用OCR模型對(duì)文字內(nèi)容進(jìn)行檢測(cè)和識(shí)別,再對(duì)文本和所在位置進(jìn)行分析,求解該任務(wù)。
第一階段:數(shù)據(jù)采集、標(biāo)注和增強(qiáng)
由于反洗錢系統(tǒng)用戶信息錄入時(shí),上傳的附件文件包含了PDF、Word等多類格式文件,為了提升數(shù)據(jù)訓(xùn)練,需要預(yù)先對(duì)用戶文檔區(qū)域進(jìn)行提取及校準(zhǔn)。
圖2 數(shù)據(jù)預(yù)處理
在對(duì)數(shù)據(jù)預(yù)處理過(guò)程中,部分文件版面存在小幅傾斜、部分文件頁(yè)邊距較大、營(yíng)業(yè)執(zhí)照?qǐng)D片橫置等問(wèn)題,因此結(jié)合PaddleOCR,通過(guò)DocEdgeNet文檔預(yù)處理算法進(jìn)行邊緣檢測(cè)、投影變換和圖像質(zhì)量增強(qiáng)得到精確質(zhì)量的數(shù)據(jù)。
第二階段:模型選擇及調(diào)優(yōu)
PaddleOCR提供了多種OCR模型,綜合考慮模型的準(zhǔn)確率、識(shí)別速度和部署便捷性,選擇了在ch_ppocr_mobile_v2.0預(yù)訓(xùn)練模型基礎(chǔ)上進(jìn)行微調(diào),得到了一個(gè)最能滿足場(chǎng)景需求的識(shí)別模型,用于系統(tǒng)提供頁(yè)面類型分析和字段識(shí)別功能。
圖3 頁(yè)面導(dǎo)航及信息抽取
文檔圖像預(yù)處理部分,使用了自研DocEdgeNet文檔預(yù)處理算法,進(jìn)行文檔邊緣檢測(cè),并基于檢測(cè)結(jié)果進(jìn)行投影變換和圖像質(zhì)量增強(qiáng)。
關(guān)鍵字提取階段采用了基于AC自動(dòng)機(jī)的關(guān)鍵字信息提取算法。
圖4 關(guān)鍵字提取算法
第三階段:模型訓(xùn)練及評(píng)估
由于PaddleOCR默認(rèn)的訓(xùn)練方式就足以滿足業(yè)務(wù)方案的需求,因此沒(méi)有進(jìn)行過(guò)多的修改和優(yōu)化,只是需要將新增的訓(xùn)練數(shù)據(jù)轉(zhuǎn)為PaddleOCR訓(xùn)練所要求的格式。并且使用了PPOCRLabel工具,對(duì)StyleText生成訓(xùn)練數(shù)據(jù)進(jìn)行半自動(dòng)標(biāo)注。
此外,對(duì)于文檔邊緣檢測(cè)模型,使用了PaddleSlim工具對(duì)DocEdgeNet進(jìn)行通道剪枝及量化操作,將模型轉(zhuǎn)化為輕量級(jí)推理模型,在原始精度下降1%的前提下壓縮比達(dá)到90%,預(yù)測(cè)速度提升4.7倍。
圖 5 輕量級(jí)推理模型
第四階段:部署及上線
OCR模型和文檔邊緣檢測(cè)模型分別訓(xùn)練完成后,轉(zhuǎn)為推理模型,用于智能文檔解析服務(wù)的調(diào)用。之后,利用Paddle Serving組件方便集成的特性,將智能文檔解析功能快速部署為線上服務(wù)。用戶通過(guò)web端訪問(wèn)反洗錢業(yè)務(wù)框架后臺(tái)時(shí),即可直接調(diào)用智能文檔解析服務(wù)展示結(jié)果。
(三)案例特性與創(chuàng)新點(diǎn)
金融科技為金融風(fēng)控?cái)?shù)字化發(fā)展提供了技術(shù)保障。隨著人工智能技術(shù)在金融風(fēng)控領(lǐng)域內(nèi)的使用,彌補(bǔ)了傳統(tǒng)金融風(fēng)控人工成本高、效率慢等問(wèn)題。
飛槳(PaddlePaddle)以百度多年的深度學(xué)習(xí)技術(shù)研究和業(yè)務(wù)應(yīng)用為基礎(chǔ),集深度學(xué)習(xí)核心訓(xùn)練和推理框架、基礎(chǔ)模型庫(kù)、端到端開(kāi)發(fā)套件和豐富的工具組件于一體,是中國(guó)首個(gè)自主研發(fā)、功能豐富、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦和語(yǔ)音等熱門領(lǐng)域。多年來(lái)飛槳堅(jiān)持技術(shù)創(chuàng)新,至今已經(jīng)過(guò)多次迭代升級(jí),擁有了“開(kāi)發(fā)便捷的深度學(xué)習(xí)框架”“超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練技術(shù)”“多端多平臺(tái)部署的高性能推理引擎”“豐富的產(chǎn)業(yè)級(jí)開(kāi)源模型庫(kù)”4大領(lǐng)先技術(shù)。
百度飛槳企業(yè)版針對(duì)企業(yè)級(jí)需求增強(qiáng)了相應(yīng)特性,包括零門檻AI開(kāi)發(fā)平臺(tái)EasyDL和全功能AI開(kāi)發(fā)平臺(tái)BML。EasyDL主要面向中小企業(yè),提供零門檻、預(yù)置豐富網(wǎng)絡(luò)和模型、便捷高效的開(kāi)發(fā)平臺(tái);BML是為大型企業(yè)提供的功能全面、可靈活定制和被深度集成的開(kāi)發(fā)平臺(tái)。PaddleOCR提供多場(chǎng)景、多語(yǔ)種、高精度的文字檢測(cè)與識(shí)別服務(wù),廣泛適用于遠(yuǎn)程身份認(rèn)證、財(cái)稅報(bào)銷、文檔電子化等場(chǎng)景,為企業(yè)降本增效。
金仕達(dá)基于百度飛槳深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)了反洗錢風(fēng)控系統(tǒng)用戶信息智能識(shí)別錄入,解決了傳統(tǒng)金融風(fēng)控系統(tǒng)信息錄入中材料版面多樣性、信息提取規(guī)則復(fù)雜、處理時(shí)效要求高等場(chǎng)景問(wèn)題。簡(jiǎn)化了銀行用戶資料電子化錄入流程,提高用戶信息錄入效率,并且減少了銀行資管系統(tǒng)人工操作產(chǎn)生的錯(cuò)誤,為銀行資管系統(tǒng)提供高效合規(guī)的新型智能化信息錄入方式。
(四)技術(shù)優(yōu)勢(shì)和指標(biāo)
金融企業(yè)用戶信息通過(guò)智能信息錄入系統(tǒng),文檔頁(yè)面導(dǎo)航上識(shí)別準(zhǔn)確率達(dá)到99%,在信息抽取上準(zhǔn)確率達(dá)到95%,在反洗錢系統(tǒng)信息錄入和審核環(huán)節(jié)中節(jié)省用戶80%以上的時(shí)間。對(duì)于70頁(yè)的文檔,只需2分鐘即可完成整體過(guò)程,極大提升了某銀行資管系統(tǒng)的核驗(yàn)效率。
三、取得成效
百度飛槳幫助金仕達(dá)加速在金融行業(yè)反洗錢系統(tǒng)用戶信息錄入的智能化轉(zhuǎn)型。金仕達(dá)基于百度飛槳深度學(xué)習(xí)平臺(tái)為某銀行研發(fā)出了一套智能化用戶信息錄入系統(tǒng),使用該系統(tǒng)錄入信息時(shí),提供智能導(dǎo)航和自動(dòng)錄入功能,簡(jiǎn)化了流程、降低了信息錄入及核驗(yàn)的人工成本。
四、經(jīng)驗(yàn)啟示
作為領(lǐng)先的人工智能公司,近年來(lái)百度不斷發(fā)揮大企業(yè)的擔(dān)當(dāng)和責(zé)任,推出了飛槳深度學(xué)習(xí)平臺(tái)促進(jìn)融通創(chuàng)新發(fā)展。飛槳是自主研發(fā)、功能豐富、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),能夠幫助企業(yè)開(kāi)發(fā)者迅速上線人工智能,也推動(dòng)不同行業(yè)實(shí)現(xiàn)產(chǎn)業(yè)智能化升級(jí)。
中小微企業(yè)數(shù)量眾多、緊貼市場(chǎng),是最具活力的創(chuàng)新單元,但創(chuàng)新能力還需進(jìn)一步激活。為了將創(chuàng)新的供給和需求有效匹配,百度通過(guò)對(duì)人工智能技術(shù)的開(kāi)源開(kāi)放為中小企業(yè)提供支持,助力不同企業(yè)創(chuàng)新發(fā)展?;陲w槳深度學(xué)習(xí)平臺(tái),百度為中小企業(yè)提供全面、領(lǐng)先、簡(jiǎn)單、易用的AI能力和工具,為其降低技術(shù)開(kāi)發(fā)門檻,使其更加專注于自身業(yè)務(wù)。截止目前,飛槳已凝聚超370萬(wàn)開(kāi)發(fā)者,服務(wù)企業(yè)超14萬(wàn)家,創(chuàng)建超42.5萬(wàn)個(gè)模型,被廣泛應(yīng)用于互聯(lián)網(wǎng)、工業(yè)、農(nóng)業(yè)、金融、城市、醫(yī)療、能源、教育等諸多行業(yè),幫助越來(lái)越多的行業(yè)完成AI賦能,實(shí)現(xiàn)產(chǎn)業(yè)智能化升級(jí)。