北京2020年12月29日 /美通社/ -- 近日,北森獲得國家知識(shí)產(chǎn)權(quán)局授權(quán)的AI簡(jiǎn)歷解析相關(guān)技術(shù)發(fā)明專利 -- “一種基于深度學(xué)習(xí)的簡(jiǎn)歷解析方法和系統(tǒng)”。該項(xiàng)專利技術(shù)由北森成都總部相關(guān)團(tuán)隊(duì)研發(fā),專利期限為20年,將被用于招聘場(chǎng)景下大規(guī)模、多類別、復(fù)雜簡(jiǎn)歷的智能化解析。
本次申請(qǐng)的是北森簡(jiǎn)歷解析的核心技術(shù)專利。無論是招聘網(wǎng)站的固定格式簡(jiǎn)歷,還是候選人郵箱投遞的表格式、自由格式簡(jiǎn)歷,甚至是移動(dòng)端拍照上傳的圖片簡(jiǎn)歷,該技術(shù)可以從任意格式的半結(jié)構(gòu)化文檔簡(jiǎn)歷中,提取候選人的個(gè)人信息、工作經(jīng)歷、教育背景等字段信息,以支持后續(xù)搜索、篩選、智能推薦等工作展開。
相比于目前市面上常見的簡(jiǎn)歷解析技術(shù),北森實(shí)現(xiàn)兩大突破。
其一,字段提取方法上,使用獨(dú)立的語句切分+文本分類模型替換序列標(biāo)注。
同類的其他技術(shù)在提取字段信息時(shí),是通過序列標(biāo)注模型來識(shí)別目標(biāo)實(shí)體的起止位置和類別,這種方式會(huì)增加任務(wù)的訓(xùn)練難度,對(duì)訓(xùn)練數(shù)據(jù)也有更高要求。
北森則利用“半結(jié)構(gòu)化簡(jiǎn)歷的布局通常更明晰,字段之間會(huì)以空格、冒號(hào)等隔開”的特點(diǎn),將字段的提取分為語句切分和字段類別識(shí)別兩個(gè)階段任務(wù)分別建模實(shí)現(xiàn)。相比于以往,該方法可以提取長文本字段,讓起止位置的識(shí)別更準(zhǔn)確,并且能夠支持上百種類別識(shí)別。
其二,使用句子粒度的區(qū)塊和分條模型替換詞粒度的分類器。
在從簡(jiǎn)歷中確定個(gè)人信息、教育經(jīng)歷、工作經(jīng)歷等區(qū)塊的位置時(shí),同類技術(shù)最好的方法是以詞為粒度,每行文本獨(dú)立地通過文本分類模型得到區(qū)塊類別。但是這種技術(shù)在遇到相似的信息時(shí),比如相似的實(shí)習(xí)經(jīng)歷或工作經(jīng)歷,容易出現(xiàn)判別錯(cuò)誤。
實(shí)際上,通過大量分析簡(jiǎn)歷發(fā)現(xiàn),簡(jiǎn)歷的每行內(nèi)容屬于哪個(gè)區(qū)塊是有一定相關(guān)性的,即當(dāng)前行屬于哪個(gè)區(qū)塊會(huì)受到上一行和下一行內(nèi)容的影響。所以,北森提出區(qū)塊和條目識(shí)別模型的序列標(biāo)注,以句子為單位進(jìn)行輸入,且包括類別信息,可以在建模過程中直接捕獲到前后幾行對(duì)當(dāng)前行的影響,大大提升準(zhǔn)確率。
從最原始的模板解析到現(xiàn)在基于深度學(xué)習(xí)的智能簡(jiǎn)歷解析,北森簡(jiǎn)歷解析經(jīng)歷了四大發(fā)展階段,每一次重構(gòu)都是重大突破。目前簡(jiǎn)歷解析涉及從文檔讀取、布局識(shí)別、字段識(shí)別等方方面面,而北森將持續(xù)探索簡(jiǎn)歷解析技術(shù)的研發(fā)與落地,為行業(yè)帶來更優(yōu)體驗(yàn)。
“基于深度學(xué)習(xí)的簡(jiǎn)歷解析方法和系統(tǒng)”將進(jìn)一步在北森的招聘產(chǎn)品及服務(wù)中進(jìn)行應(yīng)用。通過在內(nèi)容提取、類別識(shí)別等各個(gè)方面的優(yōu)化,相關(guān)產(chǎn)品將創(chuàng)新性推出更準(zhǔn)確、更全面的簡(jiǎn)歷字段解析體驗(yàn);同時(shí),北森會(huì)針對(duì)渠道簡(jiǎn)歷、獵頭推薦簡(jiǎn)歷等樣式較固定的簡(jiǎn)歷提供了解析配置,遇到個(gè)別字段解析出現(xiàn)問題可以快速響應(yīng),快速兼容,影響小上線快,給客戶更好的技術(shù)支持體驗(yàn)。