上海2023年12月14日 /美通社/ -- 在大模型訓練過程中,許多專業(yè)領域知識是基于書籍等紙質文檔的形式記錄的,常見于教材、期刊論文、特定學科研究等。例如工業(yè)、教育等涉及到專業(yè)領域的行業(yè)應用,大量需要訓練的數據沉淀在紙質版上亟待利用。
澳鵬Appen全新推出文檔智能識別接口,可將圖片、不可編輯的PDF等文檔一鍵識別轉換成可編輯的Word或Markdown格式,方便對其中數據作進一步利用。接口支持識別文檔中不同模態(tài)的數據,如文本、插圖、公式、表格等,并支持對不同版面進行識別和還原。
在大模型的訓練過程中,許多企業(yè)或行業(yè)數據沉淀在不可編輯的PDF、甚至是紙質文檔中。若要將這些數據利用起來,無論是用作基礎大模型的訓練數據,還是用于RAG或微調,都需要先轉化成可編輯的文檔格式。
這些文檔包含的內容有文本、表格、公式、插圖等內容,現有的內容識別技術大多只能識別文字,而對其他形態(tài)的內容無法進行識別和轉換。若要開發(fā)一個能識別所有格式內容的算法,其研發(fā)成本往往較高,識別速度和準確率亦無法得以保證。
澳鵬一站式文檔智能識別解決方案集成了多種算法能力:首先使用版面識別算法,可識別出PDF中每一頁的內容類型,包括文本、表格、公式、插圖等;如頁面中包含多種內容,則將每個獨立的內容塊截取出來;再根據內容塊的內容類型,調用不同的識別算法,包括文本識別算法、表格識別算法、公式識別算法等。
識別完成后再將內容拼接到一個文檔中,可還原成原始版面。同時,澳鵬也提供人工復核服務,進一步提升識別準確率。
在實際應用中,澳鵬一站式文檔智能識別解決方案的優(yōu)勢主要包括:
-高效率低成本:使用澳鵬文檔智能識別處理文檔時,一個上百頁的PDF只需耗時數分鐘即可完成,遠快于人工轉寫;可批量處理大量文件,降低人力成本。
-高安全性:無需企業(yè)外部人員參與文檔內容轉寫過程,降低了敏感數據泄露的風險。
-易于集成:澳鵬文檔智能識別方案可與企業(yè)現有的業(yè)務流程和系統(tǒng)集成,自動輸入、輸出數據。
助力高科技企業(yè)開發(fā)行業(yè)大模型,澳鵬一站式文檔智能識別解決方案能夠對專業(yè)細分學科數據進行結構化處理,將沉淀在紙質版、PDF等形態(tài)的數據應用于大模型訓練中,幫助企業(yè)自動化地將各種類型的文檔轉化為結構化數據,為高效訓練行業(yè)大模型賦能。