檔案智能語義搜索服務系統是聯著實業布局語義賦能檔案治理產品體系的第一步。作為后續動作,智能劃控、智能著錄、智能輔助編研將加速落地,全方位滿足行業數字化生長的需要。
面對新《檔案法》實施后館藏檔案封閉期限縮短、待鑒定數量增加、人力匱乏的問題,國內已有檔案館開始使用關鍵詞過濾、神經網絡技術進行開放鑒定。那么,智能語義劃控和前兩種輔助劃控手段有什么“質”的區別呢?
要搞清楚這個問題,我們先做一道“真題”。
眾所周知,涉及公民隱私的檔案被列入控制范疇。實操中如何界定隱私?如果用人力劃控,經驗豐富的開放鑒定工作人員可以總結出一條條類似這樣的“紅線”,比如“居住地”“出生年月”“職稱”“籍貫”,踩到“紅線”則被判定為高度疑似隱私檔案。
那么,使用關鍵詞過濾劃控怎么工作?
首先需要組織人員編制敏感詞庫,將“居住地”“出生年月”“職稱”“籍貫”等詞語本身作為敏感詞逐一輸入庫,再掃描待鑒定檔案,最后由鑒定人員對檢出含敏感詞的檔案進行手工復核。如果含敏感詞檔案里的確存在隱私信息,人工復核就能順利檢出應繼續控制的檔案。如:
姓名:張三
出生年月:1995年1月1日
職稱:中級編輯
居住地:北京市海淀區西四環北路137號
籍貫:江蘇南京
聽起來似乎夠用了,也節省了人力。但這只是“聽起來”,開放鑒定工作的實際遠沒有那么理想化。
現在我們就把這道題搬進現實,還有一種情況大量存在,即檔案中含有敏感詞、本身卻不涉及個人隱私,如“某局印發《關于各單位統計現有員工職稱情況》的通知”。許多這類檔案在關鍵詞過濾劃控過程中都會被挑揀出來,對原本有限的復核人力、時間成本來說是一種極大的浪費。
更致命的是,許多真正命中隱私“紅線”的敏感信息反而往往不含“居住地”“出生年月”“職稱”“籍貫”這些關鍵詞本身。如:“中級編輯張三95年元旦出生,現于海淀西四環北路137號租房子住,老家南京?!边@段文字屬于踩到上述全部“紅線”的個人隱私信息,但語句中并沒有出現“居住地”“出生年月”“職稱”“籍貫”等字眼,利用關鍵詞過濾劃控很難將之分辨出來。
然而,通過語義分析技術為機器裝上“眼睛”和“大腦”的雙重buff加持后,系統可以不依賴“不太靠譜”的關鍵詞,像真人一樣,“發現”真正包含隱私信息的檔案。
再說說與語義分析同屬人工智能領域的神經網絡技術。乍聽之下不明覺厲,簡單來說,神經網絡輔助劃控的工作流程大致是這樣的:假設檔案館與檔案服務企業合作使用神經網絡技術做開放鑒定,首先要提供數目龐大且已人工鑒定過的案卷給企業做訓練,通過機器深度學習可開放檔案、繼續劃控檔案的各自特征,建立神經網絡模型,再用于鑒定其他檔案。
神經網絡劃控依賴大規模人工標注訓練數據集,一方面對算力要求極高,檔案館硬件資源投入大;另一方面,大量檔案原件在合作方手中進行反復訓練、標注和算法優化,安全性難以保障。
更重要的是,神經網絡開放鑒定預訓練成果的可移植性極低。原因不言自明——各地劃控標準不一,拿著用A館數據深度學習后建立的劃控判斷模型,去給B館做開放鑒定,就好比把為A量身定制的衣服給B穿,恰好適合B的幾率又有多高呢?退一步講,哪怕同是A館,或許今天按當下劃控標準已經建立好模型,可明天劃控條件哪怕有一點變化,就要一切推倒重來。這對于標準多變的開放鑒定工作來說,無論是時間成本還是資金投入都是極不經濟的。更遑論,某些待鑒定檔案存量只有幾萬件甚至更少的中小檔案館,可能連神經網絡建模的“起步價”樣本量都湊不足。
于是,當神經網絡——人工智能領域中的“感知智能”遇到瓶頸時,處于更尖端“認知智能”層面的語義工程技術就要大顯身手了。
基于語義工程技術的語義劃控系統并不需要大樣本訓練,擁有易配置的優勢。屬性“親民”,功能卻很“黑科技”。語義劃控以高保真的中文文本語義解析器為基礎,可實現對檔案原文的語義分析,從中識別劃控鑒定條件,再由此做出劃控鑒定判斷,而工作人員只需參照掃描結果,根據系統建議進行復核或抽檢。使用現有語義劃控系統后,依據實測數據,保守估計可節省人力60%以上。
不僅如此,在系統自帶通用語義庫的基礎上,各檔案館還可以根據本館待鑒定檔案特點,緊貼時代需求和政策導向,隨時更改劃控條件,且即改即生效,快速、高質量、集約化推進劃控鑒定工作。
放眼未來,聯著實業將繼續以語義工程技術為抓手,觸達多行業領域,語義賦能內容審核,提升數字化在多業務場景的覆蓋度;優化產品結構,以技術洞察推動業務升級,成就客戶實現更大價值。