11/21 2024

如何使用AI處理機敏文件?借鏡美國聯邦政府的AI使用提升效率!

AI 資安

美國聯邦機構通常會收集、管理、使用並分發各種文件。然而,儲存與分發聯邦機構的文件往往是複雜的過程,這些文件的格式各異,從結構化格式到自由書寫的文件,都可能包含需要謹慎編輯的個人身份識別資訊(PII)。除此之外,在影像、手寫筆記和簽名等文件檔案中,包含的不同類型的個人資訊,更替聯邦人員在處理「識別個人信息及敏感資訊」的工作,添加了層層挑戰。因此,要針對文件處理開發一個適用於所有情況的解決方案,是相當有挑戰性的。

因此,今天博弘雲端要借鏡美國聯邦政府的案例,來看看如何使用AI來處理文件,並且在合理範圍與人為監督的情況下,提升資料處理的效率!

文件處理效率低落|美聯邦政府遇到哪些挑戰?

如同一般企業,美國聯邦政府在處理相關文件的同時,也面臨了多種挑戰,主要原因為其工作流程中有大量且多樣化的文件需要處理,更因程序繁瑣,也讓資料處理的過程變得相當複雜:

  • 文件量與處理速度:各機構接收的文件數量不一,文件的大小、接收時間、法規要求和行業標準等差異,增加了數據處理的複雜性。
  • 選擇性遮蔽:機構對文件中的敏感資訊有特定的遮蔽需求和標準,使處理流程更為複雜。
  • 成本效率與永續性:人工和計算資源的成本巨大,人工處理文件的成本成為重要限制。
  • 適應性:此領域的技術發展迅速,機構需要靈活且可調整的方法來進行模型的訓練、調整和部署,以準確處理文件。

為了解決聯邦政府文件處理的挑戰,因此採用「人機協作」的方法,利用先進且可調適的人工智慧(AI)來識別、遮蔽並從人工審查中學習。這種靈活、高效且安全的文件處理方式大大減輕了聯邦機構的負擔。針對文件的複雜性,我們會分類為以下幾種類型,來應對不同文件類型處理的複雜性:

  • 標準表單:對固定結構和欄位的文件進行自動化處理。
  • 混合格式:針對包含固定欄位與更不結構化數據的文件進行高級解析。
  • 手寫文件:使用專門的光學字元辨識(OCR)技術,識別並遮蔽手寫文本中的個人身份資訊(PII)。
  • 綜合文件:對結合標準表單、混合格式和手寫元素的文件(如簽名的收據和報告)提供靈活的處理方法。
文件處理效率低落惹人怨
文件類別越多,處理的效率也越繁雜,所帶來的隱形成本無法預估。

如何設計AWS解決方案模組來處理敏感資料?

因此,我們就來看看,AWS有哪些 AI 的工具,可以用來設計相對應的解決方案模組,進而安全地處理敏感資料:

資料導入與提取

將輸入數據檔案導入雲端存儲解決方案,使用Amazon Textract具備AI功能的服務,將資料提取為純文本格式,並利用Amazon Comprehend或自訂訓練模型的智能服務,從原始文本中提取命名實體及其元數據。這些輸出內容儲存在JSON標準檔案格式中,並進入下一階段。 部分處理過程中生成的數據可用於其他情境,例如幫助摘要、搜尋及更新問答文件,因此會與原始文件一同儲存。 

識別與遮蔽

接著,自訂的AWS Lambda函數會自動觸發,以應用基於規則的遮蔽處理。例如,若某些文本被識別為具有90%以上的信心分數且屬於特定PII類別(如身分證字號或姓名),便可自動遮蔽。

審核與驗證

人工監督與驗證在整個過程中至關重要。在「人機協作」模式中,專家審核並驗證遮蔽區域。此階段可進行點選遮蔽、取消遮蔽、白字遮蔽(例如去除隱藏關鍵字)等操作。 透過人機協作的審核,確保處理準確性,並符合機構的特定要求。

為了不讓AI在這過程當中出錯,透過採用Amazon Simple Notification Service (Amazon SNS)的主題通知方式,每份文件都至少可被處理一次,使系統具備容錯能力。

自動化手動審查和遮蔽流程預期將大幅減輕負責部門的工作負擔。此解決方案作為企業服務進行部署,在數據導入過程中即識別並遮蔽敏感信息,並將詳細資料導入環境中,以支援更廣泛的數據產品及人工智慧(AI)和機器學習(ML)應用場景。

AWS AI 解決方案
AWS AI 的多樣化解決方案,使得聯邦政府能夠安全的處理資料。

使用AI來進行敏感資料處理有哪些好處?

由此我們可以看到,透過AWS 相關的 AI解決方案,來收集使用和效率指標數據,並持續提升系統功能,將基礎模型(FM)調整應用於特定場景,並探索其他數據驅動的決策應用,讓聯邦政府機構的資料處理效率能夠再提升,並且享有以下的好處:

  • 人工輔助的自動遮蔽:AI/ML模型訓練用於自動識別和遮蔽文件中的敏感資訊,例如個人身份資訊(PII)、機密數據或機密內容,顯著簡化遮蔽流程並減少人工工作量。
  • 可自訂的模型:模型可依照公共部門組織的特定遮蔽需求進行調整,考量其獨特的數據類型、政策和法規要求,使遮蔽過程更準確並具情境敏感性。
  • 持續學習和反饋機制:隨著更多數據的提供和專家對模型表現的反饋,模型持續進行訓練和改進。此反饋循環可保持遮蔽過程的準確性,並隨著數據模式和法規變化而更新。
如何用 AI 處理敏感資料?
透過六大步驟,協助美國聯邦政府進行敏感資料的處理,簡化文件繁瑣的流程(圖/AWS Blog)

透過結合先進的AI技術和「人機協作」驗證,機構可以在保持高度安全性、合規性和人工監督的同時,實現更高的效率、準確性和可擴展性。

博弘雲端先前協助不少大型企業,像是遠東SOGO百貨東生華製藥等,進行安全解決方案的部署,並且在AI實戰上更有豐富的團隊經驗,能夠根據企業需求和應用場景,達成商業價值目標!立即聯繫我們,在安全又有效的方式使用AI,提升文件處理效率。