- Published on
Azure AI 解析(四):Document Intelligence 文件理解分析
Table of Contents
在前面的三篇文章中,我們建立好了 Foundry 工作流,也搞定了 Azure OpenAI 的 VNet 資安與 RBAC 身分驗證。現在,大老闆終於放心把公司機密資料丟進去了。
但在實作 RAG(檢索增強生成) 的第一天,你馬上會撞上一道無情的鐵板:原始資料的骯髒程度。
當你興高采烈地把一份「含有複雜報表、手寫簽名、斜排印章」的 PDF 合約丟給各種開源的 PDF 解析套件(像是 PyPDF2)時,出來的文字通常是一團沒有排版的字串。LLM 看到這種爛 Context,自然只能給出充滿幻覺的爛答案。
這就是為什麼在 Azure LLMOps 生態系中,負責做前處理的 Azure AI Document Intelligence (前身為 Form Recognizer),其重要性甚至不亞於大語言模型本身。
超越傳統 OCR:從「認字」到「理解結構」
傳統的 OCR(光學字元辨識)技術,像是 Tesseract,它的任務很單純:把圖片上的像素(Pixels)轉成文字(String)。它不管你是標題、表格還是註腳,反正就是一路把字掃出來塞在一起。
但 Document Intelligence 不一樣,它引入了深度學習的視覺模型(Vision Models),它的目標是**「理解這份文件的版面結構 (Layout)」**。
圖說:Document Intelligence 不只是讀文字,它會把表格結構化為 Markdown,把欄位精準抓成 JSON Key-Value 讓你直接存進資料庫。
實戰中的三大亮點能力
- 表格與 Markdown 還原 (Layout Model):它能精準識別表格的框線、合併的儲存格 (Merged Cells),並將其完美還原成 Markdown 格式的表格。這對準備 RAG 的 Context 來說是核彈級的加分,因為 LLM 對 Markdown 表格的理解力極高。
- 開箱即用的預訓練模型 (Prebuilt Models):微軟已經幫你訓練好辨識發票 (Invoice)、收據 (Receipt)、身分證件 的模型。你只要把圖檔丟進去,它直接吐出
Total_Amount,Vendor_Name等 Key-Value 結構,完全不用自己花幾個月標註框線。 - 極少樣本的客製化 (Custom Neural Models):如果你的公司有一種特規的「出貨單」,你只需要準備 5 張 樣本去訓練 Custom Template,它就能學會抓取特定位置的料號與數量。
終極合體:企業級多模態 RAG 知識管線
當我們把 Document Intelligence 放到整個 Azure 生態系來看時,它扮演了「數據煉油廠」的第一道過濾器。這就是 2026 年企業實戰最標準的 RAG 架構 (RAG on Steroids):
圖說:所有流程都被包裹在 VNet 資安邊界內。Document Intelligence 負責把爛文件洗成乾淨的 Markdown,Search 負責精準檢索,最後交給 OpenAI 總結,達到零幻覺的企業回覆。
- Ingestion (萃取):使用者上傳一份滿是表格與圖表的「Q3 財報 PDF」。Document Intelligence 的 Layout Model 將其無損轉換為高度結構化的 Markdown 文本與段落區塊。
- Indexing (索引):乾淨的 Markdown 文件被切割 (Chunking) 後,打成向量 (Embeddings),存入 Azure AI Search。由於表格結構被完整保留,Search 的 Hybrid Search 得以發揮最大威力。
- Generation (生成):使用者發問「Q3 營收成長最多的是哪個部門?」時,Azure AI Search 撈回最相關的乾淨表格 Markdown,交給 Azure OpenAI 統整出完美的分析報告。
💡 終極解惑:Garbage In, Garbage Out
很多團隊花了幾個月在調教 GPT-4 的 Prompt,嘗試解決 RAG 系統的幻覺問題,卻死活找不出原因。其實問題往往出在「前處理」。花點預算把 PDF 萃取的工具從免費開源升級為 Document Intelligence,提供給 LLM 最乾淨的 Markdown 表格,你就會發現所謂的「幻覺」瞬間消失了一大半。這就是「資料決定模型上限」的最好體現。
Azure AI 系列總結
走過這四篇文章,我們從第一篇釐清了 Azure AI 的三層架構與 Buy vs Build 決策;在第二篇見識了 Azure AI Foundry 作為 LLMOps 兵工廠的指揮威力;第三篇我們打通了 VNet 與 RBAC 企業資安的最後一哩路;最後在第四篇,用 Document Intelligence 為 AI 裝上了銳利的雙眼。
微軟 Azure 提供的,遠不再只是一個「叫用 OpenAI API 的代購管道」。對於企業而言,這是一套從資料清理、流程編排、安全防護到模型監控,真正可以端到端(End-to-End)落地的霸權級生態系。
希望這系列解析,能幫助你在面對老闆的「AI 導入需求」時,不再只是回答「把 Prompt 寫好就好」,而是能畫出一張堅若磐石的企業架構圖!