- Published on
Azure AI 解析(五):Document Intelligence 模型實戰
Table of Contents
在上一篇 文件理解萃取 中,我們談到了把 PDF 洗乾淨對 RAG 系統來說有多麼關鍵。
今天我們實際打開 Azure Portal,進入 Document Intelligence Studio。你會發現裡面玲瑯滿目:從 Read、Layout 到一堆 Prebuilt 模型。如果挑錯了模型,輕則多花幾倍冤枉錢,重則 LLM 依舊滿口幻覺。
這篇我們就以 2024–2025 年最新的 API (v4.0) 為基礎,一次講透企業該怎麼決定用哪個模型!
總結決策樹:我該選哪個模型?
這張圖是你在處理任何文件前的首要指南:
圖說:一切從「是不是公規模板」開始判斷,如果不是,再看「有沒有複雜表格排版」來決定用 Read 還是 Layout。
接下來我們深入拆解這三大主力。
1. Read Model:最純粹的現代化 OCR
prebuilt-read 就像是那個最勤奮刻苦的圖書管理員。它的任務非常純粹:把圖片或 PDF 上的每一個字都精準唸出來。從 2024 年底的更新開始,更是原生支援將 JPG、PNG 甚至是掃描檔直接變成能夠搜尋文字的 Searchable PDF。
適合情境
- 純文字居多的手冊或合約:你不在乎段落層次有幾級,你只想要把這堆圖檔掃進字串。
- 只需要搜字串:你想搭配簡單的 Keyword 搜尋。
- 底層引擎開發:你自己寫了一套超強的正則表達式 (Regex) 或後處理邏輯,只需要 Azure 幫你把座標跟字抽出來。
🚨 注意事項
若是圖片裡有大量表格,千萬不要用 Read Model。它會把欄位全部混雜在一起,變成無法閱讀的字串海。
2. Layout Model:RAG 神級隊友的 Markdown 魔法
如果你在做企業級的 RAG,prebuilt-layout 絕對是你的預設首選。
想像一下,你的保單條款或財報裡,充滿了合併儲存格、跨頁表格、打勾選定的核取方塊 (Selection Marks)。若是丟給傳統 OCR,絕對是一場災難。而 Layout Model 就是為了「結構」而生的。
圖說:LLM 最愛吃的就是 Markdown 表格。Layout Model 能直接幫你把掃描表格洗成原汁原味的結構,LLM 再也不會對齊錯位。
Layout 帶給 RAG 的三大好處
- 直接輸出 Markdown:API
outputContentFormat=markdown直接回傳完美排版的內容,免去了繁瑣的中介轉換邏輯。 - 理解閱讀順序:對於報紙或論文那種雙欄排版,它懂得「由左至右、由上至下」看完一欄再看另一欄,不會把兩欄的字亂接在一起。
- 辨識選取標記:問卷上打勾或畫叉的框框,它會標記為
selected或unselected,這對處理表單申請超級重要!
3. Prebuilt Models:開箱即用的「懂王」
當你要處理的是業界公認標準的文件,這時候就別自己訓練了。微軟已經幫你把成千上萬的帳單餵給機器學習,打造出了一堆 prebuilt-* 系列模型。
從 v4.0 (2024-2025) 開始,它們能抓取的欄位越來越細節,包含:
- 發票 (Invoice) / 收據 (Receipt):自動判斷稅額、小費、總價、供應商名稱。
- 身分證件 (ID Document):護照、駕照的各項防偽與身分欄位。
- 合約 (Contract):抓取雙方簽名區塊,甚至能判斷是否有實際簽署(結合 Signature Detection Enhancement)。
一鍵拿到 JSON Key-Value
使用 Prebuilt 最爽的地方在於,你丟一張發票圖片,API 回傳的不是一堆文字座標,而是漂漂亮亮的 JSON 物件:
{
"VendorName": { "valueString": "微軟食堂" },
"Total": { "valueNumber": 150.0 },
"Tax": { "valueNumber": 7.5 }
}
你甚至不需要 LLM 介入,直接把結果塞進關聯式資料庫 (SQL) 就大功告成了!
💡 實戰思考:如果 Prebuilt 抓錯欄位怎麼辦?
在 2024 年後的更新中,Azure 引入了強大的 Generative AI 輔助選項,還有 queryFields 功能。如果你發現某張廠商的特規發票欄位抓不到,你可以直接下達 Query Instruction "找出運費的金額",Document Intelligence 就會動用底層的大模型理解力幫你補齊,大幅降低建立 Custom Model 的門檻。
結語
選型策略其實很簡單: 如果你要做 RAG 架構的檔案檢索,請全力擁抱 Layout Model + Markdown。 如果你是要做 RPA 自動化結帳、核銷,請先試試看 Prebuilt Models,不行的話再加上 Generative Query,最後才是自己標註 Custom Model。
前處理做的好,就是對 LLM 最大的溫柔。掌握 Document Intelligence 這些實戰模型,你的 AI 系統必定無比強大且穩定!