wen aidev
Published on

Azure AI 解析(五):Document Intelligence 模型實戰

在上一篇 文件理解萃取 中,我們談到了把 PDF 洗乾淨對 RAG 系統來說有多麼關鍵。

今天我們實際打開 Azure Portal,進入 Document Intelligence Studio。你會發現裡面玲瑯滿目:從 Read、Layout 到一堆 Prebuilt 模型。如果挑錯了模型,輕則多花幾倍冤枉錢,重則 LLM 依舊滿口幻覺。

這篇我們就以 2024–2025 年最新的 API (v4.0) 為基礎,一次講透企業該怎麼決定用哪個模型!


總結決策樹:我該選哪個模型?

這張圖是你在處理任何文件前的首要指南:

Azure AI Document Intelligence 決策樹,解釋 Read, Layout, Prebuilt 的選擇時機

圖說:一切從「是不是公規模板」開始判斷,如果不是,再看「有沒有複雜表格排版」來決定用 Read 還是 Layout。

接下來我們深入拆解這三大主力。


1. Read Model:最純粹的現代化 OCR

prebuilt-read 就像是那個最勤奮刻苦的圖書管理員。它的任務非常純粹:把圖片或 PDF 上的每一個字都精準唸出來。從 2024 年底的更新開始,更是原生支援將 JPG、PNG 甚至是掃描檔直接變成能夠搜尋文字的 Searchable PDF

適合情境

  • 純文字居多的手冊或合約:你不在乎段落層次有幾級,你只想要把這堆圖檔掃進字串。
  • 只需要搜字串:你想搭配簡單的 Keyword 搜尋。
  • 底層引擎開發:你自己寫了一套超強的正則表達式 (Regex) 或後處理邏輯,只需要 Azure 幫你把座標跟字抽出來。

🚨 注意事項

若是圖片裡有大量表格,千萬不要用 Read Model。它會把欄位全部混雜在一起,變成無法閱讀的字串海。


2. Layout Model:RAG 神級隊友的 Markdown 魔法

如果你在做企業級的 RAG,prebuilt-layout 絕對是你的預設首選

想像一下,你的保單條款或財報裡,充滿了合併儲存格、跨頁表格、打勾選定的核取方塊 (Selection Marks)。若是丟給傳統 OCR,絕對是一場災難。而 Layout Model 就是為了「結構」而生的。

傳統 OCR 將表格轉為無意義字串,對比 Layout Model 將表格完美還原為 Markdown 格式

圖說:LLM 最愛吃的就是 Markdown 表格。Layout Model 能直接幫你把掃描表格洗成原汁原味的結構,LLM 再也不會對齊錯位。

Layout 帶給 RAG 的三大好處

  1. 直接輸出 Markdown:API outputContentFormat=markdown 直接回傳完美排版的內容,免去了繁瑣的中介轉換邏輯。
  2. 理解閱讀順序:對於報紙或論文那種雙欄排版,它懂得「由左至右、由上至下」看完一欄再看另一欄,不會把兩欄的字亂接在一起。
  3. 辨識選取標記:問卷上打勾或畫叉的框框,它會標記為 selectedunselected,這對處理表單申請超級重要!

3. Prebuilt Models:開箱即用的「懂王」

當你要處理的是業界公認標準的文件,這時候就別自己訓練了。微軟已經幫你把成千上萬的帳單餵給機器學習,打造出了一堆 prebuilt-* 系列模型。

從 v4.0 (2024-2025) 開始,它們能抓取的欄位越來越細節,包含:

  • 發票 (Invoice) / 收據 (Receipt):自動判斷稅額、小費、總價、供應商名稱。
  • 身分證件 (ID Document):護照、駕照的各項防偽與身分欄位。
  • 合約 (Contract):抓取雙方簽名區塊,甚至能判斷是否有實際簽署(結合 Signature Detection Enhancement)。

一鍵拿到 JSON Key-Value

使用 Prebuilt 最爽的地方在於,你丟一張發票圖片,API 回傳的不是一堆文字座標,而是漂漂亮亮的 JSON 物件:

{
  "VendorName": { "valueString": "微軟食堂" },
  "Total": { "valueNumber": 150.0 },
  "Tax": { "valueNumber": 7.5 }
}

你甚至不需要 LLM 介入,直接把結果塞進關聯式資料庫 (SQL) 就大功告成了!

💡 實戰思考:如果 Prebuilt 抓錯欄位怎麼辦?

在 2024 年後的更新中,Azure 引入了強大的 Generative AI 輔助選項,還有 queryFields 功能。如果你發現某張廠商的特規發票欄位抓不到,你可以直接下達 Query Instruction "找出運費的金額",Document Intelligence 就會動用底層的大模型理解力幫你補齊,大幅降低建立 Custom Model 的門檻。


結語

選型策略其實很簡單: 如果你要做 RAG 架構的檔案檢索,請全力擁抱 Layout Model + Markdown。 如果你是要做 RPA 自動化結帳、核銷,請先試試看 Prebuilt Models,不行的話再加上 Generative Query,最後才是自己標註 Custom Model。

前處理做的好,就是對 LLM 最大的溫柔。掌握 Document Intelligence 這些實戰模型,你的 AI 系統必定無比強大且穩定!

留言討論