版面與警告

PDF 的意義常存在於位置關係中：分欄、標題、表單標籤、表格、註腳、圖、連結、註解、重複頁首或頁尾都會影響閱讀方式。--layout 保留這些訊號，而不是把頁面壓平成一個文字流。

對於 AI 代理，這一點很重要，因為看似合理的文字流仍然可能是錯的。雙欄論文可能被跨欄讀取，財務表可能丟失列邊界，表單值可能離開標籤，頁尾可能被誤當正文。pdfvision 暴露版面和 warning 訊號，讓代理能發現這些情況。

版面重建

bash

pdfvision document.pdf --layout --format json

版面輸出包括：

當原生文字流與視覺閱讀順序不同，Markdown 輸出可以使用恢復後的 layout order。

需要 layout 的情境：

layout.blocks 不是為了隱藏原生文字。它給代理提供帶 geometry 和 role hints 的另一種 reading-order view，同時 pages[].text 仍可用於比較。

bash

pdfvision document.pdf --geometry --format json

--geometry 在 pages[].spans 中輸出更底層的文字項目、bbox 與字級。可用於搜尋標示、覆蓋層與證據映射。

bash

pdfvision document.pdf --layout --image-boxes --vector-boxes --visual-regions --format json

重要欄位：

當代理只需要檢查這些區域時，使用 --render-visual-regions。

這是「把一切擷取成文字」和「查看 PDF」之間的關鍵差異。投影片圖表、簽名框、標註圖或表格網格可能沒有多少有用原生文字，但其 image/vector geometry 會告訴代理應該看哪裡。

visual regions 可以作為到多模態模型的橋樑：

pages[].warnings 描述在信任原生文字前應檢查的異常。

常見警告包括：

警告不是最終判斷，而是告訴代理下一步應檢查哪裡。

把 warning 當作 routing signal：

重要習慣不是讓整個擷取失敗，而是讓代理選擇下一步觀察。pdfvision 會返回足夠的證據來支援這個選擇。