搜索与区域放大

pdfvision 可以先找到文本证据，再只渲染匹配区域。这适合让智能体验证条款、表格单元格、图中标签、表单值或 OCR 结果，而不必把整页图像发送给视觉模型。

这是 pdfvision 中最适合智能体的工作流之一：用文本搜索作为低成本 locator，然后只在真正重要的位置切换到视觉证据。

搜索 PDF

bash

pdfvision report.pdf --search "revenue" --json

匹配结果会输出到 pages[].matches[]。每个 match 包含页码、query、source、文本片段，以及能够定位可见区域时的 bbox。

重复 --search 可以一次运行多个查询：

bash

pdfvision paper.pdf --search "transformer" --search "attention" --json

默认搜索是字面量、大小写不敏感且感知 NFKC。只有任务需要时才启用正则或严格大小写：

bash

pdfvision report.pdf --search "Q[1-4] revenue" --search-regex --json
pdfvision report.pdf --search "PDF" --search-case-sensitive --json

好的搜索目标包括：

搜索可以匹配：

与原生文本、表单字段或注释重复的 OCR 匹配会被抑制，因此智能体不容易看到同一可见文本的重复结果。

match 的 source 帮助智能体判断它应该被多大程度信任：

对于多 query 搜索，queryIndex 可让调用方把每个 hit 映射回产生它的重复 --search flag。

把 match 的 bbox 传给 --render-region：

bash

pdfvision report.pdf --pages 3 --render --render-region 120,180,360,140 --render-output ./crops --json

--render-region 要求选中的页恰好为一页。区域使用左上原点的 PDF points，并且必须在页面边界内。

如果裁剪图包含小标签、上标、密集表格单元格或图表图例，可以提高 --render-scale：

bash

pdfvision report.pdf --pages 3 --render --render-region 120,180,360,140 --render-scale 3 --render-output ./crops --json

为了获得更好的 crop，可在把 match bbox 传给 --render-region 前加一点 padding。少量周边上下文能帮助视觉模型读取标签、行头和附近说明文字。

对于无法通过文本搜索定位的视觉区域，请结合渲染与 OCR 使用 --visual-regions 或 --render-visual-regions。

bash

pdfvision annual-report.pdf --search "Net sales" --search "Operating income" --layout --json

智能体可以检查 pages[].matches[]，选择页面和周边 context 正确的 hit，然后请求 crop：

bash

pdfvision annual-report.pdf --pages 42 --render --render-region 72,180,468,180 --render-output ./evidence --json

最终答案可以同时引用提取文本和渲染后的证据区域。