面向智能体的 PDF 分流
先读取低成本的原生文本和逐页质量信号,再决定是否需要渲染、OCR、搜索或裁剪。
许多 PDF 提取工具只给智能体一段字符串,并要求它信任结果。真实文档中,这种方式很容易失败:双栏论文、含义藏在形状里的幻灯片、带图表和表格的报告、政府表单、带 OCR 残留的扫描件,以及文本层包含兼容字形或乱码的多语言 PDF,都不能只看一条扁平文本流。
pdfvision 围绕一个不同的循环设计:
这个循环更接近人类阅读 PDF 的方式。你会先浏览页面,注意视觉页面和提取文本是否不一致,放大图表或表单字段,并保留可验证的原始证据。
pdfvision 在一个 CLI 和 TypeScript 库中组合了智能体需要的 PDF 信号:
无需安装即可运行:
npx pdfvision document.pdf为多模态模型渲染页面图像:
npx pdfvision document.pdf --render从 URL 提取结构化 JSON:
npx pdfvision --remote https://raw.githubusercontent.com/mozilla/pdf.js-sample-files/master/tracemonkey.pdf --format json搜索证据,然后只裁剪匹配区域:
npx pdfvision report.pdf --search "revenue" --json
npx pdfvision report.pdf --pages 3 --render --render-region 120,180,360,140 --render-output ./crops --json不渲染每一整页,也可以检查视觉结构:
npx pdfvision slides.pdf --layout --image-boxes --vector-boxes --visual-regions --json
npx pdfvision slides.pdf --render-visual-regions --render-output ./regions --json