主要功能
- 在包含指定关键词或短语的每个页面处拆分 PDF
- 默认不区分大小写的文本匹配
- 可选正则表达式模式支持变量标记
- 选择在前一个或后一个输出文件中包含或排除关键词页面
- 适用于原生文字 PDF 和 OCR 处理的扫描文档
- 输出按顺序编号的文件或 ZIP 存档
- 处理有数百个拆分点的 PDF
- 保留包括图像
- 字体和批注在内的所有内容
- 基于浏览器无需安装
- 安全 TLS 上传和 60 分钟内自动删除
使用场景
- 将批量发票导出拆分为单独的发票 PDF
- 在每个"表单 ID"分隔页处划分大批量表单扫描
- 在每个"日期:"标题处拆分每日报告包
- 从邮件合并导出中提取单个患者信件
- 在每个"EXHIBIT"标记处划分法律记录
- 在每个"模块"标题处拆分培训手册
- 从物流清单 PDF 中隔离单个货物记录
- 在每个账号处拆分扫描银行对账单批次
- 在每个学生姓名处划分合并测试结果 PDF
- 从组合保险文档批次中提取单个保单
使用方法
- 1上传包含您要用作拆分点的重复文本标记的 PDF。
- 2输入要拆分的关键词或短语。如果大小写有变化请启用不区分大小写匹配,或输入正则表达式用于变量模式。
- 3选择包含关键词的页面是开始下一个输出文件还是结束上一个——这决定分隔页的位置。
- 4点击"处理",dokk.ai 扫描每个页面,识别所有匹配项,并在每次出现时拆分文档。
- 5下载单个拆分文件或 ZIP 存档。文件按顺序命名,每个对应关键词出现之间的一个部分。
当 PDF 是包含多个文档串联在一起的批量导出——单个文件中有数百张发票、一天的扫描表单,或者每个部分以已知标题开头的自动生成报告——按固定关键词拆分比手动识别页面范围快得多。按文本拆分扫描每页以查找您指定的短语,每次出现该短语时创建新的输出文件,有效地使用文档自身内容作为拆分地图。 这是完成应付账款自动化、表单处理管道和批量文档分发工作流程的工具。会计系统将 500 张发票导出为单个 PDF;按文本拆分在每个分隔页上找到"发票编号"并生成 500 个单独的发票文件。医疗记录系统批量处理患者信件;工具在"亲爱的患者"处拆分以生成每位患者一封信。物流公司收到每日清单,其中每批货物以包含"货物 ID"的条形码标签开头;工具将每批货物隔离为单独文件以供下游处理。 您可以选择关键词页面本身是否包含在输出文件中或丢弃——对于本身没有有意义内容的分隔页很有用。不区分大小写的匹配确保您不必担心自动生成文档中的大写变体。支持正则表达式模式用于拆分标记是可变的高级用例,例如"Invoice #\d+"匹配任意发票编号。 对于缺乏正式大纲但有一致文本标记的文档,按文本拆分是按书签拆分的补充。如果您的文档两者都有,书签通常更可靠,因为它们是结构性而非基于内容的。对于最大灵活性,结合两种方法:在章节级别按书签拆分,然后在章节内按文本拆分以隔离单个记录。 所有文件处理在 dokk.ai 的安全基础设施上进行。文件在 60 分钟内删除,从不用于机器学习或与第三方共享。输出文件是与每个阅读器、打印机和文档管理系统兼容的标准 PDF。
常见问题
安全与隐私
文档文字仅被扫描以查找拆分关键词,不被存储或索引。所有文件通过 TLS 传输,处理后 60 分钟内删除。dokk.ai 符合 GDPR 标准,从不将文档内容用于训练或分析。