Skip to content
所有工具

按文本拆分

在页面文本变化时拆分

1上传
2配置
3处理

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

主要功能

  • 在包含指定关键词或短语的每个页面处拆分 PDF
  • 默认不区分大小写的文本匹配
  • 可选正则表达式模式支持变量标记
  • 选择在前一个或后一个输出文件中包含或排除关键词页面
  • 适用于原生文字 PDF 和 OCR 处理的扫描文档
  • 输出按顺序编号的文件或 ZIP 存档
  • 处理有数百个拆分点的 PDF
  • 保留包括图像
  • 字体和批注在内的所有内容
  • 基于浏览器无需安装
  • 安全 TLS 上传和 60 分钟内自动删除

使用场景

  • 将批量发票导出拆分为单独的发票 PDF
  • 在每个"表单 ID"分隔页处划分大批量表单扫描
  • 在每个"日期:"标题处拆分每日报告包
  • 从邮件合并导出中提取单个患者信件
  • 在每个"EXHIBIT"标记处划分法律记录
  • 在每个"模块"标题处拆分培训手册
  • 从物流清单 PDF 中隔离单个货物记录
  • 在每个账号处拆分扫描银行对账单批次
  • 在每个学生姓名处划分合并测试结果 PDF
  • 从组合保险文档批次中提取单个保单

使用方法

  1. 1上传包含您要用作拆分点的重复文本标记的 PDF。
  2. 2输入要拆分的关键词或短语。如果大小写有变化请启用不区分大小写匹配,或输入正则表达式用于变量模式。
  3. 3选择包含关键词的页面是开始下一个输出文件还是结束上一个——这决定分隔页的位置。
  4. 4点击"处理",dokk.ai 扫描每个页面,识别所有匹配项,并在每次出现时拆分文档。
  5. 5下载单个拆分文件或 ZIP 存档。文件按顺序命名,每个对应关键词出现之间的一个部分。

当 PDF 是包含多个文档串联在一起的批量导出——单个文件中有数百张发票、一天的扫描表单,或者每个部分以已知标题开头的自动生成报告——按固定关键词拆分比手动识别页面范围快得多。按文本拆分扫描每页以查找您指定的短语,每次出现该短语时创建新的输出文件,有效地使用文档自身内容作为拆分地图。 这是完成应付账款自动化、表单处理管道和批量文档分发工作流程的工具。会计系统将 500 张发票导出为单个 PDF;按文本拆分在每个分隔页上找到"发票编号"并生成 500 个单独的发票文件。医疗记录系统批量处理患者信件;工具在"亲爱的患者"处拆分以生成每位患者一封信。物流公司收到每日清单,其中每批货物以包含"货物 ID"的条形码标签开头;工具将每批货物隔离为单独文件以供下游处理。 您可以选择关键词页面本身是否包含在输出文件中或丢弃——对于本身没有有意义内容的分隔页很有用。不区分大小写的匹配确保您不必担心自动生成文档中的大写变体。支持正则表达式模式用于拆分标记是可变的高级用例,例如"Invoice #\d+"匹配任意发票编号。 对于缺乏正式大纲但有一致文本标记的文档,按文本拆分是按书签拆分的补充。如果您的文档两者都有,书签通常更可靠,因为它们是结构性而非基于内容的。对于最大灵活性,结合两种方法:在章节级别按书签拆分,然后在章节内按文本拆分以隔离单个记录。 所有文件处理在 dokk.ai 的安全基础设施上进行。文件在 60 分钟内删除,从不用于机器学习或与第三方共享。输出文件是与每个阅读器、打印机和文档管理系统兼容的标准 PDF。

常见问题

安全与隐私

文档文字仅被扫描以查找拆分关键词,不被存储或索引。所有文件通过 TLS 传输,处理后 60 分钟内删除。dokk.ai 符合 GDPR 标准,从不将文档内容用于训练或分析。