哪类关键词最适合拆分?

每个部分恰好出现一次的一致、唯一短语效果最佳。示例包括"发票编号"、"第 1 页共"、"EXHIBIT"、"亲爱的"或文档 ID 前缀。避免在每个部分出现多次的非常常见的词。

该工具适用于扫描 PDF 吗?

按文本拆分需要机器可读文字。扫描图像 PDF 必须先用 OCR 处理以提取文字。在应用按文本拆分之前，请对扫描 PDF 使用 dokk.ai 的 OCR 工具。

我可以使用正则表达式作为拆分关键词吗?

可以。启用正则表达式选项并输入如"Invoice #\d+"的模式以匹配任意发票编号，或"^(January|February|March)"以在行首的月份名称处拆分。

如果关键词不出现在文档中会怎样?

如果未找到匹配，工具返回原始 PDF 不变，并显示关键词未被检测到的警告。检查拼写并确保 PDF 包含机器可读文字。

按文本拆分和按书签拆分有何区别?

按书签拆分使用 PDF 中嵌入的结构大纲（由文档作者创建）。按文本拆分使用实际页面内容动态查找拆分点。对有正式大纲的结构化文档使用书签；对存在一致关键词但可能没有书签的自动生成批量导出使用按文本拆分。

我可以在输出中包含或排除关键词页面吗?

可以。您可以配置包含关键词的页面是成为下一个输出文件的第一页还是上一个输出文件的最后一页。如果分隔页没有有意义的内容，您也可以选择完全丢弃它。

工具可以处理多少个拆分点?

拆分点没有硬性限制。该工具已在有 1000 多个关键词出现的文档上测试，在单个 ZIP 存档中生成 1000 多个输出文件。

输出文件会自动命名吗?

输出文件默认按顺序命名（如"split_001.pdf"、"split_002.pdf"）。如果关键词匹配包含唯一标识符（如发票编号），该值可以选择性地用于文件名。

我可以只从部分关键词匹配中提取页面吗?

标准工作流程在每个匹配处拆分。对于选择性提取，从拆分预览中识别您需要的页面范围后使用"提取页面"，或使用按页面范围拆分进行手动控制。

有文件大小限制吗?

dokk.ai 接受最大 200 MB 的 PDF。对于更大的批量导出，考虑先对半拆分源文件，然后对每半应用按文本拆分。

所有工具

按文本拆分

在页面文本变化时拆分

1上传

2配置

3处理

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

主要功能

在包含指定关键词或短语的每个页面处拆分 PDF
默认不区分大小写的文本匹配
可选正则表达式模式支持变量标记
选择在前一个或后一个输出文件中包含或排除关键词页面
适用于原生文字 PDF 和 OCR 处理的扫描文档
输出按顺序编号的文件或 ZIP 存档
处理有数百个拆分点的 PDF
保留包括图像
字体和批注在内的所有内容
基于浏览器无需安装
安全 TLS 上传和 60 分钟内自动删除

使用场景

将批量发票导出拆分为单独的发票 PDF
在每个"表单 ID"分隔页处划分大批量表单扫描
在每个"日期："标题处拆分每日报告包
从邮件合并导出中提取单个患者信件
在每个"EXHIBIT"标记处划分法律记录
在每个"模块"标题处拆分培训手册
从物流清单 PDF 中隔离单个货物记录
在每个账号处拆分扫描银行对账单批次
在每个学生姓名处划分合并测试结果 PDF
从组合保险文档批次中提取单个保单

使用方法

1上传包含您要用作拆分点的重复文本标记的 PDF。
2输入要拆分的关键词或短语。如果大小写有变化请启用不区分大小写匹配，或输入正则表达式用于变量模式。
3选择包含关键词的页面是开始下一个输出文件还是结束上一个——这决定分隔页的位置。
4点击"处理"，dokk.ai 扫描每个页面，识别所有匹配项，并在每次出现时拆分文档。
5下载单个拆分文件或 ZIP 存档。文件按顺序命名，每个对应关键词出现之间的一个部分。

当 PDF 是包含多个文档串联在一起的批量导出——单个文件中有数百张发票、一天的扫描表单，或者每个部分以已知标题开头的自动生成报告——按固定关键词拆分比手动识别页面范围快得多。按文本拆分扫描每页以查找您指定的短语，每次出现该短语时创建新的输出文件，有效地使用文档自身内容作为拆分地图。这是完成应付账款自动化、表单处理管道和批量文档分发工作流程的工具。会计系统将 500 张发票导出为单个 PDF；按文本拆分在每个分隔页上找到"发票编号"并生成 500 个单独的发票文件。医疗记录系统批量处理患者信件；工具在"亲爱的患者"处拆分以生成每位患者一封信。物流公司收到每日清单，其中每批货物以包含"货物 ID"的条形码标签开头；工具将每批货物隔离为单独文件以供下游处理。您可以选择关键词页面本身是否包含在输出文件中或丢弃——对于本身没有有意义内容的分隔页很有用。不区分大小写的匹配确保您不必担心自动生成文档中的大写变体。支持正则表达式模式用于拆分标记是可变的高级用例，例如"Invoice #\d+"匹配任意发票编号。对于缺乏正式大纲但有一致文本标记的文档，按文本拆分是按书签拆分的补充。如果您的文档两者都有，书签通常更可靠，因为它们是结构性而非基于内容的。对于最大灵活性，结合两种方法：在章节级别按书签拆分，然后在章节内按文本拆分以隔离单个记录。所有文件处理在 dokk.ai 的安全基础设施上进行。文件在 60 分钟内删除，从不用于机器学习或与第三方共享。输出文件是与每个阅读器、打印机和文档管理系统兼容的标准 PDF。

常见问题

安全与隐私

文档文字仅被扫描以查找拆分关键词，不被存储或索引。所有文件通过 TLS 传输，处理后 60 分钟内删除。dokk.ai 符合 GDPR 标准，从不将文档内容用于训练或分析。