主要功能
- 将 PDF 表格转换为可编辑的 XLSX 电子表格
- 结构表格检测保留行和列
- 多行和合并单元格标题处理
- 数字格式检测(货币
- 百分比
- 小数)
- 多个表格导出到单独的 XLSX 工作表
- 扫描 PDF(含打印表格)的 OCR
- 支持 40 多种 OCR 语言
- 处理带分隔线和带阴影标题的表格
- 处理最大 100 MB 的文件
- 通常在 20 秒内完成
- 输出文件无水印
- 无需账号或注册
- 在移动浏览器上可用
- 处理后自动删除文件
- 可将所有表格导出到单个工作表的选项
使用场景
- 从 PDF 年度报告中提取财务数据到 Excel 进行分析和制图
- 将政府统计表格 PDF 转换为 XLSX 进行进一步处理
- 将供应商 PDF 价格表中的库存数据提取到电子表格
- 从批量 PDF 发票中提取发票行项目进行会计核对
- 通过 OCR 将扫描打印报告表格转换为 Excel 进行数据分析
- 通过 Excel 将旧版 PDF 导出的数据迁移到现代数据库
- 从 PDF 摘要报告中提取调查结果到 Excel 进行统计分析
- 将 PDF 产品比较表转换为 Excel 进行竞争分析
- 从 PDF 学术成绩单中提取成绩表到 Excel 计算 GPA
- 从 PDF 绩效报告中提取时间序列数据进行趋势制图
使用方法
- 1点击“上传 PDF”或拖放您的文件。支持包含表格的 PDF——包括基于文字和扫描的——最大 100 MB。
- 2如果您的 PDF 是扫描件,请选择文档语言以优化表格内容的 OCR 准确性。
- 3点击“转换为 Excel”。引擎检测文档中的所有表格并将其映射到电子表格结构。
- 4等待处理,通常在 20 秒以内。每个检测到的表格放置在输出 XLSX 的单独工作表上。
- 5下载 XLSX 文件并在 Microsoft Excel、LibreOffice Calc 或 Google 表格中打开。会话结束后,您上传的文件自动删除。
PDF 表格处理起来出了名的困难。在不先将内容提取到电子表格中的情况下,您无法对数据进行排序、运行公式或更新数字。从 PDF 查看器复制粘贴经常会合并单元格、列对齐错误或丢失小数点——特别是在财务报告、数据导出和政府统计表格中。专用于理解表格结构的 PDF 转 Excel 转换器是唯一可靠的解决方案。 dokk.ai 的 PDF 转 Excel 转换器使用结构分析引擎,检测 PDF 布局中的表格边界、列对齐和行分组。该引擎不是将表格单元格视为独立定位的文字片段,而是重建网格结构并将每个单元格映射到输出 XLSX 中正确的行和列。在可能的情况下,多行表头、合并单元格和数字格式(货币符号、百分号、小数分隔符)被检测并应用于相应的 Excel 单元格类型。 对于包含拍摄或打印表格的扫描 PDF,OCR 在表格提取前自动应用。OCR 引擎支持 40 多种语言,处理带有分隔线、带阴影列标题和交替行颜色的表格。150 DPI 或更高的扫描质量可产生可靠的提取结果;较低分辨率的扫描可能需要对少量单元格进行手动修正。 该工具将文档中找到的所有表格提取到单独的 Excel 工作表中——每个表格一个工作表——因此包含五个表格的 PDF 会生成五工作表的 XLSX 工作簿。您也可以选择将所有表格提取到单个工作表中,各表格之间用空行分隔。标准文档的处理通常在 20 秒内完成。 对于同时包含表格和散文文字的文档,dokk.ai 上的 PDF 转 Word 工具可能是更好的起点,因为它在保留完整文档结构的同时也保留了表格。对于只需要文字内容而表格结构是次要考虑的扫描 PDF,OCR 工具可产生干净的纯文本输出。如果表格数据在最初是 Word 文档的 PDF 中,先通过 PDF 转 Word 转换然后手动将表格复制到 Excel 中通常会产生最干净的结果。
常见问题
安全与隐私
所有上传通过 TLS 1.3 加密。文件在隔离会话中处理,在您的下载会话结束后从服务器永久删除,通常在 30 分钟内。dokk.ai 不读取、索引或保留文档内容。无需账号,除会话所需内容外不收集个人数据。服务符合 GDPR。