Skip to content
所有工具

PDF 转 Excel

将表格提取为 .xlsx

1上传
2配置
3处理

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

主要功能

  • 将 PDF 表格转换为可编辑的 XLSX 电子表格
  • 结构表格检测保留行和列
  • 多行和合并单元格标题处理
  • 数字格式检测(货币
  • 百分比
  • 小数)
  • 多个表格导出到单独的 XLSX 工作表
  • 扫描 PDF(含打印表格)的 OCR
  • 支持 40 多种 OCR 语言
  • 处理带分隔线和带阴影标题的表格
  • 处理最大 100 MB 的文件
  • 通常在 20 秒内完成
  • 输出文件无水印
  • 无需账号或注册
  • 在移动浏览器上可用
  • 处理后自动删除文件
  • 可将所有表格导出到单个工作表的选项

使用场景

  • 从 PDF 年度报告中提取财务数据到 Excel 进行分析和制图
  • 将政府统计表格 PDF 转换为 XLSX 进行进一步处理
  • 将供应商 PDF 价格表中的库存数据提取到电子表格
  • 从批量 PDF 发票中提取发票行项目进行会计核对
  • 通过 OCR 将扫描打印报告表格转换为 Excel 进行数据分析
  • 通过 Excel 将旧版 PDF 导出的数据迁移到现代数据库
  • 从 PDF 摘要报告中提取调查结果到 Excel 进行统计分析
  • 将 PDF 产品比较表转换为 Excel 进行竞争分析
  • 从 PDF 学术成绩单中提取成绩表到 Excel 计算 GPA
  • 从 PDF 绩效报告中提取时间序列数据进行趋势制图

使用方法

  1. 1点击“上传 PDF”或拖放您的文件。支持包含表格的 PDF——包括基于文字和扫描的——最大 100 MB。
  2. 2如果您的 PDF 是扫描件,请选择文档语言以优化表格内容的 OCR 准确性。
  3. 3点击“转换为 Excel”。引擎检测文档中的所有表格并将其映射到电子表格结构。
  4. 4等待处理,通常在 20 秒以内。每个检测到的表格放置在输出 XLSX 的单独工作表上。
  5. 5下载 XLSX 文件并在 Microsoft Excel、LibreOffice Calc 或 Google 表格中打开。会话结束后,您上传的文件自动删除。

PDF 表格处理起来出了名的困难。在不先将内容提取到电子表格中的情况下,您无法对数据进行排序、运行公式或更新数字。从 PDF 查看器复制粘贴经常会合并单元格、列对齐错误或丢失小数点——特别是在财务报告、数据导出和政府统计表格中。专用于理解表格结构的 PDF 转 Excel 转换器是唯一可靠的解决方案。 dokk.ai 的 PDF 转 Excel 转换器使用结构分析引擎,检测 PDF 布局中的表格边界、列对齐和行分组。该引擎不是将表格单元格视为独立定位的文字片段,而是重建网格结构并将每个单元格映射到输出 XLSX 中正确的行和列。在可能的情况下,多行表头、合并单元格和数字格式(货币符号、百分号、小数分隔符)被检测并应用于相应的 Excel 单元格类型。 对于包含拍摄或打印表格的扫描 PDF,OCR 在表格提取前自动应用。OCR 引擎支持 40 多种语言,处理带有分隔线、带阴影列标题和交替行颜色的表格。150 DPI 或更高的扫描质量可产生可靠的提取结果;较低分辨率的扫描可能需要对少量单元格进行手动修正。 该工具将文档中找到的所有表格提取到单独的 Excel 工作表中——每个表格一个工作表——因此包含五个表格的 PDF 会生成五工作表的 XLSX 工作簿。您也可以选择将所有表格提取到单个工作表中,各表格之间用空行分隔。标准文档的处理通常在 20 秒内完成。 对于同时包含表格和散文文字的文档,dokk.ai 上的 PDF 转 Word 工具可能是更好的起点,因为它在保留完整文档结构的同时也保留了表格。对于只需要文字内容而表格结构是次要考虑的扫描 PDF,OCR 工具可产生干净的纯文本输出。如果表格数据在最初是 Word 文档的 PDF 中,先通过 PDF 转 Word 转换然后手动将表格复制到 Excel 中通常会产生最干净的结果。

常见问题

安全与隐私

所有上传通过 TLS 1.3 加密。文件在隔离会话中处理,在您的下载会话结束后从服务器永久删除,通常在 30 分钟内。dokk.ai 不读取、索引或保留文档内容。无需账号,除会话所需内容外不收集个人数据。服务符合 GDPR。