Tách theo văn bản
Tách khi văn bản thay đổi giữa các trang
Drop file here
PDF, Word, Excel, PowerPoint, images up to 25 MB
Tính năng chính
- Tách PDF tại mỗi trang chứa từ khóa hoặc cụm từ được chỉ định
- Khớp văn bản không phân biệt chữ hoa chữ thường theo mặc định
- Hỗ trợ mẫu biểu thức chính quy tùy chọn cho các nhãn biến
- Lựa chọn bao gồm hoặc loại trừ trang từ khóa khỏi tệp kết quả trước hoặc sau
- Hoạt động với PDF văn bản gốc và tài liệu quét được xử lý bằng OCR
- Tạo tệp được đánh số tuần tự hoặc kho lưu trữ ZIP
- Xử lý PDF có hàng trăm điểm chia tách
- Giữ nguyên toàn bộ nội dung bao gồm hình ảnh
- phông chữ và chú thích
- Tải lên an toàn qua TLS và tự động xóa trong vòng 60 phút
Trường hợp sử dụng
- Tách xuất hóa đơn hàng loạt thành các tệp PDF hóa đơn riêng lẻ
- Chia quét biểu mẫu hàng loạt tại mỗi trang phân cách ID biểu mẫu
- Tách gói báo cáo hàng ngày tại mỗi tiêu đề Ngày:
- Trích xuất thư của từng khách hàng từ xuất trộn thư
- Chia biên bản pháp lý tại mỗi nhãn TRIỂN LÃM
- Tách tài liệu đào tạo tại mỗi tiêu đề Mô-đun
- Chia tệp PDF kết quả kiểm tra hợp nhất tại mỗi tên học sinh
Cách sử dụng
- 1Tải lên tệp PDF chứa các nhãn văn bản lặp lại mà bạn muốn sử dụng làm điểm chia tách.
- 2Nhập từ khóa hoặc cụm từ để chia tách. Bật khớp không phân biệt chữ hoa chữ thường nếu cách viết hoa khác nhau, hoặc nhập biểu thức chính quy cho các mẫu biến.
- 3Chọn liệu trang chứa từ khóa bắt đầu tệp kết quả tiếp theo hay kết thúc tệp trước — điều này xác định vị trí các trang phân cách.
- 4Nhấp Xử lý. Dokk.ai quét từng trang, xác định tất cả các kết quả khớp và chia tài liệu tại mỗi lần xuất hiện.
- 5Tải xuống các tệp đã chia riêng lẻ hoặc kho lưu trữ ZIP. Các tệp được đặt tên tuần tự và mỗi tệp tương ứng với một phần giữa các lần xuất hiện từ khóa.
Các tệp PDF xuất hàng loạt từ hệ thống ERP, hệ thống hóa đơn và phần mềm quản lý biểu mẫu thường chứa hàng trăm hoặc hàng nghìn tài liệu trong một tệp, được phân cách bằng các từ khóa hoặc cụm từ nhất quán. Nhập thủ công các phạm vi trang sẽ tốn hàng giờ. Công cụ Tách PDF theo văn bản của dokk.ai quét từng trang để tìm từ khóa hoặc mẫu biểu thức chính quy của bạn và tự động chia tài liệu tại mỗi lần xuất hiện. Hỗ trợ khớp không phân biệt chữ hoa chữ thường theo mặc định và các mẫu biểu thức chính quy tùy chọn cho các nhãn biến — ví dụ: Hoa don #\d+ cho bất kỳ số hóa đơn nào. Bạn có thể cấu hình liệu trang chứa từ khóa trở thành trang đầu tiên của tệp kết quả tiếp theo hay trang cuối cùng của tệp trước đó. Công cụ này bổ sung cho tự động hóa kế toán, xử lý biểu mẫu và phân phối tài liệu hàng loạt. Hệ thống kế toán xuất 500 hóa đơn dưới dạng một PDF — công cụ này nhận ra các nhãn phân chia và tạo ra 500 tệp riêng lẻ. Bạn có thể chọn liệu trang chứa từ khóa có được đưa vào tệp kết quả hay bị loại bỏ. Không phân biệt chữ hoa chữ thường. Tách theo văn bản bổ sung cho Tách theo dấu trang đối với các tài liệu không có cấu trúc chính thức nhưng có nhãn văn bản nhất quán. Tất cả tệp được xử lý trên cơ sở hạ tầng bảo mật của dokk.ai. Xóa trong vòng 60 phút. Không bao giờ được sử dụng để huấn luyện máy học.
Câu hỏi thường gặp
Bảo mật và quyền riêng tư
Văn bản tài liệu chỉ được quét để tìm từ khóa chia tách và không được lưu trữ hay lập chỉ mục. Tất cả tệp được truyền qua TLS và xóa trong vòng 60 phút sau khi xử lý. Dokk.ai tuân thủ GDPR và không bao giờ sử dụng nội dung tài liệu để huấn luyện hay phân tích.