텍스트별 분할
페이지 간 텍스트 변경 시 분할
Drop file here
PDF, Word, Excel, PowerPoint, images up to 25 MB
주요 기능
- 지정된 키워드 또는 구문을 포함하는 모든 페이지에서 PDF 분할
- 기본적으로 대소문자 구분 없는 텍스트 매칭
- 가변 마커를 위한 선택적 정규식 패턴 지원
- 이전 또는 다음 출력 파일에 키워드 페이지 포함 또는 제외 선택
- 기본 텍스트 PDF 및 OCR 처리된 스캔 문서와 작동
- 순차적으로 번호가 매겨진 파일 또는 ZIP 아카이브 출력
- 수백 개의 분할 지점이 있는 PDF 처리
- 이미지·글꼴·주석을 포함한 모든 내용 보존
- 설치 불필요한 브라우저 기반
- 안전한 TLS 업로드 및 60분 이내 자동 삭제
활용 사례
- 일괄 청구서 내보내기를 개별 청구서 PDF로 분할
- 각 '양식 ID' 구분 페이지에서 대량 양식 스캔 분리
- 각 '날짜:' 헤더에서 일일 보고서 묶음 분할
- 메일 병합 내보내기에서 개별 환자 편지 추출
- 각 '증거물' 마커에서 법적 기록 분리
- 각 '모듈' 제목에서 교육 매뉴얼 분할
- 물류 매니페스트 PDF에서 개별 배송 기록 분리
- 각 계좌 번호에서 스캔된 은행 명세서 묶음 분할
- 각 학생 이름에서 병합된 시험 결과 PDF 분리
- 통합 보험 문서 묶음에서 개별 정책 추출
사용 방법
- 1분할 지점으로 사용할 반복되는 텍스트 마커가 포함된 PDF를 업로드합니다.
- 2분할할 키워드 또는 구문을 입력합니다. 대소문자가 다양한 경우 대소문자 구분 없는 매칭을 활성화하거나 가변 패턴의 경우 정규식을 입력합니다.
- 3키워드가 포함된 페이지가 다음 출력 파일의 첫 페이지로 시작하는지 이전 출력 파일의 마지막 페이지로 끝나는지 선택합니다. 이렇게 하면 구분 페이지가 어디에 위치할지 결정됩니다.
- 4처리를 클릭합니다. dokk.ai는 모든 페이지를 스캔하고 모든 일치 항목을 식별하여 각 발생 위치에서 문서를 분할합니다.
- 5개별 분할 파일 또는 ZIP 아카이브를 다운로드합니다. 파일은 순차적으로 이름이 지정되며 각 파일은 키워드 발생 사이의 한 섹션에 해당합니다.
PDF가 여러 문서가 연결된 일괄 내보내기인 경우(단일 파일에 수백 개의 청구서, 하루치 스캔된 양식, 또는 알려진 제목으로 각 섹션이 시작하는 자동 생성된 보고서), 고정된 키워드로 분할하는 것이 수동으로 페이지 범위를 식별하는 것보다 훨씬 빠릅니다. 텍스트별 분할은 지정한 구문을 찾아 각 페이지를 스캔하고 해당 구문이 나타날 때마다 새 출력 파일을 만들어, 문서 자체의 내용을 분할 맵으로 효과적으로 사용합니다. 이것은 미지급금 자동화, 양식 처리 파이프라인 및 대량 문서 배포 워크플로를 완성하는 도구입니다. 회계 시스템은 500개의 청구서를 단일 PDF로 내보냅니다. 텍스트별 분할은 각 구분 페이지에서 '청구서 번호'를 찾아 500개의 개별 청구서 파일을 생성합니다. 의료 기록 시스템은 환자 편지를 일괄 처리합니다. 이 도구는 '친애하는 환자'에서 분할하여 환자당 하나의 편지를 생성합니다. 물류 회사는 '배송 ID'가 포함된 바코드 레이블로 시작하는 각 배송이 있는 일일 매니페스트를 수신합니다. 이 도구는 각 배송을 다운스트림 처리를 위한 자체 파일로 분리합니다. 키워드 페이지 자체가 출력 파일에 포함될지 또는 폐기될지 선택할 수 있습니다. 자체적으로 의미 있는 내용이 없는 구분 페이지에 유용합니다. 대소문자 구분 없는 매칭은 자동 생성된 문서에서 대소문자 변형에 대해 걱정할 필요가 없도록 합니다. 정규식 패턴은 분할 마커가 가변적인 고급 사용 사례를 위해 지원됩니다. 예를 들어 모든 청구서 번호와 일치하는 'Invoice #\d+'가 있습니다. 텍스트별 분할은 공식 개요가 없지만 일관된 텍스트 마커가 있는 문서의 경우 북마크별 분할을 보완합니다. 문서에 둘 다 있는 경우 북마크는 콘텐츠 기반이 아닌 구조적이기 때문에 일반적으로 더 신뢰할 수 있습니다. 최대 유연성을 위해 두 접근 방식을 결합하십시오. 챕터 수준에서 북마크별 분할을 하고, 챕터 내에서 텍스트별 분할을 하여 개별 레코드를 분리합니다. 모든 파일 처리는 dokk.ai의 안전한 인프라에서 이루어집니다. 파일은 60분 이내에 삭제되며 기계 학습에 사용되거나 제3자와 공유되지 않습니다. 출력 파일은 모든 리더, 프린터 및 문서 관리 시스템과 호환되는 표준 PDF입니다.
자주 묻는 질문
보안 및 개인정보 보호
문서 텍스트는 분할 키워드를 찾는 데만 스캔되며 저장되거나 색인화되지 않습니다. 모든 파일은 TLS를 통해 전송되며 처리 후 60분 이내에 삭제됩니다. dokk.ai는 GDPR을 준수하며 문서 내용을 교육 또는 분석에 사용하지 않습니다.