Skip to content
すべてのツール

テキストで分割

ページ間のテキスト変化で分割

1アップロード
2設定
3処理する

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

主な機能

  • 指定したキーワードまたはフレーズを含む各ページでPDFを分割
  • デフォルトで大文字小文字を区別しないテキストマッチング
  • 変動するマーカーのためのオプションの正規表現パターンサポート
  • 前または後の出力ファイルにキーワードページを含めるか除外するかの選択
  • ネイティブテキストPDFおよびOCR処理済みスキャン文書に対応
  • 順次番号付けされたファイルまたはZIPアーカイブを出力
  • 数百の分割ポイントを持つPDFに対応
  • 画像・フォント・注釈を含むすべてのコンテンツを保持
  • インストール不要のブラウザベース
  • TLS暗号化でのセキュアなアップロードと60分以内の自動削除

活用シーン

  • バッチ請求書エクスポートを個別の請求書PDFに分割
  • 各「フォームID」セパレータページでの大量フォームスキャンの分割
  • 各「日付:」ヘッダーでの日次レポートバンドルの分割
  • メールマージエクスポートから個別の患者手紙を抽出
  • 各「EXHIBIT」マーカーでの法律記録の分割
  • 各「モジュール」見出しでのトレーニングマニュアルの分割
  • 物流マニフェストPDFから個別の出荷記録を分離
  • 各口座番号でのスキャン済み銀行明細バッチの分割
  • 各学生名での合併したテスト結果PDFの分割
  • 統合保険書類バッチから個別の保険証書を抽出

使い方

  1. 1分割ポイントとして使用したい繰り返しテキストマーカーを含むPDFをアップロードします。
  2. 2分割するキーワードまたはフレーズを入力します。大文字小文字が異なる場合は大文字小文字を区別しないマッチングを有効にするか、変動するパターンには正規表現を入力します。
  3. 3キーワードを含むページが次の出力ファイルの最初のページになるか、前の出力ファイルの最後のページになるかを選択します。これによりセパレータページの位置が決まります。
  4. 4「処理」をクリックします。dokk.aiがすべてのページをスキャンし、すべてのマッチを識別し、各出現箇所でドキュメントを分割します。
  5. 5個別の分割ファイルまたはZIPアーカイブをダウンロードします。ファイルは順番に命名され、それぞれがキーワードの出現間の1つのセクションに対応します。

PDFが複数のドキュメントを連結したバッチエクスポートの場合(1つのファイルに数百の請求書、1日分のスキャンフォーム、既知の見出しで各セクションが始まる自動生成レポートなど)、固定キーワードで分割する方がページ範囲を手動で特定するよりもはるかに速いです。テキストで分割は各ページで指定したフレーズをスキャンし、そのフレーズが現れるたびに新しい出力ファイルを作成します。ドキュメント自体のコンテンツを分割マップとして使用します。 これは売掛金自動化、フォーム処理パイプライン、大量ドキュメント配布ワークフローを完成させるツールです。会計システムが500件の請求書を1つのPDFとしてエクスポートすると、テキストで分割は各セパレータページで「請求書番号」を見つけ、500個の個別請求書ファイルを生成します。医療記録システムが患者の手紙をバッチ処理すると、このツールは「患者様へ」で分割して患者1人につき1通の手紙を生成します。物流会社が「出荷ID」を含むバーコードラベルで各出荷が始まる日次マニフェストを受け取ると、このツールは各出荷を後続処理用の個別ファイルに分離します。 キーワードページ自体を出力ファイルに含めるか破棄するかを選択できます。これは独自の意味あるコンテンツを持たないセパレータページに便利です。大文字小文字を区別しないマッチングにより、自動生成ドキュメントの大文字小文字のバリエーションを心配する必要がありません。「Invoice #\d+」が任意の請求書番号にマッチするなど、分割マーカーが変動する高度なユースケースには正規表現パターンもサポートされています。 テキストで分割は、正式なアウトラインはないが一貫したテキストマーカーを持つドキュメントに対してブックマークで分割を補完します。両方を持つドキュメントの場合、ブックマークは構造的でありコンテンツベースではないため、通常より信頼性が高いです。最大の柔軟性のために、2つのアプローチを組み合わせてください。章レベルでブックマークで分割し、個別レコードを分離するために章内でテキストで分割します。 すべてのファイル処理はdokk.aiのセキュアなインフラで行われます。ファイルは60分以内に削除され、機械学習に使用されたり第三者と共有されたりしません。出力ファイルはすべてのリーダー、プリンター、ドキュメント管理システムと互換性のある標準PDFです。

よくある質問

セキュリティとプライバシー

ドキュメントのテキストは分割キーワードを見つけるためにのみスキャンされ、保存またはインデックス化されません。すべてのファイルはTLSで転送され、処理後60分以内に削除されます。dokk.aiはGDPRに準拠しており、トレーニングや分析にドキュメントのコンテンツを使用しません。