Skip to content
Все инструменты

OCR

Распознать текст на сканах

1Загрузить
2Настроить
3Обработать

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Ключевые возможности

  • Поддержка более 100 языков
  • включая кириллицу. Сохранение исходного вида страниц с невидимым текстовым слоем. Автоматическое определение языка документа. Поддержка многоколончатых макетов и смешанных языков. Пакетная обработка нескольких файлов. Вывод в форматах PDF с текстом
  • TXT и hOCR.

Сценарии использования

  • Перевод отсканированных архивных документов в электронный формат. Создание PDF с поиском из бумажных договоров. Распознавание текста для автоматизированной обработки данных. Конвертация фотографий документов в редактируемый текст. Подготовка отсканированных PDF для PDF/A-архивирования.

Как использовать

  1. 1Загрузите отсканированный PDF или изображение в dokk.ai.
  2. 2Выберите язык документа (или несколько языков для смешанного текста).
  3. 3Нажмите «Распознать» и дождитесь обработки — время зависит от числа страниц.
  4. 4Просмотрите результат: убедитесь, что текст распознан корректно.
  5. 5Скачайте PDF с текстовым слоем.

Оптическое распознавание символов (OCR) превращает отсканированные PDF и изображения в документы с полноценным текстовым слоем, доступным для поиска, копирования и редактирования. Без OCR отсканированный PDF — это просто набор картинок: текст нельзя найти, скопировать или перевести. dokk.ai использует движок Tesseract с поддержкой более 100 языков для точного распознавания кириллицы, латиницы, арабского, китайского и других систем письма. Результирующий PDF сохраняет исходный вид страниц, добавляя невидимый текстовый слой поверх изображений для полной совместимости со всеми программами просмотра PDF. Движок OCR dokk.ai использует передовые алгоритмы распознавания на основе ИИ с поддержкой более 100 языков, включая латиницу, кириллицу, арабское, китайское, японское и корейское письмо. Он точно распознаёт текст даже на сканах низкого качества, выцветших машинописных документах, многоязычных страницах и документах со сложной многоколоночной вёрсткой. Таблицы, колонтитулы и номера страниц корректно распознаются и размещаются в текстовом слое. Результат — поисковый PDF, визуально идентичный оригинальному скану. Внешний вид каждой страницы полностью сохраняется: движок OCR добавляет невидимый текстовый слой за отсканированным изображением, не заменяя его. Вы можете искать по ключевым словам, выделять и копировать абзацы, а также использовать текст с программами экранного чтения для обеспечения доступности. dokk.ai OCR обрабатывает как отсканированные PDF, так и отдельные изображения (JPG, PNG, TIFF). Возможна обработка многостраничных документов за одну операцию — загрузите 200-страничную книгу и получите полностью поисковый PDF. Для лучших результатов сначала используйте Deskew для выравнивания наклонённых страниц. Инструмент предлагает несколько форматов вывода: сохраните поисковый PDF для архивирования или извлеките текст как TXT-файл для дальнейшей обработки — извлечения данных из счетов, имён из форм, преобразования бумажных архивов в структурированные цифровые данные. dokk.ai работает на любом устройстве и ОС. Запускайте OCR в Windows, Mac, Linux или на мобильном — достаточно браузера. Файлы шифруются при передаче и автоматически удаляются после обработки.

Часто задаваемые вопросы

Безопасность и конфиденциальность

Загруженные сканы обрабатываются в изолированной среде и удаляются после завершения OCR. Распознанный текст не сохраняется и не индексируется.