Нужно ли выбирать язык вручную?

Нет, dokk.ai может автоматически определить язык документа. Однако ручной выбор языка повышает точность распознавания, особенно для редких или специализированных документов.

Поддерживается ли распознавание рукописного текста?

Tesseract оптимизирован для печатного текста. Распознавание рукописного текста возможно, но с существенно меньшей точностью по сравнению с машинопечатью.

Какое минимальное разрешение сканирования рекомендуется?

Для наилучшего результата рекомендуем разрешение от 300 dpi. При 150 dpi качество приемлемо для крупного текста. Разрешение ниже 150 dpi даёт низкую точность.

Влияет ли OCR на внешний вид документа?

Нет, OCR добавляет невидимый текстовый слой под изображением страницы, не изменяя визуальный вид документа. Страницы выглядят точно так же, как до обработки.

Поддерживается ли распознавание многоязычных документов?

Да, вы можете выбрать несколько языков одновременно. dokk.ai применит оптимальную модель распознавания для каждого языка в документе.

Поддерживаются ли PDF с очень плохим качеством сканирования?

dokk.ai применяет предварительную обработку изображений (выравнивание, удаление шумов) для улучшения качества распознавания. Очень размытые или повреждённые сканы обрабатываются с меньшей точностью.

Можно ли применить OCR только к определённым страницам?

Да, вы можете выбрать диапазон страниц для OCR. Это ускоряет обработку больших документов, если распознавание нужно только для части страниц.

Поддерживается ли вывод в формате hOCR?

Да, формат hOCR доступен для разработчиков — он содержит координаты каждого слова на странице и используется для постобработки результатов OCR.

Есть ли ограничение на количество страниц?

В бесплатном плане — до 20 страниц. Premium снимает ограничения и поддерживает документы любого объёма с приоритетной обработкой.

Насколько точно OCR распознаёт специализированный текст?

Для стандартного делового текста точность превышает 97% при хорошем сканировании. Математические формулы, химические уравнения и нестандартные символы распознаются с меньшей точностью.

Все инструменты

OCR

Распознать текст на сканах

1Загрузить

2Настроить

3Обработать

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Ключевые возможности

Поддержка более 100 языков
включая кириллицу. Сохранение исходного вида страниц с невидимым текстовым слоем. Автоматическое определение языка документа. Поддержка многоколончатых макетов и смешанных языков. Пакетная обработка нескольких файлов. Вывод в форматах PDF с текстом
TXT и hOCR.

Сценарии использования

Перевод отсканированных архивных документов в электронный формат. Создание PDF с поиском из бумажных договоров. Распознавание текста для автоматизированной обработки данных. Конвертация фотографий документов в редактируемый текст. Подготовка отсканированных PDF для PDF/A-архивирования.

Как использовать

1Загрузите отсканированный PDF или изображение в dokk.ai.
2Выберите язык документа (или несколько языков для смешанного текста).
3Нажмите «Распознать» и дождитесь обработки — время зависит от числа страниц.
4Просмотрите результат: убедитесь, что текст распознан корректно.
5Скачайте PDF с текстовым слоем.

Оптическое распознавание символов (OCR) превращает отсканированные PDF и изображения в документы с полноценным текстовым слоем, доступным для поиска, копирования и редактирования. Без OCR отсканированный PDF — это просто набор картинок: текст нельзя найти, скопировать или перевести. dokk.ai использует движок Tesseract с поддержкой более 100 языков для точного распознавания кириллицы, латиницы, арабского, китайского и других систем письма. Результирующий PDF сохраняет исходный вид страниц, добавляя невидимый текстовый слой поверх изображений для полной совместимости со всеми программами просмотра PDF. Движок OCR dokk.ai использует передовые алгоритмы распознавания на основе ИИ с поддержкой более 100 языков, включая латиницу, кириллицу, арабское, китайское, японское и корейское письмо. Он точно распознаёт текст даже на сканах низкого качества, выцветших машинописных документах, многоязычных страницах и документах со сложной многоколоночной вёрсткой. Таблицы, колонтитулы и номера страниц корректно распознаются и размещаются в текстовом слое. Результат — поисковый PDF, визуально идентичный оригинальному скану. Внешний вид каждой страницы полностью сохраняется: движок OCR добавляет невидимый текстовый слой за отсканированным изображением, не заменяя его. Вы можете искать по ключевым словам, выделять и копировать абзацы, а также использовать текст с программами экранного чтения для обеспечения доступности. dokk.ai OCR обрабатывает как отсканированные PDF, так и отдельные изображения (JPG, PNG, TIFF). Возможна обработка многостраничных документов за одну операцию — загрузите 200-страничную книгу и получите полностью поисковый PDF. Для лучших результатов сначала используйте Deskew для выравнивания наклонённых страниц. Инструмент предлагает несколько форматов вывода: сохраните поисковый PDF для архивирования или извлеките текст как TXT-файл для дальнейшей обработки — извлечения данных из счетов, имён из форм, преобразования бумажных архивов в структурированные цифровые данные. dokk.ai работает на любом устройстве и ОС. Запускайте OCR в Windows, Mac, Linux или на мобильном — достаточно браузера. Файлы шифруются при передаче и автоматически удаляются после обработки.

Часто задаваемые вопросы

Безопасность и конфиденциальность

Загруженные сканы обрабатываются в изолированной среде и удаляются после завершения OCR. Распознанный текст не сохраняется и не индексируется.