Защо извлеченият текст е празен или объркан?

Ако PDF е създаден чрез сканиране на физически документ, може изобщо да няма текстов слой — той е ефективно изображение на текст. Първо използвайте инструмента за OCR, за да добавите текстов слой, след това извлечете. Объркан текст понякога се появява, когато PDF използва нестандартно кодиране на шрифтове; в тези случаи опитайте конвертирането от PDF в Word, което използва различен двигател за извличане.

Може ли да извлича текст от PDF, защитен с парола?

Да, ако имате паролата. Въведете я в полето за парола при качването. Имайте предвид, че някои PDF файлове имат отделно разрешение за ограничаване на съдържанието, което предотвратява копирането дори след отключването — инструментът за извличане ще ви уведоми, ако това се отнася за файла ви.

Обработва ли правилно двуколонни научни статии?

Да. Анализът на оформлението идентифицира регионите на колоните пространствено и ги генерира в реда на четене — първо лявата колона, след това дясната. Това се отнася за двуколонни и триколонни оформления, разпространени в академични статии и списания.

Какво се случва с изображенията в PDF?

Изображенията не се включват в изходния текст — извлича се само слоят с текстово съдържание. Ако ви трябват и изображенията, използвайте инструмента за извличане на изображения за същия документ.

Търсим ли е извлеченият текст?

Резултатът е обикновен текстов файл, който по своята същност може да се търси с всеки текстов редактор, терминална команда или инструмент за индексиране на търсене. Няма специални изисквания за търсене в резултата.

Мога ли да извлека текст само от конкретни страници?

Да. Използвайте полето за диапазон на страниците, за да посочите отделни страници или диапазони (напр. 1-5 или 3,7,12). Обработват се и се включват в резултата само избраните страници.

Запазва ли се структурата на таблицата в резултата?

Клетките на таблицата се извличат с запазени пространствени връзки там, където е възможно. Простите таблици с ясни граници се генерират в разделен с табулация формат, който може да бъде импортиран в електронна таблица. Сложните таблици с обединени клетки може да изискват ръчно почистване.

Каква е разликата между това и копирането на текст от PDF четец?

PDF четците избират текст визуално, което се нарушава при многоколонни оформления и дълги абзаци, разпределени на няколко страници. Този инструмент за извличане чете директно потока от базово съдържание, давайки по-точни граници на абзаците и правилен ред на четене в целия документ в една стъпка.

Мога ли да извлека текст от много голям PDF?

Да. Инструментът обработва PDF файлове със стотици страници. Времето за обработка се мащабира с дължината на документа — 200-страничен документ обикновено е готов за по-малко от 30 секунди.

Какво да направя, ако ми трябва текстът в Word формат вместо обикновен текст?

Използвайте инструмента PDF към Word, който извлича съдържанието в DOCX файл с приблизително запазване на оформлението, включително заглавия, получер и курсив и основна структура на таблицата.

Всички инструменти

PDF у текст

Издвоји текст из PDF-а

1Качване

2Конфигуриране

3Обработка

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Ключови функции

Извлича текст директно от слоя съдържание на PDF
Реконструира правилния ред на четене при многоколонни оформления
Запазва структурата на абзаците и разредката
Обработва таблици с граници на редове и колони
Поддържа PDF файлове до стотици страници
Извежда чист TXT файл за изтегляне
Преглед на извлечения текст в браузъра преди изтегляне
Копиране на текст директно от панела за предварителен преглед
Обработва PDF файлове с комплексни вложени текстови структури
Работи с PDF файлове
защитени с парола
ако предоставите паролата
Без акаунт или регистрация
Файловете се изтриват незабавно след обработката

Приложения

Копиране на съдържание от отчети за поставяне в редактор на документи
Извличане на клаузи от договори за правен преглед в текстов редактор
Извличане на данни от PDF фактури в работен процес с електронна таблица
Извличане на текст от научни статии за инструменти за управление на цитати
Подаване на PDF съдържание в инструменти за превод или локализация
Изграждане на търсим текстов индекс от библиотека с PDF файлове
Извличане на описания на продукти от PDF каталози на доставчици
Подготовка на PDF съдържание за въвеждане в AI инструменти за обобщаване или анализ

Как да използвате

1Качете вашия PDF, като щракнете върху областта за качване или плъзнете файла от файловия мениджър.
2Изберете предпочитанията си за резултата — обикновен текст или форматиран текст със запазена разредка между абзаците.
3Щракнете върху „Извличане“ и изчакайте инструментът да обработи текстовия слой на документа.
4Прегледайте извлечения текст в панела за предварителен преглед. Проверете дали редът на колоните и структурата на абзаците са правилни.
5Изтеглете TXT файла или копирайте текста директно от прегледа в клипборда.

Отваряте PDF, опитвате се да копирате абзац и получавате или нищо, или объркани знаци с произволни прекъсвания на редове по средата на изречения. Това се случва с PDF файлове, експортирани от дизайн приложения, сканирани документи, преминали през лошо OCR разпознаване, или файлове с комплексни многоколонни оформления. Инструментът за извличане на текст от PDF на dokk.ai чете действителния слой текстово съдържание, вграден в PDF файла, а не екранна снимка. За стандартни текстово базирани PDF файлове това означава, че всеки знак, дума и абзац се извлича точно така, както е структуриран — включително реда на четене при многоколонни оформления, границите на клетките на таблиците и елементите на списъците. Оформленията с много колони — като академични статии, статии в стил на вестник — се обработват с етап на анализ на оформлението, който идентифицира текстовите региони пространствено и правилно реконструира реда на четене. Лявата колона е първа, след това дясната. Извлеченият текст е достъпен като изтеглям TXT файл и може да бъде копиран директно от панела за предварителен преглед. TLS криптиране и автоматично изтриване.

Често задавани въпроси

Сигурност и поверителност

Вашият PDF се качва през криптирана TLS връзка и се изтрива от нашите сървъри незабавно след извличането на текста. Не четем, индексираме или съхраняваме съдържанието на документа ви. Не е необходима регистрация.