Kāpēc izgūtais teksts ir tukšs vai sajaukts?

Ja PDF fails tika izveidots, skenējot fizisku dokumentu, tam var nebūt teksta slāņa vispār — tas faktiski ir teksta attēls. Vispirms izmantojiet OCR rīku, lai pievienotu teksta slāni, pēc tam izgūstiet. Sajaukts teksts dažreiz rodas, kad PDF izmanto nestandarta fontu kodēšanu; šādos gadījumos izmēģiniet PDF uz Word pārveidošanu, kas izmanto citu ekstrakcijas dzinēju.

Vai tas var izgūt tekstu no paroles aizsargāta PDF faila?

Jā, ja jums ir parole. Ievadiet to paroles laukā augšupielādes laikā. Ņemiet vērā, ka dažiem PDF failiem ir atsevišķa 'satura ierobežojuma' atļauja, kas novērš kopēšanu pat pēc atslēgšanas — ekstraktoris jūs informēs, ja tas attiecas uz jūsu gadījumu.

Vai tas pareizi apstrādā divkolonnu akadēmiskos rakstus?

Jā. Izkārtojuma analīze telpiskā ziņā identificē kolonnu reģionus un izvada tos lasīšanas secībā — vispirms kreisā kolonna, tad labā. Tas attiecas uz divkolonnu un trīskolonnu izkārtojumiem, kas bieži sastopami akadēmiskajos žurnālos un magazīnās.

Kas notiek ar attēliem PDF failā?

Attēli nav iekļauti teksta izvadē — tiek ekstrahēts tikai teksta satura slānis. Ja jums nepieciešami arī attēli, izmantojiet attēlu ekstrakcijas rīku tam pašam dokumentam.

Vai izgūtais teksts ir meklējams?

Izvade ir vienkārša teksta fails, kas pēc būtības ir meklējams ar jebkuru teksta redaktoru, termināļa komandu vai meklēšanas indeksēšanas rīku. Nav īpašu prasību izvades meklēšanai.

Vai varu izgūt tekstu tikai no konkrētām lapām?

Jā. Izmantojiet lapu diapazona lauku, lai norādītu atsevišķas lapas vai diapazonus (piemēram, 1-5 vai 3,7,12). Tiek apstrādātas un iekļautas izvadē tikai atlasītās lapas.

Vai izvadē tiek saglabāta tabulas struktūra?

Tabulas šūnas tiek ekstrahētas ar saglabātām telpiskajām attiecībām, kur iespējams. Vienkāršas tabulas ar skaidrām robežām tiek izvadītas ar tabulatoru atdalītā formātā, ko var importēt izklājlapu programmās. Sarežģītas tabulas ar sapludinātām šūnām var prasīt manuālu tīrīšanu.

Kā tas atšķiras no vienkārša teksta kopēšanas no PDF skatītāja?

PDF skatītāji vizuāli atlasa tekstu, kas lūzt daudzkolonnu izkārtojumos un garos paragrāfos, kas aptver lapas. Šis ekstraktoris tieši nolasa pamata satura straumi, nodrošinot precīzākas paragrāfu robežas un pareizu lasīšanas secību visā dokumentā vienā solī.

Vai varu izgūt tekstu no ļoti liela PDF faila?

Jā. Rīks apstrādā PDF failus ar simtiem lapu. Apstrādes laiks palielinās proporcionāli dokumenta garumam — 200 lapu dokumenta apstrāde parasti tiek pabeigta mazāk nekā 30 sekundēs.

Ko darīt, ja teksts man nepieciešams Word formātā, nevis kā vienkāršs teksts?

Izmantojiet PDF uz Word rīku, kas ekstrahē saturu DOCX failā ar aptuvenī saglabātu izkārtojumu, ieskaitot virsrakstus, treknrakstu un slīprakstu formatējumu un pamata tabulas struktūru.

Visi rīki

PDF uz tekstu

Izvilkt tekstu no PDF

1Augšupielādēt

2Konfigurēt

3Apstrādāt

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Galvenās funkcijas

Ekstrahē tekstu tieši no PDF satura slāņa
Rekonstruē pareizu lasīšanas secību daudzkolonnu izkārtojumiem
Saglabā paragrāfu struktūru un atstarpes
Apstrādā tabulas ar rindu un kolonnu robežām
Atbalsta PDF failus ar simtiem lapu
Izvada tīru TXT failu lejupielādei
Priekšskata ekstrahētu tekstu pārlūkprogrammā pirms lejupielādes
Tekstu var kopēt tieši no priekšskatījuma paneļa
Apstrādā PDF failus ar sarežģītām ligzdotām tekstu struktūrām
Identificē un izlaiž dekoratīvus vai nesemantiskus teksta elementus
Darbojas ar paroles aizsargātiem PDF failiem
ja norādāt paroli
Nav nepieciešams konts vai reģistrācija
Faili tiek dzēsti tūlīt pēc apstrādes
TLS šifrēšana visām augšupielādēm
Darbojas visās mūsdienu pārlūkprogrammās

Lietošanas gadījumi

Atskaišu satura kopēšana ielīmēšanai dokumentu redaktorā
Līguma klauzulu ekstrakcija juridiskai pārskatīšanai teksta redaktorā
Datu vilkšana no PDF rēķiniem izklājlapas darba plūsmā
Pētniecības rakstu teksta ekstrakcija citātu pārvaldības rīkiem
PDF satura nodošana tulkošanas vai lokalizācijas rīkiem
Meklējama teksta indeksa veidošana no PDF failu bibliotēkas
Produktu aprakstu ekstrakcija no piegādātāju PDF katalogiem
PDF satura sagatavošana ievadīšanai AI kopsavilkuma vai analīzes rīkos

Kā lietot

1Augšupielādējiet PDF failu, noklikšķinot uz augšupielādes apgabala vai velkot failu no failu pārvaldnieka.
2Atlasiet izvades preferences — vienkāršs teksts vai formatēts teksts ar saglabātām paragrāfu atstarpēm.
3Noklikšķiniet uz Izgūt un gaidiet, kamēr rīks apstrādā dokumenta teksta slāni.
4Pārskatiet izgūto tekstu priekšskatījuma panelī. Pārbaudiet, vai kolonnu secība un paragrāfu struktūra ir pareiza.
5Lejupielādējiet TXT failu vai kopējiet tekstu tieši no priekšskatījuma uz starpliktuvi.

Jūs atverat PDF failu, mēģināt nokopēt paragrāfu un iegūstat vai nu neko, vai sajauktu rakstzīmju jucekli ar nejaušiem rindas pārtraukumiem teikumu vidū. Tas notiek ar PDF failiem, kas eksportēti no dizaina lietojumprogrammām, skenētiem dokumentiem, kuri izgājuši caur vāju OCR apstrādi, vai failiem ar sarežģītiem daudzkolonnu izkārtojumiem. Teksts vizuāli ir redzams — jūs varat to lasīt — taču nevarat to pietiekami tīri atlasīt, lai ielīmētu kaut kur noderīgi. Dokk.ai PDF uz tekstu ekstraktoris nolasa faktisko teksta satura slāni, kas iegults PDF failā, nevis ekrānuzņēmumu. Standarta teksta PDF failiem tas nozīmē, ka katra rakstzīme, vārds un paragrāfs tiek izvilkts tieši tā, kā strukturēts — ieskaitot lasīšanas secību daudzkolonnu izkārtojumiem, tabulas šūnu robežas, saraksta elementus un zemsvītras piezīmes. Ekstrakcija saglabā paragrāfu atstarpes, lai izvade būtu gatava ielīmēšanai dokumentu redaktorā, e-pastā vai satura pārvaldības sistēmā bez manuālas tīrīšanas. Kolonnās bagāti izkārtojumi — piemēram, akadēmiskie raksti, avīžu stila raksti un daudzkolonnu brošūras — tiek apstrādāti ar izkārtojuma analīzes soli, kas identificē teksta reģionus un pareizi rekonstruē lasīšanas secību. Bez šī soļa naivi ekstrahēts divkolonnu PDF rada sapītu tekstu no abām kolonnām, kas nav lasāms. Ekstraktoris telpiskā ziņā identificē kolonnas un izvada tās pareizā secībā, vispirms kreiso kolonnu. Skenētiem PDF failiem vai uz attēlu balstītiem dokumentiem, kur teksta slānis nepastāv, standarta ekstrakcijas rīks pareizi ziņos, ka teksts nav atrodams. Šajos gadījumos vispirms jāizmanto dokk.ai OCR rīks — tas apstrādā skenētas lapas, izmantojot optisko rakstzīmju atpazīšanu, un izveido meklējamu teksta slāni, kuru pēc tam var ekstrahēt vai kopēt. PDF uz Word rīks ir alternatīva, ja nepieciešams ekstrahētais saturs rediģējamā DOCX formātā ar aptuvenī saglabātu izkārtojumu, nevis vienkāršs teksts. Ekstrahētais teksts ir pieejams kā lejupielādējams TXT fails un var tikt kopēts tieši no priekšskatījuma paneļa. Tas atvieglo ekstrahētā satura nodošanu tulkošanas rīkiem, AI cauruļvadiem, meklēšanas indeksiem vai satura analīzes skriptiem. Attēlu ekstrakcijas rīks veic papildinošo uzdevumu — izvelk iegulto grafiku no tā paša PDF faila, ja jums nepieciešams gan teksta, gan vizuālais saturs no viena dokumenta.

Biežāk uzdotie jautājumi

Drošība un privātums

Jūsu PDF fails tiek augšupielādēts, izmantojot šifrētu TLS savienojumu, un dzēsts no mūsu serveriem tūlīt pēc teksta izgūšanas. Mēs nelasām, neindeksējam un neglabājam jūsu dokumenta saturu. Reģistrācija nav nepieciešama.