Miks on eraldatud tekst tühi või segane?

Kui PDF loodi füüsilise dokumendi skannimise teel, ei pruugi sellel olla üldse tekstikihti — see on sisuliselt teksti pilt. Kasuta esmalt OCR-tööriista tekstikihi lisamiseks, seejärel eralda. Segane tekst esineb mõnikord siis, kui PDF kasutab mittestandardset fontide kodeeringut; sellistel juhtudel proovi PDF Wordiks teisendust, mis kasutab teistsugust eraldusmootorit.

Kas saab eraldada teksti parooliga kaitstud PDF-ist?

Jah, kui sul on parool. Sisesta see üleslaadimise ajal parooli väljale. Pane tähele, et mõnel PDF-il on eraldi sisu piiramise luba, mis takistab kopeerimist isegi pärast avamist — eraldaja teavitab sind, kui see kehtib.

Kas see käsitleb kahe veeruga teadusartikleid õigesti?

Jah. Paigutusanalüüs tuvastab veerupiirkonnad ruumiliselt ja väljastab need lugemise järjekorras — esmalt vasak veerg, siis parem veerg. See kehtib kahe ja kolme veeruga paigutuste kohta, mida leidub sageli teadusajakirjades.

Mis juhtub PDF-i piltidega?

Pildid ei sisaldu tekstiväljundis — eraldatakse ainult tekstisisukiht. Kui vajad ka pilte, kasuta sama dokumendi puhul piltide eraldamise tööriista.

Kas eraldatud tekst on otsitav?

Väljund on lihttekstifail, mis on loomupäraselt otsitav mis tahes tekstiredaktori, terminali käsu või otsinguindekseerimise tööriistaga. Väljundi otsimiseks pole erinõudeid.

Kas saan eraldada teksti ainult konkreetsetelt lehekülgedelt?

Jah. Kasuta lehevahemiku välja üksikute lehtede või vahemike määramiseks (näiteks 1-5 või 3,7,12). Töödeldakse ja kaasatakse väljundisse ainult valitud leheküljed.

Kas tabelistruktuur säilib väljundis?

Tabelilahtrid eraldatakse säilitatud ruumiliste suhetega, kus võimalik. Selgete piiridega lihtsad tabelid väljustatakse tabulaatoriga eraldatud vormingus, mida saab importida arvutustabelitarkvara. Liitlahtritega keerukad tabelid võivad vajada käsitsi puhastamist.

Kuidas erineb see lihtsalt teksti kopeerimisest PDF-vaaturist?

PDF-vaaturid valivad teksti visuaalselt, mis katkeb mitme veeruga paigutustel ja pikkadel lõikudel, mis ulatuvad üle lehtede. See eraldaja loeb aluseks olevat sisuvoogu otse, andes täpsemad lõikude piirid ja õige lugemise järjekorra kogu dokumendis ühe sammuga.

Kas saan eraldada teksti väga suurest PDF-ist?

Jah. Tööriist käsitleb PDF-e sadadelt lehekülgedelt. Töötlemisaeg skaleerub dokumendi pikkusega — 200-leheküljeline dokument valmib tavaliselt alla 30 sekundi.

Mis siis, kui vajan teksti Wordi vormingus lihtteksti asemel?

Kasuta PDF Wordiks tööriista, mis eraldab sisu DOCX-faili ligikaudse paigutuse säilitamisega, sealhulgas pealkirjad, paks ja kursiivne kiri ning põhiline tabelistruktuur.

Kõik vahendid

PDF tekstiksi

Poimi teksti PDF-tiedostosta

1Lae üles

2Seadista

3Töötle

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Põhifunktsioonid

Eraldab teksti otse PDF-i sisukihist
Rekonstrueerib õige lugemise järjekorra mitme veeruga paigutuste jaoks
Säilitab lõikude struktuuri ja vahed
Käsitleb tabeleid rea- ja veerupiiridega
Toetab sadu lehti sisaldavaid PDF-e
Väljastab puhta TXT-faili allalaadimiseks
Eraldatud teksti eelvaade brauseris enne allalaadimist
Teksti kopeerimine otse eelvaatepaneelilt
Töötleb keerukate pesastatud tekstistruktuuridega PDF-e
Töötab parooliga kaitstud PDF-idega
kui esitad parooli
Kontot ega registreerimist ei nõuta
Failid kustutatakse kohe pärast töötlemist

Kasutusjuhud

Aruande sisu kopeerimine dokumendiredaktorisse kleepimiseks
Lepinguklauslite eraldamine juriidiliseks ülevaatuseks tekstiredaktoris
Andmete tõmbamine PDF-arvetelt arvutustabeli töövoogu
Teadusartikli teksti eraldamine tsitaadihalduse tööriistade jaoks
PDF-sisu edastamine tõlke- või lokaliseerimistööriistadesse
Otsitava tekstiindeksi loomine PDF-failide kogust
Tootenimede eraldamine tarnija PDF-kataloogidest
PDF-sisu ettevalmistamine AI-i kokkuvõtte- või analüüsitööriistade sisendiks

Kuidas kasutada

1Laadi oma PDF üles, klõpsates üleslaadimisalal või lohistades faili failihaldurist.
2Vali väljundeelistused — lihttekst või vormindatud tekst säilitatud lõiguvahedega.
3Klõpsa Eralda ja oota, kuni tööriist töötleb dokumendi tekstikihti.
4Vaata eraldatud tekst eelvaatepaneelil üle. Kontrolli, kas veergude järjekord ja lõikude struktuur on õiged.
5Laadi TXT-fail alla või kopeeri tekst otse eelvaatelt lõikelauale.

Avad PDF-i, proovid lõiku kopeerida ja saad kas tühjuse või segase märgikogumi juhusliku reavahetustega lausete keskel. See juhtub PDF-idega, mis on eksporditud kujundustarkvararakendustest, skannitud dokumentidest, mis on läbinud halva OCR-i, või keerukate mitme veeruga paigutustega failidest. dokk.ai PDF-i tekstieraldaja loeb PDF-faili sisse põimitud tegeliku tekstisisukihi, mitte ekraanipilti. Tüüpiliste tekstipõhiste PDF-ide puhul tähendab see, et iga tähemärk, sõna ja lõik tõmmatakse välja täpselt nii, nagu see on struktureeritud — sealhulgas lugemise järjekord mitme veeruga paigutuste puhul, tabeli lahtrite piirid, loendielementide ja allmärkuste loend. Mitme veeruga paigutusi — nagu teadusartiklid, ajalehestiilis artiklid ja mitme veeruga brošüürid — käsitletakse paigutusanalüüsi sammuga, mis tuvastab tekstipiirkonnad ruumiliselt ja rekonstrueerib lugemise järjekorra õigesti. Ilma selle sammuta toodab kahe veeruga PDF-i naiivne eraldamine mõlema veeru vahelduvat teksti, mis on loetamatu. Skannitud PDF-ide või pildipõhiste dokumentide puhul, kus tekstikihti ei ole, kasuta esmalt dokk.ai OCR-tööriista. PDF Wordiks tööriist on alternatiiv, kui vajad eraldatud sisu muudetavas DOCX-vormingus. Eraldatud tekst on saadaval allalaaditava TXT-failina või saab selle kopeerida otse eelvaatepaneelilt. TLS-krüptimine ja automaatne kustutamine.

Korduma kippuvad küsimused

Turvalisus ja privaatsus

Sinu PDF laaditakse üles krüptitud TLS-ühenduse kaudu ja kustutatakse meie serverites kohe pärast teksti eraldamist. Me ei loe, indekseeri ega salvesta sinu dokumendi sisu. Registreerimist ei nõuta.