Skip to content
Kõik vahendid

PDF tekstiksi

Poimi teksti PDF-tiedostosta

1Lae üles
2Seadista
3Töötle

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Põhifunktsioonid

  • Eraldab teksti otse PDF-i sisukihist
  • Rekonstrueerib õige lugemise järjekorra mitme veeruga paigutuste jaoks
  • Säilitab lõikude struktuuri ja vahed
  • Käsitleb tabeleid rea- ja veerupiiridega
  • Toetab sadu lehti sisaldavaid PDF-e
  • Väljastab puhta TXT-faili allalaadimiseks
  • Eraldatud teksti eelvaade brauseris enne allalaadimist
  • Teksti kopeerimine otse eelvaatepaneelilt
  • Töötleb keerukate pesastatud tekstistruktuuridega PDF-e
  • Töötab parooliga kaitstud PDF-idega
  • kui esitad parooli
  • Kontot ega registreerimist ei nõuta
  • Failid kustutatakse kohe pärast töötlemist

Kasutusjuhud

  • Aruande sisu kopeerimine dokumendiredaktorisse kleepimiseks
  • Lepinguklauslite eraldamine juriidiliseks ülevaatuseks tekstiredaktoris
  • Andmete tõmbamine PDF-arvetelt arvutustabeli töövoogu
  • Teadusartikli teksti eraldamine tsitaadihalduse tööriistade jaoks
  • PDF-sisu edastamine tõlke- või lokaliseerimistööriistadesse
  • Otsitava tekstiindeksi loomine PDF-failide kogust
  • Tootenimede eraldamine tarnija PDF-kataloogidest
  • PDF-sisu ettevalmistamine AI-i kokkuvõtte- või analüüsitööriistade sisendiks

Kuidas kasutada

  1. 1Laadi oma PDF üles, klõpsates üleslaadimisalal või lohistades faili failihaldurist.
  2. 2Vali väljundeelistused — lihttekst või vormindatud tekst säilitatud lõiguvahedega.
  3. 3Klõpsa Eralda ja oota, kuni tööriist töötleb dokumendi tekstikihti.
  4. 4Vaata eraldatud tekst eelvaatepaneelil üle. Kontrolli, kas veergude järjekord ja lõikude struktuur on õiged.
  5. 5Laadi TXT-fail alla või kopeeri tekst otse eelvaatelt lõikelauale.

Avad PDF-i, proovid lõiku kopeerida ja saad kas tühjuse või segase märgikogumi juhusliku reavahetustega lausete keskel. See juhtub PDF-idega, mis on eksporditud kujundustarkvararakendustest, skannitud dokumentidest, mis on läbinud halva OCR-i, või keerukate mitme veeruga paigutustega failidest. dokk.ai PDF-i tekstieraldaja loeb PDF-faili sisse põimitud tegeliku tekstisisukihi, mitte ekraanipilti. Tüüpiliste tekstipõhiste PDF-ide puhul tähendab see, et iga tähemärk, sõna ja lõik tõmmatakse välja täpselt nii, nagu see on struktureeritud — sealhulgas lugemise järjekord mitme veeruga paigutuste puhul, tabeli lahtrite piirid, loendielementide ja allmärkuste loend. Mitme veeruga paigutusi — nagu teadusartiklid, ajalehestiilis artiklid ja mitme veeruga brošüürid — käsitletakse paigutusanalüüsi sammuga, mis tuvastab tekstipiirkonnad ruumiliselt ja rekonstrueerib lugemise järjekorra õigesti. Ilma selle sammuta toodab kahe veeruga PDF-i naiivne eraldamine mõlema veeru vahelduvat teksti, mis on loetamatu. Skannitud PDF-ide või pildipõhiste dokumentide puhul, kus tekstikihti ei ole, kasuta esmalt dokk.ai OCR-tööriista. PDF Wordiks tööriist on alternatiiv, kui vajad eraldatud sisu muudetavas DOCX-vormingus. Eraldatud tekst on saadaval allalaaditava TXT-failina või saab selle kopeerida otse eelvaatepaneelilt. TLS-krüptimine ja automaatne kustutamine.

Korduma kippuvad küsimused

Turvalisus ja privaatsus

Sinu PDF laaditakse üles krüptitud TLS-ühenduse kaudu ja kustutatakse meie serverites kohe pärast teksti eraldamist. Me ei loe, indekseeri ega salvesta sinu dokumendi sisu. Registreerimist ei nõuta.