PDF tekstiksi
Poimi teksti PDF-tiedostosta
Drop file here
PDF, Word, Excel, PowerPoint, images up to 25 MB
Põhifunktsioonid
- Eraldab teksti otse PDF-i sisukihist
- Rekonstrueerib õige lugemise järjekorra mitme veeruga paigutuste jaoks
- Säilitab lõikude struktuuri ja vahed
- Käsitleb tabeleid rea- ja veerupiiridega
- Toetab sadu lehti sisaldavaid PDF-e
- Väljastab puhta TXT-faili allalaadimiseks
- Eraldatud teksti eelvaade brauseris enne allalaadimist
- Teksti kopeerimine otse eelvaatepaneelilt
- Töötleb keerukate pesastatud tekstistruktuuridega PDF-e
- Töötab parooliga kaitstud PDF-idega
- kui esitad parooli
- Kontot ega registreerimist ei nõuta
- Failid kustutatakse kohe pärast töötlemist
Kasutusjuhud
- Aruande sisu kopeerimine dokumendiredaktorisse kleepimiseks
- Lepinguklauslite eraldamine juriidiliseks ülevaatuseks tekstiredaktoris
- Andmete tõmbamine PDF-arvetelt arvutustabeli töövoogu
- Teadusartikli teksti eraldamine tsitaadihalduse tööriistade jaoks
- PDF-sisu edastamine tõlke- või lokaliseerimistööriistadesse
- Otsitava tekstiindeksi loomine PDF-failide kogust
- Tootenimede eraldamine tarnija PDF-kataloogidest
- PDF-sisu ettevalmistamine AI-i kokkuvõtte- või analüüsitööriistade sisendiks
Kuidas kasutada
- 1Laadi oma PDF üles, klõpsates üleslaadimisalal või lohistades faili failihaldurist.
- 2Vali väljundeelistused — lihttekst või vormindatud tekst säilitatud lõiguvahedega.
- 3Klõpsa Eralda ja oota, kuni tööriist töötleb dokumendi tekstikihti.
- 4Vaata eraldatud tekst eelvaatepaneelil üle. Kontrolli, kas veergude järjekord ja lõikude struktuur on õiged.
- 5Laadi TXT-fail alla või kopeeri tekst otse eelvaatelt lõikelauale.
Avad PDF-i, proovid lõiku kopeerida ja saad kas tühjuse või segase märgikogumi juhusliku reavahetustega lausete keskel. See juhtub PDF-idega, mis on eksporditud kujundustarkvararakendustest, skannitud dokumentidest, mis on läbinud halva OCR-i, või keerukate mitme veeruga paigutustega failidest. dokk.ai PDF-i tekstieraldaja loeb PDF-faili sisse põimitud tegeliku tekstisisukihi, mitte ekraanipilti. Tüüpiliste tekstipõhiste PDF-ide puhul tähendab see, et iga tähemärk, sõna ja lõik tõmmatakse välja täpselt nii, nagu see on struktureeritud — sealhulgas lugemise järjekord mitme veeruga paigutuste puhul, tabeli lahtrite piirid, loendielementide ja allmärkuste loend. Mitme veeruga paigutusi — nagu teadusartiklid, ajalehestiilis artiklid ja mitme veeruga brošüürid — käsitletakse paigutusanalüüsi sammuga, mis tuvastab tekstipiirkonnad ruumiliselt ja rekonstrueerib lugemise järjekorra õigesti. Ilma selle sammuta toodab kahe veeruga PDF-i naiivne eraldamine mõlema veeru vahelduvat teksti, mis on loetamatu. Skannitud PDF-ide või pildipõhiste dokumentide puhul, kus tekstikihti ei ole, kasuta esmalt dokk.ai OCR-tööriista. PDF Wordiks tööriist on alternatiiv, kui vajad eraldatud sisu muudetavas DOCX-vormingus. Eraldatud tekst on saadaval allalaaditava TXT-failina või saab selle kopeerida otse eelvaatepaneelilt. TLS-krüptimine ja automaatne kustutamine.
Korduma kippuvad küsimused
Turvalisus ja privaatsus
Sinu PDF laaditakse üles krüptitud TLS-ühenduse kaudu ja kustutatakse meie serverites kohe pärast teksti eraldamist. Me ei loe, indekseeri ega salvesta sinu dokumendi sisu. Registreerimist ei nõuta.