Skip to content
Kaikki työkalut

PDF tekstiksi

Poimi teksti PDF-tiedostosta

1Lataa
2Määritä
3Käsittele

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Tärkeimmät ominaisuudet

  • Poimii tekstin suoraan PDF:n sisältökerroksesta
  • Rekonstruoi oikean lukemisjärjestyksen monipalstaasetteluille
  • Säilyttää kappaleiden rakenteen ja välistyksen
  • Käsittelee taulukot rivi- ja sarakerajoilla
  • Tukee PDF:iä satoihin sivuihin asti
  • Tuottaa siistin TXT-tiedoston ladattavaksi
  • Esikatsele poimittu teksti selaimessa ennen lataamista
  • Kopioi teksti suoraan esikatselupaneelista
  • Käsittelee PDF:t monimutkaisilla sisäkkäisillä tekstirakenteilla
  • Tunnistaa ja ohittaa koristelelliset tai ei-semanttiset tekstielementit
  • Toimii salasanasuojatuilla PDF:illä
  • jos annat salasanan
  • Ei vaadi tiliä tai rekisteröitymistä
  • Tiedostot poistetaan heti käsittelyn jälkeen
  • TLS-salaus kaikille latauksille
  • Toimii kaikissa nykyaikaisissa selaimissa

Käyttötapaukset

  • Raporttisisällön kopioiminen asiakirjaeditoriin liittämistä varten
  • Sopimuslausekkeiden poiminta juridista tarkistusta varten tekstieditorissa
  • Tietojen vetäminen PDF-laskuista taulukkolaskentaan
  • Tutkimusartikkelin tekstin poiminta viitteiden hallintaohjelmille
  • PDF-sisällön syöttäminen käännös- tai lokalisointityökaluihin
  • Hakukelpoisen tekstihakemiston rakentaminen PDF-tiedostokokoelmasta
  • Tuotteiden kuvausten poiminta toimittajan PDF-katalogeista
  • PDF-sisällön valmisteleminen tekoälyn tiivistys- tai analyysityökaluille

Käyttöohjeet

  1. 1Lähetä PDF-tiedostosi napsauttamalla latausaluetta tai vetämällä tiedosto tiedostohallinnoijasta.
  2. 2Valitse tulostusasetuksesi — pelkkä teksti tai muotoiltu teksti kappaleiden välistyksellä säilytettynä.
  3. 3Napsauta Pura ja odota, kun työkalu käsittelee asiakirjan tekstikerroksen.
  4. 4Tarkista poimittu teksti esikatselupaneelissa. Varmista, että sarakkeiden järjestys ja kappaleiden rakenne ovat oikein.
  5. 5Lataa TXT-tiedosto tai kopioi teksti suoraan esikatselusta leikepöydälle.

Avaat PDF:n, yrität kopioida kappaleen ja saat joko tyhjää tai sekavan joukon merkkejä satunnaisilla rivinvaihdoilla lauseiden keskellä. Niin käy PDF:ien kanssa, jotka on viety suunnittelusovelluksista, skannatuista asiakirjoista joiden OCR on ollut huono, tai tiedostoista, joilla on monimutkaisia monipalstaasetteluja. Teksti on visuaalisesti paikalla — voit lukea sen — mutta et voi valita sitä riittävän siististi liittääksesi sen mihinkään hyödylliseen. Dokk.ai:n PDF tekstiksi -työkalu lukee PDF-tiedostoon upotettua varsinaista tekstisisältökerrosta, ei näytönkaappausta. Vakiotekstipohjaisten PDF:ien osalta tämä tarkoittaa, että jokainen merkki, sana ja kappale poimitaan täsmälleen rakenteen mukaisesti — mukaan lukien lukemisjärjestys monipalstaasetteluille, taulukon solut, luettelokohdat ja alaviitteet. Poiminta säilyttää kappaleiden välistyksen, joten tulos on valmis liitettäväksi asiakirjaeditoriin, sähköpostiin tai sisällönhallintajärjestelmään ilman manuaalista siistimistä. Palstaraskaita asetteluja — kuten tieteelliset artikkelit, lehtiartikkelit ja monipalstaesite — käsitellään asetteluanalyysivaiheella, joka tunnistaa tekstialueet ja rekonstruoi lukemisjärjestyksen oikein. Ilman tätä vaihetta kaksipalstalaisesta PDF:stä naivisti poimittu teksti tuottaa molempien palstojen lomittaista tekstiä, joka on lukukelpoton. Työkalu tunnistaa palstat tilallisesti ja tulostaa ne oikeassa järjestyksessä, vasen palsta ensin. Skannatuille PDF:ille tai kuvapohjaisisille asiakirjoille, joista puuttuu tekstikerros, vakiopoimintatyökalu raportoi oikein, ettei tekstiä ole. Näissä tapauksissa dokk.ai:n OCR-työkalu kannattaa käyttää ensin — se käsittelee skannatut sivut optisen merkkitunnistuksen kautta ja luo hakukelpoisen tekstikerroksen, joka voidaan sitten poimia tai kopioida. PDF Word -työkalu on vaihtoehto, kun tarvitset poimitun sisällön muokattavassa DOCX-muodossa suunnilleen asettelulla, ei pelkkänä tekstinä. Poimittu teksti on saatavilla ladattavana TXT-tiedostona ja se voidaan myös kopioida suoraan esikatselupaneelista. Tämä tekee helpoksi siirtää poimittu sisältö käännöstyökaluihin, tekoälyputkistoihin, hakuindekseihin tai sisällönanalyysikomentosarjoihin. Pura kuvat -työkalu hoitaa täydentävän tehtävän poistaa upotetut grafiikat samasta PDF:stä, jos tarvitset sekä tekstin että visuaalisen sisällön yhdestä asiakirjasta.

Usein kysytyt kysymykset

Turvallisuus ja yksityisyys

PDF:si ladataan salatun TLS-yhteyden kautta ja poistetaan palvelimiltamme heti tekstin poiminnan jälkeen. Emme lue, indeksoi tai tallenna asiakirjasi sisältöä. Rekisteröitymistä ei vaadita.