რატომ ჩანს ამოღებული ტექსტი ცარიელი ან ქაოსური?

თუ PDF ფიზიკური დოკუმენტის სკანირებით შეიქმნა, შეიძლება საერთოდ არ ჰქონდეს ტექსტის ფენა — ეფექტურად ტექსტის სურათია. ჯერ OCR-ინსტრუმენტი გამოიყენეთ ტექსტის ფენის დასამატებლად, შემდეგ ამოიღეთ. ქაოსური ტექსტი ზოგჯერ ხდება, როდესაც PDF არასტანდარტულ შრიფტ-კოდირებას იყენებს; ამ შემთხვევებში სცადეთ PDF-Word-გარდაქმნა, რომელიც განსხვავებულ ამოღების ძრავს იყენებს.

შეუძლია ტექსტის ამოღება პაროლდაცული PDF-იდან?

კი, თუ პაროლი გაქვთ. ჩაწერეთ პაროლის ველში ატვირთვისას. გაითვალისწინეთ, რომ ზოგიერთ PDF-ს აქვს ცალკე კონტენტის შეზღუდვის ნებართვა, რომელიც კოპირებას კრძალავს განბლოკვის შემდეგაც — ამომღები შეგატყობინებთ, თუ ეს ეხება.

სწორად ამუშავებს ორსვეტიან სამეცნიერო ნაშრომებს?

კი. განლაგების ანალიზი სივრცულად ამოიცნობს სვეტების რეგიონებს და წაკითხვის თანმიმდევრობით გამოაქვს — ჯერ მარცხენა სვეტი, შემდეგ მარჯვენა. ეს ვრცელდება ორ- და სამსვეტიანი განლაგებებზე, რომლებიც სამეცნიერო ჟურნალებსა და ჟურნალ-ბეჭდვებში ხშირია.

რა ხდება PDF-ის სურათებთან?

სურათები ტექსტის შედეგში არ შედის — ამოიღება მხოლოდ ტექსტის კონტენტის ფენა. სურათებიც რომ გჭირდებოდეთ, გამოიყენეთ სურათების ამოღების ინსტრუმენტი იმავე დოკუმენტზე.

ამოღებული ტექსტი ძიებადია?

შედეგი უბრალო ტექსტ-ფაილია, რომელიც ნებისმიერი ტექსტ-რედაქტორით, ტერმინალის ბრძანებით ან ძიების ინდექსირების ინსტრუმენტით თავისთავად ძიებადია. შედეგის ძიებისთვის განსაკუთრებული მოთხოვნები არ არსებობს.

შემიძლია ტექსტის ამოღება მხოლოდ კონკრეტული გვერდებიდან?

კი. გამოიყენეთ გვერდების დიაპაზონის ველი ცალკეული გვერდების ან დიაპაზონების მითითებისთვის (მაგ., 1-5 ან 3,7,12). მხოლოდ შერჩეული გვერდები მუშავდება და შედეგში შედის.

ინარჩუნებს ცხრილის სტრუქტურას შედეგში?

ცხრილის უჯრები ამოიღება სივრცული ურთიერთობების შენარჩუნებით, სადაც ეს შესაძლებელია. მკაფიო საზღვრების მქონე მარტივი ცხრილები გამოდის ჩანართებით გამიჯნულ ფორმატში, რომელიც ცხრილური პროგრამული უზრუნველყოფით შეიძლება გახსნათ. შერწყმული უჯრების მქონე რთულ ცხრილებს ხელით გაწმენდა დასჭირდება.

რით განსხვავდება ეს PDF-მნახველიდან ტექსტის მარტივი კოპირებისგან?

PDF-მნახველები ტექსტს ვიზუალურად ირჩევს, რაც ირღვევა მრავალსვეტიანი განლაგებებით და გვერდებზე გადაჭიმული გრძელი პარაგრაფებით. ეს ამომღები პირდაპირ კითხულობს ძირეულ კონტენტ-ნაკადს, რაც ერთ ნაბიჯში მთელ დოკუმენტზე უფრო ზუსტ პარაგრაფის საზღვრებს და სწორ წაკითხვის თანმიმდევრობას იძლევა.

შემიძლია ტექსტის ამოღება ძალიან დიდი PDF-იდან?

კი. ინსტრუმენტი ამუშავებს PDF-ებს ასობით გვერდით. დამუშავების დრო დოკუმენტის სიგრძესთან ერთად მასშტაბირდება — 200-გვერდიანი დოკუმენტი ჩვეულებრივ 30 წამში სრულდება.

რა მოხდება, თუ უბრალო ტექსტის ნაცვლად Word-ფორმატი მჭირდება?

გამოიყენეთ PDF-Word ინსტრუმენტი, რომელიც კონტენტს DOCX-ფაილში ამოიღებს სავარაუდო განლაგების შენარჩუნებით — სათაურების, მუქი და დახრილი სტილებისა და ძირითადი ცხრილის სტრუქტურის ჩათვლით.

ყველა ინსტრუმენტი

PDF-დან ტექსტად

ტექსტის ამოღება PDF-იდან

1ატვირთვა

2კონფიგურაცია

3დამუშავება

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

ძირითადი ფუნქციები

ტექსტს პირდაპირ PDF-კონტენტის ფენიდან ამოღებს
მრავალსვეტიანი განლაგებებისთვის სწორ წაკითხვის თანმიმდევრობას აღადგენს
ინარჩუნებს პარაგრაფის სტრუქტურასა და ინტერვალებს
ამუშავებს ცხრილებს სტრიქონისა და სვეტის საზღვრებით
მხარს უჭერს PDF-ებს ასობით გვერდამდე
გამოაქვს სუფთა TXT-ფაილი ჩამოსატვირთად
ჩამოტვირთვამდე ბრაუზერში ამოღებული ტექსტის preview
ტექსტის კოპირება პირდაპირ preview-პანელიდან
ამუშავებს PDF-ებს რთული ჩადგმული ტექსტის სტრუქტურებით
ამოიცნობს და გამოტოვებს დეკორატიულ ან სემანტიკურ დატვირთვას მოკლებულ ტექსტის ელემენტებს
მუშაობს პაროლდაცულ PDF-ებთან
თუ პაროლს მიაწვდით
ანგარიში ან რეგისტრაცია არ არის საჭირო
ფაილები დამუშავებისთანავე იშლება
TLS-დაშიფვრა ყველა ატვირთვისთვის
მუშაობს ყველა თანამედროვე ბრაუზერში

გამოყენების შემთხვევები

ანგარიშის კონტენტის კოპირება დოკუმენტ-რედაქტორში ჩასასვლელად
კონტრაქტის პუნქტების ამოღება ტექსტ-რედაქტორში სამართლებრივი განხილვისთვის
მონაცემების ამოღება PDF-ინვოისებიდან ცხრილების სამუშაო პროცესში
სამეცნიერო ნაშრომის ტექსტის ამოღება ციტირების მართვის ინსტრუმენტებისთვის
PDF-კონტენტის მიწოდება თარგმნისა ან ლოკალიზაციის ინსტრუმენტებისთვის
ძიებადი ტექსტ-ინდექსის შექმნა PDF-ფაილების ბიბლიოთეკიდან
პროდუქტის აღწერების ამოღება მომწოდებლის PDF-კატალოგებიდან
PDF-კონტენტის მომზადება AI-შეჯამების ან ანალიზის ინსტრუმენტებისთვის

როგორ გამოიყენო

1ატვირთეთ PDF ატვირთვის არეაზე დაჭერით ან ფაილ-მენეჯერიდან ფაილის გადმოთრევით.
2აირჩიეთ შედეგის პარამეტრები — უბრალო ტექსტი ან პარაგრაფის ინტერვალებით შენარჩუნებული ფორმატირებული ტექსტი.
3დააჭირეთ ამოღებას და მოიცადეთ, სანამ ინსტრუმენტი დოკუმენტის ტექსტის ფენას დაამუშავებს.
4გადახედეთ ამოღებულ ტექსტს preview-პანელში. შეამოწმეთ, სვეტების თანმიმდევრობა და პარაგრაფის სტრუქტურა სწორია თუ არა.
5ჩამოტვირთეთ TXT-ფაილი ან კოპირეთ ტექსტი პირდაპირ preview-დან clipboard-ში.

გახსნით PDF-ს, ცდილობთ პარაგრაფის კოპირებას და ან ვერაფერს იღებთ, ან ქაოსურ სიმბოლოებს წინადადებების შუაში შემთხვევითი სტრიქონის გადაწყვეტებით. ეს ხდება დიზაინ-აპლიკაციებიდან ექსპორტირებულ PDF-ებთან, ცუდი OCR-გავლილ სკანირებულ დოკუმენტებთან ან რთული მრავალსვეტიანი განლაგების ფაილებთან. ტექსტი ვიზუალურად არსებობს, შეგიძლიათ წაიკითხოთ, მაგრამ ვერ ირჩევთ სუფთად, რომ სადმე სასარგებლო ჩასვათ. dokk.ai-ის PDF-ტექსტ-ამომღები კითხულობს PDF-ფაილში ჩაშენებულ ტექსტის კონტენტის ფენას, არა ეკრანის გადაღებას. სტანდარტული ტექსტდაფუძნებული PDF-ებისთვის ეს ნიშნავს, რომ ყოველი სიმბოლო, სიტყვა და პარაგრაფი ზუსტად ისე არის ამოღებული, როგორც სტრუქტურირებული. სვეტებით გაჯერებული განლაგებები — სამეცნიერო ნაშრომები, გაზეთის სტილის სტატიები, მრავალსვეტიანი ბროშურები — მუშავდება განლაგების ანალიზის ეტაპით, რომელიც ამოიცნობს ტექსტის რეგიონებს სივრცულად. სკანირებული PDF-ებისთვის ან სურათდაფუძნებული დოკუმენტებისთვის, სადაც ტექსტის ფენა არ არსებობს, ჯერ dokk.ai-ის OCR ინსტრუმენტი გამოიყენეთ. ამოღებული ტექსტი ხელმისაწვდომია ჩამოსატვირთ TXT-ფაილად ან პირდაპირ preview-პანელიდან კოპირებისთვის. TLS-დაშიფვრა და ავტომატური წაშლა.

ხშირად დასმული კითხვები

უსაფრთხოება და კონფიდენციალობა

თქვენი PDF იტვირთება დაშიფრული TLS-კავშირის გზით და ტექსტის ამოღებისთანავე ჩვენი სერვერებიდან იშლება. ჩვენ არ ვკითხულობთ, არ ვინდექსებთ და არ ვინახავთ თქვენი დოკუმენტის კონტენტს. რეგისტრაცია არ არის საჭირო.