निकाला गया टेक्स्ट खाली या अस्त-व्यस्त क्यों दिख रहा है?

यदि PDF किसी भौतिक दस्तावेज़ को स्कैन करके बनाई गई थी, तो उसमें टेक्स्ट परत नहीं हो सकती — यह प्रभावी रूप से टेक्स्ट की एक छवि है। पहले OCR टूल का उपयोग करके टेक्स्ट परत जोड़ें, फिर निकालें। अस्त-व्यस्त टेक्स्ट कभी-कभी तब होता है जब PDF गैर-मानक फ़ॉन्ट एन्कोडिंग का उपयोग करती है; उन मामलों में PDF to Word बदलाव आज़माएं।

क्या यह पासवर्ड-सुरक्षित PDF से टेक्स्ट निकाल सकता है?

हाँ, यदि आपके पास पासवर्ड है। अपलोड के दौरान पासवर्ड फ़ील्ड में इसे दर्ज करें। ध्यान दें कि कुछ PDFs में एक अलग 'सामग्री प्रतिबंध' अनुमति होती है जो अनलॉक करने के बाद भी कॉपी करने से रोकती है — एक्सट्रैक्टर आपको सूचित करेगा यदि यह लागू होता है।

क्या यह दो-कॉलम शैक्षणिक पेपर को सही ढंग से संभालता है?

हाँ। लेआउट विश्लेषण कॉलम क्षेत्रों को स्थानिक रूप से पहचानता है और उन्हें पठन क्रम में आउटपुट करता है — पहले बाईं कॉलम, फिर दाईं। यह शैक्षणिक पत्रिकाओं और पत्रिकाओं में पाए जाने वाले दो-कॉलम और तीन-कॉलम लेआउट पर लागू होता है।

PDF में छवियों का क्या होता है?

छवियां टेक्स्ट आउटपुट में शामिल नहीं हैं — केवल टेक्स्ट सामग्री परत निकाली जाती है। यदि आपको छवियां भी चाहिए, तो उसी दस्तावेज़ पर Extract Images टूल का उपयोग करें।

क्या निकाला गया टेक्स्ट खोजने योग्य है?

आउटपुट एक सादा टेक्स्ट फ़ाइल है, जो किसी भी टेक्स्ट संपादक, टर्मिनल कमांड या खोज अनुक्रमणिका टूल से स्वाभाविक रूप से खोजने योग्य है। आउटपुट खोजने के लिए कोई विशेष आवश्यकता नहीं है।

क्या मैं केवल विशिष्ट पृष्ठों से टेक्स्ट निकाल सकता हूँ?

हाँ। पेज रेंज फ़ील्ड का उपयोग करके व्यक्तिगत पृष्ठ या रेंज निर्दिष्ट करें (उदाहरण के लिए, 1-5 या 3,7,12)। केवल चुने गए पृष्ठ प्रोसेस होते हैं और आउटपुट में शामिल होते हैं।

क्या यह आउटपुट में तालिका संरचना संरक्षित करता है?

तालिका सेल जहां संभव हो उनके स्थानिक संबंधों के साथ निकाली जाती हैं। स्पष्ट बॉर्डर वाली सरल तालिकाएं टैब-अलग प्रारूप में आउटपुट होती हैं जिसे स्प्रेडशीट सॉफ़्टवेयर में आयात किया जा सकता है। जटिल मर्ज किए गए सेल तालिकाओं को मैन्युअल सफाई की आवश्यकता हो सकती है।

यह PDF व्यूअर से सीधे टेक्स्ट कॉपी करने से कैसे अलग है?

PDF व्यूअर टेक्स्ट को दृश्य रूप से चुनते हैं, जो मल्टी-कॉलम लेआउट और पृष्ठों में फैले लंबे पैराग्राफ पर टूट जाता है। यह एक्सट्रैक्टर अंतर्निहित सामग्री स्ट्रीम को सीधे पढ़ता है, एक चरण में पूरे दस्तावेज़ में अधिक सटीक पैराग्राफ सीमाएं और सही पठन क्रम देता है।

क्या मैं बहुत बड़ी PDF से टेक्स्ट निकाल सकता हूँ?

हाँ। टूल सैकड़ों पृष्ठों वाली PDFs संभालता है। प्रसंस्करण समय दस्तावेज़ की लंबाई के साथ बढ़ता है — 200-पृष्ठ दस्तावेज़ आमतौर पर 30 सेकंड से कम में पूरा होता है।

यदि मुझे सादे टेक्स्ट के बजाय Word प्रारूप में टेक्स्ट चाहिए तो क्या करें?

PDF to Word टूल का उपयोग करें, जो सामग्री को शीर्षक, बोल्ड और इटैलिक स्टाइलिंग और बुनियादी तालिका संरचना सहित अनुमानित लेआउट संरक्षण के साथ DOCX फ़ाइल में निकालता है।

सभी टूल

PDF से टेक्स्ट

PDF से टेक्स्ट निकालें

1अपलोड

2कॉन्फ़िगर करें

3प्रोसेस

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

मुख्य विशेषताएं

PDF सामग्री परत से सीधे टेक्स्ट निकालता है
मल्टी-कॉलम लेआउट के लिए सही पठन क्रम पुनर्निर्मित करता है
पैराग्राफ संरचना और स्पेसिंग बनाए रखता है
पंक्ति और कॉलम सीमाओं के साथ तालिकाएं संभालता है
सैकड़ों पृष्ठों तक की PDFs का समर्थन करता है
डाउनलोड के लिए साफ़ TXT फ़ाइल आउटपुट करता है
डाउनलोड से पहले ब्राउज़र में निकाले गए टेक्स्ट का पूर्वावलोकन
पूर्वावलोकन पैनल से सीधे टेक्स्ट कॉपी करें
जटिल नेस्टेड टेक्स्ट संरचनाओं वाली PDFs प्रोसेस करता है
सजावटी या गैर-शब्दार्थ टेक्स्ट तत्वों की पहचान करके छोड़ता है
पासवर्ड के साथ पासवर्ड-सुरक्षित PDFs के साथ काम करता है
कोई खाता या साइन-अप आवश्यक नहीं
प्रसंस्करण के बाद फ़ाइलें तुरंत हटाई जाती हैं
सभी अपलोड के लिए TLS एन्क्रिप्शन
सभी आधुनिक ब्राउज़र में काम करता है

उपयोग के मामले

दस्तावेज़ संपादक में पेस्ट करने के लिए रिपोर्ट सामग्री कॉपी करना
टेक्स्ट संपादक में कानूनी समीक्षा के लिए अनुबंध खंड निकालना
स्प्रेडशीट वर्कफ़्लो में PDF इनवॉइस से डेटा निकालना
उद्धरण प्रबंधन टूल के लिए शोध पेपर टेक्स्ट निकालना
अनुवाद या स्थानीयकरण टूल में PDF सामग्री फीड करना
PDF फ़ाइलों की लाइब्रेरी से खोजने योग्य टेक्स्ट अनुक्रमणिका बनाना
आपूर्तिकर्ता PDF कैटलॉग से उत्पाद विवरण निकालना
AI सारांश या विश्लेषण टूल में इनपुट के लिए PDF सामग्री तैयार करना

कैसे इस्तेमाल करें

1अपनी PDF को अपलोड क्षेत्र पर क्लिक करके या अपने फ़ाइल मैनेजर से फ़ाइल खींचकर अपलोड करें।
2अपनी आउटपुट प्राथमिकताएं चुनें — सादा टेक्स्ट या पैराग्राफ स्पेसिंग के साथ स्वरूपित टेक्स्ट।
3'निकालें' पर क्लिक करें और इंतज़ार करें जब तक टूल दस्तावेज़ की टेक्स्ट परत प्रोसेस करता है।
4पूर्वावलोकन पैनल में निकाले गए टेक्स्ट की समीक्षा करें। जाँचें कि कॉलम क्रम और पैराग्राफ संरचना सही है।
5TXT फ़ाइल डाउनलोड करें या पूर्वावलोकन से टेक्स्ट सीधे अपने क्लिपबोर्ड पर कॉपी करें।

आप एक PDF खोलते हैं, एक पैराग्राफ कॉपी करने की कोशिश करते हैं, और या तो कुछ नहीं मिलता या वाक्यों के बीच में यादृच्छिक लाइन ब्रेक के साथ अक्षरों की गड़बड़ी मिलती है। यह डिज़ाइन एप्लिकेशन से निर्यात की गई PDFs, खराब OCR पास से गुज़रे स्कैन किए गए दस्तावेज़ों या जटिल मल्टी-कॉलम लेआउट वाली फ़ाइलों के साथ होता है। टेक्स्ट दृश्य रूप से है — आप इसे पढ़ सकते हैं — लेकिन इसे साफ़ तरीके से किसी उपयोगी जगह पेस्ट करने के लिए चुन नहीं सकते। Dokk.ai का PDF to text एक्सट्रैक्टर PDF फ़ाइल में एम्बेडेड वास्तविक टेक्स्ट सामग्री परत पढ़ता है, स्क्रीन कैप्चर नहीं। मानक टेक्स्ट-आधारित PDFs के लिए, इसका मतलब है कि हर अक्षर, शब्द और पैराग्राफ ठीक वैसे ही निकाला जाता है जैसे संरचित है — मल्टी-कॉलम लेआउट के लिए पठन क्रम, तालिका सेल सीमाएं, सूची आइटम और फ़ुटनोट सहित। कॉलम-भारी लेआउट — जैसे शैक्षणिक पेपर, समाचार पत्र-शैली लेख और मल्टी-कॉलम ब्रोशर — एक लेआउट विश्लेषण चरण के साथ संभाले जाते हैं जो टेक्स्ट क्षेत्रों की पहचान करता है और पठन क्रम सही ढंग से पुनर्निर्मित करता है। इस चरण के बिना, एक दो-कॉलम PDF से निकाला गया टेक्स्ट दोनों कॉलम का आपस में मिला हुआ टेक्स्ट देता है, जो अपठनीय होता है। स्कैन की गई PDFs या छवि-आधारित दस्तावेज़ों के लिए जहां कोई टेक्स्ट परत नहीं है, मानक एक्सट्रैक्शन टूल सही ढंग से रिपोर्ट करेगा कि कोई टेक्स्ट मौजूद नहीं है। उन मामलों में, dokk.ai का OCR टूल पहले उपयोग करना चाहिए। निकाला गया टेक्स्ट डाउनलोड करने योग्य TXT फ़ाइल के रूप में उपलब्ध है और पूर्वावलोकन पैनल से सीधे कॉपी भी किया जा सकता है। यह निकाली गई सामग्री को अनुवाद टूल, AI पाइपलाइन, खोज अनुक्रमणिका या सामग्री विश्लेषण स्क्रिप्ट में पास करना आसान बनाता है।

अक्सर पूछे जाने वाले सवाल

सुरक्षा और गोपनीयता

आपकी PDF एन्क्रिप्टेड TLS कनेक्शन पर अपलोड होती है और टेक्स्ट निकालने के तुरंत बाद हमारे सर्वर से हटा दी जाती है। हम आपकी दस्तावेज़ सामग्री को पढ़ते, अनुक्रमित या संग्रहीत नहीं करते। कोई साइन-अप आवश्यक नहीं है।