विभाजन के लिए कौन से प्रकार के कीवर्ड सबसे अच्छे काम करते हैं?

सुसंगत, अनूठे वाक्यांश जो प्रति अनुभाग ठीक एक बार आते हैं सबसे अच्छे काम करते हैं। उदाहरणों में 'Invoice Number', 'Page 1 of', 'EXHIBIT', 'Dear', या दस्तावेज़ ID उपसर्ग शामिल हैं। बहुत सामान्य शब्दों से बचें जो प्रति अनुभाग कई बार आते हैं।

क्या टूल स्कैन की गई PDF पर काम करता है?

टेक्स्ट द्वारा विभाजित करें को मशीन-पठनीय टेक्स्ट की आवश्यकता है। स्कैन की गई इमेज PDF को पहले टेक्स्ट निकालने के लिए OCR से प्रोसेस किया जाना चाहिए। टेक्स्ट द्वारा विभाजित करें लागू करने से पहले स्कैन की गई PDF पर dokk.ai के OCR टूल का उपयोग करें।

क्या मैं विभाजन कीवर्ड के रूप में नियमित अभिव्यक्ति का उपयोग कर सकता हूं?

हां। regex विकल्प सक्षम करें और किसी भी इनवॉइस नंबर से मिलाने के लिए 'Invoice #\d+' जैसा पैटर्न दर्ज करें, या किसी पंक्ति की शुरुआत में माह के नामों पर विभाजित करने के लिए '^(January|February|March)'।

क्या होगा यदि कीवर्ड दस्तावेज़ में नहीं आता?

यदि कोई मिलान नहीं मिलता, तो टूल मूल PDF अपरिवर्तित लौटाता है और एक चेतावनी दिखाता है कि कीवर्ड का पता नहीं चला। वर्तनी जांचें और सुनिश्चित करें कि PDF में मशीन-पठनीय टेक्स्ट है।

टेक्स्ट द्वारा विभाजित करें और बुकमार्क द्वारा विभाजित करें में क्या अंतर है?

बुकमार्क द्वारा विभाजित करें PDF में एम्बेडेड संरचनात्मक रूपरेखा का उपयोग करता है (दस्तावेज़ लेखक द्वारा बनाई गई)। टेक्स्ट द्वारा विभाजित करें विभाजन बिंदु गतिशील रूप से खोजने के लिए वास्तविक पृष्ठ सामग्री का उपयोग करता है। बुकमार्क का उपयोग औपचारिक रूपरेखा वाले संरचित दस्तावेज़ों के लिए करें; टेक्स्ट द्वारा विभाजित करें का उपयोग ऑटो-जनरेटेड बैच एक्सपोर्ट के लिए करें जहां सुसंगत कीवर्ड हों लेकिन बुकमार्क अनुपस्थित हो सकते हों।

क्या मैं आउटपुट में कीवर्ड पृष्ठ शामिल या बाहर कर सकता हूं?

हां। आप कॉन्फ़िगर कर सकते हैं कि कीवर्ड वाला पृष्ठ अगली आउटपुट फ़ाइल का पहला पृष्ठ बनता है या पिछली आउटपुट फ़ाइल का अंतिम पृष्ठ। आप विभाजक पृष्ठों को पूरी तरह हटाने का भी विकल्प चुन सकते हैं यदि उनमें कोई सार्थक सामग्री नहीं है।

टूल कितने विभाजन बिंदु संभाल सकता है?

विभाजन बिंदुओं पर कोई कठोर सीमा नहीं है। टूल को 1,000 से अधिक कीवर्ड घटनाओं वाले दस्तावेज़ों पर परीक्षण किया गया है, जो एकल ZIP आर्काइव में 1,000 से अधिक आउटपुट फ़ाइलें उत्पन्न करता है।

क्या आउटपुट फ़ाइलों को स्वचालित रूप से नाम दिया जाता है?

आउटपुट फ़ाइलों को डिफ़ॉल्ट रूप से क्रमिक रूप से नाम दिया जाता है (जैसे, 'split_001.pdf', 'split_002.pdf')। यदि कीवर्ड मिलान में एक अनूठा पहचानकर्ता है (जैसे इनवॉइस नंबर), तो उस मान को वैकल्पिक रूप से फ़ाइल नाम में उपयोग किया जा सकता है।

क्या मैं केवल कुछ कीवर्ड मिलानों से पृष्ठ निकाल सकता हूं?

मानक वर्कफ़्लो प्रत्येक मिलान पर विभाजित करता है। चयनात्मक निष्कर्षण के लिए, विभाजन पूर्वावलोकन से आवश्यक पृष्ठ श्रेणियां पहचानने के बाद पृष्ठ निकालें का उपयोग करें, या मैन्युअल नियंत्रण के लिए पृष्ठ श्रेणी द्वारा विभाजित करें का उपयोग करें।

क्या कोई फ़ाइल आकार सीमा है?

dokk.ai 200 MB तक की PDF स्वीकार करता है। बड़े बैच एक्सपोर्ट के लिए, पहले स्रोत फ़ाइल को आधा विभाजित करने पर विचार करें और फिर प्रत्येक आधे पर टेक्स्ट द्वारा विभाजित करें लागू करें।

সকলো সঁজুলি

टेक्स्ट अनुसार विभाजित करें

पेजों के बीच टेक्स्ट बदलने पर विभाजित करें

1আপলোড কৰক

2কনফিগাৰ কৰক

3প্ৰক্ৰিয়া কৰক

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

মূল বৈশিষ্ট্যসমূহ

निर्दिष्ट कीवर्ड या वाक्यांश वाले प्रत्येक पृष्ठ पर PDF विभाजित करता है
डिफ़ॉल्ट रूप से केस-असंवेदनशील टेक्स्ट मिलान
परिवर्तनशील मार्कर के लिए वैकल्पिक नियमित अभिव्यक्ति पैटर्न समर्थन
पूर्ववर्ती या अनुवर्ती आउटपुट फ़ाइल में कीवर्ड पृष्ठ शामिल या बाहर करने का विकल्प
मूल टेक्स्ट PDF और OCR-प्रोसेस स्कैन दस्तावेज़ों के साथ काम करता है
क्रमिक रूप से क्रमांकित फ़ाइलें या ZIP आर्काइव आउटपुट करता है
सैकड़ों विभाजन बिंदुओं वाली PDF संभालता है
छवियों
फ़ॉन्ट और एनोटेशन सहित सभी सामग्री संरक्षित
बिना इंस्टॉलेशन के ब्राउज़र-आधारित
सुरक्षित TLS अपलोड और 60 मिनट के भीतर स्वचालित विलोपन

ব্যৱহাৰৰ ক্ষেত্ৰ

बैच इनवॉइस एक्सपोर्ट को व्यक्तिगत इनवॉइस PDF में विभाजित करना
प्रत्येक 'Form ID' विभाजक पृष्ठ पर बल्क फॉर्म स्कैन विभाजित करना
प्रत्येक 'Date:' हेडर पर दैनिक रिपोर्ट बंडल विभाजित करना
मेल-मर्ज एक्सपोर्ट से व्यक्तिगत रोगी पत्र निकालना
प्रत्येक 'EXHIBIT' मार्कर पर कानूनी ट्रांसक्रिप्ट विभाजित करना
प्रत्येक 'Module' शीर्षक पर प्रशिक्षण मैनुअल विभाजित करना
लॉजिस्टिक्स मैनिफेस्ट PDF से व्यक्तिगत शिपमेंट रिकॉर्ड अलग करना
प्रत्येक खाता संख्या पर स्कैन बैंक स्टेटमेंट बैच विभाजित करना
प्रत्येक छात्र नाम पर मर्ज टेस्ट परिणाम PDF विभाजित करना
संयुक्त बीमा दस्तावेज़ बैच से व्यक्तिगत पॉलिसी निकालना

কেনেকৈ ব্যৱহাৰ কৰিব

1वह PDF अपलोड करें जिसमें आवर्ती टेक्स्ट मार्कर हैं जिन्हें आप विभाजन बिंदु के रूप में उपयोग करना चाहते हैं।
2विभाजित करने के लिए कीवर्ड या वाक्यांश दर्ज करें। यदि कैपिटलाइजेशन अलग-अलग हो तो केस-असंवेदनशील मिलान सक्षम करें, या परिवर्तनशील पैटर्न के लिए नियमित अभिव्यक्ति दर्ज करें।
3चुनें कि कीवर्ड वाला पृष्ठ अगली आउटपुट फ़ाइल शुरू करता है या पिछली समाप्त करता है — यह निर्धारित करता है कि विभाजक पृष्ठ कहां जाते हैं।
4प्रोसेस करें क्लिक करें। dokk.ai हर पृष्ठ स्कैन करता है, सभी मिलान पहचानता है और प्रत्येक घटना पर दस्तावेज़ विभाजित करता है।
5व्यक्तिगत विभाजित फ़ाइलें या ZIP आर्काइव डाउनलोड करें। फ़ाइलों को क्रमिक रूप से नाम दिया जाता है और प्रत्येक कीवर्ड घटनाओं के बीच एक अनुभाग से संगत है।

जब PDF एक बैच एक्सपोर्ट होती है जिसमें कई दस्तावेज़ एक साथ जुड़े होते हैं — एकल फ़ाइल में सैकड़ों इनवॉइस, एक दिन के स्कैन किए गए फॉर्म, या एक ऑटो-जनरेटेड रिपोर्ट जहां प्रत्येक अनुभाग एक ज्ञात शीर्षक से शुरू होता है — तो किसी निश्चित कीवर्ड से विभाजित करना पृष्ठ श्रेणियों को मैन्युअल रूप से पहचानने से कहीं तेज़ है। टेक्स्ट द्वारा विभाजित करें आपके द्वारा निर्दिष्ट वाक्यांश के लिए प्रत्येक पृष्ठ स्कैन करता है और जब भी वह वाक्यांश प्रकट हो तो एक नई आउटपुट फ़ाइल बनाता है, प्रभावी रूप से दस्तावेज़ की अपनी सामग्री को उसके विभाजन मानचित्र के रूप में उपयोग करता है। यह वह टूल है जो अकाउंट्स पेयेबल ऑटोमेशन, फॉर्म प्रोसेसिंग पाइपलाइन और बल्क दस्तावेज़ वितरण वर्कफ़्लो को पूरा करता है। एक अकाउंटिंग सिस्टम 500 इनवॉइस एकल PDF के रूप में एक्सपोर्ट करता है; टेक्स्ट द्वारा विभाजित करें प्रत्येक विभाजक पृष्ठ पर 'INVOICE NUMBER' खोजता है और 500 व्यक्तिगत इनवॉइस फ़ाइलें उत्पन्न करता है। एक मेडिकल रिकॉर्ड सिस्टम रोगी पत्रों को बैच करता है; टूल प्रति रोगी एक पत्र उत्पन्न करने के लिए 'Dear Patient' पर विभाजित करता है। एक लॉजिस्टिक्स कंपनी प्रतिदिन के मैनिफेस्ट प्राप्त करती है जहां प्रत्येक शिपमेंट 'SHIPMENT ID' वाले बारकोड लेबल से शुरू होता है; टूल प्रत्येक शिपमेंट को डाउनस्ट्रीम प्रोसेसिंग के लिए अपनी फ़ाइल में अलग करता है। आप चुन सकते हैं कि कीवर्ड पृष्ठ स्वयं आउटपुट फ़ाइल में शामिल हो या हटाया जाए — विभाजक पृष्ठों के लिए उपयोगी जो अपनी कोई सार्थक सामग्री नहीं रखते। केस-असंवेदनशील मिलान सुनिश्चित करता है कि आपको ऑटो-जनरेटेड दस्तावेज़ों में कैपिटलाइजेशन भिन्नताओं की चिंता न हो। नियमित अभिव्यक्ति पैटर्न उन्नत उपयोग के मामलों के लिए समर्थित हैं जहां विभाजन मार्कर परिवर्तनशील है, जैसे कोई भी इनवॉइस नंबर मिलाने वाला 'Invoice #\d+'। टेक्स्ट द्वारा विभाजित करें उन दस्तावेज़ों के लिए बुकमार्क द्वारा विभाजित करें का पूरक है जिनमें औपचारिक रूपरेखा का अभाव है लेकिन सुसंगत टेक्स्ट मार्कर हैं। यदि आपके दस्तावेज़ों में दोनों हैं, तो बुकमार्क आमतौर पर अधिक विश्वसनीय होते हैं क्योंकि वे सामग्री-आधारित के बजाय संरचनात्मक होते हैं। अधिकतम लचीलेपन के लिए, दोनों दृष्टिकोण संयोजित करें: अध्याय स्तर पर बुकमार्क द्वारा विभाजित करें, फिर व्यक्तिगत रिकॉर्ड अलग करने के लिए अध्यायों के भीतर टेक्स्ट द्वारा विभाजित करें। सभी फ़ाइल प्रसंस्करण dokk.ai के सुरक्षित बुनियादी ढांचे पर होता है। फ़ाइलें 60 मिनट के भीतर हटा दी जाती हैं और कभी भी मशीन लर्निंग के लिए उपयोग नहीं की जाती या तृतीय पक्षों के साथ साझा नहीं की जाती। आउटपुट फ़ाइलें मानक PDF हैं जो हर रीडर, प्रिंटर और दस्तावेज़ प्रबंधन प्रणाली के साथ संगत हैं।

সঘনাই সোধা প্ৰশ্নসমূহ

সুৰক্ষা আৰু গোপনীয়তা

दस्तावेज़ टेक्स्ट केवल विभाजन कीवर्ड खोजने के लिए स्कैन किया जाता है और संग्रहीत या इंडेक्स नहीं किया जाता। सभी फ़ाइलें TLS पर स्थानांतरित की जाती हैं और प्रसंस्करण के 60 मिनट के भीतर हटा दी जाती हैं। dokk.ai GDPR अनुपालक है और दस्तावेज़ सामग्री का उपयोग कभी भी प्रशिक्षण या विश्लेषण के लिए नहीं करता।