ทำไมข้อความที่แยกออกมาแสดงว่าว่างเปล่าหรือสับสน?

หาก PDF ถูกสร้างขึ้นโดยการสแกนเอกสารทางกายภาพ อาจไม่มีชั้นข้อความเลย ซึ่งเป็นรูปภาพของข้อความอย่างมีประสิทธิภาพ ใช้เครื่องมือ OCR ก่อนเพื่อเพิ่มชั้นข้อความ จากนั้นแยก ข้อความที่สับสนบางครั้งเกิดขึ้นเมื่อ PDF ใช้การเข้ารหัสฟอนต์ที่ไม่ได้มาตรฐาน ในกรณีเหล่านั้นลองแปลง PDF เป็น Word ซึ่งใช้เอนจินแยกที่แตกต่างกัน

แยกข้อความจาก PDF ที่ป้องกันด้วยรหัสผ่านได้ไหม?

ได้ หากคุณมีรหัสผ่าน ป้อนในช่องรหัสผ่านระหว่างการอัปโหลด โปรดทราบว่า PDF บางส่วนมีสิทธิ์ 'ข้อจำกัดเนื้อหา' แยกต่างหากที่ป้องกันการคัดลอกแม้หลังจากปลดล็อค ตัวแยกจะแจ้งให้คุณทราบหากกรณีนี้ใช้

จัดการเอกสารวิชาการสองคอลัมน์ได้อย่างถูกต้องไหม?

ได้ การวิเคราะห์เลย์เอาต์ระบุพื้นที่คอลัมน์เชิงพื้นที่และส่งออกในลำดับการอ่าน คอลัมน์ซ้ายก่อน จากนั้นคอลัมน์ขวา สิ่งนี้ใช้กับเลย์เอาต์สองคอลัมน์และสามคอลัมน์ที่พบบ่อยในวารสารวิชาการและนิตยสาร

รูปภาพใน PDF จะเกิดอะไรขึ้น?

รูปภาพไม่ถูกรวมไว้ในผลลัพธ์ข้อความ มีเพียงชั้นเนื้อหาข้อความเท่านั้นที่ถูกแยก หากคุณต้องการรูปภาพด้วยให้ใช้เครื่องมือ Extract Images บนเอกสารเดียวกัน

ข้อความที่แยกออกมาค้นหาได้ไหม?

ผลลัพธ์เป็นไฟล์ข้อความธรรมดาซึ่งสามารถค้นหาได้โดยธรรมชาติด้วยตัวแก้ไขข้อความใดก็ได้ คำสั่ง terminal หรือเครื่องมือทำดัชนีค้นหา ไม่มีข้อกำหนดพิเศษสำหรับการค้นหาผลลัพธ์

แยกข้อความจากเฉพาะบางหน้าได้ไหม?

ได้ ใช้ฟิลด์ช่วงหน้าเพื่อระบุหน้าเดี่ยวหรือช่วง (เช่น 1-5 หรือ 3,7,12) เฉพาะหน้าที่เลือกเท่านั้นที่ถูกประมวลผลและรวมไว้ในผลลัพธ์

รักษาโครงสร้างตารางในผลลัพธ์ได้ไหม?

เซลล์ตารางถูกแยกโดยรักษาความสัมพันธ์เชิงพื้นที่ไว้เท่าที่เป็นไปได้ ตารางง่ายที่มีขอบชัดเจนจะส่งออกในรูปแบบที่คั่นด้วยแท็บซึ่งสามารถนำเข้าสู่ซอฟต์แวร์สเปรดชีตได้ ตารางที่ซับซ้อนมีเซลล์ที่ผสานอาจต้องทำความสะอาดด้วยตนเอง

สิ่งนี้แตกต่างจากการคัดลอกข้อความจากโปรแกรมดู PDF อย่างไร?

โปรแกรมดู PDF เลือกข้อความแบบมองเห็น ซึ่งพังทลายบนเลย์เอาต์หลายคอลัมน์และย่อหน้ายาวที่ครอบคลุมหลายหน้า ตัวแยกนี้อ่านสตรีมเนื้อหาพื้นฐานโดยตรง ให้ขอบเขตย่อหน้าที่แม่นยำกว่าและลำดับการอ่านที่ถูกต้องทั่วทั้งเอกสารในขั้นตอนเดียว

แยกข้อความจาก PDF ขนาดใหญ่มากได้ไหม?

ได้ เครื่องมือจัดการ PDF ที่มีหลายร้อยหน้า เวลาประมวลผลขยายตามความยาวเอกสาร เอกสาร 200 หน้าโดยทั่วไปเสร็จในเวลาไม่ถึง 30 วินาที

จะทำอย่างไรถ้าต้องการข้อความในรูปแบบ Word แทนข้อความธรรมดา?

ใช้เครื่องมือ PDF เป็น Word ซึ่งแยกเนื้อหาเป็นไฟล์ DOCX พร้อมการรักษาเลย์เอาต์โดยประมาณรวมถึงหัวเรื่อง สไตล์ตัวหนาและตัวเอียง และโครงสร้างตารางพื้นฐาน

เครื่องมือทั้งหมด

PDF เป็นข้อความ

แยกข้อความจาก PDF

1อัปโหลด

2ตั้งค่า

3ประมวลผล

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

คุณสมบัติหลัก

แยกข้อความโดยตรงจากชั้นเนื้อหา PDF
สร้างลำดับการอ่านที่ถูกต้องสำหรับเลย์เอาต์หลายคอลัมน์ใหม่
รักษาโครงสร้างย่อหน้าและระยะห่าง
จัดการตารางที่มีขอบเขตแถวและคอลัมน์
รองรับ PDF ได้ถึงหลายร้อยหน้า
ส่งออกไฟล์ TXT ที่สะอาดสำหรับดาวน์โหลด
ดูตัวอย่างข้อความที่แยกในเบราว์เซอร์ก่อนดาวน์โหลด
คัดลอกข้อความโดยตรงจากแผงตัวอย่าง
ประมวลผล PDF ที่มีโครงสร้างข้อความที่ซ้อนกันซับซ้อน
ระบุและข้ามองค์ประกอบตกแต่งหรือข้อความที่ไม่มีความหมาย
ทำงานกับ PDF ที่ป้องกันด้วยรหัสผ่านหากคุณระบุรหัสผ่าน
ไม่ต้องมีบัญชีหรือลงทะเบียน
ไฟล์ถูกลบทันทีหลังประมวลผล
การเข้ารหัส TLS สำหรับการอัปโหลดทั้งหมด
ทำงานในเบราว์เซอร์สมัยใหม่ทั้งหมด

กรณีการใช้งาน

การคัดลอกเนื้อหารายงานเพื่อวางในตัวแก้ไขเอกสาร
การแยกข้อกำหนดสัญญาเพื่อตรวจสอบทางกฎหมายในตัวแก้ไขข้อความ
การดึงข้อมูลจากใบแจ้งหนี้ PDF ไปยังเวิร์กโฟลว์สเปรดชีต
การแยกข้อความเอกสารวิจัยสำหรับเครื่องมือจัดการการอ้างอิง
การป้อนเนื้อหา PDF ไปยังเครื่องมือแปลหรือโลคัลไลเซชัน
การสร้างดัชนีข้อความที่ค้นหาได้จากไลบรารีไฟล์ PDF
การแยกคำอธิบายผลิตภัณฑ์จากแค็ตตาล็อก PDF ของซัพพลายเออร์
การเตรียมเนื้อหา PDF สำหรับป้อนข้อมูลไปยังเครื่องมือสรุปหรือวิเคราะห์ด้วย AI

วิธีใช้งาน

1อัปโหลด PDF ของคุณโดยคลิกที่บริเวณอัปโหลดหรือลากไฟล์จากตัวจัดการไฟล์ของคุณ
2เลือกการตั้งค่าผลลัพธ์ของคุณ ข้อความธรรมดาหรือข้อความที่จัดรูปแบบพร้อมระยะห่างย่อหน้าที่รักษาไว้
3คลิก 'แยก' และรอขณะที่เครื่องมือประมวลผลชั้นข้อความของเอกสาร
4ตรวจสอบข้อความที่แยกในแผงตัวอย่าง ตรวจสอบว่าลำดับคอลัมน์และโครงสร้างย่อหน้าถูกต้อง
5ดาวน์โหลดไฟล์ TXT หรือคัดลอกข้อความโดยตรงจากตัวอย่างไปยังคลิปบอร์ดของคุณ

คุณเปิด PDF พยายามคัดลอกย่อหน้า แต่ได้รับทั้งไม่มีอะไรหรือกองอักขระที่สับสนพร้อมการขึ้นบรรทัดใหม่แบบสุ่มตรงกลางประโยค เกิดขึ้นกับ PDF ที่ส่งออกจากแอปพลิเคชันออกแบบ เอกสารสแกนที่ผ่าน OCR ที่ไม่ดี หรือไฟล์ที่มีเลย์เอาต์หลายคอลัมน์ที่ซับซ้อน ข้อความอยู่ที่นั่นให้เห็น คุณสามารถอ่านได้ แต่คุณไม่สามารถเลือกได้สะอาดพอที่จะวางไว้ที่ใดก็ตามที่มีประโยชน์ ตัวแยกข้อความ PDF เป็นข้อความของ dokk.ai อ่านชั้นเนื้อหาข้อความจริงที่ฝังอยู่ในไฟล์ PDF ไม่ใช่การจับภาพหน้าจอ สำหรับ PDF มาตรฐานที่มีข้อความนั่นหมายความว่าอักขระ คำ และย่อหน้าทุกตัวจะถูกดึงออกมาอย่างแม่นยำตามโครงสร้าง รวมถึงลำดับการอ่านสำหรับเลย์เอาต์หลายคอลัมน์ ขอบเขตเซลล์ตาราง รายการ และเชิงอรรถ เลย์เอาต์ที่มีคอลัมน์หนาแน่น เช่น เอกสารวิชาการ บทความสไตล์หนังสือพิมพ์ และโบรชัวร์หลายคอลัมน์ จะได้รับการจัดการด้วยขั้นตอนการวิเคราะห์เลย์เอาต์ที่ระบุพื้นที่ข้อความและสร้างลำดับการอ่านใหม่อย่างถูกต้อง หากไม่มีขั้นตอนนี้ PDF สองคอลัมน์ที่แยกออกอย่างไม่รอบคอบจะสร้างข้อความที่สลับกันจากทั้งสองคอลัมน์ซึ่งอ่านไม่ออก ตัวแยกระบุคอลัมน์เชิงพื้นที่และส่งออกในลำดับที่ถูกต้อง คอลัมน์ซ้ายก่อน สำหรับ PDF ที่สแกนหรือเอกสารที่มีรูปภาพซึ่งไม่มีชั้นข้อความ เครื่องมือแยกมาตรฐานจะรายงานอย่างถูกต้องว่าไม่มีข้อความ ในกรณีเหล่านั้น ควรใช้เครื่องมือ OCR ของ dokk.ai ก่อน ซึ่งประมวลผลหน้าที่สแกนผ่านการรู้จำอักขระด้วยแสงและสร้างชั้นข้อความที่ค้นหาได้ ข้อความที่แยกออกมามีให้เป็นไฟล์ TXT ที่ดาวน์โหลดได้และยังสามารถคัดลอกโดยตรงจากแผงตัวอย่าง ทำให้ง่ายต่อการส่งเนื้อหาที่แยกออกไปยังเครื่องมือแปล ไปป์ไลน์ AI ดัชนีค้นหา หรือสคริปต์การวิเคราะห์เนื้อหา การเข้ารหัส TLS และการลบอัตโนมัติ

คำถามที่พบบ่อย

ความปลอดภัยและความเป็นส่วนตัว

PDF ของคุณถูกอัปโหลดผ่านการเชื่อมต่อ TLS ที่เข้ารหัสและถูกลบจากเซิร์ฟเวอร์ของเราทันทีหลังจากแยกข้อความ เราไม่อ่าน ทำดัชนี หรือจัดเก็บเนื้อหาเอกสารของคุณ ไม่ต้องลงทะเบียน