Skip to content
เครื่องมือทั้งหมด

PDF เป็นข้อความ

แยกข้อความจาก PDF

1อัปโหลด
2ตั้งค่า
3ประมวลผล

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

คุณสมบัติหลัก

  • แยกข้อความโดยตรงจากชั้นเนื้อหา PDF
  • สร้างลำดับการอ่านที่ถูกต้องสำหรับเลย์เอาต์หลายคอลัมน์ใหม่
  • รักษาโครงสร้างย่อหน้าและระยะห่าง
  • จัดการตารางที่มีขอบเขตแถวและคอลัมน์
  • รองรับ PDF ได้ถึงหลายร้อยหน้า
  • ส่งออกไฟล์ TXT ที่สะอาดสำหรับดาวน์โหลด
  • ดูตัวอย่างข้อความที่แยกในเบราว์เซอร์ก่อนดาวน์โหลด
  • คัดลอกข้อความโดยตรงจากแผงตัวอย่าง
  • ประมวลผล PDF ที่มีโครงสร้างข้อความที่ซ้อนกันซับซ้อน
  • ระบุและข้ามองค์ประกอบตกแต่งหรือข้อความที่ไม่มีความหมาย
  • ทำงานกับ PDF ที่ป้องกันด้วยรหัสผ่านหากคุณระบุรหัสผ่าน
  • ไม่ต้องมีบัญชีหรือลงทะเบียน
  • ไฟล์ถูกลบทันทีหลังประมวลผล
  • การเข้ารหัส TLS สำหรับการอัปโหลดทั้งหมด
  • ทำงานในเบราว์เซอร์สมัยใหม่ทั้งหมด

กรณีการใช้งาน

  • การคัดลอกเนื้อหารายงานเพื่อวางในตัวแก้ไขเอกสาร
  • การแยกข้อกำหนดสัญญาเพื่อตรวจสอบทางกฎหมายในตัวแก้ไขข้อความ
  • การดึงข้อมูลจากใบแจ้งหนี้ PDF ไปยังเวิร์กโฟลว์สเปรดชีต
  • การแยกข้อความเอกสารวิจัยสำหรับเครื่องมือจัดการการอ้างอิง
  • การป้อนเนื้อหา PDF ไปยังเครื่องมือแปลหรือโลคัลไลเซชัน
  • การสร้างดัชนีข้อความที่ค้นหาได้จากไลบรารีไฟล์ PDF
  • การแยกคำอธิบายผลิตภัณฑ์จากแค็ตตาล็อก PDF ของซัพพลายเออร์
  • การเตรียมเนื้อหา PDF สำหรับป้อนข้อมูลไปยังเครื่องมือสรุปหรือวิเคราะห์ด้วย AI

วิธีใช้งาน

  1. 1อัปโหลด PDF ของคุณโดยคลิกที่บริเวณอัปโหลดหรือลากไฟล์จากตัวจัดการไฟล์ของคุณ
  2. 2เลือกการตั้งค่าผลลัพธ์ของคุณ ข้อความธรรมดาหรือข้อความที่จัดรูปแบบพร้อมระยะห่างย่อหน้าที่รักษาไว้
  3. 3คลิก 'แยก' และรอขณะที่เครื่องมือประมวลผลชั้นข้อความของเอกสาร
  4. 4ตรวจสอบข้อความที่แยกในแผงตัวอย่าง ตรวจสอบว่าลำดับคอลัมน์และโครงสร้างย่อหน้าถูกต้อง
  5. 5ดาวน์โหลดไฟล์ TXT หรือคัดลอกข้อความโดยตรงจากตัวอย่างไปยังคลิปบอร์ดของคุณ

คุณเปิด PDF พยายามคัดลอกย่อหน้า แต่ได้รับทั้งไม่มีอะไรหรือกองอักขระที่สับสนพร้อมการขึ้นบรรทัดใหม่แบบสุ่มตรงกลางประโยค เกิดขึ้นกับ PDF ที่ส่งออกจากแอปพลิเคชันออกแบบ เอกสารสแกนที่ผ่าน OCR ที่ไม่ดี หรือไฟล์ที่มีเลย์เอาต์หลายคอลัมน์ที่ซับซ้อน ข้อความอยู่ที่นั่นให้เห็น คุณสามารถอ่านได้ แต่คุณไม่สามารถเลือกได้สะอาดพอที่จะวางไว้ที่ใดก็ตามที่มีประโยชน์ ตัวแยกข้อความ PDF เป็นข้อความของ dokk.ai อ่านชั้นเนื้อหาข้อความจริงที่ฝังอยู่ในไฟล์ PDF ไม่ใช่การจับภาพหน้าจอ สำหรับ PDF มาตรฐานที่มีข้อความนั่นหมายความว่าอักขระ คำ และย่อหน้าทุกตัวจะถูกดึงออกมาอย่างแม่นยำตามโครงสร้าง รวมถึงลำดับการอ่านสำหรับเลย์เอาต์หลายคอลัมน์ ขอบเขตเซลล์ตาราง รายการ และเชิงอรรถ เลย์เอาต์ที่มีคอลัมน์หนาแน่น เช่น เอกสารวิชาการ บทความสไตล์หนังสือพิมพ์ และโบรชัวร์หลายคอลัมน์ จะได้รับการจัดการด้วยขั้นตอนการวิเคราะห์เลย์เอาต์ที่ระบุพื้นที่ข้อความและสร้างลำดับการอ่านใหม่อย่างถูกต้อง หากไม่มีขั้นตอนนี้ PDF สองคอลัมน์ที่แยกออกอย่างไม่รอบคอบจะสร้างข้อความที่สลับกันจากทั้งสองคอลัมน์ซึ่งอ่านไม่ออก ตัวแยกระบุคอลัมน์เชิงพื้นที่และส่งออกในลำดับที่ถูกต้อง คอลัมน์ซ้ายก่อน สำหรับ PDF ที่สแกนหรือเอกสารที่มีรูปภาพซึ่งไม่มีชั้นข้อความ เครื่องมือแยกมาตรฐานจะรายงานอย่างถูกต้องว่าไม่มีข้อความ ในกรณีเหล่านั้น ควรใช้เครื่องมือ OCR ของ dokk.ai ก่อน ซึ่งประมวลผลหน้าที่สแกนผ่านการรู้จำอักขระด้วยแสงและสร้างชั้นข้อความที่ค้นหาได้ ข้อความที่แยกออกมามีให้เป็นไฟล์ TXT ที่ดาวน์โหลดได้และยังสามารถคัดลอกโดยตรงจากแผงตัวอย่าง ทำให้ง่ายต่อการส่งเนื้อหาที่แยกออกไปยังเครื่องมือแปล ไปป์ไลน์ AI ดัชนีค้นหา หรือสคริปต์การวิเคราะห์เนื้อหา การเข้ารหัส TLS และการลบอัตโนมัติ

คำถามที่พบบ่อย

ความปลอดภัยและความเป็นส่วนตัว

PDF ของคุณถูกอัปโหลดผ่านการเชื่อมต่อ TLS ที่เข้ารหัสและถูกลบจากเซิร์ฟเวอร์ของเราทันทีหลังจากแยกข้อความ เราไม่อ่าน ทำดัชนี หรือจัดเก็บเนื้อหาเอกสารของคุณ ไม่ต้องลงทะเบียน