Welke soorten sleutelwoorden werken het beste voor splitsen?

Consistente, unieke zinnen die precies één keer per sectie voorkomen, werken het beste. Voorbeelden zijn 'Factuurnummer', 'Pagina 1 van', 'BIJLAGE', 'Geachte' of document-ID-prefixen. Vermijd zeer veelvoorkomende woorden die veel keer per sectie voorkomen.

Werkt de tool op gescande PDF's?

Splitsen op tekst vereist machine-leesbare tekst. Gescande afbeeldings-PDF's moeten eerst via OCR worden verwerkt om tekst te extraheren. Gebruik de OCR-tool van dokk.ai op de gescande PDF vóór het toepassen van Splitsen op tekst.

Kan ik een reguliere expressie gebruiken als splitsingssleutelwoord?

Ja. Schakel de regex-optie in en voer een patroon in zoals 'Factuur #\d+' om elk factuurnummer te matchen, of '^(januari|februari|maart)' om te splitsen op maandnamen aan het begin van een regel.

Wat gebeurt er als het sleutelwoord niet in het document voorkomt?

Als er geen overeenkomsten worden gevonden, geeft de tool de originele PDF ongewijzigd terug en toont een waarschuwing dat het sleutelwoord niet is gedetecteerd. Controleer de spelling en zorg ervoor dat de PDF machine-leesbare tekst bevat.

Wat is het verschil tussen Splitsen op tekst en Splitsen op bladwijzers?

Splitsen op bladwijzers gebruikt het structurele overzicht dat in de PDF is ingesloten (gemaakt door de documentauteur). Splitsen op tekst gebruikt de daadwerkelijke pagina-inhoud om splitsingspunten dynamisch te vinden. Gebruik Bladwijzers voor gestructureerde documenten met een formeel overzicht; gebruik Splitsen op tekst voor automatisch gegenereerde batchexports waarbij consistente sleutelwoorden aanwezig zijn maar bladwijzers mogelijk ontbreken.

Kan ik de sleutelwoordpagina opnemen of uitsluiten van de uitvoer?

Ja. U kunt configureren of de pagina met het sleutelwoord de eerste pagina van het volgende uitvoerbestand wordt of de laatste pagina van het vorige uitvoerbestand. U kunt ook kiezen om scheidingspagina's volledig te verwijderen als ze geen betekenisvolle inhoud bevatten.

Hoeveel splitsingspunten kan de tool verwerken?

Er is geen harde limiet op splitsingspunten. De tool is getest op documenten met meer dan 1.000 sleutelwoordvoorkomens, waarbij meer dan 1.000 uitvoerbestanden in één ZIP-archief worden geproduceerd.

Worden de uitvoerbestanden automatisch benoemd?

Uitvoerbestanden worden standaard opeenvolgend benoemd (bijv. 'split_001.pdf', 'split_002.pdf'). Als de sleutelwoordovereenkomst een unieke identificator bevat (zoals een factuurnummer), kan die waarde optioneel worden gebruikt in de bestandsnaam.

Kan ik pagina's extraheren van slechts enkele sleutelwoordovereenkomsten?

De standaard workflow splitst bij elke overeenkomst. Voor selectieve extractie gebruikt u Pagina's extraheren na het identificeren van de paginabereiken die u nodig heeft uit de splitsingsvoorvertoning, of Splitsen op paginabereik voor handmatige controle.

Is er een bestandsgroottelimiet?

dokk.ai accepteert PDF's tot 200 MB. Voor grotere batchexports kunt u overwegen het bronbestand eerst doormidden te splitsen en dan Splitsen op tekst toe te passen op elke helft.

Alle tools

Splitsen op tekst

Splitsen wanneer tekst tussen pagina's verandert

1Uploaden

2Configureren

3Verwerken

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Belangrijkste functies

Splits PDF bij elke pagina die een opgegeven sleutelwoord of zin bevat
Hoofdletterongevoelige tekstmatching standaard
Optionele ondersteuning voor reguliere-expressiepatronen voor variabele markeringen
Keuze om de sleutelwoordpagina op te nemen of uit te sluiten in het voorgaande of volgende uitvoerbestand
Werkt met native tekst-PDF's en via OCR verwerkte gescande documenten
Geeft opeenvolgend genummerde bestanden of een ZIP-archief
Verwerkt PDF's met honderden splitsingspunten
Behoudt alle inhoud inclusief afbeeldingen
lettertypen en annotaties
Browser-gebaseerd zonder installatie vereist
Beveiligde TLS-upload en automatische verwijdering binnen 60 minuten

Toepassingen

Een batchfactuurexport splitsen in afzonderlijke factuur-PDF's
Een bulkformulierscan verdelen bij elke 'Formulier-ID' scheidingspagina
Een dagelijkse rapportbundel splitsen bij elke 'Datum:' kop
Afzonderlijke patiëntbrieven extraheren uit een mailmerge-export
Een juridisch transcript verdelen bij elke 'BIJLAGE' markering
Een trainingshandleiding splitsen bij elke 'Module' kop
Afzonderlijke zendingsdossiers isoleren uit een logistiek manifest PDF
Een gescande bankafschriftbatch splitsen bij elk rekeningnummer
Een samengevoegde testresultaten-PDF verdelen bij elke studentnaam
Afzonderlijke polissen extraheren uit een gecombineerde verzekeringsdocumentbatch

Hoe te gebruiken

1Upload de PDF die herhaalde tekstmarkeringen bevat die u als splitsingspunten wilt gebruiken.
2Voer het sleutelwoord of de zin in om op te splitsen. Schakel hoofdletterongevoelige matching in als het hoofdlettergebruik varieert, of voer een reguliere expressie in voor variabele patronen.
3Kies of de pagina met het sleutelwoord het volgende uitvoerbestand start of het vorige beëindigt — dit bepaalt waar scheidingspagina's terechtkomen.
4Klik op Verwerken. dokk.ai scant elke pagina, identificeert alle overeenkomsten en splitst het document bij elk voorkomen.
5Download de afzonderlijke gesplitste bestanden of een ZIP-archief. Bestanden worden opeenvolgend benoemd en elk komt overeen met één sectie tussen sleutelwoordvoorkomens.

Wanneer een PDF een batchexport is die meerdere samengevoegde documenten bevat — honderden facturen in één bestand, een dagproductie aan gescande formulieren, of een automatisch gegenereerd rapport waarbij elke sectie begint met een bekende kop — is het splitsen op een vast sleutelwoord veel sneller dan handmatig paginabereiken identificeren. Splitsen op tekst scant elke pagina op een zin die u opgeeft en maakt een nieuw uitvoerbestand elke keer dat die zin verschijnt, waarbij de eigen inhoud van het document effectief wordt gebruikt als splitsingskaart. Dit is de tool die crediteurenautomatisering, formulierverwerkingspijplijnen en bulkdocumentdistributie-workflows completeert. Een boekhoudsysteem exporteert 500 facturen als één PDF; Splitsen op tekst vindt 'FACTUURNUMMER' op elke scheidingspagina en produceert 500 afzonderlijke factuurbestanden. Een medisch dossiersysteem batcht patiëntbrieven; de tool splitst op 'Geachte patiënt' om één brief per patiënt te produceren. Een logistiek bedrijf ontvangt dagelijkse manifesten waarbij elke zending begint met een barcodelabel met 'ZENDING-ID'; de tool isoleert elke zending in zijn eigen bestand voor verdere verwerking. U kunt kiezen of de sleutelwoordpagina zelf wordt opgenomen in het uitvoerbestand of wordt weggegooid — handig voor scheidingspagina's die geen betekenisvolle inhoud van zichzelf dragen. Hoofdletterongevoelige matching zorgt ervoor dat u zich geen zorgen hoeft te maken over variaties in hoofdlettergebruik in automatisch gegenereerde documenten. Reguliere-expressiepatronen worden ondersteund voor geavanceerde gebruiksscenario's waarbij de splitsingsmarkering variabel is, zoals 'Factuur #\d+' die elk factuurnummer matcht. Splitsen op tekst complementeert Splitsen op bladwijzers voor documenten die geen formeel overzicht hebben maar wel consistente tekstuele markeringen. Als uw documenten beide hebben, zijn bladwijzers doorgaans betrouwbaarder omdat ze structureel zijn in plaats van inhoudsgebaseerd. Combineer voor maximale flexibiliteit de twee benaderingen: splitsen op bladwijzers op hoofdstukniveau, dan splitsen op tekst binnen hoofdstukken om afzonderlijke records te isoleren. Alle bestandsverwerking vindt plaats op de beveiligde infrastructuur van dokk.ai. Bestanden worden verwijderd binnen 60 minuten en nooit gebruikt voor machine learning of gedeeld met derden. De uitvoerbestanden zijn standaard PDF's die compatibel zijn met elke lezer, printer en documentbeheersysteem.

Veelgestelde vragen

Beveiliging en privacy

De documenttekst wordt alleen gescand om het splitsingssleutelwoord te vinden en wordt niet opgeslagen of geïndexeerd. Alle bestanden worden overgedragen via TLS en verwijderd binnen 60 minuten na verwerking. dokk.ai voldoet aan de AVG en gebruikt documentinhoud nooit voor training of analyses.