Quelles langues l'OCR prend-il en charge ?

Le moteur OCR prend en charge plus de 100 langues incluant toutes les principales langues européennes, l'arabe, le chinois (simplifié et traditionnel), le japonais, le coréen, le russe, le grec, le thaï, le vietnamien et bien d'autres. Sélectionnez la langue correcte dans la liste déroulante pour une précision optimale.

L'OCR modifiera-t-il l'apparence de mon document numérisé ?

Non. La couche de texte est ajoutée de manière invisible sous les images de numérisation originales. L'aspect visuel du document reste exactement identique — les numérisations originales sont préservées comme images de page et le texte OCR est superposé de manière invisible.

Quelle précision l'OCR peut-il atteindre ?

Pour des numérisations claires à haute résolution (300+ DPI) de texte dactylographié ou imprimé dans des langues latines, la précision est généralement de 98-99%. La précision diminue pour les numérisations de basse résolution, les textes manuscrits, les polices décoratives et les scripts complexes. Le redressement préalable des pages inclinées améliore significativement la précision.

L'OCR fonctionnera-t-il sur du texte manuscrit ?

L'OCR standard est optimisé pour le texte imprimé et dactylographié. Le texte manuscrit a généralement une précision plus faible — souvent 60-80% selon la netteté de l'écriture. Pour le texte manuscrit, les meilleurs résultats proviennent de numérisations claires en écriture cursive lisible ou en lettres d'imprimerie.

Puis-je exécuter l'OCR sur un PDF qui contient déjà du texte ?

Oui. Le mode de saut de texte détecte les pages qui contiennent déjà une couche de texte et les ignore, en exécutant l'OCR uniquement sur les pages d'images pures. Cela évite la double couche de texte sur les documents mixtes.

Quelle résolution de numérisation donne les meilleurs résultats OCR ?

300 DPI est la résolution de numérisation recommandée pour l'OCR. C'est la norme industrielle qui équilibre précision et taille de fichier. 150 DPI fonctionne pour le texte de grande taille mais peut manquer les petits caractères. 600 DPI améliore légèrement la précision sur les petites polices mais produit des fichiers nettement plus grands.

L'OCR peut-il gérer les tableaux dans les documents numérisés ?

Oui. Le moteur OCR détecte les structures de tableau et extrait le texte dans l'ordre correct des cellules. Pour les PDF numérisés avec des tableaux que vous souhaitez éditer comme données de feuille de calcul, exécutez d'abord l'OCR puis utilisez l'outil PDF vers Excel pour extraire les données du tableau.

Y a-t-il une limite sur le nombre de pages que je peux traiter avec l'OCR ?

Il n'y a pas de limite stricte de pages. La limite s'applique à la taille du fichier importé. Les grands documents multi-pages prennent plus de temps à traiter — un document de 100 pages prend généralement 1-3 minutes selon la complexité.

Le PDF consultable résultant fonctionnera-t-il avec les lecteurs d'écran ?

Oui. L'ajout d'une couche de texte OCR rend le document accessible aux technologies d'assistance incluant JAWS, NVDA et VoiceOver. C'est l'une des principales utilisations de l'OCR dans les flux de travail de conformité à l'accessibilité.

Puis-je extraire uniquement le texte depuis l'OCR sans créer un PDF consultable ?

Oui. Choisissez 'Texte brut' comme format de sortie au lieu de 'PDF consultable'. L'outil extrait tout le texte OCR et le livre sous forme de fichier .txt. C'est utile pour alimenter le texte dans des systèmes d'analyse, des outils de traduction ou des pipelines IA.

Tous les outils

OCR

Reconnaître le texte dans les scans

1Téléverser

2Configurer

3Traiter

Drop file here

PDF, Word, Excel, PowerPoint, images up to 25 MB

Fonctionnalités clés

Reconnaissance de texte alimentée par IA avec prise en charge de plus de 100 langues
Couche de texte invisible préservant l'apparence visuelle originale des numérisations
Gère les mises en page multi-colonnes complexes et les tableaux avec précision
Fonctionne sur les PDF numérisés et images (JPG
PNG
TIFF)
Traite les documents multi-pages en une seule opération
Plusieurs formats de sortie — PDF consultable ou texte brut extrait
Améliore l'accessibilité — les PDF consultables fonctionnent avec les lecteurs d'écran
Mode de saut de texte évitant de retraiter les pages contenant déjà du texte
Compatible avec Redresser pour une meilleure précision sur les numérisations inclinées
Aucun filigrane ni inscription requis
Fonctionne sur tout appareil — bureau
tablette et navigateur mobile
Chiffrement TLS et suppression automatique après traitement

Cas d'usage

Rendre les contrats numérisés consultables pour trouver des clauses par mot-clé
Numériser les archives papier en référentiel numérique consultable
Permettre le copier-coller depuis des articles académiques et documents de recherche numérisés
Rendre les documents numérisés accessibles aux lecteurs d'écran pour les malvoyants
Extraire les numéros et dates de factures numérisées pour la comptabilité
Convertir des notes de tableau blanc photographiées en fichiers de référence consultables
Traiter les formulaires d'admission patient numérisés pour la saisie de données de santé
Préparer les dépôts légaux numérisés pour la recherche plein texte en gestion de dossiers
Convertir d'anciens documents dactylographiés au format numérique consultable
Extraire le texte de cartes de visite numérisées et fiches de contact

Comment utiliser

1Importez votre PDF numérisé ou fichier image (JPG, PNG, TIFF) en le faisant glisser dans la zone d'import
2Sélectionnez la langue principale du document — cela aide le moteur OCR à optimiser la reconnaissance de caractères pour ce script
3Choisissez le format de sortie : PDF consultable (couche de texte ajoutée à l'original) ou fichier texte brut
4Cliquez sur Exécuter l'OCR et attendez le traitement — les documents multi-pages prennent généralement 10 à 30 secondes
5Téléchargez le PDF consultable. Ouvrez-le dans n'importe quel lecteur PDF et vérifiez que la sélection de texte fonctionne correctement

Un document numérisé est essentiellement une photographie — il ressemble à du texte mais les ordinateurs ne peuvent pas le lire, le rechercher ou le copier. La reconnaissance optique de caractères (OCR) analyse l'image de chaque page et génère une couche de texte invisible qui se superpose aux images de numérisation originales. Le résultat est un PDF consultable dans lequel vous pouvez effectuer Ctrl+F, sélectionner du texte, copier des passages et indexer le document dans des systèmes de gestion documentaire. dokk.ai utilise un moteur OCR haute précision prenant en charge plus de 100 langues incluant les scripts latins, cyrilliques, arabes, chinois, japonais et coréens. La couche de texte est positionnée précisément sous chaque mot visible de sorte que la sélection de texte fonctionne exactement là où vous cliquez. La mise en page visuelle originale du document numérisé — images, mise en page, mise en forme — est entièrement préservée. Pour de meilleurs résultats, utilisez l'outil Redresser avant l'OCR si vos pages numérisées sont légèrement inclinées. Les pages droites produisent une précision OCR significativement plus élevée que les pages inclinées. L'OCR de dokk.ai traite aussi bien les fichiers PDF numérisés que les images indépendantes (JPG, PNG, TIFF). Vous pouvez traiter des documents de plusieurs pages en une seule opération — téléchargez un livre numérisé de 200 pages et obtenez un PDF entièrement consultable. L'outil offre plusieurs formats de sortie : conservez le PDF consultable pour l'archivage, ou extrayez le texte reconnu en fichier TXT pour traitement ultérieur. Fichiers protégés par TLS et supprimés automatiquement.

Questions fréquentes

Sécurité et confidentialité

Vos fichiers sont transférés via chiffrement TLS et traités dans un environnement isolé. Les documents numérisés et les résultats OCR sont automatiquement supprimés après votre session. dokk.ai ne lit, n'indexe ni ne conserve le contenu de vos documents. Aucun compte requis. Conforme au RGPD.