Comment faire de l'OCR sur un PDF
La reconnaissance optique de caractères (OCR) vous permet d'extraire du texte modifiable à partir d'images ou de documents PDF numérisés. Avec Tenorshare PDNob, vous pouvez facilement effectuer de l'OCR sur des fichiers PDF pour les rendre recherchables et modifiables. Ce guide fournit un tutoriel simple et étape par étape sur comment installer la fonctionnalité OCR et l'utiliser sur vos PDF.
Guide vidéo sur la façon de faire de l'OCR sur un document PDF
1. Qu'est-ce que l'OCR
L'OCR (reconnaissance optique de caractères) est une technologie qui convertit des images numérisées ou des fichiers PDF basés sur des images en texte modifiable et recherchable. Elle est particulièrement utile lors de la gestion de documents numérisés ou de matériaux imprimés sous forme numérique.
2. Télécharger et installer l'OCR
- Lancez le Tenorshare PDNob logiciel sur votre ordinateur.
- Sur l'interface principale, cliquez sur le "OCR PDF" bouton.
- Sélectionnez les fichiers souhaités depuis votre ordinateur, puis cliquez sur "Ouvrir" pour les charger dans PDNob.
- Cliquez sur le "Télécharger" bouton pour télécharger la fonctionnalité OCR si cela vous est demandé.
3. Comment faire de l'OCR sur des PDF
- Une fois la fonctionnalité OCR installée, cliquez sur le "OCR" bouton dans la barre d'outils supérieure pour initier le processus OCR.
- Une fenêtre de paramètres apparaîtra. Vérifiez les paramètres si nécessaire, puis cliquez sur le "Exécuter l'OCR" bouton pour commencer le processus de reconnaissance.
- Après que l'OCR soit terminé, vous pourrez copier et utiliser le texte extrait du PDF.
4. Paramètres OCR avancés (pris en charge dans PDNob 2.0)
PDNob 2.0 introduit les paramètres OCR avancés, permettant aux utilisateurs d’optimiser les résultats de reconnaissance. L’activation de ces paramètres peut améliorer la précision de la reconnaissance, mais peut également ralentir la vitesse de traitement de l’OCR.
Pour accéder à ces options, ouvrez le panneau des paramètres OCR et cliquez sur « Paramètres avancés ». Vous pouvez alors activer ou désactiver des fonctionnalités spécifiques de traitement d’image et de détection de texte. Reportez-vous à la capture d’écran ci-dessous pour connaître l’emplacement exact de cette option.
Découvrez plus en détail ces paramètres dans cette section.
- Rognage automatique de la page – Détecte automatiquement la zone de contenu valide dans l’image et supprime les bords inutiles, rendant la page plus compacte tout en améliorant la précision de la reconnaissance OCR.
- Redressement automatique de la page – Corrige automatiquement les pages inclinées en fonction de l’orientation du texte dans l’image, aligne le texte horizontalement et améliore la précision de la reconnaissance OCR.
- Amélioration du contraste local – Renforce le contraste et la netteté dans les zones locales de l’image afin d’améliorer la lisibilité des textes flous et d’augmenter le taux de réussite de l’OCR. Cela peut légèrement affecter les couleurs d’origine.
- Suppression des taches sombres – Détecte et supprime automatiquement les petits points de bruit sombre dans l’image, rendant la page plus propre et améliorant la lisibilité des résultats OCR.
- Suppression du bruit – Filtre les points blancs et autres bruits présents dans l’image, réduit les interférences et clarifie les contours du texte afin d’améliorer la qualité de reconnaissance OCR.
- Détection du texte dans les images – Lorsqu’elle est activée, l’OCR reconnaît et extrait également le texte présent dans les zones d’image, permettant de capturer le contenu textuel intégré aux images.