Conseils de numérisation pour améliorer l’OCR

Lorsque vous numérisez un texte, efforcez-vous d’utiliser les valeurs ci-dessous pour obtenir les meilleurs résultats possibles :
 

Type d’objet

Résolution

Documents

300 ppp noir et blanc
– ou –
200 ppp niveaux de gris ou couleur

Documents de qualité médiocre
ou imprimés en petits caractères

400 ppp noir et blanc
– ou –
300 ppp niveaux de gris

Vous pouvez utiliser le logiciel d’OCR intégré à PaperPort pour copier du texte provenant de documents numérisés dans des programmes de traitement de texte ou des tableurs.

Ce processus est appelé « conversion » dans la mesure où l’OCR lit, traduit et convertit les caractères numérisés en texte éditable.

 

Si PaperPort est présent sur un ordinateur doté d’OmniPage, les services d’OCR de ce dernier viennent compléter les fonctionnalités de PaperPort. Voir Utiliser OmniPage avec PaperPort. Pour connaître la liste détaillée des fonctionnalités d’OCR d’OmniPage, consultez le site www.nuance.fr.

Remarques

L’OCR exige une résolution de numérisation comprise entre 150 et 600 ppp.

Notez que la conversion du texte numérisé par OCR n’est pas toujours parfaite ; avec la plupart des documents – et selon la qualité de l’original –, le logiciel d’OCR de PaperPort permet d’obtenir une précision de l’ordre de 98 %. Toutefois, l’OCR peut être plus difficile à exécuter sur certains types de document. Si le document contient de très petits caractères, la numérisation à 400 ppp donne de meilleurs résultats. Notez que la numérisation à résolution élevée (par exemple, 600 ppp), n’améliore généralement pas les résultats de l’OCR et peut même en réduire la précision.

Les meilleurs résultats d’OCR sont obtenus avec les fichiers à format sans perte, telles que des images PaperPort (.max) affectées du paramètre Qualité maximum, fichiers bitmap/Windows (.bmp) et fichiers TIFF. Avec les fichiers JPEG et les images PaperPort affectées d’une qualité moins élevée, les résultats d’OCR dépendent de la valeur de compression appliquée.

Conseils

Pour obtenir les meilleurs résultats d’OCR possibles, utilisez un original de bonne qualité.

Si une image contient des notes manuscrites ou des lignes de présentation, le logiciel d’OCR essaie d’analyser ces informations comme texte – avec des résultats « variables »… Il est donc conseillé de vérifier le texte converti par OCR.

En général, l’OCR ne permet pas d’obtenir de bons résultats avec les cartes routières ou de géographie, les notes manuscrites, les illustrations, les logos et éléments similaires.

Si une image numérisée contient des éléments de ce type, affichez-la dans une fenêtre d’image, coupez les éléments non reconnaissables et exécutez l’OCR pour extraire le texte de cette image sous forme éditable.

 
 
//

Conseils de numérisation pour améliorer l’OCR