La technologie
utilisée au départ avait de grandes lacunes. La numérisation se faisait en mode
image et n’offrait donc pas la possibilité de recherche par mot. L’océrisation, soit la reconnaissance
optique de caractère (OCR en anglais), coûtait alors dix fois plus cher.
[…]
L’institution
utilise un nouveau serveur dédié à la reconnaissance optique (« l’océrisation ») qui permet de
transformer très rapidement les fichiers image en fichiers texte.
[…]
« Malgré
la numérisation et l’océrisation,
notre taux de réussite n’est jamais de 100 %, dit-elle. Les gens peuvent donc
contribuer à faire de la transcription. »
– Stéphane Baillargeon, « BAnQ de données »,
Le Devoir, 6 juin 2015
Ne cherchez pas le mot océrisation dans le
Grand Dictionnaire terminologique (GDT) de l’Office québécois de la langue
française (OQLF) : vous ne le trouverez pas. L’OQLF ne parvient pas plus à
suivre l’usage qu’à faire
du français la langue de travail sur le chantier du mégahôpital francophone de
Montréal.
Le
Wiktionnaire définit l’océrisation comme la « transformation automatique d’un fichier contenant l’image
d’un document en fichier texte ». Le mot n’est pas si nouveau. On le
trouve en 2010 dans un document produit par l’École nationale supérieure des sciences de l'information et des bibliothèques de Villeurbanne :
Le
terme océrisation dérive de l'abréviation OCR : Optical Character
Recognition, c'est-à-dire en français : Reconnaissance optique des
caractères (ROC, peu utilisé).
Techniquement,
il s'agit du traitement d'une image (le texte est scanné, comme par une
photocopieuse) sur laquelle on fait intervenir un logiciel de reconnaissance de
caractères : le logiciel déchiffre les formes et les traduit en lettres.
Une
étape d'apprentissage est parfois nécessaire, c'est-à-dire qu'à chaque
caractère non reconnu, il faut lui indiquer quelle est la lettre en question.
Le
logiciel "traduit" ainsi l'ensemble de l'image en texte, ce qui
permet d'obtenir ainsi un fichier texte.
Ce
procédé permet de convertir des grands ensembles de données en textes,
permettant ainsi la recherche plein-texte. Elle s'applique de préférence aux
textes imprimés mécaniquement.
Il
existe toujours un taux d'erreur dans la reconnaissance de caractère, lié à la
qualité du document initial, aux polices employées, aux notes et à la forme du
texte...
L'océrisation
est une des étapes du processus de numérisation, qui inclut parfois aussi une
structuration des documents (par exemple en xml).
Aucun commentaire:
Enregistrer un commentaire