dimanche 7 juin 2015

Quand l’usage tire plus vite que votre ombre ou la malédiction de Lucky Luke


La technologie utilisée au départ avait de grandes lacunes. La numérisation se faisait en mode image et n’offrait donc pas la possibilité de recherche par mot. L’océrisation, soit la reconnaissance optique de caractère (OCR en anglais), coûtait alors dix fois plus cher.
[…]
L’institution utilise un nouveau serveur dédié à la reconnaissance optique (« l’océrisation ») qui permet de transformer très rapidement les fichiers image en fichiers texte.
[…]
« Malgré la numérisation et l’océrisation, notre taux de réussite n’est jamais de 100 %, dit-elle. Les gens peuvent donc contribuer à faire de la transcription. »
– Stéphane Baillargeon, « BAnQ de données », Le Devoir, 6 juin 2015


Ne cherchez pas le mot océrisation dans le Grand Dictionnaire terminologique (GDT) de l’Office québécois de la langue française (OQLF) : vous ne le trouverez pas. L’OQLF ne parvient pas plus à suivre l’usage qu’à faire du français la langue de travail sur le chantier du mégahôpital francophone de Montréal.


Le Wiktionnaire définit l’océrisation comme la « transformation automatique d’un fichier contenant l’image d’un document en fichier texte ». Le mot n’est pas si nouveau. On le trouve en 2010 dans un document produit par l’École nationale supérieure des sciences de l'information et des bibliothèques de Villeurbanne :

Le terme océrisation dérive de l'abréviation OCR : Optical Character Recognition, c'est-à-dire en français : Reconnaissance optique des caractères (ROC, peu utilisé).
Techniquement, il s'agit du traitement d'une image (le texte est scanné, comme par une photocopieuse) sur laquelle on fait intervenir un logiciel de reconnaissance de caractères : le logiciel déchiffre les formes et les traduit en lettres.
Une étape d'apprentissage est parfois nécessaire, c'est-à-dire qu'à chaque caractère non reconnu, il faut lui indiquer quelle est la lettre en question.
Le logiciel "traduit" ainsi l'ensemble de l'image en texte, ce qui permet d'obtenir ainsi un fichier texte.
Ce procédé permet de convertir des grands ensembles de données en textes, permettant ainsi la recherche plein-texte. Elle s'applique de préférence aux textes imprimés mécaniquement.
Il existe toujours un taux d'erreur dans la reconnaissance de caractère, lié à la qualité du document initial, aux polices employées, aux notes et à la forme du texte...

L'océrisation est une des étapes du processus de numérisation, qui inclut parfois aussi une structuration des documents (par exemple en xml).

Aucun commentaire:

Enregistrer un commentaire