Je retrouve cet article présenté lors d'un des CNRIUT (Colloque National de la Recherche dans les IUT) d'antan.
Au sujet d'une définition de la « numérisation »
Henri Habrias
IUT de Nantes
Département Informatique
3 rue Ml Joffre, 44041 Nantes, CEDEX 1
henri.habrias@univ-nantes.fr
Sections de rattachement : 27
Secteur : Tertiaire
RÉSUMÉ : Nous analysons une définition de la « numérisation » fournie dans le texte d’une décision d’un tribunal, à la lumière des concepts fondamentaux de l’informatique.
MOTS-CLÉS : Numérisation, Digital, Analogique, Information, Numération, Codage, Binaire, Droit d’auteur, Internet
1. Introduction
L’informatique est considérée par certains comme une technique, par d’autres comme un outil une par d’autres comme et par d’autres, enfin, comme une science (Arsac 1970). Mais nous avons pu vérifier qu’un très fort pourcentage des personnes qui se déclarent informaticiens en France et qui ont un diplôme d’informatique (y compris de 3e cycle) ne peuvent citer un seul nom de titulaire du prix Turing, peu le « prix Nobel » de l’informatique (Shasha 1995). Des termes comme « machine de Turing », « machine de von Neuman » sont souvent ignorés.
Le but de cet article est de montrer les conséquences de la perception de l’informatique telle qu’elle apparaît dans bien des enseignements dits « d’informatique » qui passent à côté de l’essentiel. Nous illustrons notre propos en analysant une définition de la « numérisation » fournie dans un arrêt de TGI.
L’informatique étant aujourd’hui en œuvre dans notre vie quotidienne, inévitablement, le juriste est amené à traiter de concepts relatifs à l’informatique. La définition étudiée est apparue dans une ordonnance de référé du Tribunal de Grande Instance de Paris, du 5 mai 1997, Queneau c/ Leroy et autres, n° 54777/97. En l’occurrence, nous ne pensons pas que cette définition ait été essentielle dans les arguments ayant conduit le TGI a condamner l’étudiant1. Mais une telle définition a toutes les chances d’être reproduite et sans doute enseignée ! D’ailleurs nous en avons pris connaissance dans (Editions Législatives 1997).
Cette définition illustre, en partie, le mélange de niveaux d’abstraction que l’on rencontre quand on parle d’informatique, mélange qui est au cœur de la philosophie de la connaissance (réalisme, nominalisme), du rapport entre les noms et les choses, des rapports entre la métaphysique et le formalisme. Elle montre aussi que l’on ne peut se passer de théorie. Puisque ce colloque rassemble des enseignants-chercheurs des IUT, nous insistons sur le fait que, les départements informatique des IUT comportant des enseignements de mathématiques, logique, économie, gestion, droit de l’informatique, théorie des langages, modélisation, etc. dispensés sur une très courte période, il est essentiel que les concepts soient clairement explicités. Nous terminons cette présentation par un extrait d’un ouvrage qui est sans doute plus destiné à des « automaticiens » qu’à des informaticiens (une différenciation qui mériterait d’être explicitée). Ce texte illustre le fait que, même dans des domaines fort proches, ce qui est acceptable pour l’un ne l’est pas pour l’autre.
2. La définition du TGI de Paris
Situons d’abord l’affaire qui a conduit à cette définition.
En l’espèce, un étudiant avait reproduit sur ses pages personnelles hébergées sur un serveur fourni par une université française, Paris VIII, une œuvre de Raymond Queneau (Cent milliards de poèmes). L’étudiant avait fait un recueil interactif, sans l’autorisation des ayants droits de l’auteur. Le lecteur avait un nombre colossal de possibilités pour construire un poème à partir d’un découpage de l’œuvre de R. Queneau faite par l’étudiant. Le fils de R. Queneau et les éditions Gallimard, cessionnaires des droits de reproduction et de représentation, ont saisi le TGI aux fins de voir ordonner ou constater la cessation du trouble en application du droit d’auteur. Le TGI a répondu favorablement à leur demande. La décision du tribunal, venant après d’autres décisions allant dans le même sens, généralise l’application du droit d’auteur à la diffusion sur Internet d’une œuvre protégée. Le Tribunal de grande instance de Paris, dans sa décision du 5 mai 1997, pose une définition de la mise en ligne d'une œuvre protégée sur le réseau Internet :
la numérisation d'une œuvre est une « technique consistant à traduire le signal analogique qu'elle constitue en un mode numérique ou binaire qui représente l'information dans un symbole à deux valeurs 0 et 1 dont l'unité est le Bit »
La définition donnée par le tribunal est loin d'être claire. Nous nous proposons de l'examiner à la lumière de la science informatique.
3. Analyse de la définition du tribunal
Nous distinguerons deux parties dans cette définition :
– la première partie
« traduire le signal analogique qu'elle constitue en un mode numérique ou binaire » qui pose la question de savoir à quel type d'œuvre il est fait référence, i.e. s'agit-il d'images (les pages d'un livre peuvent être vues comme des images) ou d'écrits ?
– la deuxième partie
« mode numérique ou binaire qui représente l'information dans un symbole à deux valeurs 0 et 1 dont l'unité est le Bit » qui laisse perplexe l'informaticien ou le sémiologue.
3.1. Première partie : analogique, écrit, niveaux d’abstraction, logique vs physique
La définition donnée ici de la numérisation correspond à celle utilisée par ceux qui font du traitement de signal. La numérisation d'un signal permet effectivement de coder l'information portée par un signal analogique sous forme numérique. Elle se base sur les travaux de Shannon relatifs à la théorie de l'information. La numérisation d'un signal comporte normalement 3 phases :
– échantillonnage du signal (à une fréquence > ou = au double de la fréquence
maximale du signal analogique d'après Shannon2), i.e. projection de la composante continue temporelle sur un ensemble discret
– quantification, i.e. projection de la composante continue en amplitude sur un ensemble discret (appelé échelle de quantification)
– codage des points résultants des 2 premières étapes
Le problème dans tout cela réside dans le procédé permettant de considérer un livre comme un signal analogique. Ou alors il s'agit de l'ensemble des images qui constituent le livre physique.
Un livre peut être abstrait comme étant un écrit. Un écrit se définit par le fait que les graphèmes sont disposés l'un à la suite de l'autre. Ce qui différencie un écrit d'une image est le fait que, pour lire, il faille suivre une suite de graphèmes. Dans les écoles maternelles, on parle de « sérialisation ». On apprend les élèves à lire/écrire en commençant par leur apprendre à écrire une histoire en constituant une suite d'images.
On ne lit pas le tableau de la Joconde. Certes, dans certains enseignements, on apprend « à lire » un tableau de telle ou telle école de peinture : il s'agit alors de séquentialiser la perception sur des parties du tableau en suivant une certaine suite d'éléments.
Ces graphèmes ne sont pas forcément contigus. Par exemple, dans un « hyper texte », on peut avoir un graphème suivi d'un autre qui est un pointeur vers une autre suite de graphèmes située dans d'autres pages. Selon les langues, la lecture peut se faire de gauche à droite (comme en français), de droite à gauche comme en Arabe.
Linéaire ne veut pas dire que l'écrit est formé de lignes horizontales ou verticales parallèles. Des poètes ont écrit certaines de leurs œuvres en dessinant des images avec leur texte linéaire.
Enfin, il faut noter que ce qui est un écrit pour une personne donnée peut n'être qu'image pour une autre et aussi qu'une même personne peut voir une chose, à la fois comme un écrit et comme une image. Les monuments musulmans avec leurs arabesques, sont l'occasion d'illustrer cela.
Le livre est écrit avec un certain alphabet dont on peut avoir diverses représentations (les fontes). L'alphabet peut avoir un nombre quelconque de graphèmes formés de traits continus, ou de points qui n'ont rien à voir avec le point mathématique (on devrait dire : de tâches).
On peut toujours disposer d'une table de correspondance entre les éléments de l'alphabet et des mots (suites de caractères) construits avec un alphabet n'ayant que deux éléments. Il faut noter qu'en général, on ne fournit pas directement une telle table de correspondance et que l'on passe par l'intermédiaire d'une correspondance entre les éléments de l'alphabet et des nombres écrits en numération décimale (i.e. sur l'alphabet : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}. Un exemple est celui des codes « ASCII ».
Comme l'on passe d'un niveau d'abstraction (les lettres de l'alphabet par exemple) à la réalisation d'un 0 ou d'un 1 sur un support matériel (curieusement on parle de « dématérialisation » ! En fait il s'agit de dématérialisation pour celui qui, alors qu'il pouvait lire sans artéfact (et encore, combien portent des lunettes !) telle déclaration de revenus, ne peut maintenant la lire que par l'intermédiaire d'un ordinateur), par l'intermédiaire de ce que les mathématiciens appellent les nombres entiers naturels. On dit que l'on « numérise ». Comme, aussi bien un alphabet binaire (composé de deux éléments) qu'un alphabet non binaire (comme l'alphabet français) est un ensemble d'éléments (i.e. du point de vue de la construction des mots, des éléments indécomposables (élémentaires ! atomiques !) – bien sûr un concepteur de fontes, ne les verra pas comme élémentaires !), i.e. ce que les mathématiciens appellent un ensemble discret (les mathématiques pour informaticiens sont principalement des mathématiques discrètes) – on dit que l'on travaille dans le monde du « discret » comme celui des nombres naturels. Voila pourquoi « discret » et « numérique » sont souvent synonymes.
Comment le contenu du livre (le texte) va-t-il donner un texte dans un langage finalement binaire ?
En supposant que l'on passe du livre à un signal analogique qui est ensuite « digitalisé », comment se fait le passage du livre au signal analogique ? Le lecteur habitué au MODEM sait que l'on transporte du digital sur un signal analogique (le son est une onde). Là est la question que se pose le lecteur attentif de la définition fournie par le juge.
Ou alors le lecteur conclut que la définition ne s'applique qu'à de la musique (hors de la partition) ou à des images (on a des ondes en entrée) non encore digitalisées. Rappelons que Douglas Hoffstadter (Hoffstadter 1985) définit l'information comme tout ce que l'on peut transmettre sur une ligne téléphonique : le piano (en bois et en acier) n'est pas de l'information, la partition de musique est de l'information.
3.2. Deuxième partie : symbole, valeur, bit
« en un mode numérique ou binaire qui représente l'information dans un symbole à deux valeurs 0 et 1 dont l'unité est le Bit »
Quel sens peut bien avoir l'expression « un
symbole à deux valeurs 0 et 1 dont l'unité est le Bit »
?
Considérons les premières pages du Cours de linguistique
générale de F. de Saussure (Saussure 1972). Doté du vocabulaire et
des concepts de Saussure, voici comme ce texte peut être interprété
:
– Qu'est ce qu'un symbole ? le signifiant
–
Qu'est-ce que la valeur d'un symbole ? le signifié
– Quelle
est l'unité d'un symbole ? La science ne nous a pas encore donné de
réponse. Le droit non plus !
En termes de la logique des prédicats, on peut interpréter comme suit.
Une variable prend ses valeurs dans un ensemble de mots construits avec un vocabulaire à deux éléments, i.e. un ensemble à deux éléments {0, 1}, ce qu'on écrira formellement : truc seq {0, 1}. Ceci se lit : truc est une variable (la valeur d'une variable dira l'informaticien) qui appartient à l'ensemble3 des suites – 00101 est une suite – que l'on peut faire avec les éléments de l'ensemble {0, 1}. De telles suites s'appellent des mots. S’ils ne sont formés que de 0 et de 1, on les dit « mots binaires ». A chaque position dans le mot (dans la suite) on trouve soit un 1 soit un 0. On dit que c'est un bit, binary digit. Le mot « digit » signifie en anglais « chiffre ». Ici on écrit des mots avec seulement deux chiffres : le 0 et le 1. Il est assez mal venu de dire que le chiffre est binaire. La numération, elle, est binaire. Nous devons reconnaître que nous ne sommes pas arrivés à donner une interprétation à « symbole dont l'unité est le Bit » !
Que recouvre le terme unité ?
Quand on évalue une quantité, on a besoin d'une « unité de mesure », c'est-à-dire d’une quantité prise comme référence pour évaluer toutes celles qui sont de même nature. « Par exemple, dire "5 douzaines d'œufs", "2 kilos de pommes", "3 semaines", c'est exprimer des quantités dont les unités sont respectivement la douzaine d'œufs – si l'on avait compté les œufs un par un, on aurait dit 60 œufs –, le kilo de pommes, la semaine – si on avait compté en jours, on aurait dû dire 21 jours. Ainsi, d'une manière courante, une unité est un choix de quantité, cette quantité étant considérée comme une. » (S. Baruk S. 1992, page 1263, )
Si le symbole est mesuré4 en bit, on peut dire « un symbole de 8 bits » par exemple. Peut-être l'auteur veut-il dire qu'un symbole est un mot construit avec les éléments de l'alphabet {0, 1}. 00010110 serait un symbole de mesure 8 bits.
Mais l'auteur a écrit « représente l'information dans un symbole à deux valeurs 0 et 1 ». 00010110 dans l'interprétation ci-dessus est un symbole qui a comme valeur 00010110 ! Il a une valeur et non 8 valeurs ! Si on est en numération binaire, on peut donner son équivalent en décimal. Et on aura toujours une seule valeur. Il faut remarquer que si on écrit « trois » en décimal, on écrit : 3, et si on écrit 3 en binaire, on écrit : 11, ce qui fait bien trois car on a écrit (merci aux Hindous qui l'ont inventé et aux Arabes qui nous l'ont transmis) implicitement en numération par position : 1 fois 2 plus 1 fois 1 soit trois. On dit parfois qu'on a des « unités » un, deux, quatre, etc. (en décimal, on a des « unités », un, dix, cent, mille). Même dans ce sens, ce n'est pas le bit qui est l'unité.
Mais si j'achète des lettres en métal doré pour inscrire mon nom sur mon portail, le vendeur va sans doute me vendre les lettres à l'unité. L'unité sera non la lettre de l'alphabet mais l'objet métallique représentant une lettre quelconque. On peut toujours mesurer ce que l'on envoie sur une ligne téléphonique en nombre de bits. Mais alors c'est le message qui est mesuré en bits. Notons qu'on est alors fort loin de la sémantique. Si on nous dit « vous êtes virés » cela ne fait pas beaucoup de bits mais fait beaucoup d'effet.
Tentons une re-écriture.
« l'information est représentée par des mots écrits avec un alphabet à deux éléments, 0 et 1. »
Il semble que le rédacteur a confondu les nombres et les diverses numérations (binaires, décimales, etc. ) et aussi la représentation en machine. Si mon ordinateur ne code plus l'information en bits {0, 1} mais en « cits » {a, b}, est-ce que je peux numériser car je ne tombe plus sous la définition qui est à l'appui de la décision de justice considérée
ici ? Il nous semble clair que le droit n’est pas en cause dans la définition de la numérisation fournie par le juge. Il se peut d’ailleurs que cette définition vienne d’un « informaticien ».
4. Conclusion
Nous fournissons ci-après un extrait d’un livre destiné à des élèves de classes préparatoires aux grandes écoles. Il s’agit du premier paragraphe de la première partie de l’ouvrage qui traite des systèmes discrets (ceux traités par les informaticiens).
« Logique combinatoire,
Introduction
Un système combinatoire est un système qui, à
tout instant, peut s’exprimer conformément au schéma de la figure
1 et les relations suivantes :
t Sj = f(Ei) 1
i n, 1
j p.
Les
fonctions de sortie Sj ne dépendent que des
entrées Ei à l’instant considéré. Ei
et Ej sont respectivement des variables et
des fonctions binaires de ces variables, variables et fonctions ne
pouvant prendre que les deux valeurs 0 et 1 par convention. (…)
2.
Approche intuitive, 2.1. Fonctions d’une variable : OUI, NON »
Le lecteur constatera que la définition fournie a des défauts similaires à ceux de la définition de la numération donnée par le juge. Dans le premier cas, nous avons un terme à la mode (on parle même de société numérique !), dans le deuxième cas, nous avons un ouvrage « technique ». Or dans les deux cas, il est bien impossible d’instancier la définition, d’en trouver un « modèle » comme disent les logiciens. Et cela parce que la définition dans les deux cas n’est pas fondée sur des concepts clairement établis. Le chercheur enseignant se doit donc d’être précautionneux lorsqu’il s’adresse à ses étudiants à l’IUT, IUT où on demande aux étudiants de faire des ponts entre matières.
« I beleive it is fundamentally wrong to teach a science like programming by reinforcing the student’intuition when that intuition is inadequate and misguided. On the contrary, our task is to demonstrate that a first intuition is often wrong and to teach the principles, tools, and techniques that will help overcome and change that intuition! Reinforcing inadequate intuitions just compounds the problem. » (Gries David 1990)5 Donner des définitions inadéquates, inopérantes, n’est-ce pas introduire de la complication là où la complexité suffit à notre peine et à celle des étudiants ? On complique un problème quand on choisit des instruments (une notation, un langage, un paradigme par exemple) inadéquats pour le traiter. Par exemple, la numération romaine complique les calculs. La complexité, elle, est intrinsèque au problème. Par exemple, les problèmes NP-complets comme celui du « voyageur de commerce » sont complexes. Il faut chasser la complication et appliquer le rasoir d’Occam : « Ne pas multiplier les entités au delà du nécessaire ». Et les définitions comme celles que nous avons présentées introduisent de la complication et risquent de faire croire que la théorie est inutile. A ce sujet, les évolutions de certains PPN ne nous semblent pas aller dans le bon sens.
Bibliographie
Arsac Jacques, L’informatique pose la question du sens, Conférence prononcée à Nantes, IRIN, Faculté des sciences de Nantes, 2003, texte communiqué sur demande.
Arsac Jacques, La science informatique, Dunod, 1970
Baruk Stella, Dictionnaire de mathématiques élémentaires, Editions du Seuil, 1992, ISBN : 2-02-012334-7
Editions législatives, Dictionnaire permanent Droit des affaires, Evolutions jurisprudentielles 1997, Editions législatives, 1998
Gries David, Formal Development of Programs and Proofs in Teaching Programming and Software Engineering, p.229-236, Addison-Wesley, 1990
Habrias Henri, Dictionnaire encyclopédique du génie logiciel, Préface de Jean-Pierre Finance, Masson, 1997, ISBN : 2-225-85328-2
Habrias Henri, La mesure du logiciel, 2ième édition, corrigée et augmentée, Teknea, 1994, ISBN : 2-87717-045-4
Hoffstadter Douglas, Gödel, Escher, Bach, InterEditions, Paris, 1985, ISBN : 2-7296-0040-X
Saussure, F. de, Cours de linguistique générale, édition critique préparée par Tullio De Mauro, Paris, Payot, 1972, ISBN : 06 87 472749
Shasha Denis, Lazere Cathy, Out of Their Minds, The Lives and Discoveries of 15 Great Computer Scientists, Copernicus, Springer Verlag, 1995, ISBN : 06387-97992-1
Remerciements
Nous remercions Sébastien Faucou qui a été un relecteur critique d’une première version de ce texte et qui a permis de l’améliorer.
1 « A une décision donnée, il peut exister des motivations inconscientes, irrationnelles, inavouées voire inavouables », Yann Tanguy in Le droit à l’épreuve de l’informatique juridique, Revue Politiques et Management Public, vol. 11, n°4, déc. 1993
2 Le théorème de Shannon stipule que pour pouvoir numériser correctement un signal, il faut échantillonner à une fréquence double (ou supérieure) à la fréquence du signal analogique que l'on échantillonne.
3 Il ne faut pas confondre un ensemble (ça n’a pas de sens que de dire que l’ensemble {1, 2, 8} peut être modifié, un ensemble est une expression. On dit aussi que c’est une valeur) et une variable qui prend comme valeur un ensemble. Quand on écrit truc seq {0, 1}, on écrit un prédicat, une propriété invariante de la variable truc. truc est toujours une suite construite sur l’ensemble {0,1}.Ca a du sens que de vouloir prouver un prédicat, ça n’a pas de sens que de vouloir prouver une expression. Une valeur est éternelle, n’est pas modifiable.
4 On peut résumer le concept de mesure comme suit. Considérons un ensemble de prédicats empiriques (exemple d’un élément de cet ensemble : x est beaucoup plus grand que y). On définit alors une fonction (F) totale de l’ensemble des entités à mesurer (on va choisir de mesurer leur attribut taille) vers un ensemble de nombres (par exemple, pour la taille, 72). On définit ensuite un ensemble prédicats formels (exemple d’un élément de cet ensemble : x > y +15) sur les nombres et une fonction totale de l’ensemble des relations empiriques vers l’ensemble des prédicats formels (exemple d’un élément de cette fonction : (x est plus grand que, x > y + 15). Tous les prédicats du système empirique doivent être préservés dans le système numérique par la fonction F. Une telle correspondance est un homomorphisme. On dit aussi une « représentation ». Le fait que tous les prédicats empiriques soient préservés fait de cette correspondance une mesure de l’attribut taille. (habrias 1994)
5 Cité dans le cours inaugural de Roland Backhouse, Mathematics and Programming. A Revolution in the Art of Effective Reasoning, School of Computer Science and Information Technology, University of Nottingham, 2001

