Je retrouve cet article présenté lors d'un des CNRIUT (Colloque National de la Recherche dans les IUT) d'antan.
Au
sujet d'une définition de la « numérisation »
Henri
Habrias
IUT
de Nantes
Département Informatique
3
rue Ml Joffre, 44041 Nantes, CEDEX 1
henri.habrias@univ-nantes.fr
Sections de
rattachement : 27
Secteur :
Tertiaire
RÉSUMÉ :
Nous analysons une définition de la « numérisation »
fournie dans le texte d’une décision d’un tribunal, à la
lumière des concepts fondamentaux de l’informatique.
MOTS-CLÉS
: Numérisation,
Digital, Analogique, Information, Numération, Codage, Binaire, Droit
d’auteur, Internet
1. Introduction
L’informatique est considérée par
certains comme une technique,
par d’autres comme un outil
une par d’autres comme et par
d’autres, enfin, comme une science
(Arsac 1970). Mais nous avons pu
vérifier qu’un très fort pourcentage des personnes qui se
déclarent informaticiens en France et qui ont un diplôme
d’informatique (y compris de 3e
cycle) ne peuvent citer un seul nom de titulaire du prix Turing, peu
le « prix Nobel » de l’informatique (Shasha 1995). Des
termes comme « machine de Turing », « machine de
von Neuman » sont souvent ignorés.
Le but de cet article est de montrer les
conséquences de la perception de l’informatique telle qu’elle
apparaît dans bien des enseignements dits « d’informatique »
qui passent à côté de l’essentiel. Nous illustrons notre propos
en analysant une définition de la « numérisation »
fournie dans un arrêt de TGI.
L’informatique étant
aujourd’hui en œuvre dans notre vie quotidienne, inévitablement,
le juriste est amené à traiter de concepts relatifs à
l’informatique. La définition étudiée est apparue dans une
ordonnance de référé du Tribunal de Grande Instance de Paris, du 5
mai 1997, Queneau c/ Leroy et autres, n° 54777/97. En l’occurrence,
nous ne pensons pas que cette définition ait été essentielle dans
les arguments ayant conduit le TGI a condamner l’étudiant.
Mais une telle définition a toutes les chances d’être reproduite
et sans doute enseignée ! D’ailleurs nous en avons pris
connaissance dans (Editions Législatives 1997).
Cette définition illustre, en
partie, le mélange de niveaux d’abstraction que l’on rencontre
quand on parle d’informatique, mélange qui est au cœur de la
philosophie de la connaissance (réalisme, nominalisme), du rapport
entre les noms et les choses, des rapports entre la métaphysique et
le formalisme. Elle montre aussi que l’on ne peut se passer de
théorie. Puisque ce colloque rassemble des enseignants-chercheurs
des IUT, nous insistons sur le fait que, les départements
informatique des IUT comportant des enseignements de mathématiques,
logique, économie, gestion, droit de l’informatique, théorie des
langages, modélisation, etc. dispensés sur une très courte
période, il est essentiel que les concepts soient clairement
explicités. Nous terminons cette présentation par un extrait d’un
ouvrage qui est sans doute plus destiné à des « automaticiens »
qu’à des informaticiens (une différenciation qui mériterait
d’être explicitée). Ce texte illustre le fait que, même dans des
domaines fort proches, ce qui est acceptable pour l’un ne l’est
pas pour l’autre.
2. La définition du TGI de Paris
Situons d’abord
l’affaire qui a conduit à cette définition.
En l’espèce, un étudiant avait
reproduit sur ses pages personnelles hébergées sur un serveur
fourni par une université française, Paris VIII, une œuvre de
Raymond Queneau (Cent milliards de poèmes). L’étudiant avait fait
un recueil interactif, sans l’autorisation des ayants droits de
l’auteur. Le lecteur avait un nombre colossal de possibilités pour
construire un poème à partir d’un découpage de l’œuvre de R.
Queneau faite par l’étudiant. Le fils de R. Queneau et les
éditions Gallimard, cessionnaires des droits de reproduction et de
représentation, ont saisi le TGI aux fins de voir ordonner ou
constater la cessation du trouble en application du droit d’auteur.
Le TGI a répondu favorablement à leur demande. La décision du
tribunal, venant après d’autres décisions allant dans le même
sens, généralise l’application du droit d’auteur à la
diffusion sur Internet d’une œuvre protégée. Le Tribunal de
grande instance de Paris, dans sa décision du 5 mai 1997, pose une
définition de la mise en ligne d'une œuvre protégée sur le réseau
Internet :
la numérisation d'une œuvre est une
« technique consistant à traduire le signal analogique qu'elle
constitue en un mode numérique ou binaire qui représente
l'information dans un symbole à deux valeurs 0 et 1 dont l'unité
est le Bit »
La définition donnée par le
tribunal est loin d'être claire. Nous nous proposons de l'examiner à
la lumière de la science informatique.
3. Analyse de la définition du tribunal
Nous
distinguerons deux parties dans cette définition :
– la
première partie
« traduire le signal
analogique qu'elle constitue en un mode numérique ou binaire »
qui pose la question de savoir à quel type d'œuvre il est fait
référence, i.e. s'agit-il d'images (les pages d'un livre peuvent
être vues comme des images) ou d'écrits ?
– la
deuxième partie
« mode numérique ou binaire
qui représente l'information dans un symbole à deux valeurs 0 et 1
dont l'unité est le Bit » qui laisse perplexe l'informaticien
ou le sémiologue.
3.1. Première partie : analogique,
écrit, niveaux d’abstraction, logique vs physique
La
définition donnée ici de la numérisation correspond à celle
utilisée par ceux qui font du traitement de signal. La numérisation
d'un signal permet effectivement de coder l'information portée par
un signal analogique sous forme numérique. Elle se base sur les
travaux de Shannon relatifs à la théorie de l'information. La
numérisation d'un signal comporte normalement 3 phases :
–
échantillonnage du signal (à une fréquence > ou = au double de
la fréquence
maximale du signal analogique
d'après Shannon),
i.e. projection de la composante continue temporelle sur un ensemble
discret
– quantification,
i.e. projection de la composante continue en amplitude sur un
ensemble discret (appelé échelle de quantification)
–
codage des points résultants des 2 premières étapes
Le problème dans tout cela réside
dans le procédé permettant de considérer un livre comme un signal
analogique. Ou alors il s'agit de l'ensemble des images qui
constituent le livre physique.
Un livre peut être abstrait comme
étant un écrit. Un écrit se définit par le fait que les graphèmes
sont disposés l'un à la suite de l'autre. Ce qui différencie un
écrit d'une image est le fait que, pour lire, il faille suivre une
suite de graphèmes. Dans les écoles maternelles, on parle de
« sérialisation ». On apprend les élèves à
lire/écrire en commençant par leur apprendre à écrire une
histoire en constituant une suite d'images.
On ne lit pas le tableau de la
Joconde. Certes, dans certains enseignements, on apprend « à
lire » un tableau de telle ou telle école de peinture : il
s'agit alors de séquentialiser la perception sur des parties du
tableau en suivant une certaine suite d'éléments.
Ces graphèmes ne sont pas
forcément contigus. Par exemple, dans un « hyper texte »,
on peut avoir un graphème suivi d'un autre qui est un pointeur vers
une autre suite de graphèmes située dans d'autres pages. Selon les
langues, la lecture peut se faire de gauche à droite (comme en
français), de droite à gauche comme en Arabe.
Linéaire ne veut pas dire que l'écrit est
formé de lignes horizontales ou verticales parallèles. Des poètes
ont écrit certaines de leurs œuvres en dessinant des images avec
leur texte linéaire.
Enfin, il faut noter que ce qui est un
écrit pour une personne donnée peut n'être qu'image pour une autre
et aussi qu'une même personne peut voir une chose, à la fois comme
un écrit et comme une image. Les monuments musulmans avec leurs
arabesques, sont l'occasion d'illustrer cela.
Le livre est écrit avec un certain
alphabet dont on peut avoir diverses représentations (les fontes).
L'alphabet peut avoir un nombre quelconque de graphèmes formés de
traits continus, ou de points qui n'ont rien à voir avec le point
mathématique (on devrait dire : de tâches).
On peut
toujours disposer d'une table de correspondance entre les éléments
de l'alphabet et des mots (suites de caractères) construits avec un
alphabet n'ayant que deux éléments. Il faut noter qu'en général,
on ne fournit pas directement une telle table de correspondance et
que l'on passe par l'intermédiaire d'une correspondance entre les
éléments de l'alphabet et des nombres écrits en numération
décimale (i.e.
sur l'alphabet : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}. Un exemple est celui
des codes « ASCII ».
Comme
l'on passe d'un niveau d'abstraction (les lettres de l'alphabet par
exemple) à la réalisation d'un 0 ou d'un 1 sur un support matériel
(curieusement on parle de « dématérialisation » ! En
fait il s'agit de dématérialisation pour celui qui, alors qu'il
pouvait lire sans artéfact (et encore, combien portent des lunettes
!) telle déclaration de revenus, ne peut maintenant la lire que par
l'intermédiaire d'un ordinateur), par l'intermédiaire de ce que les
mathématiciens appellent les nombres entiers naturels. On dit que
l'on « numérise ». Comme, aussi bien un alphabet
binaire (composé de deux éléments) qu'un alphabet non binaire
(comme l'alphabet français) est un ensemble d'éléments (i.e. du
point de vue de la construction des mots, des éléments
indécomposables (élémentaires ! atomiques !) – bien
sûr un concepteur de fontes, ne les verra pas comme élémentaires
!), i.e. ce que les mathématiciens appellent un ensemble
discret (les mathématiques pour informaticiens sont principalement
des mathématiques discrètes) – on dit que l'on travaille dans le
monde du « discret » comme celui des nombres naturels.
Voila pourquoi « discret » et « numérique »
sont souvent synonymes.
Comment le contenu du livre (le
texte) va-t-il donner un texte dans un langage finalement binaire ?
En supposant que l'on passe du
livre à un signal analogique qui est ensuite « digitalisé »,
comment se fait le passage du livre au signal analogique ? Le lecteur
habitué au MODEM sait que l'on transporte du digital sur un signal
analogique (le son est une onde). Là est la question que se pose le
lecteur attentif de la définition fournie par le juge.
Ou alors le lecteur conclut que
la définition ne s'applique qu'à de la musique (hors de la
partition) ou à des images (on a des ondes en entrée) non encore
digitalisées. Rappelons que Douglas Hoffstadter (Hoffstadter 1985)
définit l'information comme tout ce que l'on peut transmettre sur
une ligne téléphonique : le piano (en bois et en acier) n'est pas
de l'information, la partition de musique est de l'information.
3.2. Deuxième partie : symbole,
valeur, bit
« en un mode numérique ou
binaire qui représente l'information dans un symbole à deux valeurs
0 et 1 dont l'unité est le Bit »
Quel sens peut bien avoir l'expression « un
symbole à deux valeurs 0 et 1 dont l'unité est le Bit »
?
Considérons les premières pages du Cours de linguistique
générale de F. de Saussure (Saussure 1972). Doté du vocabulaire et
des concepts de Saussure, voici comme ce texte peut être interprété
:
– Qu'est ce qu'un symbole ? le signifiant
–
Qu'est-ce que la valeur d'un symbole ? le signifié
– Quelle
est l'unité d'un symbole ? La science ne nous a pas encore donné de
réponse. Le droit non plus !
En termes de la logique des
prédicats, on peut interpréter comme suit.
Une variable prend ses valeurs
dans un ensemble de mots construits avec un vocabulaire à deux
éléments, i.e. un ensemble à deux éléments {0, 1}, ce qu'on
écrira formellement : truc
seq {0, 1}. Ceci se lit : truc est une variable (la valeur d'une
variable dira l'informaticien) qui appartient à l'ensemble
des suites – 00101 est une suite – que l'on peut faire
avec les éléments de l'ensemble {0, 1}. De telles suites
s'appellent des mots. S’ils ne sont formés que de 0 et de
1, on les dit « mots binaires ». A chaque position
dans le mot (dans la suite) on trouve soit un 1 soit un 0.
On dit que c'est un bit, binary digit. Le mot « digit »
signifie en anglais « chiffre ». Ici on écrit des mots
avec seulement deux chiffres : le 0 et le 1. Il est
assez mal venu de dire que le chiffre est binaire. La numération,
elle, est binaire. Nous devons reconnaître que nous ne sommes pas
arrivés à donner une interprétation à « symbole dont
l'unité est le Bit » !
Que recouvre le terme unité ?
Quand on évalue une quantité, on
a besoin d'une « unité de mesure », c'est-à-dire d’une
quantité prise comme référence pour évaluer toutes celles qui
sont de même nature. « Par exemple, dire "5 douzaines
d'œufs", "2 kilos de pommes", "3 semaines",
c'est exprimer des quantités dont les unités sont respectivement la
douzaine d'œufs – si l'on avait compté les œufs un par un, on
aurait dit 60 œufs –, le kilo de pommes, la semaine – si on
avait compté en jours, on aurait dû dire 21 jours. Ainsi, d'une
manière courante, une unité est un choix de quantité, cette
quantité étant considérée comme une. » (S. Baruk S. 1992,
page 1263, )
Si le symbole est mesuré
en bit, on peut dire « un symbole de 8 bits » par
exemple. Peut-être l'auteur veut-il dire qu'un symbole est un mot
construit avec les éléments de l'alphabet {0, 1}. 00010110
serait un symbole de mesure 8 bits.
Mais l'auteur a écrit « représente
l'information dans un symbole à deux valeurs 0 et 1 ».
00010110 dans l'interprétation ci-dessus est un symbole qui a
comme valeur 00010110 ! Il a une valeur et non 8 valeurs ! Si
on est en numération binaire, on peut donner son équivalent en
décimal. Et on aura toujours une seule valeur. Il faut remarquer que
si on écrit « trois » en décimal, on écrit : 3,
et si on écrit 3 en binaire, on écrit : 11, ce qui
fait bien trois car on a écrit (merci aux Hindous qui l'ont inventé
et aux Arabes qui nous l'ont transmis) implicitement en numération
par position : 1 fois 2 plus 1 fois 1 soit trois. On dit parfois
qu'on a des « unités » un, deux, quatre, etc. (en
décimal, on a des « unités », un, dix, cent, mille).
Même dans ce sens, ce n'est pas le bit qui est l'unité.
Mais si j'achète des lettres en
métal doré pour inscrire mon nom sur mon portail, le vendeur va
sans doute me vendre les lettres à l'unité. L'unité sera non la
lettre de l'alphabet mais l'objet métallique représentant une
lettre quelconque. On peut toujours mesurer ce que l'on envoie sur
une ligne téléphonique en nombre de bits. Mais alors c'est le
message qui est mesuré en bits. Notons qu'on est alors fort loin de
la sémantique. Si on nous dit « vous êtes virés » cela
ne fait pas beaucoup de bits mais fait beaucoup d'effet.
Tentons une re-écriture.
« l'information est
représentée par des mots écrits avec un alphabet à deux éléments,
0 et 1. »
Il semble que le rédacteur a confondu les
nombres et les diverses numérations (binaires, décimales, etc. ) et
aussi la représentation en machine. Si mon ordinateur ne code plus
l'information en bits {0, 1} mais en « cits » {a,
b}, est-ce que je peux numériser car je ne tombe plus sous la
définition qui est à l'appui de la décision de justice considérée
ici ? Il nous semble clair que le droit
n’est pas en cause dans la définition de la numérisation fournie
par le juge. Il se peut d’ailleurs que cette définition vienne
d’un « informaticien ».
4. Conclusion
Nous fournissons ci-après un extrait d’un
livre destiné à des élèves de classes préparatoires aux grandes
écoles. Il s’agit du premier paragraphe de la première partie de
l’ouvrage qui traite des systèmes discrets (ceux traités par les
informaticiens).
« Logique combinatoire,
Introduction
Un système combinatoire est un système qui, à
tout instant, peut s’exprimer conformément au schéma de la figure
1 et les relations suivantes :
t Sj = f(Ei) 1
i n, 1
j p.
Les
fonctions de sortie Sj ne dépendent que des
entrées Ei à l’instant considéré. Ei
et Ej sont respectivement des variables et
des fonctions binaires de ces variables, variables et fonctions ne
pouvant prendre que les deux valeurs 0 et 1 par convention. (…)
2.
Approche intuitive, 2.1. Fonctions d’une variable : OUI, NON »
Le lecteur constatera que la
définition fournie a des défauts similaires à ceux de la
définition de la numération donnée par le juge. Dans le premier
cas, nous avons un terme à la mode (on parle même de société
numérique !), dans le deuxième cas, nous avons un ouvrage
« technique ». Or dans les deux cas, il est bien
impossible d’instancier la définition, d’en trouver un
« modèle » comme disent les logiciens. Et cela parce que
la définition dans les deux cas n’est pas fondée sur des concepts
clairement établis. Le chercheur enseignant se doit donc d’être
précautionneux lorsqu’il s’adresse à ses étudiants à l’IUT,
IUT où on demande aux étudiants de faire des ponts entre matières.
« I
beleive it is fundamentally wrong to teach a science like programming
by reinforcing the student’intuition when that intuition is
inadequate and misguided. On the contrary, our task is to demonstrate
that a first intuition is often wrong and to teach the principles,
tools, and techniques that will help overcome and change that
intuition! Reinforcing
inadequate intuitions just compounds the problem. »
(Gries David 1990)
Donner des définitions inadéquates, inopérantes, n’est-ce pas
introduire de la complication là où la complexité suffit à notre
peine et à celle des étudiants ? On complique un problème
quand on choisit des instruments (une notation, un langage, un
paradigme par exemple) inadéquats pour le traiter. Par exemple, la
numération romaine complique les calculs. La complexité, elle, est
intrinsèque au problème. Par exemple, les problèmes NP-complets
comme celui du « voyageur de commerce » sont complexes.
Il faut chasser la complication et appliquer le rasoir d’Occam :
« Ne pas multiplier les entités au delà du nécessaire ».
Et les définitions comme celles que nous avons présentées
introduisent de la complication et risquent de faire croire que la
théorie est inutile. A ce sujet, les évolutions de certains PPN ne
nous semblent pas aller dans le bon sens.
Bibliographie
Arsac Jacques, L’informatique
pose la question du sens,
Conférence prononcée à Nantes, IRIN, Faculté des sciences de
Nantes, 2003, texte communiqué sur demande.
Arsac Jacques, La
science informatique,
Dunod, 1970
Baruk Stella, Dictionnaire
de mathématiques élémentaires,
Editions du Seuil, 1992, ISBN : 2-02-012334-7
Editions législatives,
Dictionnaire
permanent Droit des affaires,
Evolutions jurisprudentielles 1997, Editions législatives, 1998
Gries David, Formal
Development of Programs and Proofs
in Teaching Programming and Software Engineering, p.229-236,
Addison-Wesley, 1990
Habrias Henri, Dictionnaire
encyclopédique du génie logiciel,
Préface de Jean-Pierre Finance, Masson, 1997, ISBN : 2-225-85328-2
Habrias Henri, La
mesure du logiciel,
2ième édition, corrigée et augmentée, Teknea, 1994, ISBN :
2-87717-045-4
Hoffstadter
Douglas, Gödel,
Escher, Bach,
InterEditions, Paris, 1985, ISBN : 2-7296-0040-X
Saussure,
F. de, Cours
de linguistique générale,
édition critique préparée par Tullio De Mauro, Paris, Payot, 1972,
ISBN : 06 87 472749
Shasha
Denis, Lazere Cathy, Out
of Their Minds, The Lives and Discoveries of 15 Great Computer
Scientists,
Copernicus, Springer Verlag, 1995, ISBN : 06387-97992-1
Remerciements
Nous remercions Sébastien
Faucou qui a été un relecteur critique d’une première version de
ce texte et qui a permis de l’améliorer.