Big Data et archéologie

Françis Djindjian

Archéologue

L’avènement du Big Data a touché tous les domaines de la recherche. L’auteur retrace l’utilisation de la technologie numérique en archéologie.

Margalit Berriet, Site archéologique de Valcamonica, Italie, 2014

Dans cette courte présentation du thème des méga-données en archéologie, l’accent est mis sur le concept relatif de méga-données dans le temps de l’évolution technologique de l’informatique et dans l’histoire récente de l’archéologie computationnelle.

Depuis le développement d’Internet, le volume des données stockées au niveau mondial est en pleine expansion : les données numériques créées dans le monde seraient passées de 1,2 zettaoctet par an en 2010 à 2,8 zettaoctets en 2012 et s’élèveront à 40 zettaoctets en 2020. À titre d’exemple, Twitter générait en janvier 2013, 7 téraoctets de données chaque jour et Facebook, 10 téraoctets. Ce sont les installations technico-scientifiques (météorologie, astronomie, CERN, etc.) qui produiraient le plus de données. Le radiotélescope « Square Kilometre Array » par exemple produira 50 téraoctets de données analysées par jour, tirées de données brutes produites à un rythme de 7000 téraoctets par seconde.

Le volume des données produit par l’archéologue n’est pas évidement du même ordre de grandeur. Un chantier de fouilles archéologiques produira, après plus d’une dizaine d’années de campagnes annuelles, des données de l’ordre d’une ou plusieurs centaines de Moctets, compatibles avec les capacités de stockage des ordinateurs de bureau. Ces volumes sont dus pour l’essentiel à la numérisation des relevés et des documents photographiques. Mais, de plus en plus, sont utilisées en archéologie des applications grosses productrices de volume de données comme le 3D, le Lidar ou les analyses de laboratoire.

Par ailleurs, et indépendamment, se pose la question de l’archivage des données, dans un contexte institutionnel où les données archéologiques restent sous la responsabilité directe de l’archéologue dans son environnement informatique individuel dont la sécurité de l’archivage n’est donc ni sûr, ni pérenne.

Historique du concept de méga-données en archéologie

À ses origines, l’archéologie a été une science de l’objet et les archéologues, eux-mêmes, se désignaient souvent comme antiquaires ou collectionneurs.

C’est à partir des années 1960, que l’archéologie devient progressivement une science de l’information des sociétés du passé : informations intrinsèques qui décrivent les artefacts de la culture matérielle et informations extrinsèques qui enregistrent le contexte de ces artefacts et leurs relations.

Ces informations étaient disséminées par le support écrit : livres, corpus, monographies, articles dans les revues académiques, consultables dans les bibliothèques institutionnelles et privées.

Les archéologues archivaient leurs documents de travail : carnets de fouilles, relevés stratigraphiques et planigraphiques, dessins d’objets, plans, photographies, inventaires, mensurations, mesures, notes, projets d’articles, tirés à part ainsi que les communications épistolaires entre archéologues dans le milieu académique. Tous ces documents faisaient l’objet au mieux d’un archivage institutionnel ou privé.

Le développement de l’informatique a transformé progressivement le support papier en support électronique : systèmes bibliographiques de l’Information scientifique et technique, systèmes documentaires (« banques de données »), fichiers d’inventaires et de mesures.

La machine à écrire (comme la célèbre IBM à boule ou la petite portative), apparue dans la seconde moitié du XIX^e siècle, disparait à la fin des années 1980 (tout comme le métier de dactylo), remplacée par le microordinateur et le logiciel de traitement de texte.

Le courrier postal devient messagerie mais le message n’est plus archivé sauf exception. L’historiographie perd ainsi les échanges privés entre chercheurs, souvent plus instructifs que les échanges officiels.

Les tirés à part d’articles publiés, ou leur photocopie, sont remplacés par des fichiers en format pdf. Ils sont échangés ou accessibles sur des sites en ligne en accès libre ou en vente sur les sites des éditeurs privés.

Le dessin, activité manuelle (les laboratoires CNRS employaient des ITA dessinateurs), devient dessin assisté par ordinateur (DAO) avec la fameuse suite Adobe : dessin vectoriel (Illustrator), composition (Pagemaker/Indesign), création et retouche d’image (Photoshop) et ses équivalents concurrents.

Puis, à partir des années 1990, la numérisation s’accéléra, qui engendra pour l’archéologie de nombreuses nouvelles données :

– les mesures physico-chimiques,

– la prospection géophysique (terrestre et maritime),

– les données Lidar,

– la cartographie,

– le Système d’Information Géographique (SIG),

– la photographie numérique,

– la numérisation des photographies argentiques,

– le film numérique,

– la numérisations des relevés stratigraphiques et planigraphiques,

– et enfin le 3D avec la réalité virtuelle et la photogrammétrie numérique.

Dès lors, la question des Big Data s’imposa à tous.

Big Data : une longue histoire liée aux progrès de l’informatique

Le concept de « Big Data » est relatif. Il est lié aux problèmes que posent l’archivage et le traitement de grands volumes de données en rapport avec la disponibilité du hardware (stockage des données) et des outils logiciels pour les rechercher (systèmes documentaires), les consulter, en extraire une partie, les visualiser (systèmes graphiques, SIG, 3D) et les traiter (visualisation graphique, analyse des données multidimensionnelles, modélisation, etc.).

Le monde scientifique moderne aime à ressusciter les problématiques échouées face aux difficultés technologiques du moment par des nouveaux noms désignant les mêmes concepts.

L’Intelligence Artificielle, ce grand mythe des temps modernes, en est un bon exemple : issue de la cybernétique d’avant-guerre, elle est née dans les années 1950 (le perceptron de Rosenblatt) avec les premiers ordinateurs, et, elle se relance périodiquement sous différents noms : IA, apprentissage automatique, système expert, réseau de neurones, moteur de règles, et dernier en date, apprentissage profond. Ses applications les plus réussies se retrouvent dans la robotique, la traduction automatique, la reconnaissance de formes, l’aide au diagnostic, l’aide à la décision, le traitement des Big Data (où elle remplace le data mining des années 1990) et la plus médiatisée de toutes, les jeux (quand la machine bat l’humain : échecs, Go).

Le Big Data aussi possède déjà une longue histoire. Il est lié à l’évolution de la taille des mémoires des ordinateurs et au volume de stockage des mémoires de masse (disques et bandes magnétiques). Dans les années 1960/70, les mémoires (à tores de ferrites) étaient limitées à plusieurs dizaines ou centaines de kilooctets.

Les mémoires RAM actuelles (des circuits imprimés) font plusieurs à plusieurs dizaines de Gigaoctets, soit un million de fois plus ! Le stockage sur mémoire de masse a connu la même évolution technologique depuis les 2 Megaoctets du premier disque dur d’IBM en 1962, les 300 Megaoctets dans les années 1980, les 25 Gigaoctets en 1998 et plusieurs Teraoctets actuellement soit un million de fois plus aussi !

Les bandes magnétiques, organisées en baies de stockage qui peuvent contenir une dizaine ou une vingtaine de bandes magnétiques, peuvent atteindre une capacité totale jusqu’à plusieurs dizaines de téraoctets. Les bibliothèques de bandes sont donc le moyen le plus aisé d’assurer la sauvegarde et l’archivage de données volumineuses, comme pour les grandes fermes informatiques du Web ou le stockage institutionnel des organismes de recherche. Hélas la durée de vie d’une bande magnétique n’est que d’une vingtaine d’années !

Dans les années 1970, les banques de données (systèmes documentaires) et les grands tableaux étaient les « Big Data » de cette période. En France, c’est la grande période institutionnelle des systèmes documentaires mis en œuvre par le ministère de la Culture (musées, Inventaire général des monuments et richesses artistiques de la France, Carte archéologique), utilisant le logiciel Mistral de Bull. Mais les données de cette période sont du texte, les images étant stockées sur microfiche et consultables sur un lecteur installé à côté du terminal. C’est seulement à partir des années 1980, que les progrès technologiques des mémoires, des unités de stockage (disques magnétiques, vidéodisque puis disque optique numérique) et des réseaux ont vus arriver les premiers prototypes de serveur données/images/son qui deviennent opérationnels dans les années 1995, avec le développement d’Internet. Notons cependant que le système vidéotex, le précurseur d’Internet, a été opérationnel en France à partir de 1980 jusqu’en 2012.

Les grands tableaux, qui sont les données de base des archéologues pour la plupart des problématiques traitées (Djindjian 1991, 2011), faisaient l’objet de manipulations graphiques dans les années 1960, avant d’être traités par analyse des données multidimensionnelles dans les années 1975, malgré les limitations des ordinateurs en puissance de calcul et en mémoire centrale. A partir des années 1990, ces limitations ont disparues et ces traitements ont commencé à être effectués sur microordinateur.

Les années 1980 et 1990, qui sont les années du développement du microordinateur, des réseaux et des logiciels bureautique, voient l’archéologue s’approprier individuellement ces outils et l’institution se trouve alors en retrait sur des projets communautaires.

Les années 1990 voient l’arrivée d’un nouveau vocabulaire sinon d’une nouvelle approche, le Data mining (ou exploration de données) qui applique les techniques statistiques multidimensionnelles à de grand corpus de données comme ceux obtenus par les habitudes de consommation, de consultation de données sur Internet ou de questionnaires et qui permettent d’identifier des types de comportements de consommateurs (segmentation, scoring). Les techniques d’apprentissage font également leur apparition. Mais les méthodes de l’archéologie ne sont pas concernées par les intérêts essentiellement marketing du data mining.

Les années 2000 voient l’émergence du vocabulaire des Big Data (en français, méga-données), liée à la production massive (« orwellienne ») des données que le progrès technologique de l’informatique permet aujourd’hui de stocker, de communiquer par des réseaux, de visualiser et de traiter. Les organismes institutionnels de la recherche commencent à s’émouvoir de la dispersion des données enregistrées par les chercheurs individuels (mais financés par l’institution) et qui se perdent quand le micro-ordinateur tombe en panne ou quand le chercheur part à la retraite, et tout particulièrement dans le domaine des Sciences humaines et sociales où le chercheur individuel prime sur le laboratoire.

En France, le CNRS lance le projet TGIR Huma-Num (www.huma-num.fr) du CNRS pour l’archivage des données numériques des Sciences humaines. Il s’agit d’une plateforme informatique permettant l’acquisition, le stockage, la dissémination, le traitement et l’archivage des données. Plusieurs laboratoires d’archéologie se sont regroupés au sein du consortium Masa (Mémoire des archéologues et des sites archéologiques) pour utiliser les services du TGIR Huma-Num : Il a pour objectif de proposer un accès unifié à des corpus variés de données et de documentations produites par les archéologues. Il développe des méthodes et des outils à destination de la communauté archéologique, en respectant les standards internationaux (https://masa.hypotheses.org/).

Au niveau européen, le projet Ariadne a lancé des coopérations entre les archéologies européennes sur des projets fédérateurs (notamment les thésaurus) et des plateformes de service, dont le sujet de l’archivage (https://ariadne-infrastructure.eu/).

Quelles méga-données archéologiques ?

Les méga-données archéologiques sont constituées d’un ensemble non limitatif de fichiers de taille, de format et de structure variable :

– Des bases de données, résultats de l’enregistrement des données de fouilles archéologiques (informations extrinsèques) et de la description des artefacts (informations intrinsèques). Ces données sont enregistrées dans des logiciels variés depuis les logiciels de traitements de texte, les tableurs jusqu’aux systèmes de gestion de bases de données.

– Des textes anciens dans leur écriture d’origine et leur traduction (philologie),

– Des banques de données créées avec des logiciels de recherche documentaire,

– Des documents numérisés : photos numériques, diapositives numérisées, relevés stratigraphiques et planigraphiques numérisés, films vidéo numérisés, 3D,

– Des documents graphiques vectoriels comme ceux créés par des logiciels de PAO ou des logiciels de système d’information géographique (SIG),

– Des tableaux de données quantitatives,

– Des fichiers de mesures comme ceux produits par des appareillages physico-chimiques : prospection géophysique, Lidar, spectrométrie variée, datations, etc.

Les fonctions d’un service « méga-données »

Les fonctions d’un service de méga-données ne sont pas limitées à l’archivage. Elles concernent l’ensemble de la chaine depuis l’acquisition (Submission information package), le stockage, la signalisation (c’est-à-dire l’indexation ainsi que la définition et la gestion des métadonnées qui décrivent les données), la diffusion (qui permet la consultation par Internet), l’archivage (suivant un format standardisé), la sélection (qui permet d’extraire et de formater les données pour un traitement) et le traitement.

La fonction de traitement est riche et variée et comprend tous les outils et logiciels utilisés depuis plus de cinquante ans : analyse lexicographique, statistiques, analyse des données multidimensionnelles, système d’information géographique, traitement d’image, modélisation, 3D, et plus récemment le retour de l’Intelligence Artificielle utilisant les techniques d’apprentissage automatique (deep learning) etc.

Les bonnes pratiques

Au-delà du plaisir de s’enivrer de mots à la mode, l’archéologue doit s’investir dans le domaine des projets, qui mêlent efficacement nouveautés techniques et pragmatisme. Les bonnes pratiques sont alors le meilleur garant d’un projet réussi.

Les métadonnées, données servant à décrire les données, regroupent deux ensemble : les métadonnées individuelles liées au données produites par l’archéologue et les métadonnées communes, institutionnelles, globales et spécialisées, de plus en plus normalisées. Ces métadonnées institutionnelles sont issues en archéologie des projets documentaires des années 1970 (Ministère de la Culture, CNRS, Information scientifique et technique (INIST)) qui ont investi dans la réalisation des premiers grands thésaurus, qui sont les bases des métadonnées actuelles. En archéologie, le thésaurus de référence est Pactols développé à l’origine pour le projet signalétique Frantiq à la Maison de l’Orient Méditerranéen, qui possède 30 000 références (conforme à la norme ISO 25964 des thésaurus multilingues). Les thésaurus du Ministère de la Culture (Inventaire général, banque de données muséographiques) ont été regroupées sur la plate-forme Ginco.

Les normes qui homogénéisent les productions industrielles depuis plus de cinquante ans, concernent également progressivement l’archéologie, soit indirectement par des logiciels génériques, soit directement mais encore rarement par des normes dédiées à l’archéologie.

L’archivage (OAIS, Open Archival Information System) possède son propre standard, l’ISO 14721:2012. Dans cette norme, un «paquet d’information» contient les informations à archiver, à conserver ou à communiquer aux utilisateurs. Le paquet d’information contient toujours l’objet que l’on veut conserver, et les métadonnées nécessaires à sa préservation.

Trois types sont définis :

– Le paquet d’information à verser (SIP): Produit par le dépositaire de l’archive, selon le modèle imposé par le gestionnaire de dépôt ;

– Le paquet d’information archivé (AIP): Contenus (Content Data Objects) et métadonnées. Produit par et pour le gestionnaire de dépôt ;

– Le paquet d’information diffusé (DIP): en fonction des droits de l’utilisateur qui effectue la requête et des droits de diffusion.

La norme CIDOC-CRM (ISO 21127:2014) est une norme propre au patrimoine culturel et à ce titre elle est concernée par le thème des Big Data et de l’archivage.

Les données élémentaires

Le paquet d’information à verser doit contenir les informations au niveau le plus élémentaire connu. Le système d’archivage doit posséder les fonctions de sélection, de filtrage et d’agrégation utiles à construire les données à n’importe quel un niveau d’agrégation supérieur. Dans le cas contraire, les informations au niveau le plus élémentaire sont définitivement perdues.

Les données brutes

Le paquet d’information à verser doit contenir des données brutes (raw), avec la définition la meilleure possible, sans format ou traitement visant à diminuer le volume ou à modifier la donnée.

Les traitements

Il est illusoire de penser qu’une accumulation de données puisse sous l’action de quelques algorithmes, aussi puissants soient-ils, être capable, spontanément, de fournir des résultats, des connaissances ou des décisions.

L’exploration des données (c’est le nom donné aux différentes méthodes que l’on désignait dans les années 1970 sous le nom d’analyse des données multidimensionnelles) ne peut être efficace que dans le cadre d’une construction formelle qui puisse permettre à la fois de mettre en évidence une structure dans les données et de pouvoir la valider.

C’est sans doute cette trop grande confiance (ou une trop grande paresse) qui est à l’origine du désappointement dans l’utilisation de ces techniques, qui sont en retrait à partir des années 2000 avec le succès du post-modernisme.

L’intégration des techniques d’exploration des données dans un processus cognitif global nécessite une approche à plusieurs niveaux, comme celle que nous avions proposée, sous le titre de « le triplet systémique » (Djindjian 2002).

Un triplet systémique S (O, I, E) est défini par les objets O, l’information intrinsèque I et l’information extrinsèque E.

– Etape 1: Définition du triplet systémique S (O, I, E)

Le système S est défini par un ensemble de valeurs constantes de E, comme par exemple les objets d’une même unité stratigraphique (ensemble clos), d’une même sépulture, les peintures d’une même grotte ornée, les outils d’une même structure d’habitat, les structures urbaines contemporaines d’un même territoire, etc. qui peuvent toutes être définies par un jeu de valeurs constantes d’informations extrinsèques de type T (temps), H (structure d’habitat), R (territoire), L (localisation), M (origine), EV (environnement), EC (économie), etc.

– Etape 2: Perception et description des informations intrinsèques I

– Etape 3: Enregistrement des informations extrinsèques E

– Etape 4: Formalisation :

• Structurer le système formalisé par le tableau Objets x Description des objets (O x I), qui fournit des structures de partitions (classifications ou typologies) ou des structures sérielles (sériations), donnant un nouvel ordre sur O, soit O+, et des corrélations sur I, soit I+. Le système passe alors de l’état cognitif S (O, I) à l’état S+ (O+, I+). Cette structuration est appelée structuration intrinsèque.

• Structurer le système formalisé par le tableau d’occurrence (I×E), qui fournit des structures de correspondances entre les deux ensembles d’informations, structuration en faciès chronologiques pour E=T, structuration spatiale pour E=H ou L, déterminisme environnemental pour E = Ev, etc. Le système passe alors d’un état cognitif S (O, I, E) à un état cognitif S+ (O+, I+, E+). Cette structuration est appelée structuration extrinsèque.

– Etape 5: Application des techniques d’analyse des données sur les tableaux (O×I) ou (I×E)

– Etape 6: Rétroactions par retour sur I et E (c’est un mécanisme d’apprentissage),

– Etape 7: Enrichissements progressifs par intégration de nouveaux I et E

– Etape 8: Validation (sur un autre système de O, par une autre corrélation E, etc.).

Ces processus, pour être réellement cognitifs, doivent intégrer explicitement des mécanismes d’apprentissage, que l’analyse des données réalise par le jeu des éléments supplémentaires et par l’itération sur les informations intrinsèques permettant une interaction archéologue-objet, mécanisme essentiel de l’apprentissage.

Plus globalement, la méthode du « triplet systémique » suit la logique de C.S. Pierce, dont l’application est à l’origine d’importantes applications dans le domaine des automatismes (commande des processus, robotique), psychologie cognitive et aussi en archéologie :

A : Acquisition d’une information intrinsèque (interaction cognitive archéologie/objet) et d’une information extrinsèque (enregistrée durant les opérations de prospection et de fouilles archéologiques)

S : Structuration par apprentissage, obtenu par des mécanismes de corrélation entre informations intrinsèques et informations extrinsèques de corrélation

R : Reconstitution (modélisation cognitive)

L’enjeu de l’Intelligence Artificielle, à travers les différents algorithmes qu’elle a développés depuis les années 1950, peut en fait se résumer dans le paradoxe suivant : utiliser la puissance de calcul toujours croissante des ordinateurs avec des algorithmes itératifs simples ou mettre en œuvre une construction formelle sophistiquée. L’analogie avec le jeu d’échec illustre bien ce paradoxe : soit calculer toutes les combinaisons possibles soit concevoir une stratégie de jeu qui réduit le calcul des combinaisons. La première option, dont le succès n’est dû qu’à l’amélioration des capacités de calcul de l’ordinateur, n’est qu’une étape préparant la seconde option, d’où le succès du terme et sans doute à terme des résultats du concept d’apprentissage profond, qui doit dépasser le fait d’être le mot à la mode.

Conclusions

Au-delà du terme « méga-données », se trouve en fait le rapport entre le chercheur scientifique et l’évolution fantastique de la technologie des ordinateurs dans la deuxième moitié du XX^e siècle. Plus cette technologie offre des moyens supplémentaires (capacité de calcul, volume de stockage, canal de communication), plus les besoins apparaissent (souvent plus avec l’aide d’un bon marketing des industriels qu’avec un besoin exprimé des chercheurs). L’archéologie a suivi cette tendance avec des besoins certes incomparablement plus faibles, mais le développement de certaines méthodes (comme le 3D) comme la sociologie particulière de l’archéologue implique que l’institution se mobilise pour offrir des environnements, des standards et des services pour les méga-données archéologiques.

Professeur associé à l’Université de Paris 1 Panthéon Sorbonne, Président de la Commission « Méthodes et théorie de l’archéologie » de l’Union internationale des sciences préhistoriques et protohistoriques (UISPP) et vice-président du CIPSH (Conseil international de la philosophie et des sciences humaines de l’UNESCO), préhistorien spécialisé dans l’enseignement des méthodes archéologiques.

Publication précédente

Sommaire

Publication suivante

Big data et
singularités

JUIN 2020

Auteur

Version PDF