在这个考古大数据主题的简短介绍中,重点在信息技术发展的历程与近代电脑考古学历史中,将二者对大数据的相对观念进行探讨。
从网路发展以来,全球储存的数据量不断扩增:据估计,全球每年创造的数字数据量从2010年的1.2Zo*增加到2020年的40Zo。举例来说,2013年1月,Twitter每天产生7To,脸书每天产生10To的数据。这些是产生最多数据的技术科学设备。例如“平方公里阵列射电望远镜”(SKA)以每秒产生7000To数据量的速度,每天再从原始资料中产生50To的分析数据。
考古学产生的数据量显然和上述不是同一个量级。一个考古现场经过十多年来年复一年的发掘后,产生一到几百Mo的数据量,和桌上型电脑的储存量相同。这些数据量主要是数字化的记录清单和照片档案。然而,考古学会产生越来越多大量数据的应用,例如3D制作、光学雷达或实验室的分析。此外,数据的储存也是一个独立的问题,在考古机构的条件下,考古数据是直接由考古学家负责,储存在其个人电脑里,既不安全也无法长久保存。
大数据概念在考古学的沿袭与变革
考古学的起源是一门研究物件的科学,考古学家们也常常自称为古董商或收藏家。
从二十世纪六〇年代起,考古学逐渐成为一门研究过去社会讯息的科学:描述文物的内在讯息和记录这些遗物的脉络及其关系的外在讯息。
这些讯息透过书籍、法典、学术期刊等文字传播,可以在公立或私人图书馆查询。考古学家将他们的工作文件:考古发掘纪录、地层和平面发掘清单、文物图纸、平面图、照片、物件清单、测量纪录、笔记、草稿、独立出版以及考古学家在学术界的书信往来等等归档。这些档案最好都储存、归档在公家或私人机构中。
信息技术的发展使纸本载体逐渐转换为数字载体:科学和技术信息的目录系统、档案系统(资料库)、清单和测量档案等。十九世纪下半叶出现的打字机在八〇年代后期消失,取而代之的是微型电脑和文字处理软件。邮局的邮件变成短信,但这些短信除了特别情况,将不再被保留。因此史学界失去研究人员之间,比官方交流更有教育意义的私人交流。独立出版的文章或他们的副本都被PDF档案取代。这些文章都在自由浏览的网站上可交换或下载,或在(私人)出版社的网站上出售。
绘图,是一个用手的活动(实验室聘请ITA绘图人员)变成由电脑和著名的Adobe系列软件辅助绘图(DAO):向量绘图(Illustrator)、编辑(Pagemaker/Indesign)、影像创作和修改(Photoshop)以及同类型相竞软件。
随后,从九〇年代开始,数字化迅速发展,为考古学产生大量的新数据:
-物理化学测量,
-地球物理勘探(陆地和海洋),
-光学雷达数据,
-制图学,
-地理信息系统,
-数字摄影,
-底片摄影数字化,
-数字影片,
-地层和X光断层扫描数字化,
-最后的3D与虚拟实境和数字摄影测量。
从那时起,大数据成为考古界每个人需面对的事。
大数据:一段和信息发展相关的冗长历史
大数据的观念是相对的。它涉及大量数据的储存和处理,这与硬体装备(数据储存)、搜寻软件工具(档案系统)、资料查询、部分档案节录、视觉化(影像系统、地理信息系统、3D)和资料处理(影像视觉化、多维度数据分析、建立模型等)有关。
现代科学界喜欢在遇到技术困难时,给同样的事情取一个新的名字以重新定义这些曾经失败的问题。人工智能这个现代的伟大神话就是一个很好的例子。源自于战前的模控学,人工智能伴随著第一台电脑出现在五〇年代(心理学家弗兰克‧罗森布拉特〔Frank Rosenblatt〕的感知),并定期更换不同的名字出现:人工智能(AI)、机器学习(apprentissage automatique)、专家系统(système expert)、神经网路(réseau de neurones)、规则库系统(moteur de règles)和最新的深度学习(apprentissage profond)。人工智能最成功的软件是机器中的自动翻译、图形识别、电脑辅助诊断、决策辅助、大数据处理(或取代九〇年代的数据挖掘)和最受关注的游戏(当机器人对战人类时:国际象棋、围棋)。
大数据也有悠久的历史。它与电脑本身的资料储存量(硬盘),还有外接储存器(硬盘和磁带)的储存容量有关。在六〇、七〇年代,电脑资料储存器(磁芯存储器)被限制在十几或上百Ko的容量。现在的随机存取记忆体(RAM)可以储存几十Go,甚至上百万倍的数据!大量储存器经历了相同的技术发展,从1962年IBM的第一个2Mo的硬盘到1980年300Mo,再到1998年的25Go和现在上百万倍的好几个To容量。
磁带排列在可容纳十几到二十几条的磁带储存区中,总容量可以到达几十To。磁带库是确保大量资料数据储存和归档的最简单方式,提供网站的大型服务器农场或研究机构的存挡。遗憾的是,磁带的寿命只有二十年左右。
在七〇年代,数据库(档案系统)和大型图表曾经是当时的“大数据”。在法国,这是文化部(博物馆、法国古蹟文物和艺术财产清单、考古地图)使用Mistral de Bull软件以执行档案文献系统的重要制度化时代。但是这个时期的数据是文字,影像则是储存在微缩胶片里,可透过终端机的光碟进行查询。到了八〇年代,记忆体技术的进步,储存单元(硬盘、影盘还有数字光盘)和区域性网路伴随著出现第一批数据、图像、声音伺服器的原型,到1995年左右开始有效运用。然而别忘了Vidéotex系统,这个网路系统的前身则是从1980开始在法国使用到2012年。
大型图表是考古学家们要处理的大多数问题的基本资料(Djindjian 1991, 2011),在1975年以前,就算电脑运算能力和中央存储器都有一定条件的限制,大型图表依然用于分析多维数据,在六〇年代是图像处理的物件。从九〇年代开始,这些硬体条件限制消失了,这些工作就开始由个人电脑执行。八〇和九〇年代是个人电脑、网路和办公软件发展的年代,由于考古学家个别的使用这些工具,研究机构的重要性也从共同项目中降低。
九〇年代出现了一个新的词彙,或说是一个新的方法“数据挖掘”(Data mining),它将多维统计的技术应用在大量的数据上,像消费习惯、网路数据咨询或消费者行为模式辨别的问卷调查(分类、评分)。学习技术也不断的出现,但是考古学的方法并未受到主要数据挖掘市场的重视。
到了2000年,大数据(Big Data)一词的出现,信息技术的进步让今日得以储存、透过网路沟通、视觉化和处理这些海量(欧威尔式的)数据。研究机构与组织开始意识到一些问题:(由机构资助的)各个研究人员分散储存信息的方式,当个人电脑坏掉或研究人员退休时,导致信息遗失的情况,特别是在人文与社会科学领域中,研究人员比实验室更重要的条件下,问题更为明显。
在法国,法国国家科学研究中心(CNRS)发起专为储存人文科学数字信息的TGIR Huma-Num专案 (www.huma-num.fr) 。它是一个可以取得、储存、传播、处理数字信息的数字平台。许多考古实验室都合并于Masa集团(考古学家与考古遗址的纪录)以使用TGIR Huma-Num的服务:TGIR Huma-Num的目标是成为考古学家们制作的各种文献和数据资料的统一入口。它遵循国际标准 (https:// masa.hypotheses.org/),开发考古学界需要的方法与工具。以欧洲来说,Ariadne专案发起欧洲考古学家联合项目(尤其是文献辞典)和服务平台的合作,其中包含了档案储存的主题。(https://ariadne-infrastructure.eu/).
何为考古学大数据?
考古学大数据是由无限制大小、格式和多样结构的档案所组成:
– 数据库,储存考古发掘档案(外部讯息)和文物描述(内部讯息)的成果。这些数据储存在不同的文字或表格处理软件中,再被储存到数据库的管理系统中。
– 古代文本的原著和翻译(语言学)。
– 文献研究软件所产生的数据库。
– 数字化文件档案:数字照片、数字幻灯片、地层和平面发掘清单、数字影片、3D。
– 个人电脑上运用版面设计技巧来建立文件以供印刷的桌面出版或地理信息系统软件产生的平面向量档案。
– 定量数据表。
– 物理化学装备的测量文件:地球物理勘查、光学雷达、各种光谱、年代测定等等。
大数据服务的功能
大数据服务的功能不限于储存档案。它涉及提取(提交信息组合)、储存、讯号(即编制索引、定义和管理数据)、传播(可以透过网路咨询)、存挡(按照标准化格式)、筛选(可以提取和格式化数据)和处理的整个环节。它的功能丰富多样,包括五十年来使用的所有工具和软件:字典分析、统计、多维数据分析、地理信息系统、影像处理、模型制作、3D和最近使用于自动学习技术(深度学习)的人工智能等。
优良实践
沉溺于流行语之外,考古学家必须致力于其考古项目,将新技术和实用性有效的结合。好的实践提供一个成功计划的保证。
中介资料就是描述其他信息的资料,它由两部分组成:一部分是由考古学家产生的资料与相关联的单独中介资料,一部分是和越来越标准化的机构共同、综合和专门所产生的中介资料。这些机构的中介资料来自七〇年代的考古文献项目(法国文化部、国家科学研究中心、科技信息中心〔INIST〕)投资成立的第一个大型考古学词典,是现在中介资料的基础。在考古学中,参考词典是Pactols,最初是巴黎东方与地中海之家(Maison de l’Orient Méditerranéen)的古代文化资源协会(Frantiq)识别专案所开发的,拥有三万个参考词(符合ISO 25964标准的多语言词库)。法国文化部的词典(总目录、博物馆资料库)已经在Ginco平台上整合。
五十多年来,工业生产同质化的标准也逐渐地涉及到考古学,间接透过一般软件,或直接透过考古学专用规范,但仍然少有。
归档(OAIS,开放式档案信息系统)拥有自己的国际标准化组织ISO号码14721:2012。在这个标准下,大量的信息(资料组合)要归档、保存或传递给使用者。资料组合始终包含我们要保存的对象、相对必需的中介资料。
三种已定义的类型:
– 待分派资料组合(SIP):由档案保管者根据寄存处管理人制定的模式产生。
– 待归档资料组合(AIP):内容(Content Data Objects)和中介资料。由寄存处管理人产生。
– 待传递资料组合(DIP):根据使用者的请求权和传播权。
CIDOC-CRM(ISO 21127:2014)是一个专门用于文化遗产的标准,并涉及到大数据与归档的主题。
基本数据
待分派的资料组合包含已知的最基本信息。归档系统必须具有选择、过滤和汇总的功能,以便在任何更高层次的汇总上建构数据。否则,最基本的信息就会永远丢失。
原始数据
待分派的资料组合必须包含原始数据(raw),并以最佳解析度储存,不能进行格式化或压缩处理减少数据量或修改资料。
处理
认为数据的累积可以在一些强大的演算法下,自发性的提供知识或决策性的结果是一种错觉。
数据挖掘(这是给不同方法的命名,在七〇年代被称为多维数据分析)只能在形式化的结构框架下有效地使用,它既能突显数据中的结构,又能使其得到验证。
毋庸置疑,这种过度的自信(或说过度懒惰)就是使用这些技术时失望的来源,这些技术在2000年开始随著后现代主义的成功而消退。
数据挖掘的技术整合到整体认知过程中,需要用多层次的方法,像我们曾经提出的 “系统三元组”(Djindjian,2002)。
系统三元组S(O, I, E)由主体O、内部信息I和外部信息E定义。
步骤一:定义系统三元组S(O, I, E)
系统S由E的一组常数定义,例如相同地层单元(闭集)的物件、同一个墓地、同一个装饰洞穴的绘画、同一居住结构的工具、同一个地方的当代都市结构等,所有这些都可以用外部信息常数T(时间)、H(居住结构)、R(区域)、L(位置)、M(来源)、EV(环境)、EC(经济)等等来定义。
步骤二:内在信息感知和描述I
步骤三:外在信息记录E
步骤四:格式化
由物件表格 “物件和形容” (O x I)建构的格式化系统,提供了分区结构(分类或类型学)或系列结构(序列化),并给O一个新的指令,像O+,和I的相关性,像I+。这个系统从认知S(O, I)状态到 S+(O+, I+)状态。这种构成称为内在组织化(构造、构成、组织化)。
由发生率表格(I×E)建构的格式化系统,它提供二组信息间的相对应结构、时间相建构为E=T、空间建构或为E=H或L,环境决定论为E = Ev等等。这个系统从认知S(O, I, E)状态到S+(O+, I+, E+)状态。这种构成称为外在组织化(构造、构成、组织化)。
步骤五:将数据分析技术应用到(O×I) 或(I×E)表上。
步骤六:I和E的反馈(这是一种学习机制)。
步骤七:透过整合新的I和E逐步丰富内容。
步骤八:验证(将另一个系统O上,用另一个相关E等等)。
这些过程,为了真正的感知,必须明确地融入学习机制,像是附加元素组合所进行的数据分析,或透过重复互动的内部信息可以让考古学家与物件互动,是一种基本的学习机制。
更广义的说,“系统三元组”的方法遵循皮尔士逻辑(C.S. Pierce),他的应用源自于机械行为(过程控制、机器人)、认知心理学和考古学领域的重要应用:
A : 内部信息的获取(考古学与物件的认知互动)和外部信息的获取(勘探和考古发掘作业中的纪录)。
S : 透过学习结构化,透过内部和外部相关信息的相关机制结构化。
R : 重建(认知建模)
透过自五〇年代以来为人工智能所开发的各种演算法,人工智能的挑战可以总结为以下悖论:总是使用电脑日益强大的计算能力来做简单重复的演算或复杂又形式化的建构。西洋棋模拟很适合比喻这个悖论:算出所有棋步的可能性,或设计一个减少棋步的下棋策略。第一个选择的成功只是因为电脑运算力的提升,只是为第二个选择做准备,这个主题的成功无疑是深度学习概念的结果,深度学习不应只是个流行语。
结论
除了大数据之外,还有科学研究人员在二十世纪下半叶和电脑科技飞速进步之间的关系。这种技术提供了额外的方式(计算能力、储存量、通讯管道),越多的需求就跟著出现(常常是市场营销需求比研究人员还多)。考古人员跟著这一趋势,虽然他们的需求不多,但某些研究方法的发展(例如3D)像考古学家的特定社会学,让一些研究机构开始提供考古大数据的环境、标准和服务。
译自本刊法文版原文《Mégadonnées et archéologie》
参考文献
Djindjian, F. 1991. Méthodes pour l’Archéologie. Paris : Armand Colin.
Djindjian, F. 2002. “Pour une théorie générale de la connaissance en archéologie,” in XIV Congrès International UISPP, Liège Septembre 2001. Colloque 1.3. Archeologia e Calcolatori 13: 101–117.
Djindjian, F. 2011. Manuel d’Archéologie. Paris: Armand Colin.
巴黎索邦大学副教授,史前与原史科学国际联盟(UISPP)“考古学方式与理论”任务主席与联合国教科文组织国际哲学与人文研究理事会副会长,也是教授考古方法的史前学者。
巴黎索邦大学副教授,史前与原史科学国际联盟(UISPP)“考古学方式与理论”任务主席与联合国教科文组织国际哲学与人文研究理事会副会长,也是教授考古方法的史前学者。