我们如何思考大数据？ – Humanities, Arts and Society

我们如何思考大数据？

修海乐

我们如何思考大数据？

大数据已迅速成为人们关注和争议的话题，但是我们应该如何对待和理解大数据呢？修海乐（Harold Sjursen）提出了一种广泛的哲学观点，根据对人类境况的重新定义来理解来龙去脉。

大数据是相当广泛而有趣的话题，可带出一种涉及万物的理论。我们该如何面对大数据，为何大数据如此重要？尽管目前大家关注的是掩藏在大数据中以及从大数据释放出来的新知识，但所提出的问题却是新瓶旧酒，仍是哲学的永恆主题。柏拉图 “洞穴寓言”（Allegory of the cave）中的囚犯们亦被要求思考人类的境况，先前被虚假表象所遮蔽的新知识，必须被揭露出来。大数据的支持者认为，通过挖掘大数据的深度，我们可以看穿错误的建构和了解我们在某种意义上也曾经是囚犯，并因此将重新定义人类的境况，能更好的将自己置于解放的道路上。

我们先讲个故事吧。

在六〇年代的曼哈顿，一切似乎都随手可得。两位神父，于三〇年代在布鲁克林长大的儿时好友，他们每周都会聚在一起共进午餐以维持友谊。一位耶稣会士，理智、富有知识、热情；另一位是方济各会士，充满同情心、随和，为了实现和平与美善而活。一个神学上对罪恶的质疑成为他么童年友谊的纽带：可以同时一边抽烟一边祷告吗？他们每週都会在格林威治村南边的一间义大利小馆见面，一边食用焗烤千层茄子，一边讨论一些迫切的议题。不可避免地，抽烟和祷告是否合宜的冲突成为神学反思的主题。这些讨论遵循公正的学术、圣经诠释学、护教学、幸福伦理学和开悟心理学等经典方法。他们大量的共同记忆参考了圣经、教父、奥古斯丁、阿奎那。他们诉诸语言的实证解释、晚期海德格尔（Martin Heidegger）的非对象性思考、美国心理学家罗杰斯（Carl Rogers）以当事人为中心的治疗原则，但始终没找到解决方案。由于他们的行程满档，他们因此同意下次见面时再进一步探讨这个问题。

一个星期后，他们又回到同一间餐厅，抵达后彼此脸上都洋溢著自满的表情。“J神父，你今天看起来十分开心。”F神父说。耶稣会士亲切地回答，并注意到方济各会士的喜悦近乎自鸣得意。“好吧，我已经解开我们的谜题了。”方济各会士说：“答案是否定的。”他的耶稣会同伴吃了一惊：“这不可能。我们彻底地讨论过，而答案无疑是肯定的。”经过了片刻的沉默不解，J神父终于提问：“你提出的是什么问题？”F神父毫不怀疑，自信地说：“正是我们一直反复思考的问题。祷告时可以抽烟吗？”耶稣会士认同了，他认为自己理解了这个矛盾：“啊，在我们谈话中，我们讨论的是吸烟时祷告的问题。”例如，如果在吸烟时，一个人见证了上帝的恩典并以真诚的祷告回应，当然可以接受也是适当的，但另一方面，如果一个人在履行神职人员的职责，以及管理神圣的圣礼，那么吸烟就是可恶的！这完全取决于你如何构思这个问题。

但我们如何构思这个问题，实际上，鉴于大数据的资源，问题是什么？这一期《人文、藝術與社會》杂志的主题将大数据、创造力和人类的境况联系在一起。大数据在21世纪初被描述为信息工程领域中的一个概念。大数据最著名的定义是由美国高德纳咨询公司分析师道格·莱尼（Doug Laney）所提出，简明扼要地指出我们面临的潜在挑战：“大数据是高容量、高速、高度多样的讯息资产，需要成本效益、讯息处理的革新形式来提升洞见和决策。”¹

就像故事中的神父一样，我们相信如果我们得知并且理解来源，就能对我们该如何生活这种存在性的问题有明确的答案。不过我们不像这对运气不好的人，大数据并不像一套典故，有既定的（即使有争议）解释方法。相反地，大数据（有人说像暗物质）通常对我们来说是无形的；它是不羁的异类、动态、无止尽的流转。然而我们相信只要能找到这个宝库的钥匙，那么丰富的洞见将让我们追求良善。今天，这种技术乐观主义可能有些式微，但是我们仍希望透过正确计算性的启发，让我们可以在某些程度上发掘数据并组织所需的讯息以产生关键信息，从而找出最佳的决策和最棘手以及威胁问题的答案。

这些雄心壮志使我们能够设想出一系列创新方法。就像有多种方法可以在海滩上寻找鹅卵石一样，使用或玩耍这些收集来的卵石的方法也很多，当面对大数据的浩瀚宇宙时，我们的想像力也得到充分的机会。这样的创造力能表达出洞见吗？是否会引导我们去理解善的存在困境，以及如何活得好？或许更重要的是，它们会引起或推动人类境况的反思吗？

大数据、创造力和思维方式的结合可能是理解人类境况的一种方式，从根本上重构苏格拉底的“认识自己”这个永恒的议题。苏格拉底肯定是在提示一种道德上的律令，告诉我们，为了过善良和公平的生活究竟应该做什么。但认识自己的意义为何，以及如何去做，是一个持续而开放的议题。大数据可以促进更好的认知或理解人类境况，这种想法既新颖，从传统哲学角度来看，也是反潮流的。

在哲学传统中，有关于思想、知识、理解究竟与行动或实践等的关系是什么，经过许多讨论，但没有达成强烈的共识。在某些相同的程度上，既可以找到它们之间彼此独特的论点，也可以找到相反的观点。正如道格・莱尼的表述所反映，常识认为思考先于行动，行动的效率和品质与思考的精确性、细节和正确性大致相符。因此，可以认为思考是为行动而准备，而讯息越充分，行动就越可能成功。但是大数据的收集以及分析就已经足以成为一种思维模式吗？让常识认为可以改善行动的模式已经就绪了吗？

数据挖掘的结果很难与传统的科学论证相提并论，更不能与个人研究相比较。我们对大数据的认识几乎是假设性的。当然，在普通经验中，我们也经常脱离一些看不见的重要证据，由技术引导的显微镜，在这个意义上来说，大数据表面上与许多科学信息相似。但这类型由实验室实验或实地考察调研就够产生的科学证据，通常是我们对事物的直接认识又进一步的扩大，是探讨潜在复杂性的线索或征兆。在大数据下，情况就不一样了；被披露的内容出乎意料，因为我们没有证据表明只有靠理论上的猜测。因此，大数据可以和我们只能透过推论来了解的暗物质相提并论。它是宇宙形成的必要条件，但我们对它的了解也仅此而已。所以大数据问题很可能会以未知的方式影响我们的生活。对它的认识可能会改变我们对人类境况的理解。这可能是推动数据挖掘的前提。

但是大数据不只是一个实用性的问题。它激发了我朋友也是同事路克・杜波（Luke Dubois）这样的艺术家们的创作。杜波是一位受过学术训练的音乐家，擅长演出和作曲，同时也是一位视觉艺术家，完全徜徉于数位媒体的世界。尽管他是真正的艺术家（与我所认识的当代艺术家相似），但他认为自己是一名工程师，因为他认为工程是艺术家的实际工作。他最近最有趣的作品 “更完美的国家 ”（A More Perfect Union）在商业媒体上受到热烈的报导，这可能是因为它对大数据的态度与道格‧莱尼的著名定义产生了共鸣。²

杜波的方法既有讽刺意味又有挑战性。他鼓励我们思考何为真实；而非抽象的、宇宙论的现实，是我们日常的、生活体验的现实。他在一个线上交友服务网站使用会员自我介绍的数据库里做数据挖掘。杜波对这件作品的描述如下：

“更完美的国家 ”是一间建立于线上交友和美国人口调查上的艺术作品。从2008年以来一直在进行中，试图创造出一个不以社会经济事实为基础，而是以社会文化身分为基础的另类人口普查。

2010年夏天，我加入21个不同的线上交友服务网站，并网化它们的内容，下载了一千九百万个单身美国人的简介。按照邮递区号分类这些档案，并分析其重要的字词。一系列的国家、州和城市地图（共43张）以不同的方式展现这些数据。最值得注意的是，一系列版画显示了美国的街道地图，其中城市名被该城市居民最常使用的文字取代。这个美国人的浪漫辞典，包含了二十多万个独特的词，从一个不完美但极其有趣的角度，说明了美国人是如何在一个以爱情为目的的论坛上描述自己。³

在这个作品中，大量的合成数据被拣选和提取出来，以新颖和意想不到的焦点揭示出普通生活的一个面向。“追求爱情时如何表现自己”这一主题涉及到我们对人类境况的了解，说明了我们如何理解如同情欲和陪伴的需求等人类基本特征。然而重要的是，这也表示如果没有这件作品的分析，我们不知道也可能不会在这种情况下认识自己。

正如英国金融时报所报导的那样“（像杜波这样的人）正在做的事是试图以一种优雅而振奋的方式来传达数据的隐祕的生命……我们对数据的看法从非常刻板的看法转变为感性的看法。”⁴

这个作品看起来满足了命题的要素：透过创意、大数据可以帮助我们重新定义从而更理解人类境况。但是这是否就是实际所做的事情呢？大量人类行为（言论或行动）的列举和关联纪录是否能说明是什么造就人类成为现在的样子？这是否能增加我们的洞见并导致更好的决策？从务实的角度来看，或许如此。如果寻找浪漫伴侣最成功术语的知识会引导我更能成功地找到这样的伴侣，从这个意义上来说，它确实可以指导我做出更好的决定。不过，这点是可疑的；但是，即便真是这样，也无法对人类境况提供更好的理解。如果这就是我们做决定的方式，我们在遵循自我内心的启示？我们是否拥有真正的洞见？或者我们只是在进行一个可能缺乏理解的计算过程？

我引用苏格拉底的训诫”认识你自己“来表达道德方面的内容，但自我认知往往难以捉摸。苏格拉底的训谕不只是道德上的训诫，也是知识上的挑战。人如何认识自己？我们内省的自我审视可能会强化那些信念而蒙蔽了真正的自我理解。我们生活数据的总结是否能有助于自我理解？

杜波的另一件作品涉及这个问题。他的作品名为“自画像，1993-2014”，他这样解释：据我所知，量化自拍这个词由莫琳・欧康纳（Maureen O’Connor）在2013年所创造。欧康纳在《纽约杂志》“心碎与量化的自拍”（Heartbreak and the Quantified Selfie, 12/2/13）上讨论记者蓝楚芙（Lam Thuy Vo）的Tumblr部落格和设计师尼克‧菲尔顿（Nick Felton）在社交媒体的自恋和大数据的无所不在的更大文化趋势框架下，诞生出自画像的新形式。这些数据画像通常会吸收、模彷或用其他方式，后塔夫特（post-Tufte）的视觉语义图表成为千禧一代网路分享的内容。

我创作的自画像是由1993年9月以来的电子邮件的力导向图所组成。用行外话来说，想像一个20年间个人和职场收发邮件的宇宙大爆炸；这些宇宙中不同的人有不同的质量和引力，因而形成了引力星系；那些不断对话的人，或者语言较亲切或有爱的人，他们有更强的吸引力。这些年我用过的五个主要电子邮箱在这张星图的中央，和我通信过的几千人，在他们的周围有一簇簇的情感和电邮副本。⁵

肖像呈现了也隐藏了一些人类境况。也就是说，它让我们看到自我介绍中不为人知的一面，同时又保护或强化一个人在世界上的地位。例如，大学校长的官方肖像就是为了展示一个人如何体现该校的精神，同时保护学校的传统理念并带领学校迎向未来的新挑战。也就是说，肖像创造了个人、机构或事件，同时也保证和人类境况的天然相容性以及救赎的关系。人物描写的真实性是为其选择性的功能，与数据挖掘揭露之前的事实结果一样。

那么，我们到底该如何去努力重构大数据成果所揭露的世界呢？杜波讽刺地重新描述了对普通人的看法，这个看法很有趣，也提醒了我们所看到的有时只比我们想看到的多一些。我们对人类境况的理解，跟我们对周围世界的观察一样，是一种被传统和必要性引导的有意识行为。幽默的问题：“可以同时吸烟和祈祷吗？”说明了我们对人类境况这部分的理解。大数据确实为创意地重新定义的人类境况提供了一个平台，然而这是深藏于人们集体心理被披露的真理吗？或相反地，是一堆事物或事件的任意集合，让我们用来当作证据以支持我们偶然的欲望？

细想一下道格莱尼大数据定义的三个部分：一、高容量，高速度和高度多样的讯息集合。二、需求成本效益、信息处理的创新形式。三、为提高洞见与决策能力。我们发现：（1）信息来源不是普通观察和理解所可达到的。它过于庞大、变化太快而且太多样化。当我们第一次意识到这些通常不可见的特征时，会唤起我们的敬畏感。接下来我们声明：（2）这个令人敬畏的根源对我们提出要求，那就是我们要透过革新信息处理的方式来认识它。信息处理的标准模式将行不通。最后，（3）只有那些得以用适当方式研究的人可得到回报。这种反民主的讯息显然不是对所有人有意义，甚至不是大多数人，只有被筛选出的一小撮人才能掌握。大数据的哲学家或大祭司们可以接触到这些信息来源，他们在隐密地调解大数据所拥有的增强洞见从而造福于许多人。

这种学说是先前提出的，政治和宗教都举出了案例。我们已经提到过柏拉图理想国的版本。灵智学派的典范⁶ 提出另一个也许更微妙的版本。根据根据晚期古代灵智学派的说法，真理是被隐藏的，而人类被囚禁在被无知面纱包围的身体里。一个祕密讯息被传达给少数人，提供了一把救赎的钥匙，突破这种束缚的环境而走向理解与释放。用这些名称来思考大数据是否太夸张，像是一个难以接近的神灵，可以提供祕密讯息，揭开无知的面纱并带领人类到更光明的未来？像杜波这样的艺术家或道格‧莱尼这样的分析师是这种神祕讯息的提供者吗？⁷

如果我们相信亚里士多德，人类境况不是由肯定而是以惊奇所构成的。目的的问题、行动的目的、相信必须有目的、相信事物是有意义的的信念，这三者支持这样的信念即增强洞见，有益的决定是可行的，并且会进步。在进步思想背后，是一种固定、稳定的假设，在此基础上，向目标前进是可行的。从这观点来看，人类境况主要在追寻理解。

这种对进步的信念和必然性的追求引发了从笛卡尔到康德的现代性危机。笛卡儿发现，以亚里斯多德为开端的形而上学肯定了观察，但看起来存在的以及一般观察认为显而易见的东西是错的，这就需要对所有知识进行全面而彻底的重新评估。他的方法是对迄今为止所传授或经验证实的一切都要保持不相信，甚至要怀疑。笛卡儿称这种发现为我们的新知识，这种危险的想法最终需要将心灵和肉体切断，并宣布上帝不是欺骗者才能使它合理化。笛卡儿的上帝需要的信仰是现代数学（笛卡儿是现代数学杰出的创始人）所提供增强的洞见。笛卡儿关于数学理性的论断既简明扼要的概括物质世界的真实本质，又指出人类洞见的极限，但最终被康德著名的宣言 “我必須否定知识，才可为我的信仰留下余地”所驳斥。他还说：“我们用来理解世界现象的图式……是一种隐藏在人类灵魂中的技能，以至于我们很难猜测大自然在这里使用的祕密诡计。”8康德像大数据理论的倡导者们一样，以这种方式承认我们知识的来源（理体 the noumena）超出我们的掌控范围，在我们面前出现的（现象）是由于人类理性本身的结构。自然的道理超出我们的知识眼界，但仍然决定著我们的福祉。因此服从义务成为关键的伦理原则和行动的指南，也是我们希望的来源。⁸

大数据的未来正是透过信息科学的数据挖掘技术，能够穿透康德的理论，或者换句话说，不再受纯粹理性的限制。所揭露的新知识是（或将是）救赎的，承诺让我们走上前进的道路。这样一来，就有可能超越康德所理解的人类境况的限制和约束。这种大数据的途径隐然地是灵智学派的，由一个信使向少数选民传递祕密知识（来自于去神话化的神）。这个祕密知识的传递者是技术，目前由人类的低度劳动所辅助。拯救的承诺需要人类的数据挖掘技术执行。事实上，必定如此，因为大数据领域的预设复杂性，数据挖掘的最后成功只能由电脑设备的人工智慧来完成。显然这种可能性将重新定义人类境况，人类行动的本质和人类的存在意义。

汉娜‧阿伦特（Hannah Arendt）提出了另一个设想人类境况的方法，一种维护人类行为正当性的方法。让我们从思考的角度来探讨她的理论。笛卡儿著名的定名 “人类为思维物”（res cogitans）当然提出这个问题，即思考是什么，为何思考决定了人性的特征，还有为什么人类选择思考。康德批评他所谓的职业思想家（Denker vom Gewerbe），因为思考是人类的与生俱来的本性。然而当提及人类最崇高的主题（上帝、自由、不朽）时，康德反对那些被他嘲讽为理性的空中楼阁建筑师（Luftbaumeister）的人，即那些试图透过缺乏经验或理解的论证来建立关于这些主题真理的人。对阿伦特来说，问题恰恰是如何从共同经验和理解的角度去看待思考。脱离这种理解精神活动（如数据挖掘的探索计算）不能引起行动，也不能引起我们做为人类创造未来可能性的决心。

在阿伦特题为《人的境况》（The Human Condition）一书中，恰当地描述几个有用的区别：公共领域和私人领域；行动的生活和沉思生活；以及行动的生活的三种活动：劳动、工作和行动。和哲学传统不同的是，沉思生活并不被视为比行动生活优越。行动不倚赖于思考的形构性影响，行动的目的不一定是为了改变理解——阿伦特并不是简单的批驳了马克思的第十一条论点。马克思认为人类是劳动的动物――亦即以劳动的必要性来定义――，而阿伦特则问，如果自动化（人工智能技术）把我们从这种劳动的必要性解放出来，那我们就不需要为了生存而劳动？根据她的方案，工作是不同的，因为劳动只是为了生存而做，工作却有不同的目标和生产出远久的事物。第三类是行动，包括我们常说的的行动和言语；这是人与人之间互相表达的方式，无疑只有人类如此。身为人类，意味著有行动的能力。正是透过行动，人类世界才得以创造和维持，人类社会得以维持。但是由于差异性，而不是因为一成不变的本质，人类的境况偶然的，每一次出生都是一个新的开始，因此是一个可能不断变化的课题。“人的多元性是行动和语言的基本条件，具有平等和区别的双重性质。假若人不平等，他们也就不能互相理解。”⁹

阿伦特以更微妙的区分取代笛卡儿式的身心二元论，在这种区分中，人的行动既不是预先规定的，也不是理想类型的模彷。此外，通过对 “诞生”的强调，阿伦特进一步强调了这样一个事实，即：随著每一次出生，伴随著新的可能性和希望，一个新的开始被建立。黑格尔式的历史观被排除了。像齐克果（Kierkegaard）一样，阿伦特把新的个体看作是人类境况的基础。这些个体肯定是思想家，但也是生活经验中思想家，透过不同的观点为共同领域的可能性贡献。

2018年8月，第24届世界哲学大会在北京召开。本届大会的主题是“如何为人”。大会代表了哲学所有的分支，从多个角度热切地讨论此主题。大数据并不是与会者关注的重点。当许多人认为后人类这个想法正处于萌芽阶段，或说已经存在，如何为人这个想法在这个时代显得尤为突出。在这种情况下，学习如何为人的疑问承担了新的急迫性。这是一个超越苏格拉底训诫的一步，即，认识自己以便为了符合良善、美好和公正而生活。这问题变成：在一个非人存在物（拥有智能作用的半机械人）决定合适于人类的社会与文化规范的世界里，如何共存或是否可能共存。奇怪的是，也许令人沮丧的是，大数据的现实与智能机器人等设备有著千丝万缕的关系，但却没有成为哲学的主要焦点之一。

正如我们所建议的那样，大数据的可用性从根本上重构了身为人类的意义和人类境况形势的问题。这种重构挑战了古代和启蒙运动以来的传统哲学形式。无论通过理性、演绎的逻辑，或通过感官知觉这二种笛卡儿认为知识的来源，我们都无法获得大数据。此外，鉴于大数据的动态性甚至不稳定的状态，提出确定性的认识论是不可能的。科技商业界所倡导的方法提出了一种危险的诺斯底式灵智派的类型学，是基于特权才能获取的隐藏知识以提供优越生活所需的更好的洞见。资料探勘提供了新的典范，排除根植于共同经验的方法。阿伦特的行动概念和从公共领域经验下竞争信念的多元世界是同样的，但在这个观点下不适用。

我们该何去何从？看来大数据带来的挑战，是一个决策基于自然获取参数的信息聚集的世界，有可能维持人性的理念，从而保护我们追求真善美的行为者特殊地位？创造力试图在艺术作品中重新定义人类境况，正如杜波的作品，我们不是主动的行为者（行动的发动者），而是在大数据的变化中不知不觉的陷入。这当然是哲学界追寻学习如何为人的一个重要问题。

译自本刊法文版原文《How Should We Think About Big Data?》

丝维特拉娜．西库拉（Svetlana Sicular） “Gartner’s Big Data Definition Consists of Three Parts, Not to Be Confused with Three ”V”s.” 富比士
吉蓮・泰特 “The art of Big Data.” Financial Times. July 5, 2013.
Luke DuBois.
同上， Financial Times.
Luke DuBois.
诺斯底式范例一词是指古代晚期诺斯底教派的思想，但比它们宣称的反向神学上的宇宙论更广泛。见汉斯・乔纳斯（Hans Jonas）的《诺斯底及其晚期精神》（Gnosis und spätantiker geist）。
我非常严重地怀疑，二者中的任何一个都没有接受过诺斯底式类型学。我仅指他们的工作暗示了构架上的相似。
这两句话都可以在康德的《纯粹理性批判》中找到。
汉娜・阿伦特《人的境况》

修海乐是文学院与工学院的教授，从事高等教育与行政管理人员四十余年。具有哲学史背景的修海乐，一直对科技感兴趣。他目前的研究与著作主要集中在科技哲学、全球哲学与科技伦理学方面。

http://harold-sjursen.org/

作者

http://harold-sjursen.org/

PDF版本

繁體中文

简体中文