统计学家会让作家失业吗？

在周五的愚公子专栏，经常有读者在评论区愉快地猜测愚公子是男生还是女生，因为喜欢博主进而好奇地猜测博主性别的事情并不鲜见，但由此能反映我们的大脑其实天然地具备统计学思维，总会不知不觉地根据看到某些文或图的概率，尝试归纳一些特点。

如果说日常生活中人们只是凭感觉统计，那么统计学家就能无限发挥他们的计算能力，而这也产生了一门交叉学科，叫Digital Humanities（数字人文学）：用统计学探究人文学。在《欢乐数学》这本书中，作者结合自己的“烂插画”轻松描述了这门学科的特点。这位作者是知名博主，当然，他也带着好奇收集自己的文章，用统计的方法测试了自己在别人眼中的性别。

好玩归好玩，作者对于统计学能把文学作品“吃透”感到担忧，但他也利用统计学得出来的结论完善了自己的这本书。所以统计技术能与更古老、更丰富、更人性化的语言理解方式和谐相处吗？

下文摘编整理自《欢乐数学：一本充满“烂插画”的快乐数学启蒙书》，经出版社授权刊发。内容有删减，小标题为摘编者所加。

原文作者 | [美] 本·奥尔林

摘编｜王一

《欢乐数学》，[美]本·奥尔林著唐燕池译，未读 | 天津科学技术出版社 2021年6月版（点击封面可购买）

一头叫作数字人文学的怪兽

生命的图书馆里有一头叫作数字人文学（Digital Humanities）的怪兽，它拥有文学评论家的身体、统计学家的头脑，以及心理学家史蒂芬·平克（Seven Pinker）的一头乱发。有些人把它当作射入黑暗洞穴的一束光，并为之欢呼；而另一些人则把它视为流着口水啃着第一版《包法利夫人》的狗，对它不屑一顾。所以，这只怪兽是做什么的呢？

很简单：它将书籍转换成数据集。

去年，我读了本·布拉特（Ben Blatt）的著作《纳博科夫最喜欢的词》，这本令人愉悦的书通过统计技术分析了一些文学领域的伟大作家。第一章题为“简洁‘地’用词”，探讨了一个老生常谈的写作建议：少用副词。斯蒂芬·金曾经把副词比作杂草，并警告说：“通往地狱的道路是由副词铺成的。”因此，布拉特统计了不同作者的作品中以“-ly”结尾的副词使用频率（firmly“坚定地”，furiously“猛烈地”等），最后发现：

在1000个单词中以“-ly”结尾的副词出现次数

作为英国最杰出的小说家之一，简·奥斯汀对副词的友好态度似乎充分驳斥了这一观点。但是布拉特指出了一个有趣的规律，在同一个作家的作品中，最伟大的小说往往使用的副词最少。

F.斯科特·菲茨杰拉德副词最少的小说是《了不起的盖茨比》；托妮·莫里森的是《宠儿》；查尔斯·狄更斯的是《双城记》，紧随其后的是《远大前程》。当然，也有例外——纳博科夫的《洛丽塔》可以说是他最受推崇的小说，而其中的副词频率达到巅峰。但趋势还是很明显的：低频使用副词让写作更清晰有力，而高频使用副词暗示了内容和节奏不够紧凑。

我想起了大学里的一天，我的室友尼尔什笑着对我说：“你知道我最喜欢你什么吗？就是你非常爱用‘可想而知’（conceivably）这个词，这是你的口头禅之一。”

我愣住了，进行了反省。而从那一刻起，“可想而知”这个词从我的字典里消失了。

尼尔什为这个词的消失难过了好几个月，而我同时背叛了两个朋友——这个单词和我的室友。我实在无能为力。原本我脑海中那个将意义转化为文字的幽灵是靠本能在工作的，它在阴影中自在地茁壮成长，而当我们把注意力集中到一个特定词的选择上时，会使这个幽灵感到害怕，它便退缩了，再也不用这个词了。

看了布拉特的统计数据后，这种情况再次发生了。我得了副词妄想症。从那以后，我写作的时候就像一个不安的逃亡者，害怕那些以“-ly”结尾的副词会像蜘蛛爬进熟睡时的我嘴里那样溜进我的散文中。我认识到，这是一种生硬的、人为的语言研究方法，更不用说其中幼稚的“相关性等于因果关系”的统计方法了。但是我没办法。简单来说，这就是数字人文学科的希望和危险；而就我而言，重点在于“简单”。

文学作为词的集合，是一个异常丰富的数据集。反之，如果仅仅作为一个词的集合，文学就不再是文学。统计在运作时会排除上下文，它对洞察力的探索始于意义的消失。作为一个统计爱好者，我被吸引了；而作为一个爱书的人，我却退缩了。丰富的文学语境和冰冷的统计分析之间，能否有和平共处的方式？还是像我担心的那样，它们就是宿敌？

统计学家做的文化研究

2010年，以让-巴蒂斯特·米歇尔（Jean-Baptiste Michel）和埃雷兹·利伯曼·艾登（Erez Lieberman Aiden）为首的14位科学家发表了一篇轰动全球的研究文章，文章题为《通过数百万本数字化书籍对文化进行的定量分析》（Quantitative Analysis of Culture Using Millions of digital Books）。每当我读到它的开场白时，我都情不自禁地感叹一声“我的天哪”。它的开头是：“我们构建了数字化文本的语料库，其中包含的书占世界上印刷图书总数的4%。”

我的天哪！

与所有统计学研究项目一样，这个研究需要大刀阔斧地简化。文章作者做的第一件事就是将整个数据集——500万本书，总计5000亿个单词——都分解成他们所谓的“1-gram”。他们解释道：“一个1-gram就是一串中间没有空格的字符，包括单词（‘banana’ ‘SCUBA’），也包括数字（‘3.14159’）和错别字（‘excesss’）。”

句子，段落，论点——它们统统消失了，只剩下一个个文本的碎片。

为了探测数据的深度，研究人员汇总了频率为十亿分之一以上的1-gram。从20世纪初期到中期再到末期，他们可以从语料库看出语言的不断发展：

在研究了数据后发现，1900年的1-gram中只有不到一半是真正的单词（不属于数字、拼写错误、缩写等），而2000年的1-gram中有超过三分之二是真正的单词。从统计的样本中，研究者估算出了每年英语单词的总数：

接着，他们在两本常用的词典中查找了这些1-gram，发现词典编纂者正在努力跟上语言的发展步伐。尤其值得一提的是，这些词典没有收录大多数罕见的1-gram单词：

我在平时的阅读中，并没有遇到很多罕见的、词典中没有收录的词汇。那是因为……嗯……它们确实很罕见。然而，语言中充斥着大量默默无闻的、出现频率低于一亿分之一的单词。总的来说，作者估计“52%的英语词汇，也就是英文书中使用的大多数单词，都是由标准参考文献中没有记载的‘暗物质’词汇组成”。这些词典只触及了皮毛，漏掉了像“slenthem”（一种金属制作的乐器）这样的珍宝词汇。

对这些研究人员来说，在词汇中的探险还只是热身。接下来，作者们通过跟踪筛选的1-gram频率研究了语法的演变、作家成名的轨迹、审查制度的印记和历史记载的转变模式。所有这些只用了十几页就完成了。

这篇文章让我惊掉了下巴。《科学》杂志察觉了这一研究的重要意义，免费向非订阅客户开放这篇文章。《纽约时报》宣称：“这是一扇崭新的文化之窗。”

文学学者倾向于研究独特的“经典”，只有少数精英作家能被深入、专注地分析。比如托妮·莫里森和詹姆斯·乔伊斯，还有坐在乔伊斯的键盘上敲下了《芬尼根的守灵夜》（Finnegans Wake）的那只猫。但这篇论文指向的是另一种模式：一个包罗万象的“语料库”，在这个语料库中，无论是知名的还是无名的图书，都同样获得研究者的注意。统计数据是推翻文学的寡头制、建立起民主政体的有力工具。

理论上，精读和正典与统计学和语料库，这两种模式并没有无法共存的理由。尽管如此，像“精确测量”这样的短语还是指出了一种冲突。文学的意义能“精确”吗？它们可以被描述为“可测量的”吗？或者说，这些强大的新工具会带领我们离开难以量化的艺术深处，去寻找我们的锤子能打到的钉子吗？

统计学能算出我的性别吗？

在我来看，散文应该是没有性别的。我的散文像雌雄同体的海绵；弗吉尼亚·伍尔芙的散文则像银河或神的启示。但伍尔芙在《一间自己的房间》表达了相反的观点，她认为早在1800年，流行的文学风格就已经演变成男人思想的容器，容纳不了女人的思想。散文的节奏和形式本身就带有某些性别特征。

这个观点在我脑海里萦绕了几个月，直到我在网上看到一个叫“魔幻酱汁（Apply Magic Sauce）的项目，它可以阅读你复制粘贴上去的文章节选，并通过神秘的分析方法预测作者的性别。

这太有意思了，我必须试试。

在眼花缭乱的博客网站上，我花了一个小时复制粘贴了25篇博客文章，这些文章写于2013年至2015年。最终的结果是这样的：

分辨我博客的性别

由于“魔幻酱汁”团队对技术是保密的，我开始试图探究这个算法可能的运行模式。它是用图表绘出了我的文章片段吗？它嗅出了我情感中潜在的男权主义吗？它是否像我想象中的弗吉尼亚·伍尔芙那样，渗透到我的思想中，把阅读图书上升为一种阅读灵魂的形式？

不，它很可能只是观察单词的频率。

在2001年发表的一篇名为《按作者性别对文字自动进行分类》（Automatic Categorizing writing text by Author Gender）的论文中，三位研究人员仅通过计算几个简单单词的出现次数，就成功地将男性和女性作家区分开来，准确率达到80%。后来的一篇题为《正式书面文本中的性别、体裁和写作风格》（Gender, Genre, and Writing Style in Formal Written Texts）的论文用通俗易懂的语言阐述了这些差异。一方面，男性更多地倾向于使用名词限定词（“一个”“这”“一些”“大多”……）；另一方面，女性更喜欢使用代词（“我”“他自己”“我们的”“他们”……）。

非虚构类作品中的单词类型

事实上，甚至连“你”这个平平无奇的单词出现的频率都能透露出作者的性别：

虚构类作品中“你”一词的使用

这个数据系统如此简洁，让人们更惊讶于它的准确性。这种方法忽略了所有的上下文、所有的句意，只关注非常小的一部分单词的选择。正如布拉特所指出的那样，它会把“这句话是女人写的”这句话评价为更有可能是男人写的。

然而，如果你把视野扩大到所有的单词，而不仅仅是语法上的小连接词，那么结果就会转向刻板印象。一家名为CrowdFlower的数据公司研究出一种用于推断社交网络账户所有者性别的算法，它选出了以下性别预测词汇：

而在《纳博科夫最喜欢的词》中，本·布拉特发现经典文学中最具有性别特征的词是：

“魔幻酱汁”看起来也依靠了这些线索。当数学家凯茜·奥尼尔使用“魔幻酱汁”的算法测试一名男性写的关于时尚的文章时，结果为99%女性特质。当她测试一名女性写的关于数学的文章时，结果是99%男性特质。而奥尼尔自己的三篇文章则分别获得了99%、94%和99%的男性特质评分。”这是个小范围的测试，”她写道，“但我打赌，这个模型代表了一种刻板印象，根据作者选择的主题来确定作者的性别。”

这些结果不准确的例子并没有平复我内心的恐惧。我的男性特质似乎已经渗透到我的思维中，以至于一种算法可以用两种不重叠的方式将它检测出来：其一是我对代词的使用情况；其二是我对欧几里得的喜爱。

我知道，这在某种程度上证明了伍尔芙是对的。她发现了男人和女人正经历着不同的世界，并相信女权的斗争必须从句子的层面开始。粗糙的统计数据也证实了这一点：女性写作的话题和方式与男性不同。

不过，我还是觉得这一切都有点儿令人沮丧。如果说伍尔芙的写作揭示了她的女性特质，我更愿意认为这些女性特质嵌入了她的智慧和幽默之中，而不是通过她使用名词限定词的频率较低表现出来的。听伍尔芙分辨男性和女性的散文，感觉像是去看一位值得信赖的医生，而如果让算法做同样的事，就让人感觉像在机场被搜身一样。

统计数据和文学意义能否共存？

2011年，斯坦福大学文学实验室的学者尝试了一个棘手的跃进试验：从识别文章作者到识别文章体裁。他们使用了两种方法：词频分析和一种更复杂的句子层面的工具（称为Docuscope）。出人意料的是，这两种方法都能进行准确的体裁判断。

我有些不安，算法比我知道的多太多了。

令我稍感宽慰的是，研究人员给出了一个试探性的结论：没有一个单一的元素可以区分一个作家或流派，也没有一个独有的特征可以让所有其他作家效仿。相反，写作中的特征包括很多方面，从小说的总体结构一直延伸到分子般的音节结构。而统计数据和文学意义是可以在相同的单词序列中共存的。

大多数时候，我是为了建造一个自己的世界而阅读，书中有情节、主题、人物——这是一种高层次的结构，是任何路人都能看到，但统计数据却无法解释的层面。

如果看得再近一些，我就可以看到这个建筑的一砖一瓦，包括句子、句子结构、段落的设计。这是我的高中英语老师教我观察的微观结构，计算机也能学会做同样的事。

而在这之下还隐藏着砂浆，包括代词、介词、不定冠词。这些纳米级结构对我的眼睛来说太精细了，但对于统计学家的化学分析来说却是理想的研究对象。

虽然这只是一个比喻，但这个比喻是我大脑中冥冥响起的声音。我头脑一热，便打开这本书的第一部分（“如何像数学家一样思考”），对以“-ly”结尾的副词频率进行了统计，结果为每1000个单词中有10个，和弗吉尼亚·伍尔芙作品中以“-ly”结尾的副词频率差不多，这是一个好预兆。接下来，我忍不住删除了不必要的“-ly”副词，直到频率下降至每 1000个单词中8个以下，这是属于欧内斯特·海明威和托妮·莫里森的频率。我突然发现，作弊的感觉很棒。

新的统计技术真的能与更古老、更丰富、更人性化的语言理解方式和谐相处吗？是的，这是“可想而知”的。

责任编辑：郭旭晖龚丽华

阅读

加载中...

统计学家会让作家失业吗？

相关新闻