热门搜索: 共和国作家文库 迟子建 周国平 三重门 新概念作文 尹建莉 活着 何建明
盗墓文学开创者天下霸唱:写现实是我的一个心结

众所周知,天下霸唱的代表作《鬼吹灯》曾风靡华语世界,之前的作品无一不是延续着古...

刘心武:《续红楼梦》不为个人价值

很长时间以来,刘心武与《红楼梦》这个标签一直形影不离,他并不抗拒“红学家”的头...

梁小民:我认为《阵痛》人人都该看

要推荐三本可读的书,我认为《阵痛》人人都该看,认识那个乱世,也认识乱世中的人。...

文学受数学定律支配 莎士比亚也不例外

作者:丁家琦   发布时间:2016年03月18日  来源:《科学美国人》中文版《环球科学》  

核心提示:齐普夫定律是由美国语言学家乔治·齐普夫(George Zipf)发现的一条规律。它提出,一段文本中每个词语出现的频次与频率排名大致成反比,即假如最常出现的单词出现了100次,第二频繁出现的单词就约出现50次,第三频繁出现的单词就约出现33次,以此类推。

6DADE5AAF7B7EDBC9D62543CDF3833C9

虽然文学被看做是创作自由度最高的表达方式之一,但即使大师的作品也受着一个数学规律的支配。

文学受数学定律支配 莎士比亚也不例外

齐普夫定律的图示。图片来源:巴塞罗那自治大学(UAB)

齐普夫定律是由美国语言学家乔治·齐普夫(George Zipf)发现的一条规律。它提出,一段文本中每个词语出现的频次与频率排名大致成反比,即假如最常出现的单词出现了100次,第二频繁出现的单词就约出现50次,第三频繁出现的单词就约出现33次,以此类推。

类似的定律还可应用于除文学之外的诸多领域,也经过了海量数据的检验。不过此前一直没有人使用最大程度的数学方法和最庞大的数据库来检验该定律在统计学上的正确性。

近期,西班牙巴塞罗那自治大学数学研究中心的研究者首次使用数学和统计学的专业知识,对齐普夫定律进行了严格的研究。他们使用了古登堡计划的数据库——古登堡计划是一项将版权过期的英文书籍电子化的互联网计划,包含3万多篇英语文本,可以免费获取。这么大规模的研究在该领域前所未见:此前的研究大多只采用几十篇文本的数据集。分析结果表明,如果除去少数只出现了一两次的词语,有55%的文本完美地符合齐普夫定律,而如果考虑所有的词语,仍然有40%的文本完美符合齐普夫定律。

“这一研究最让人惊异的一点,就是这么多词语出现的频率居然能被一个单变量的公式所描述。要知道,在自然界出现得最普遍的高斯公式也需要两个变量(即均值和宽度)来适应真实数据,”该研究的领导者、数学研究中心的研究员阿尔瓦罗·科拉尔(álvaro Corral)说,“如果进一步忽略只出现3~5次的词语,符合齐普夫定律的作品数还会更多。”

用数学术语表述这条定律,就是说如果把一段文字中的所有词语按出现频率从高到低排列起来,排第二的词语其出现频率就约为第一的一半,排第三的词语出现频率就约为第一的三分之一,以此类推,排第n的词语出现次数约为第一的1/n。

其实该定律最一般的表述形式还包含一个指数a,即排第n的词语出现次数约为第一的1/n^a,这让公式变得稍稍复杂了一点。不过代入实际数据拟合后,a的值其实非常接近1(就相当于没有这个指数了)。还有其他在数学上更为复杂的表述,但都只包含一个自由参数。

研究者使用古登堡数据库(包含31075本书)对齐普夫定律最常见的三种表述形式进行了验证,发现所有作品,有的只有100个字,有的则有100多万字,他们中的超过40%都符合三种表述中的一种,结论具有统计显著性(p>0.05)。

“齐普夫定律引发了一些争议,但它总是能在具体的例子中找到依据,”科拉尔说,“如今,在大数据与高性能计算机的时代,我们需要对它进行大规模的分析,这项研究就是关键的一步。”

科拉尔也说,虽然文学被看做是创作自由度最高的表达方式之一,但无论是莎士比亚还是狄更斯这样的大师,都逃不过齐普夫定律的统治。

网友评分:

0人参与  0条评论(查看)  

网友评论
点击刷新验证码

所有评论仅代表网友意见    匿名评论      已输入字数: 0

相关文章