科研助力

科研助力 莎士比亚是英文词汇量最大的人吗?计量文体学来回答…

  这周去悉尼大学参加了一个数字人文(Digital Humanity)的工作坊,学习了一些计算文体学的方法。

  其中,有一个课程叫Distant Reading(相对于文本精读close reading)。主讲人是Hugh Craig教授,是纽卡斯特大学计算语言学和文学中心的主任。

  他常年致力于通过统计的方法研究文学作品,特别是莎士比亚。这种技术可以用来了解同一作者不同时期的文体特点,判断某一作品是否在文体风格上符合某一作家,进而推测一些争议作品的署名问题。

  他讲课时提到一个研究让我很感兴趣,于是问他要来了论文拜读。这个研究探讨了莎士比亚是否天赋异禀拥有惊人的词汇。

  下文的图表均来自于Craig教授的论文。

  感兴趣的读者可以阅读原文:https://muse.jhu.edu/article/421927/summary

  莎士比亚是英语文学史上最重要的人物,估计没有之一。

  Ingravitational terms, “culturalspace-time” is bent by the black-hole-likesingularity of his reputation.

  用重力学的术语来讲,在文化的时空里,莎士比亚的名声就像黑洞一样让时空弯曲。

  Gary Taylor, 1989

  关于莎士比亚的一个坊间和学界的流行说法是莎士比亚的词汇量极大。Stephen Greenblatt认为莎士比亚的词汇量是25000,而John Milton只有12000。The Story of English一书中认为莎士比亚的词汇量是正常受过教育的人的两倍,并且高于同时期的作家。也有人将莎士比亚文学作品的伟大归功于其用词丰富,绚丽斑斓。很多老师都用这个说法强调背单词的重要性。

  但是,一些学者对比了莎士比亚和其同时代的作家作品中词汇量。

  Louis ule 发现Nashe作品 Summer’s LastWill and Testament 的词汇量比莎士比亚任何作品的词汇量都大(作品中不同词汇的比例)。同时,他也认为词汇量不是作品好坏的标准。

  Otto Jespersen认为我们应该区分一个作家使用的词汇和他所知道的词汇。比如莎士比亚使用了约20000个词汇,而Milton 的诗歌中只有8000。这其中的差异可能是因为莎士比亚的作品在题材上比Milton更加广泛,而不一定是莎士比亚在词汇上天赋异禀,在文学史上无人能及。

  “The greatness of Shakespeare’s mind is therefore not shown by the fact that he was acquainted with 20,000 words, but by the fact that he wrote about so great a variety of subjects and touched upon so many human facts and relations that he needed this number of words in his writings.”

  “莎士比亚的伟大不在于他熟练掌握20000个英文单词,而是在于他的作品题材广泛,他需要这样大的词汇量去表达人类及相互关系的命题。”

  Jespersen

  David crystal比较了圣经(King James)和莎士比亚作品,他发现880000词的圣经中有6000个不同的词汇,而884647词的作品中有20000个不同的词汇。他认为这其中的差异在于,莎士比亚的作品情节丰富,题材广泛,场景复杂。

  在以上种种争论的背景下,Hugh教授首先比较了莎士比亚和同时代作家的词汇密度(生词数和总词汇数的比值)。

  结果发现这些作家的生词比例都分布一条斜线附近(想象一下),因此莎士比亚的词汇量并不很突出。换句话说,如果这些作家也写同样多数量的作品,或者他们的作品如果有同等数量被流传下来,他们作品中的词汇量也有可能达到莎士比亚的水平。但是由于莎士比亚的作品远远多于其它作者,因此这一数据还不能完全对比莎士比亚和同时代作家的词汇量。

  因此他又选取了1580 到1619的121个作品,并把这些作品以10000词为单位分成若干份,结果发现,莎士比亚并不是词汇丰富度最大的作者。

  然后他又找了两位在作品数量上可以和莎士比亚(28部)相比的作家,Thomas Middleton (18部)和Ben Johnson(17部)。他比较了三位在时间上,后续作品新词比例的变化。

  发现总体上,后续作品的新词量是减少的。莎士比亚的词汇量在后期作品里并没有异常变化。相反Jonson和Middleton的最后一部作品the Sad Shepherd,A Game at Chess在词汇上有更多的新词贡献。

  Slater 认为莎士比亚的伟大之处也许不在于用了很多生词,其文学性可能在于把一些常见词用的更加丰富。于是Hugh教授比较了121个作品中常见500词和生僻词(在作品中只出现了一次的词)的模式。

  他发现莎士比亚常见词使用和同时代的作家相比基本相同,甚至有更加依赖常见词的倾向。

最后他得出结论:

  When Shakespeare is placed on a computational-stylistic map along side his contemporaries—that is, when we look at a “corpus Shakespeare”—he follows rules about vocabulary density and about the introduction of new words in new plays, rather than breaking them. If anything, his linguistic profile is exceptional in being unusually close to the norm of his time. His language is an extraordinary achievement with the regular resources of the English of his day rather than a linguistic aberration.

  从计算问题学的角度看,莎士比亚在词汇丰富度和新词使用上是和当时趋势相近的。他在语言上是极其贴近他的时代,他的非凡贡献在于他用那个时代的英语而非是语言上的异端。

Copyright © 2002-2019 stc8.com. 石头网 版权所有