年,几名隶属于一个叫“语言学会”的英国教会人员能买到的辞典不仅词条数量少得可怜,而且净是收录些生僻、奇怪的英文单词。于是,他们决定发起一项英语辞典的编撰计划。
年,前后花了71年编写的牛津英语词典(OxfordEnglishDictionary,以下简称OED)第一版正式出版。其中,前22年是准备工作(年至年),在实际编辑的49年间(年至年),共经历了4个主编,编撰团队在英美登报招募了约个义工提供引句。第四任OED主编JamesMurray不得不在牛津大学旁建造了一座小小的“藏书阁”来收录这些雪片般的词条。
JamesMurray博士。图片来自:OxfordDictionaryblog
仅仅过了一个世纪不到,年,OED编辑部宣布代表当代英语语言权威的OED第三版很可能不会再出版纸质版本。
第一版OED。图片来自:BaumanRareBooks
第二版OED。图片来自:CenteredLibrarian
消息一出,除了一些唏嘘的声音,更多人认为这无关痛痒。对于习惯了生活在互联网和智能移动设备环境中的现代人来说,“查词”这一行为早就从翻阅纸质词典,变成了通过图像、语音、文字形式输入电脑或手机,仅需几秒钟,就能获得相应的答案。
主持牛津英语词典数字化工作的人叫JohnSimpson,他在年至年间担任OED的主编。
准确的说法应该是:这个英国人在年代见证了OED语料库电子化的过程,并且从年代开始,主导了在线牛津英语词典项目和第二版牛津英语词典的编撰增补工作。
年,从英国雷丁大学中世纪研究专业毕业的JohnSimpson以一名索引卡整理助手的身份自年进入牛津英语词典编辑部工作。如果你看过一部由同名漫画改变的电影《编舟记》,可能会对索引卡有个比较直观的了解。在辞典编辑人员普遍使用电脑录入数据以前,索引卡是词典编辑最重要的语料收集工具。这是一张一张的小卡片,每一张上面写着一个单词和单词的释义。
美国韦氏词典编辑部存放的索引卡。图片来自:BostonGlobe
在OED的编撰过程中,每一个单词都必须经过收集记录、编写、查证、反复校对等过程,才能进入词典。在OED编辑部,负责编撰词条的编辑被分为普通词条、科学词条、新词词条,以及日耳曼语和法语类词条四种,他们都需要根据收集到的词语来源、使用的频率、还有在国际之间的流动性等等来决定这个单词有没有被收录的资格。在编写过程中,编辑团队还会产生更细的分工——比如专门会有编辑进行语音收录,通过电视、电影、广播等渠道来记录考证每个单词的读音。
这是一种持续了一百多年的做法——编辑和研究员在巨大的图书馆里上上下下,从一份份报纸或古书里查找每一个单词在历史上变化的细微足迹。然后恭恭敬敬地将它们排列在一张张薄薄的辞典专用纸上。
但对于JohnSimpson来说,他恰巧站在了时代变化的十字路口。
“回到年,当第二版OED出版后,我们开始从印刷材料里收集数据录入电脑。(牛津大学出版社雇佣了个打字员花费18个月时间将收录了67,,个字符的第二版OED全部录入电脑,并采用了一种基础标签语言结构)当时我们把探索的方向放在了建立一个巨大的电子数据库上。年代,数据库大体结构成型后,世界又变了。我们开始注意到万维网和互联网所带来的可能性——它能够改变我们一直以来使用的传统词典搜索和出版方式。”Simpson在他的一本名叫TheWordDetective:ALifeinWords:fromSerendipitytoSelfie的回忆录中写道。
由于编撰词典的特殊性质,类似于“信息工匠”的编辑们是电子数据库技术的早期实践者。Simpson透露,在年代,词典编辑就已经在开始接触Lexis/Nexis美国报纸数据库。他们渐渐习惯于用桌面上的电脑来搜索语料、录入数据。
年,OED团队又开始运用由美国密歇根大学开发的MakingofAmerica线上数据库——其中储存在密歇根大学资料库里关于美国早期书本、杂志的资料。这也是OED编辑们再一次从CD格式的数据库转向利用在线数据库。
2年,Simpson和他的团队正式将牛津英语词典搬上线。自那以后,编辑对词条的增补和修订都可以通过网络来进行,人们可以通过订阅的方式来获得OED最新的词条收录。
2年上线的网页版OED。图片来自:ARIADNC
“当你去了解一个词语时,你会对最后它会呈现出一个什么样的产品有个大致的感觉。每个单词都是一首诗——小到像莎士比亚的十四行诗,大到像乔伊斯的《尤利西斯》。但当在电脑上编撰辞典时,我们越来越多地意识到,其实并不应该