大数据抓“马甲”

云计算
2013年4月,一本普通的破案小说“The Cuckoo's Calling”(中文译名:《布谷鸟的呼唤》)上市了,作者是Robert Galbraith,一名前便衣警察,2003年褪下军装,进入私人保安行业。直到7月中,还几乎没有什么人知道Robert Galbraith是谁,这本书在整个英国零售书商上也只卖出了449本,在全球知名的网上书店亚马逊英国站只排名5076位。

2013年4月,一本普通的破案小说“The Cuckoo's Calling”(中文译名:《布谷鸟的呼唤》)上市了,作者是Robert Galbraith,一名前便衣警察,2003年褪下军装,进入私人保安行业。直到7月中,还几乎没有什么人知道Robert Galbraith是谁,这本书在整个英国零售书商上也只卖出了449本,在全球知名的网上书店亚马逊英国站只排名5076位。书评商们对该书的评价是:“文笔不错,故事也吸引人,但是并不突出”,又有出版社之前拒绝了这本书。

[[84318]]

然而一夜之间,一个消息改变了一切,在亚马逊网站上这本书已经迅速爬到畅销书的前几位,这个消息就是这个男性作者Robert Galbraith,其实不仅是一位女性,而且就是写过7集《哈利波特》,并且以此书成为历史上***位靠写作收入超过10亿美元的作家,J.K.Rowling(J.K.罗琳)。以罗琳的知名度和在写作上的成功,她的小说攀升到畅销榜前几位不稀奇,但是这里面有两个有趣的地方:1,罗琳为什么要隐姓埋名以男人的身份来发表新作呢,2,外界如何发现罗琳是真正的作者的。

关于***个问题,我想并不难理解,做为一个从不名一文开始写起,最终在写作上无可附加地成功,在经济上更是前无古人的作家,继续写作的动力可能并不大,然而重新开始的乐趣反而远远大于靠写作赚钱了。这也从罗琳后来的解释中得到印证,“我一直希望这个秘密能够保持更久一些,因为做为Robert Galbraith是这样一种自由的体验,以另一个名字发表,没有任何期望值和吹嘘是如此地美妙”。

第二个问题,才是我今天要写的要点,而这个发现恰恰与大数据有一些关系。这起源于英国《星期日泰晤士报》美术编辑理查德布鲁克斯(Richard Brooks)收到了一条匿名的Twitter消息,透露罗琳才是《布谷鸟的呼唤》一书的作者。为了证明这条情报的真实性,布鲁克斯先生甚至雇佣了私家侦探,而这一动作恰恰和《布谷鸟的呼唤》中描述的一模一样。

[[84319]]

最终,恰恰是大数据技术帮助理查德破译了这里面的一切秘密,理查德请到两位计算机语言学家来帮助他,而使用的类似法医的方法就是对《布谷鸟的呼唤》、罗琳的另外两部小说《临时空缺》(The Casual Vacancy)和哈利波特的***一部《哈利波特与死亡圣器》进行科学地比对,比对的内容包括:

1, 在每一本书里对比所有的词组,或者相连续的短语集

2, 通过一种称为“N-gram”的算法做语言模型来分析用词或字符的序列关系,例如:对“to be or not to be”这一名句的基于词的2-gram序列包括“to be, be or,or not, not to, to be”

3, 对每本书中使用最频繁的100个词进行比较,对比它们出现频率的细微差别

4, 简单分析词的长度,排除词义的因素

5, 主成份分析,对比每本书中的六大特点:单词长度,句子长度,段落长度,字符频率,标点频率,及词用法。

5个小时后,这些计算机语言学家们利用这些大数据的分析技术“证明”了Robert Galbraith正是J.K. Rowling。

当然,当这些文本分析的技术用于中文的时候,会遇到一个完全不同的挑战,及“中文分词”,而这个中文分词的技术恰恰反映了中文作为一种语言的独特的特点,因为中文不像所有的西方言语那样有空格来区分词与词,必须要通过前后字与字的关系,加以上下文的关系,来分析文本中的“词”,而这也是中文世界中大数据的有趣领域,更是中国的计算机语言学家们发挥的巨大空间。

责任编辑:王程程 来源: 博客
相关推荐

2013-08-23 10:07:03

2019-11-21 09:32:42

大数据爬虫隐私

2010-08-26 10:43:41

2012-11-08 09:32:24

2021-05-14 09:57:44

大数据IT互联网

2015-08-18 09:47:13

2009-04-03 08:51:53

2013-03-20 10:31:14

大数据数据云服务

2019-07-04 14:22:56

大数据数据挖掘数量级

2016-08-12 00:04:44

大数据交通

2014-02-12 09:22:28

大数据

2015-06-29 13:38:31

大数据大价值

2015-04-13 10:21:39

大数据大数据前景

2016-08-16 00:52:19

大数据互联网

2012-02-13 11:19:49

存储集群存储

2013-01-07 10:09:56

大数据数据民主

2021-04-12 09:35:23

大数据据分析数据

2016-08-31 22:02:15

2012-12-24 10:41:00

大数据数据分析

2015-04-22 14:37:41

大数据大数据奇特应用
点赞
收藏

51CTO技术栈公众号