在google搜索"的"字会出来什么?
这是一个有趣的做法,你使用google这个全球最大的搜索引擎来搜索一个最常见的汉字:"的",我现在看到的数据是:
about 1,250,000,000 for 的,也就是说,一共有12.5亿条信息里包含了"的"字。如果在google中输入"is"这个最常见的英文,能够出来13,530,000,000 for is,也就是说,一共有135.3亿条信息里包含了"is",这个数值与google数据库里所有信息的条数应该有一个基本稳定的比率,加入google收录了600亿个网址,那么,这个比例就是600:135.3,我相信在一个语言中,面对这样庞大的信息,语言本身的规则和人们的习惯决定了这个比值是稳定的。如果哪位朋友有办法即时获得google收录的网址总数,我们就可以验证一下这个猜想。当然,我们有另一个方法,那就是搜索下列几个关键词:it/is/are/that/yes/no,我们可以获得这些常见英文单词在任何一个时刻的索引页面数。我记录一下此时此刻这几个关键词的索引数量:it是113.9亿,is是135.3 亿,are是111.1亿,that是98.9亿,yes是12.1亿,no是79.7亿。我们可以看到,it、is、are三个关键词索引的信息量是比较接近的。it:is=0.8418,are:that=1.1234,yes:no=0.1518,对于yes和no的比值悬殊很有意思,说明人们喜欢说no而不喜欢说yes,或者说,在人类的沟通中,说no的时候多于说yes的场合。但是因为在英语中,有时候no可以双重否定来表示肯定,或者,有时候用no开头的句子本来就是回答肯定的意思,所以这个比值实际上并没有这么悬殊。利用google对这几个关键词进行对比,只是一个开始,利用google这种跨时代的工具,学术界可以做更多以前不可想象的事情,我想,我以后可以在这方面做一些工作。我们可以跟踪几十年甚至几百年,看看互联网上这些比值会往哪个方向演变下去,而这种演变的背后,有何种力量在左右。
--
"奇想录"
http://www.forcode.net"热贴榜"
http://bbs.forcode.net"2MTV音乐网"
http://www.2mtv.cn/