刚产生的有关阿拉伯数字索引数用途的创造性想法,将对人工智能有帮助
我在此前写过有关"阿拉伯数字的搜索引擎索引数"的帖子:
060811 阿拉伯数字的google索引数
http://forcode.blogspot.com/2006/08/google_11.html061225阿拉伯数字的搜索引擎索引数研究
http://forcode.blogspot.com/2006/12/061225_26.html
前天,我对各个搜索引擎中,十个阿拉伯数字的索引数之间的比值进行了比较,
发现有几个比值在四个搜索引擎中都是收敛与特定值的,比如说2:3,1:4等
也就是说,各个搜索引擎对2的索引数与对3的索引数之间的比值是一个稳定值,
我当时不知道这意味着什么,我只是想到,如果这种稳定性是规律性的,
可以用来判断一个搜索引擎的质量和诚实度,
比如,若百度的索引数比值与其他搜索引擎的索引数比值相差很大,
说明百度的索引数是做了假的,但是根据其索引数的结果,
存在反推其作假算法的可能性,也就是说可以反推它从真实索引数计算出虚假索引数的公式,
我相信在百度内部肯定有索引数的真实数据。
另外,yahoo的索引数也不正常,因为它对8的索引数比对7和9的索引数的都要少,
而在其他搜索引擎中,恰恰相反,所以yahoo要么作假,要么其索引库忽略了特定类型的网页造成的。
如果能够根据索引数比值的稳定值对各类数据进行分类,
比如如果2:3的比值稳定在1.3的数据一般是有关历史或新闻报道的数据,
而2:3稳定在1.5的数据一般是个人blog的数据,等等,
如果yahoo对2:3的索引数比值处在1.4, 就可以认为,它对有关新闻报道的索引数过少,
或者说它对个人blog的索引数在其数据中占的比重较大,造成了这个比值偏低。
总之,不同领域、不同文化、不同国家、不同时期的信息中,对于各个阿拉伯数字的索引数比值有不同的稳定值,
这些稳定值可以称为一个特征密码,用于反推具有特定比值组合的信息的类型。
所以,对不同领域的信息特征值的研究,可以建立不同领域、不同文化、不同国家、不同时期信息特征值的知识,
然后依次建立的人工智能程序可以判断不同数据的类型,程序看起来会变得聪明,并且不会判断出错,
因为这些特征值是通过对海量数据的研究得出来的,不会轻易改变。
同理还可以对26个英文字母进行索引数比值的研究,同理还可研究"is are"、"they、she、he"、"它、他、她"等索引数特征值。
但是有一个问题:似乎很多搜索引擎的索引数未必准确,这就对利用其索引数进行研究的信度造成了根本性的损害。
但是MS的live搜索的索引数非常精确,往往精确到了个位数,这是否可以作秀?还是真实如此?
百度索引数的作假早有新闻,但是如果它的作假是依据特定公式来算出来的,
那么仍然不影响索引数比值的规律,所以其数据依然有研究价值,
而根据我的计算和比较,这种判断是正确的,因为baidu的索引数依然符合"阿拉伯数字索引数"的规律。
另外,google近期对9的索引数发生了大变化,变得非常非常少,这是反常的,
是否google索引数数据有问题?还是google丢失了特定类型的数据造成的?