刚产生的有关阿拉伯数字索引数用途的创造性想法,将对人工智能有帮助
我在此前写过有关"阿拉伯数字的搜索引擎索引数"的帖子:
060811 阿拉伯数字的google索引数
http://forcode.blogspot.com/2006/08/google_11.html061225阿拉伯数字的搜索引擎索引数研究
http://forcode.blogspot.com/2006/12/061225_26.html
前天,我对各个搜索引擎中,十个阿拉伯数字的索引数之间的比值进行了比较,
发现有几个比值在四个搜索引擎中都是收敛与特定值的,比如说2:3,1:4等
也就是说,各个搜索引擎对2的索引数与对3的索引数之间的比值是一个稳定值,
我当时不知道这意味着什么,我只是想到,如果这种稳定性是规律性的,
可以用来判断一个搜索引擎的质量和诚实度,
比如,若百度的索引数比值与其他搜索引擎的索引数比值相差很大,
说明百度的索引数是做了假的,但是根据其索引数的结果,
存在反推其作假算法的可能性,也就是说可以反推它从真实索引数计算出虚假索引数的公式,
我相信在百度内部肯定有索引数的真实数据。
另外,yahoo的索引数也不正常,因为它对8的索引数比对7和9的索引数的都要少,
而在其他搜索引擎中,恰恰相反,所以yahoo要么作假,要么其索引库忽略了特定类型的网页造成的。
如果能够根据索引数比值的稳定值对各类数据进行分类,
比如如果2:3的比值稳定在1.3的数据一般是有关历史或新闻报道的数据,
而2:3稳定在1.5的数据一般是个人blog的数据,等等,
如果yahoo对2:3的索引数比值处在1.4, 就可以认为,它对有关新闻报道的索引数过少,
或者说它对个人blog的索引数在其数据中占的比重较大,造成了这个比值偏低。
总之,不同领域、不同文化、不同国家、不同时期的信息中,对于各个阿拉伯数字的索引数比值有不同的稳定值,
这些稳定值可以称为一个特征密码,用于反推具有特定比值组合的信息的类型。
所以,对不同领域的信息特征值的研究,可以建立不同领域、不同文化、不同国家、不同时期信息特征值的知识,
然后依次建立的人工智能程序可以判断不同数据的类型,程序看起来会变得聪明,并且不会判断出错,
因为这些特征值是通过对海量数据的研究得出来的,不会轻易改变。
同理还可以对26个英文字母进行索引数比值的研究,同理还可研究"is are"、"they、she、he"、"它、他、她"等索引数特征值。
但是有一个问题:似乎很多搜索引擎的索引数未必准确,这就对利用其索引数进行研究的信度造成了根本性的损害。
但是MS的live搜索的索引数非常精确,往往精确到了个位数,这是否可以作秀?还是真实如此?
百度索引数的作假早有新闻,但是如果它的作假是依据特定公式来算出来的,
那么仍然不影响索引数比值的规律,所以其数据依然有研究价值,
而根据我的计算和比较,这种判断是正确的,因为baidu的索引数依然符合"阿拉伯数字索引数"的规律。
另外,google近期对9的索引数发生了大变化,变得非常非常少,这是反常的,
是否google索引数数据有问题?还是google丢失了特定类型的数据造成的?
0 条评论:
发表评论
订阅 博文评论 [Atom]
<< 主页
============================================================
格兰仕微波炉报价单 英语六级历年真题听力下载 大陆身份证生成器
東方神起的所有反轉劇!!.[含东方剧场](會繼續更新以後的)(已可覲看)
电视剧《靠近你温暖我》全集下载(BT/迅雷/电驴/剧照)
精彩的洞庭湖人鼠大战(4视频+forcode点评)
一百多个电影字幕下载网站,精心收集整理!
(视频)(CCTV10“走进科学”-科幻之旅专题-克隆人 8.14)
国外BT站点和BT种子搜索站(国外完整bt搜索列表)
============================================================
forcode科幻小说《抽水马桶的秘密》正在起点中文网连载
《抽水马桶的秘密》读者评论:
(1)你的书很好看,比大刘,王晋康的创意好太多了,努力吧将来出实体书我一定会买的。(2)很有想象力的作者啊!!估计是看了不少科幻小说的人,希望不要浪费你非凡的想象力。 (3) 读者在自己博客或论坛对《抽水马桶的秘密》的评论。(4)点击此处查看全部的读者评论(18页,1000条以上)。
《抽水马桶的秘密》相关帖子:
《远程面包机》提纲|| 《进化论危机》提纲大家一起来设计
抽水马桶是外星人的试管|| 读者推荐超一万票
《抽水马桶的秘密》内容简介:
地球哺乳界正在发生的一次大规模跨物种升级,DNA机制并非人们所想像的那样是决定生命的最终遗传载体,而是类似浏览器这样的转译机制,真正的遗传物质存储在弥漫整个宇宙的光子数据库中,DNA机制实际上是一种设定了进化路径的文明压缩包的解压机制,数十亿年前灭绝的三栖人发明了光子数据库和DNA机制,目的是为了让这个机制最终复活三栖人文明,而人类(裸猿)这一物种在三栖人社会里其实是一种宠物,但是DNA机制似乎出现了点问题,或者说不知道什么原因裸猿突然变得太过聪明了,在播撒了始祖菌(DNA种子)的所有星球,进化路径发展到裸猿阶段,并没有继续演化出最后一步:三栖人,而强大的光子数据库一旦意识到DNA进化机制的这个漏洞,立刻关闭了这些星球对光子数据库的访问权限,这样,这些星球的生态系统都面临着灭绝的危险,因为他们脱离了光子数据库的遗传支持再也无法自然繁殖,只能靠遗传工程来复制现有的基因,或者做些小打小闹的修改,整个宇宙各星球上的基于DNA机制的生态系统都面临崩溃的危险。最终在13世纪,裸猿一族在银河边缘一个不起眼的小星系发现了地球这个由于某种原因至今还刚进化到裸猿初级阶段的星球,为了催熟地球的进化速度,外星裸猿文明开始介入地球的发展,为了防止光子数据库察觉到非地球文明的介入并关闭地球的权限,这种介入始终是暗中进行,因为介入方式的分歧,银河系裸猿文明分裂为两大集团,这两大集团的争斗伴随着人类近现代的发展,于是,文艺复兴开始了、三次科技革命出现了、两次世界大战也来了,直到今天,地球人类为自己的技术进步而沾沾自喜,丝毫不知道技术迅速发展的真正原因以及潜藏的危机。
============================================================
forcode2003年以前的习作:未来的婚姻、远程面包机
forcode朗诵《蜀道难》||forcode的一百多个科幻构思
奇想录:最新奇有趣的新技术和新闻点评|| 订阅“奇想录”