forcode想看的


forcode看过的


新技术
新趋势
奇思妙想
科学探索
科幻奇幻
资料搜集
网络研究
统计定量
社会学研究
书摘读后感
数码网络
软件评测
数据指标
实用信息
有趣的东西
房地产
网络赚钱
投资创业
新闻评论
网站经营
电影八卦
美景美人
人物朋友
情感回忆梦
forcode生活

2007-01-16

Re: 070116有关搜索引擎的一个想法

判断动词的一个可能的方法:
由于动词具备很大的灵活性,使得其后面可以接的名词非常多,组成动宾结构,
这一点可能能够用于判断词性。
如果一个字与后一个字可以组成的词组数目非常多,
比如正常组合数量是2000,而这个字的组合数量超过了8000,
就可以判断它是一个动词。

不过语言是一个很复杂的现象,还是需要对语言多一些了解才行。
刚才搜索"爱"字,看到了"爱设计"这样的组合,才意识到,
动词也可以跟着动词组合。。。。

这样的机器智能的思路是根据人类经验自上而下的设计,
虽然利用搜索引擎的索引数来学习,但基本模型是从人类语法中来总结的,
不知道这个方向是否正确。

On 1/16/07, forcode(奇想录) < woodphone@gmail.com> wrote:
其实搜索引擎索引的数十亿个网页是一个极度丰富的机器学习材料,
这样海量的数据包含了人类语言和人类社会的结构规律,
如果能够给机器编制合适的学习算法,就能够让它看起来具备理解人类的能力。
这是我的一个信念。

现在的搜索引擎是对网页中的链接进行分析,根据链入和链出某个页面的数量和质量来判断该页的PR值,
实际上以现有搜索引擎为基础,不光可以对链接进行分析,也可以对网页中的任何一个字词进行分析,
这样从任何一个网页中有限的字词出发,最终也能够遍历整个索引库。

比如,从"饭"字开始,可以索引出1.69亿个页面,然后可以分析在索引页面中,
机器自动搜索索引标题中出现的与"饭"字相邻的字词组合的索引数,比如"吃饭"、"米饭"、"白饭"、"饭菜"、"饭桶",等等,
这样可以得到这些字词组合的索引数,将这些索引数从高到低排列,机器可以积累一个常用词表。

我相信只要发明合适的算法,机器也能够判断动词、形容词、名词、主谓宾等等,
更进一步,有办法让机器通过计算搜索引擎索引数具备分析每一句话所对应的所指,
除非这个词组是新出现的,索引数还没有达到正常水平。

机器还可以通过积累用户输入的词组来优化自己对字词组合的判断。

0 条评论:

发表评论

订阅 博文评论 [Atom]

<< 主页

热门文章
============================================================
格兰仕微波炉报价单    英语六级历年真题听力下载    大陆身份证生成器
東方神起的所有反轉劇!!.[含东方剧场](會繼續更新以後的)(已可覲看)
电视剧《靠近你温暖我》全集下载(BT/迅雷/电驴/剧照)
精彩的洞庭湖人鼠大战(4视频+forcode点评)
一百多个电影字幕下载网站,精心收集整理!
(视频)(CCTV10“走进科学”-科幻之旅专题-克隆人 8.14)
国外BT站点和BT种子搜索站(国外完整bt搜索列表)
============================================================
forcode科幻小说《抽水马桶的秘密》正在起点中文网连载
《抽水马桶的秘密》读者评论:
(1)你的书很好看,比大刘,王晋康的创意好太多了,努力吧将来出实体书我一定会买的。(2)很有想象力的作者啊!!估计是看了不少科幻小说的人,希望不要浪费你非凡的想象力。
(3) 读者在自己博客或论坛对《抽水马桶的秘密》的评论。(4)点击此处查看全部的读者评论(18页,1000条以上)
《抽水马桶的秘密》相关帖子:
《远程面包机》提纲|| 《进化论危机》提纲大家一起来设计
抽水马桶是外星人的试管|| 读者推荐超一万票
《抽水马桶的秘密》内容简介:
地球哺乳界正在发生的一次大规模跨物种升级,DNA机制并非人们所想像的那样是决定生命的最终遗传载体,而是类似浏览器这样的转译机制,真正的遗传物质存储在弥漫整个宇宙的光子数据库中,DNA机制实际上是一种设定了进化路径的文明压缩包的解压机制,数十亿年前灭绝的三栖人发明了光子数据库和DNA机制,目的是为了让这个机制最终复活三栖人文明,而人类(裸猿)这一物种在三栖人社会里其实是一种宠物,但是DNA机制似乎出现了点问题,或者说不知道什么原因裸猿突然变得太过聪明了,在播撒了始祖菌(DNA种子)的所有星球,进化路径发展到裸猿阶段,并没有继续演化出最后一步:三栖人,而强大的光子数据库一旦意识到DNA进化机制的这个漏洞,立刻关闭了这些星球对光子数据库的访问权限,这样,这些星球的生态系统都面临着灭绝的危险,因为他们脱离了光子数据库的遗传支持再也无法自然繁殖,只能靠遗传工程来复制现有的基因,或者做些小打小闹的修改,整个宇宙各星球上的基于DNA机制的生态系统都面临崩溃的危险。最终在13世纪,裸猿一族在银河边缘一个不起眼的小星系发现了地球这个由于某种原因至今还刚进化到裸猿初级阶段的星球,为了催熟地球的进化速度,外星裸猿文明开始介入地球的发展,为了防止光子数据库察觉到非地球文明的介入并关闭地球的权限,这种介入始终是暗中进行,因为介入方式的分歧,银河系裸猿文明分裂为两大集团,这两大集团的争斗伴随着人类近现代的发展,于是,文艺复兴开始了、三次科技革命出现了、两次世界大战也来了,直到今天,地球人类为自己的技术进步而沾沾自喜,丝毫不知道技术迅速发展的真正原因以及潜藏的危机。
============================================================
forcode2003年以前的习作:未来的婚姻、远程面包机
forcode朗诵《蜀道难》||forcode的一百多个科幻构思
奇想录:最新奇有趣的新技术和新闻点评|| 订阅“奇想录”