forcode想看的


forcode看过的


新技术
新趋势
奇思妙想
科学探索
科幻奇幻
资料搜集
网络研究
统计定量
社会学研究
书摘读后感
数码网络
软件评测
数据指标
实用信息
有趣的东西
房地产
网络赚钱
投资创业
新闻评论
网站经营
电影八卦
美景美人
人物朋友
情感回忆梦
forcode生活

2007-01-16

Re: 070116有关搜索引擎的一个想法

判断动词的一个可能的方法:
由于动词具备很大的灵活性,使得其后面可以接的名词非常多,组成动宾结构,
这一点可能能够用于判断词性。
如果一个字与后一个字可以组成的词组数目非常多,
比如正常组合数量是2000,而这个字的组合数量超过了8000,
就可以判断它是一个动词。

不过语言是一个很复杂的现象,还是需要对语言多一些了解才行。
刚才搜索"爱"字,看到了"爱设计"这样的组合,才意识到,
动词也可以跟着动词组合。。。。

这样的机器智能的思路是根据人类经验自上而下的设计,
虽然利用搜索引擎的索引数来学习,但基本模型是从人类语法中来总结的,
不知道这个方向是否正确。

On 1/16/07, forcode(奇想录) < woodphone@gmail.com> wrote:
其实搜索引擎索引的数十亿个网页是一个极度丰富的机器学习材料,
这样海量的数据包含了人类语言和人类社会的结构规律,
如果能够给机器编制合适的学习算法,就能够让它看起来具备理解人类的能力。
这是我的一个信念。

现在的搜索引擎是对网页中的链接进行分析,根据链入和链出某个页面的数量和质量来判断该页的PR值,
实际上以现有搜索引擎为基础,不光可以对链接进行分析,也可以对网页中的任何一个字词进行分析,
这样从任何一个网页中有限的字词出发,最终也能够遍历整个索引库。

比如,从"饭"字开始,可以索引出1.69亿个页面,然后可以分析在索引页面中,
机器自动搜索索引标题中出现的与"饭"字相邻的字词组合的索引数,比如"吃饭"、"米饭"、"白饭"、"饭菜"、"饭桶",等等,
这样可以得到这些字词组合的索引数,将这些索引数从高到低排列,机器可以积累一个常用词表。

我相信只要发明合适的算法,机器也能够判断动词、形容词、名词、主谓宾等等,
更进一步,有办法让机器通过计算搜索引擎索引数具备分析每一句话所对应的所指,
除非这个词组是新出现的,索引数还没有达到正常水平。

机器还可以通过积累用户输入的词组来优化自己对字词组合的判断。

070116有关搜索引擎的一个想法

其实搜索引擎索引的数十亿个网页是一个极度丰富的机器学习材料,
这样海量的数据包含了人类语言和人类社会的结构规律,
如果能够给机器编制合适的学习算法,就能够让它看起来具备理解人类的能力。
这是我的一个信念。

现在的搜索引擎是对网页中的链接进行分析,根据链入和链出某个页面的数量和质量来判断该页的PR值,
实际上以现有搜索引擎为基础,不光可以对链接进行分析,也可以对网页中的任何一个字词进行分析,
这样从任何一个网页中有限的字词出发,最终也能够遍历整个索引库。

比如,从"饭"字开始,可以索引出1.69亿个页面,然后可以分析在索引页面中,
机器自动搜索索引标题中出现的与"饭"字相邻的字词组合的索引数,比如"吃饭"、"米饭"、"白饭"、"饭菜"、"饭桶",等等,
这样可以得到这些字词组合的索引数,将这些索引数从高到低排列,机器可以积累一个常用词表。

我相信只要发明合适的算法,机器也能够判断动词、形容词、名词、主谓宾等等,
更进一步,有办法让机器通过计算搜索引擎索引数具备分析每一句话所对应的所指,
除非这个词组是新出现的,索引数还没有达到正常水平。

机器还可以通过积累用户输入的词组来优化自己对字词组合的判断。

由forcode.blogspot.com提供罗刚节目录音MP3下载(113M)

这是我收藏的罗刚节目录音文件,一共有4个MP3文件,
总共110多兆,由我收藏的罗刚录音磁带转录而来,
罗刚是原湖南经济广播电台心灵之约节目主持人,
下面是bt种子下载地址:

http://pkubbs.net/attach/boards/Radio/M.1168877276.A/luogang.torrent