forcode想看的


forcode看过的


新技术
新趋势
奇思妙想
科学探索
科幻奇幻
资料搜集
网络研究
统计定量
社会学研究
书摘读后感
数码网络
软件评测
数据指标
实用信息
有趣的东西
房地产
网络赚钱
投资创业
新闻评论
网站经营
电影八卦
美景美人
人物朋友
情感回忆梦
forcode生活

2007-04-08

谷歌“词库门”事件

谷歌正式承认拼音输入法词库盗用搜狗拼音输入法词库

字体:

ugmbbc发布于 2007-04-08 19:22:39|5322 次阅读

Google 谷歌

感谢名头网的投递
4 月4日Google输入法正式发布之后,随即爆出词库盗用事件,其输入法中出现搜狗员工的名字,并且发现有多处无法合理解释的相同错误.4月6日, Google输入法很快更新了新版本,搜狗员工的名字被抹去,基本上Google盗用搜狗词库的行为成为事实.之后,词库盗用事件被成为Google词库 门事件.这几天来搜狗一直没有就此事作出任何回应.4月8日,搜狗拼音输入法正式发布关于Google盗用词库的声明.

4 月4日,谷歌轰轰烈烈的发布了"谷歌拼音输入法",以表明其本土化的能力和决心.然而输入法发布后,却引发了业内大量质疑.众多网友怀疑谷歌拼音输入法词 库直接盗用搜狗拼音输入法词库.4月8日,搜狐发表声明,称经其技术人员鉴定,"google的拼音输入法词库确系直接盗用搜狗拼音输入法词库(包括且不 限于1.5beta2版本,含词表及对应注音)",并要求google中国公开道歉,停止相关产品下载运营.针对网友质疑及搜狐公司声明,Google中 国向网易科技发来声明称,已注意到了部分用户对谷歌输入法词库的质疑,承认"该词库在试验阶段确实包含了一些非Google(谷歌)的数据源",愿意面对 问题.

以下为声明全文:


谷歌拼音输入法在实验室发布(2007年4月4日)以来,我们收到了用户大量的反馈和建议,其中,我们特别注意到了部分用户对谷歌输入法词库的质疑.该词库在试验阶段确实包含了一些非Google(谷歌)的数据源,我们愿意直面自己的问题.

我 们为因此带来的不便表示抱歉的同时,立即采取了行动.本周日(2007年4月8日)的中午,我们完成了谷歌拼音输入法发布以来的第二次全面升级(谷歌拼音 输入法 1.0.17.0版本).目前的词库是从谷歌多年积累的海量搜索数据库数千万条目中产生,我们欢迎用户与业界对我们升级版本给予更多的反馈和监督.

 最后,谷歌自身、同时也希望同业界共同努力,为提升输入法的全面升级、功能突破作出长期、踏实的实质性工作,不断的为用户提供更多、更好的应用体验.


"搜狗拼音输入法"关于Google盗用词库的声明

字体:

newdir发布于 2007-04-08 18:17:38|3969 次阅读

cnBeta 最新消息

感谢鞭牛士的投递
新闻来源:搜狐IT
搜狐公司第一次针对谷歌输入法词库抄袭一事的官方声明

"搜狗拼音输入法"关于Google盗用词库的声明

  近日,大量网友向我公司反映,Google于2007年4月4日推出的"谷歌拼音输入法"涉嫌盗用"搜狗拼音输入法"词库.经过我公司技术人员 技术鉴察, google 的拼音输入法词库确系直接盗用搜狗拼音输入法词库(包括且不限于1.5beta2版本,含词表及对应注音).

针对Google盗用"搜狗拼音输入法"词库的行为,搜狐公司通过各媒体做如下声明:

  1、我公司为推动传统中文输入法的创新与发展,开创性地依托搜狗搜索引擎技术和数据库,独立研发了搜狗拼音输 入法这一新一代、领先的中文输入法.同时,通过大量的技术研发和智力编辑,形成了全新的搜狗拼音输入法词库(含词表及对应注音和词频等),对中文词库有突 破性发展.关于搜狗拼音输入法词库建设的流程和原理请参见《搜狗输入法词库是怎样炼成的》(http://pinyin.blog.sohu.com/41063494.html)

  2、搜狗搜索从未以任何形式公开搜狗拼音输入法词库(包括且不限于1.5beta2版本),更未授权Google获得并使用此词库.Google未经任何合法有效的途径获得、直接盗用我公司搜狗 拼音 输入法词库的行为,我们表示强烈愤慨.

  3、搜狗拼音输入法自2006年6月5日问世,已经经历了10个版本的升级,凝聚了搜狗技术开发团队大量的智慧、心血和劳动.Google作为 以技术和创新闻名世界的著名互联网企业,并将"Don't be evil(不做恶)"作为公司道德信条,更应当合法诚信、尊重商业道德.而此次Google技术团队竟然无视搜狗技术人员劳动成果,直接盗用搜狗拼音输入 法词库,搜狐公司对此非常不理解.

  4、2007年4月5日晚,Google拼音输入法升级至1.0.16.0版本,遗憾的是,升级后版本的词库,仍然明显盗用"搜狗拼音输入法"词库.

  5、针对Google盗用搜狗拼音输入法的行为,搜狐公司要求Google公司:对以上行为公开赔礼道歉,立即停止盗用了搜狗拼音输入法词库的google输入法的下载和运营,停止相关产品的宣传,搜狐公司将保留采取进一步行动的权利.

  感谢媒体朋友及广大网友对搜狗拼音输入法的关注和支持,搜狗搜索将继续加大研发力度,持续改进搜狗拼音输入法产品的品质,为网友提供最优质的中 文输入服务和体验.同时欢迎媒体朋友及广大网友继续对搜狗拼音输入法提出宝贵意见,为继承和弘扬民族文化及民族知识产权做出努力.

   搜狐公司

  2007年4月8日

搜狗拼音输入法词库是怎样炼成的

搜狗输入法小组词库开发工程师 吕杰勇

 

转载此文请注明来自搜狗输入法官方博客,务必保留原始链接:
http://pinyin.blog.sohu.com/41063494.html

    众所周知,搜狗输入法在词库方面具有鲜明的特色,其词库不仅超大全面(大概有35 万左右),而且词条质量也很高。随着搜狗输入法的不断普及,越来越多的用户体验到了搜狗输入法的超级流畅性,但是这样的流畅性是以一个优秀的词库为基础 的。作为一个输入法的核心部分,搜狗的超强词库是怎样来的呢?下面和广大关心搜狗输入法的朋友们分享一下词库制作中的艰辛和快乐。

搜狗的词条来源

    词汇是一切中文应用的基础,但是世界上并没有任何一个词典包含了输入法所需要的所有词汇。比如中国汉语大辞典虽然包含了很多词条,但是仍然缺乏很多比较新、比较具体的词,网络的新词又层出不穷,所以搜狗输入法必须自己想办法构造一个适合他自己的词库。

    由于搜狗是一家搜索引擎公司,自然会有一 批自己做文本分析的词库,它包含了常用的基本词汇和部分专业词汇,但是在数量上还是远远不能覆盖用户对词汇的需求空间。经过分析可知,这部分缺少的词中有 相当一部分是人名、地名、歌曲、小说、财经、旅游、游戏、体育等。幸运的是,搜狐矩阵蕴含着许多搜狗需要的这些资源,比如地名资源可以从go2map拿 到,歌曲资源可以从搜狗的音乐搜索拿到,小说资源可以从搜狐网拿到,游戏词汇可以从17173游戏网拿到……这些资源虽然是内部资源,但是当初也是编辑经 过长时间大量的整理维护工作的结晶,并且这涉及到大量部门间的合作,每一个流程下来都会花许多精力。

    除了搜狐内部资源的整合,我们还为某些事 件、场合特别整理了大量的词表。比如在世界杯期间,我们的编辑整理了几乎所有与世界杯相关的词汇,使得球迷们可以更为流畅地交流。对于诗词,我们特别汇总 了几乎所有从最早的诗经到毛泽东的所有古诗词(包括宋词),这都成为搜狗词库来源的一部分。

    在融合搜狗自己的词库和各个兄弟部门提供 的资源后,搜狗输入法词库有了较大的完善,但是仍然缺少很多各种各样的词,比如"挖人"、"电荒"等。这些词无法通过寻找资源的方式全部找到,所以不得不 自己想办法。幸运的是,互联网网页是个大宝库,里面蕴含着几乎所有我们需要的知识,所以我们的工程师们设计了一套机器学习的算法从这些网页中训练新词,训 练的结果是得到了大批的新词汇,但是也引入了大量的噪声,即垃圾词。比如在最初的搜狗输入法版本里,"谢霆锋"这个词的错法就有"谢霆峰"、"谢廷锋"等 数种,这对用户的体验和输入法的智能性都造成了损害。

搜狗的词频统计

    输入法离不开词频,词频直接影响着智能组 词。搜狗输入法的词频统计是在一个极其大的互联网网页上统计出来的。为了得到一个最优的词频,或者得到某类风格的词频(比如口语化风格),我们不断更换语 料库,从网页类型的选取、文章长度的限制、某些特殊的预处理等都做了大量的尝试。每一次尝试都需要重新统计词频,动辄需要几天时间才能完成一轮词库的制作 与验证,占用的机器、人力、资源之多不是某些小手工作坊式的输入法小组能够完成的。

词库过滤系统的搭建

    经过前面的资源整理,我们得到了一个非常非常大的词库(约合几百万),这个词库中的词良莠不齐,需要坚决的过滤才能满足输入法的需要。试想,从几百万个词条的集合过滤得到35万左右的词条集合,这注定是一个庞大而又精细的工作。

    事 实上词条出现的频率是词条质量的最重要维度,频率越高则词条是好词的概率越高,并且不同来源的词汇有着不同的可信度。为此我们搭建了一个词库过滤系统,这 个系统好比是一个漏斗,可以灵活地对源头的词汇进行过滤,同时输出中间每一步的过滤过程以方便开发人员调整算法。就这样,在不断的过滤、验证、修改参数的 循环中,这个系统逐渐趋于稳定,为整个词库的质量做出了重要的保证。这个系统虽然只有几千行代码,但是开发人员对它阈值等参数的调整可谓不计其数。经过这 一轮的处理,词条的总体质量有了飞跃般的提升。

词库的机器整理

    在1.0版本发布以后,许多用户抱怨垃圾词太多,于是我们又进入了与剩余垃圾词的战斗,以其进一步提高输入法词库的质量。

    经过分析我们认为垃圾词可以根据垃圾的类型分为几大类,例如:交叉型垃圾词,比如"量将";错别字类型垃圾词,如"张亮影"、"张亮颍","张亮颖"等。

    对于这三种垃圾词,我们可谓使出了浑身解数。针对每一种类型的垃圾词,我们结合词性、互信息等理论进行大规模的统计操作,并对每一个阈值下过滤的词进行抽样把关,像淘沙子一样由一位工程师持续过滤了近一个月,过滤了近 3万的垃圾词。

词库的人工整理

    机器不是万能的,在机器的铡刀间总会存在无法自动处理的角落。为了再进一步提升词库质量,我们招聘了名校中文系的毕业生来审查我们的词库。由于编辑的辛勤 劳动,不断与众多不知名的文字专家探讨垃圾词的标准,并借助技术工程师的力量,通过人工、机器两相配合的方式,又进一步过滤了数以万计的垃圾词。其中我们 的编辑特别辛苦,需要对每一个词条进行确认,对于一部分词,还需要查字典确认,仅仅手工查《现代汉语词典》就超过2000次。终于,搜狗词库的混乱状态得到了改观,用户抱怨搜狗词库的声音逐渐平息,输入法的智能性也在不断努力中接连攀升。

词库的注音

    由于普通词条是没有拼音的,所以我们必须 对它们注音。注音的难点在于对多音字的处理,为此我们搜集了大量的拼音语料,从中统计出每一个多音字的读音概率,并开发了一套完整的注音程序,从而使每一 个词条拥有了读音。但是注音问题也是一个经典的问题,从没有过完美的解决方案,因此我们的注音结果也存在诸多谬误。除此之外,有时甚至还存在一种事理上的 矛盾,比如有些词(如模板,正确读音为muban,但很多人读moban)的大众读音是错的,那么到底该不该纠正该读音? 像这种物理上谬误的逐步纠正和现实中矛盾的合理处理,都是我们的编辑和工程师不断努力的结果。

 新词发现

    除了已有的词库,我们还要不断发现新词。 因为人类的词库是不断变化的,而互联网对这种变化相当敏感,所以我们开发了一套从互联网中发现新词的算法和系统。此系统拥有自动流程,每周自动发送新词报 告,再由人工过滤确认,从而使搜狗词库保持与互联网同步,与人们的生活同步。

词库的验证

    在输入法词库制作完成以后,我们不会直接发布给用户,而是需要经过严格的准确性评测。准确性评测的方法主要是用机器自动模拟人工在输入法上击键输入,在数 万行的中文样本上计算首选词正确的比例,以及不正确情况下翻页找词的次数。每次词库评测都需要测试组工程师花上数天的时间来完成,确保词库制作无误、首选 词的准确性达标才能发布出来。

 

    所以搜狗输入法的词库凝聚了众多开发工程师、测试工程师、中文编辑长达十几个月的心血。随着输入法小组集体的努力,搜狗的词库错误越来越少,质量越来越高。每当听到用户好的反馈,我们总是十分的高兴与欣慰。

    然而在词库成绩显著的同时,我们也不能忽视词库中存在的个别问题,如仍有个别错词垃圾词存在,为此我们开通了各种渠道便于用户举报错词;我们也会进一步优化词库相关技术,相信在开发小组和用户的共同努力下,我们能够呈献给大家一款更加完善好用的输入法。--

最新奇有趣的新技术、科幻、社会学信息:
http://forcode.bloggerspaces.com
订阅本博客:
http://feeds.feedburner.com/woodphone
教育网BT下载博客正式推出,服务在校学生
http://4renminbi.com/edubt
我的科幻小说《抽水马桶的秘密》:
http://www.cmfu.com/showbook.asp?Bl_id=60008

0 条评论:

发表评论

订阅 博文评论 [Atom]

<< 主页

热门文章
============================================================
格兰仕微波炉报价单    英语六级历年真题听力下载    大陆身份证生成器
東方神起的所有反轉劇!!.[含东方剧场](會繼續更新以後的)(已可覲看)
电视剧《靠近你温暖我》全集下载(BT/迅雷/电驴/剧照)
精彩的洞庭湖人鼠大战(4视频+forcode点评)
一百多个电影字幕下载网站,精心收集整理!
(视频)(CCTV10“走进科学”-科幻之旅专题-克隆人 8.14)
国外BT站点和BT种子搜索站(国外完整bt搜索列表)
============================================================
forcode科幻小说《抽水马桶的秘密》正在起点中文网连载
《抽水马桶的秘密》读者评论:
(1)你的书很好看,比大刘,王晋康的创意好太多了,努力吧将来出实体书我一定会买的。(2)很有想象力的作者啊!!估计是看了不少科幻小说的人,希望不要浪费你非凡的想象力。
(3) 读者在自己博客或论坛对《抽水马桶的秘密》的评论。(4)点击此处查看全部的读者评论(18页,1000条以上)
《抽水马桶的秘密》相关帖子:
《远程面包机》提纲|| 《进化论危机》提纲大家一起来设计
抽水马桶是外星人的试管|| 读者推荐超一万票
《抽水马桶的秘密》内容简介:
地球哺乳界正在发生的一次大规模跨物种升级,DNA机制并非人们所想像的那样是决定生命的最终遗传载体,而是类似浏览器这样的转译机制,真正的遗传物质存储在弥漫整个宇宙的光子数据库中,DNA机制实际上是一种设定了进化路径的文明压缩包的解压机制,数十亿年前灭绝的三栖人发明了光子数据库和DNA机制,目的是为了让这个机制最终复活三栖人文明,而人类(裸猿)这一物种在三栖人社会里其实是一种宠物,但是DNA机制似乎出现了点问题,或者说不知道什么原因裸猿突然变得太过聪明了,在播撒了始祖菌(DNA种子)的所有星球,进化路径发展到裸猿阶段,并没有继续演化出最后一步:三栖人,而强大的光子数据库一旦意识到DNA进化机制的这个漏洞,立刻关闭了这些星球对光子数据库的访问权限,这样,这些星球的生态系统都面临着灭绝的危险,因为他们脱离了光子数据库的遗传支持再也无法自然繁殖,只能靠遗传工程来复制现有的基因,或者做些小打小闹的修改,整个宇宙各星球上的基于DNA机制的生态系统都面临崩溃的危险。最终在13世纪,裸猿一族在银河边缘一个不起眼的小星系发现了地球这个由于某种原因至今还刚进化到裸猿初级阶段的星球,为了催熟地球的进化速度,外星裸猿文明开始介入地球的发展,为了防止光子数据库察觉到非地球文明的介入并关闭地球的权限,这种介入始终是暗中进行,因为介入方式的分歧,银河系裸猿文明分裂为两大集团,这两大集团的争斗伴随着人类近现代的发展,于是,文艺复兴开始了、三次科技革命出现了、两次世界大战也来了,直到今天,地球人类为自己的技术进步而沾沾自喜,丝毫不知道技术迅速发展的真正原因以及潜藏的危机。
============================================================
forcode2003年以前的习作:未来的婚姻、远程面包机
forcode朗诵《蜀道难》||forcode的一百多个科幻构思
奇想录:最新奇有趣的新技术和新闻点评|| 订阅“奇想录”