网络计量学的发展动态及最新进展
传统的文献计量学(Bibliometrics)是以科学文献及其数量为研究对象的,运用统计、分析、数学模型等方法,深入研究科学文献的内在规律,从而 进一步揭示文献情报体系的结构和其中存在的数学规律,使图书馆学情报学的理论更加完备、科学,也为图书情报部门各项工作提供可资参考的数量依据,以便使文 献资源的利用处于最佳状态[1]。随着信息技术的飞速发展,尤其从20世纪90年代,互联网不断成熟并开始在全球普及,大量信息充斥于网络之上,如何有效 地利用这些网络信息资源给我们带来了新的研究课题——网络计量学。
最早对网络计量学的研究是加州大学伯克利分校的Woodruff、 Aoki等人对网络文献特征的测度[2]。随后1997年的"Journal of Documentation"上Almind和Ingwersen等人发表了题为《万维网上的情报计量分析:网络计量学的解决方法》的文章,该文首次提出 了"网络计量学"(Webometrics)一词,认为网络计量学包括了所有使用信息计量学方法和定量方法以及对网络信息有关问题的研究[3]。下面本文 从网络计量学的研究工具、研究方法、已有成果、存在问题、解决方法和发展前景等多方面作一概述。
1 主要工具
网络计量学的研究数据的可靠与否取决于采集工具[4][5]。所以对网络计量学的数据采集工具的研究和选择是至关重要的。
就目前所有可用的网络检索工具而言,比较常用的搜索引擎有AltaVista、AllTheWeb、Google、Excite和ISI数据库等,尤其是 AltaVista和AllTheWeb。其原因是它们的数据库所覆盖的范围都很广,AllTheWeb大约包含有21亿个网页之多,Google也有 20.7亿,对于网络计量学的数据采集来说已经足够了。另外,AltaVista是情报学家们普遍青睐的搜索引擎,一是因为它覆盖范围广,二是因为它的功 能强大,能很好地区分外部链接(external link,来自外网的链接)和内部链接(interner link,来自内网的链接),这一点对于网络计量学非常重要[6]。AltaVista还可以进行域名部分匹配和元数据搜索[7]。
网络 计量学的数据采集需要借助一定的软件,比如CheckWeb,CiteSeer和Link-Agent等。CheckWeb是一个HTML链接的分析器, 用来扫描HTML页面,从而找出该域名下的所有网页,测试出各种链接错误,并且以日志文件方式保存[8];CiteSeer是由NEC研究所的 Lawrence,Bollacker和Giles开发的自动引文分析软件,它可以识别各种格式的文档和文章不同位置的引文,包括中文部分,同时保留了传 统的引文分析工具(如ISI的SCI)的优点[9];Link-Agent是丹麦技术知识中心程序员Lars Kamp Mortensen开发的,用于在使用网络搜索引擎的基础上发现并剔除网页之间的交互链接,如导航条、站点地图等[10]。另外Scholtz开发的 WebSAT、WebCAT、WebVIP等工具也具有类似的功能[11]。
2 研究方法
Internet主要是由数以亿计相互连接的网页构成的,而站点和网页之间的链接关系和文献计量学中的引用关系非常相似。于是,Mckernan于 1996年发明了"sitation"这个词,用来形容网络上的相互引用关系[12]。要研究网络上的信息组织规律和传播方式,超级链接是最宝贵的资源之 一[13],通过网络文献的引用相似度分析,可以反映出网页之间的链接关系[14]。就目前的研究方法而言,链接分析法是使用最多的方法。通过网页上的链 接可以定量分析网站、学科、机构或者地区之间的相互引用关系——网络影响因子(WIF,Web Impact Factors)。Peter Ingwersen于1998年提出了外部网络影响因子的概念,用来计算网站的WIF,其计算方法是用网站的外部链接数除以该网站下的全部网页数 [15]。
2.1 链接分析法[13]
RongTang和Mike Thelwall对89所美国研究机构各学院的外部链接分布作了卓有成效的研究。在他们的研究中,把外部链接从地区上分为国外和国内两部分,从顶级域名 (gTLDs)上分为.edu、.com、.org、.net、.gov、.mil、.int等类型。他们以AltaVista和ISI数据库为工具,通 过以上两个途径对连接到美国大学各学院有关化学、心理学和历史学等三个学科的链接进行了归类分析,并且比较一个机构的外部链接数和该机构出版物被引情况。 内部链接对于评测网站的WIF来说是没有意义的,所以,为了去掉内部链接,他们构造的检索式如下:
LINK: chem. Arizona. edu AND NOTHOST: Arizona. edu(AltaVista)
然后,他们通过ISI的数据库对89个机构中前30个在2000年发表的有关化学、心理学和历史学这三个学科文献的被引情况做了搜集,检索式如下:
SSC=chemistry[SC=psychology.SC=history ]
SCS=(dept? (3N)chem?)[CS=(dept? (3N) psychol?), CS=(dept?(3N)hist?)]
SPY=2000andGL=USA
SS1AND S2ANDS3
其中:S1代表检索式1,SC代表学科,CS代表作者机构前缀代码,PY代表出版年,GL代表地区,通过上述检索式就可以检索出同时引用这三个学科文献的相关文献。
2.2 网络影响因子
Alastair G Smith在他的文章中提出了实质网络影响因子(sWIF,substantive Web Impact Factors)的概念,即只有真正直接指向信息资源的链接才能用来计算sWIF,例如指向具体文献或书目信息的链接才能计算sWIF,而指向本网站首页 的就不能算。按照内容和链接目的对网页的分类如表1、表2[16]:
表1 网页分类表(按内容)
代码 原因
1 一般信息
1.1 ·教/学
1.2 ·管理
1.3 ·合作研究
1.4 ·研究发布
1.5 ·招聘
2 正式引用
4 赞助或感谢
5 返回
6 相关页
6.1 ·相关个体
6.2 ·相关组织
7 地理区域信息
8 广告
9 软件下载
表2 网页分类表(按链接目的)
代码 类型
1 不能细分的一般信息
2 研究型信息
3 教育资源
4 管理信息
5 学生作业
6 链接列表
6.1 ·书目或出版物列表
6.2 ·路径或主题目录
6.3 ·相关链接
6.4 ·事件列表
7 讨论帖
8 正式出版社
8.1 ·技术报告、论文
8.2 ·电子期刊的文章
8.3 ·会议 论文
8.4 ·新闻组
8.5 ·电子期刊
8.6 ·会议
8.7 ·新闻资源
9 个人主页
10 组织首面
10.1 ·主/分机构
11 软件资源
12 "关于"页
2.3 国内的WIF测试
国内对网络计量学的研究起步比较晚,其中邱均平等学者的研究令人瞩目。邱均平等人根据广东管理科学研究院2002年的大学排名对大陆前100所大学网站的 链接数和WIF做了统计分析。他们通过Alta Vista和AllTheWeb对现有的三种计算WIF的方法分别做了测试,计算公式如下[12]:
基于网页数的网络影响因子:WIFp=E/P(E=连接到该网站的外部链接数,P=该网站的网页总数)
基于教师数的网络影响因子:WIFs=E/S(该公式是对Ingwersen的公式的改进,E=连接到该网站的外部链接数,S=该大学的专职教师数)
基于院系数的网络影响因子:WIFc=E/C(E=连接到该网站的外部链接数,C=该大学的院系数)
利用上述公式,他们通过计算得到了Kendall等级相关系数,以对比分析各个公式的合理性。
前面提到的都是对学术机构的链接分析,而Liwen Vaughan等人对连接到商务网站的分布情况做了统计分析,其统计样本是中国IT业前100强企业和前100强私营企业,旨在揭示网站的被链接情况和企业的经营、赢利和信息量等之间的内在联系[17]。
3 已有成果
3.1 外部链接分析
在Rong Tang和Mike Thelwall的研究中通过对89所美国研究机构外部链接的域名分布和地区分布分析后得出以下结论[13]:
(1)地区分布。
通过对89所美国研究机构外部链接的域名分布和地区分布的分析,结论如下:
·这些链接主要是分布在欧洲地区,而对于墨西哥和中美、南美地区链接数之低则有些出乎意料。这些数据为研究对学术网站链接的地区分布提供了佐证。
·历史学只有非常少的国外链接,说明对于美国历史的研究仅限于美国国内,这和以前所说的美国研究成果的国际化扩散使美国历史的影响力更胜于其他国家的说法截然相反。
(2)对顶级域名的分析。
对顶级域名的分析可以得出以下结论:
·edu是对这三个学科链接最多的域名。
·就所选的学科而言,不同的顶级域名之间并没有太明显的链接规律。
3.2 成因分析
Alastair G Smith通过对目标链接和链接原因的分析得出以下结论[16]:
·属于目录的链接占很大一部分。
·正式出版物(如科技报告、电子期刊 论文、会议论文等)是主要的目标链接。
·正式的研究引用也很可观,大约占总数的10%左右。
·更多的链接是指向整个电子期刊,而不是具体的文章。
在邱均平等人对中国大陆100所大学网站的研究中得到以下结果[12]:
·大学网站的总被链接数和WIFc与该大学的排名有很大关系,而WIFp和大学排名之间相关性不大。
·外部链接数和大学排名之间有很大相关性。
·根据AllTheWeb的数据显示,院系数的差别系数为34.53,而总网页数的差别系数为126.47(与学校排名比较),这说明了WIFc比WIFp更有效。
用外部链接的方法评价高等学校的学术交流和科研水平是可以的,但是这种方法不适用于评价个人成果,因为在没有规则限制的情况下,个人很容易增加网络被引量 [18]。此外,由于学科或者个人原因导致一些小型组织和团体的网络文献分布情况有很大的不同,比如科学家更愿意把自己的文章发布在网上,从而产生了更多 的网页和链接[19]。
4 存在问题和解决方法
Ronald Rousseau对AltaVista、AllTheWeb、Google、Excite等搜索引擎进行了一年多的监控发现,现有的搜索引擎的性能可靠性 极低[20],一致性也很低,对同一主题词的搜索结果,Google竟然是Excite的十倍,其他搜索引擎也是类似。对此,Ronald Rousseau提出两个解决方案:一是可以进行多轮搜索和分时段搜索以及综合利用多个搜索引擎的结果,以减少偶然性;二是建立用于网络计量学和科学计量 学研究的专用搜索引擎[21],也有一些人主张设计研究专用数据采集支持系统,这一系统包括识别、提取、过滤和分析四个子系统[22]。
现有搜索引擎的网络爬虫(spider)无法保证能识别它所抓取到的网页上的所有链接,特别是一些由脚本语言、服务器端映像图和网页中嵌入的程序等生成的 链接,还有网页中的一些PDF文档和图片链接更是无法处理,而这些都是非常有用的资源[23]。针对以上种种问题,在研究中必须注意到这几个方面:(1) 被分析的网站的覆盖面要广;(2)为了保证搜索结果的可靠性,必须进行多次轮番查询;(3)必须考虑到标引的方法、网络的覆盖率和无法标引的网页的类型, 以及为什么等问题;(4)运用多种检索策略,使用高级检索功能,以便能识别出相互引用的页面[23]。另外,在分析两种不同域名之间的链接关系时,选择高 质量的链接起点和链接终点也是至关重要的[24],而且这种引用关系只能用来作为定性分析的参考[25]。
5 发展前景
网络计量学的研究涉及到多学科的知识,同时它会对学科的发展产生深远的影响,尤其是科学计量学和信息管理学方面。所以在网络计量学的研究方法、内容及其应用方面有着长远的研究价值。
其以后可预见的发展方向包括:
在研究方法方面,深入分析网络拓扑结构,以揭示网络的复杂性和发现网络资源的潜在价值[26];在数据格式方面与统计方法方面,引入XML和元数据,引入 引文分析中的引文类型、引文动机和区分网页的权重[28];在应用方面,对于医药卫生等专业的信息资源,应寻求和建立统一的标准指标体系进行研究和评价 [29];在功能方面,建立超链接分析数据库,为网络的知识管理、情报分析和社会评价提供素材[31];在作用方面,对制订有关网络资源管理的政策法规、 提高信息检索效率等有一定指导意义[32]。
【参考文献】:
1 丁学东编著.文献计量学基础.北京:北京大学出版社,1993
2 Woodruff, Allison et al. An investigation of documents from the World Wide Web. In Proceedings of the Fifth International World Wide Web Conference May 6-10, 1996, Paris, France
3 Tomas C Almind, Peter Ingwersen. Informetric analyses on the World Wide Web: methodological approaches to "Webometrics". Journal of Documentation, 1997, 53(4)
4 Han Woo Park, Mike Thelwall. Hyperlink analyses of the World Wide Web: a review. Journal of Computer-mediated Communication. July 2003. http://www.ascusc.org/jcmc/vo18/issue4/park.html
5 Mike Thelwall. A web crawler design for data mining Journal of information science 2001 27(5):319~325
6 邱均平,安璐.中文期刊影响因子与网络影响因子和外部链接数的关系研究.情报学报,2003,22(4)
7 http://www.altavista.com/help/adv_search/syntax.htm.2004.2
8 Conny agnusson. http://www.algonet.se/hubbabub/how-to/checkweben.htm
9 C. Lee Giles, Kurt Bollacker, Steve Lawrence. CiteSeer: An automatic citation indexing system. In: I. Witten, R. Akscyn, F. Shipmann III(eds.). Digital. Libraries 98: Third ACM Conference on Digital Libraries. 1998. 89~98
10 Liv Danman Fugl. Fundamental methodologies and tools for the employment of webometric analyses. http://dlist.sir.arizona.edu/archive/00000287/01/Master-Thesis.pdf
11 Jean Scholtz. WeboMetrics: A methodology for producing usable web sites, Proceedings of the Human Factors and Ergonomics Society, 42nd Annual Meeting, Chicago, October 5~9, 1998, Vol. E, 1612
12 邱均平,陈敬全,段宇锋. 中国大学网站链接分析及网络影响因子探讨.中国软科学,2003(6)
13 Rong Tang, Mike Thelwall. Patterns of international and national Web inlinks to US university departments: a webometric analysis of disciplinary specificity. Proceedings of ISSI.2003
14 David Wilkinson, Mike Thelwall, Xuemei Li. Exploiting hyperlinks to study academic Web use. Social Science Computer Review, 2003, 21(3)
15 Peter Ingwersen. The calculation of Web impact factors. Journal of Documentation, 1998, 54(2): 236~243
16 Alastair G Smith. Classifying links for substantive Web impact factors. Proceedings of ISSI 2003, Beijing, 25~29 August 2003
17 Liwen Vaughan, Guozhu Wu. Links to commercial Web sites as a source of business information, http://www.cindoc.csic.es/cybermetrics/journal.html, 2003
18 Mike Thelwall, Gareth Harries. Do the Web sites of higher rated scholars have significantly more online impact?. Journal of the American Society for Information Science and Technology. October 28, 2003
19 Rob Kling, Geoffrey McKim. Scholarly communication and the continuum of electronic publishing. Journal of the American Society for Information Science, 1999,50(10), 890~906
20 Heting Chu, Shaoyi He, Mike Thelwall. Library and information science schools in Canada and USA: A webometric perspective. Journal of Education for Library and Information Science. 2002, 43(2): 110~125
21 Ronald Rousseau. Evolution in time of the number of hits in keyword searches on the Internet during one year, with special attention to the use of the word euro. Proceedings of the 8th International Conference on Scientometrics & Informetrics (M. Davis & C. Wilson, eds.). Sydney:BIRG, UNSW, 2001, 619~627
22 Jin Xu, Yingping Huang, Gregory Madey. A research support system framework for web data mining, http://www.nd.edu/oss/Papers/
23 Mike Thelwall. David Wilkinson. Graph structure in three national academic Webs power laws with anomalies. Journal of the American Society for Information Science. 2003, 54(8): 706~712
24 Lennart Bj@①rneborn, Peter Ingwersen. Perspectives of webometrics. Scientometrics, 2001, 50(1): 65~82
25 Thomas, Peter Willett. Webometric analysis of departments of Librarianship and information science. Journal of Information Science, 2000,26(6): 421~428
26 Mike Thelwall, Liwen Vaughan, Lennart Bj@①rneborn. Webometrics. http://www.db.dk/lb/2003preprint. ARIST.doc
27 Isidro F. Aguillo. Cybermetrics: Definitions and methods for an emerging discipline, http://www.upmf-grenoble.fr/adest/seminaires/ISIDRO.2004,2
28 杨涛,曹文娟.网络影响因子及其测度.图书情报工作. 2002(9)
29 崔雷.运用引文分析法评价医疗网站.中国文献计量学专辑,2002 ,9(1)
31 吴国柱,李东洋,曾利玲.网络超链接分析初探.图书情报工作,2002(11)
32 Mike Thelwall. Extracting information from the links in academic Webs. http://www.ils.albany.edu/ALBANY_presentation2.ppt.
字库未存字注释:
@①原字o加¨
0 条评论:
发表评论
订阅 博文评论 [Atom]
<< 主页
============================================================
格兰仕微波炉报价单 英语六级历年真题听力下载 大陆身份证生成器
東方神起的所有反轉劇!!.[含东方剧场](會繼續更新以後的)(已可覲看)
电视剧《靠近你温暖我》全集下载(BT/迅雷/电驴/剧照)
精彩的洞庭湖人鼠大战(4视频+forcode点评)
一百多个电影字幕下载网站,精心收集整理!
(视频)(CCTV10“走进科学”-科幻之旅专题-克隆人 8.14)
国外BT站点和BT种子搜索站(国外完整bt搜索列表)
============================================================
forcode科幻小说《抽水马桶的秘密》正在起点中文网连载
《抽水马桶的秘密》读者评论:
(1)你的书很好看,比大刘,王晋康的创意好太多了,努力吧将来出实体书我一定会买的。(2)很有想象力的作者啊!!估计是看了不少科幻小说的人,希望不要浪费你非凡的想象力。 (3) 读者在自己博客或论坛对《抽水马桶的秘密》的评论。(4)点击此处查看全部的读者评论(18页,1000条以上)。
《抽水马桶的秘密》相关帖子:
《远程面包机》提纲|| 《进化论危机》提纲大家一起来设计
抽水马桶是外星人的试管|| 读者推荐超一万票
《抽水马桶的秘密》内容简介:
地球哺乳界正在发生的一次大规模跨物种升级,DNA机制并非人们所想像的那样是决定生命的最终遗传载体,而是类似浏览器这样的转译机制,真正的遗传物质存储在弥漫整个宇宙的光子数据库中,DNA机制实际上是一种设定了进化路径的文明压缩包的解压机制,数十亿年前灭绝的三栖人发明了光子数据库和DNA机制,目的是为了让这个机制最终复活三栖人文明,而人类(裸猿)这一物种在三栖人社会里其实是一种宠物,但是DNA机制似乎出现了点问题,或者说不知道什么原因裸猿突然变得太过聪明了,在播撒了始祖菌(DNA种子)的所有星球,进化路径发展到裸猿阶段,并没有继续演化出最后一步:三栖人,而强大的光子数据库一旦意识到DNA进化机制的这个漏洞,立刻关闭了这些星球对光子数据库的访问权限,这样,这些星球的生态系统都面临着灭绝的危险,因为他们脱离了光子数据库的遗传支持再也无法自然繁殖,只能靠遗传工程来复制现有的基因,或者做些小打小闹的修改,整个宇宙各星球上的基于DNA机制的生态系统都面临崩溃的危险。最终在13世纪,裸猿一族在银河边缘一个不起眼的小星系发现了地球这个由于某种原因至今还刚进化到裸猿初级阶段的星球,为了催熟地球的进化速度,外星裸猿文明开始介入地球的发展,为了防止光子数据库察觉到非地球文明的介入并关闭地球的权限,这种介入始终是暗中进行,因为介入方式的分歧,银河系裸猿文明分裂为两大集团,这两大集团的争斗伴随着人类近现代的发展,于是,文艺复兴开始了、三次科技革命出现了、两次世界大战也来了,直到今天,地球人类为自己的技术进步而沾沾自喜,丝毫不知道技术迅速发展的真正原因以及潜藏的危机。
============================================================
forcode2003年以前的习作:未来的婚姻、远程面包机
forcode朗诵《蜀道难》||forcode的一百多个科幻构思
奇想录:最新奇有趣的新技术和新闻点评|| 订阅“奇想录”