文献计量和内容分析的比较与综合研究
文献计量和内容分析的比较与综合研究
作者:南京理工 转贴自:南京理工 点击数:236
〔摘要〕 简述文献计量法和内容分析法的内涵与应用,重点比较研究两者在方法论基础、研究对象、应用范围、软件工具等方面的异同;指出对文献计量法和内容分析法的综 合研究与应用,将有助于人们提高情报研究工作的效率和分析结果的可靠性与准确性;探索综合利用两者的优势与应用思路。最后,在对两者现有软件功能比较的基 础上,提出综合应用的文本分析软件构架。
〔关键词〕 文献计量 内容分析 比较与综合 文本分析软件
〔分类号〕 G350
1 引言
在文献情报研究方法中,文献计量法是一种基于数学和统计学的著名的定量分析方法,它以各种科学文献的外部特征为研究 对象,以输出量化的信息内容为主要特点。经过数十年的发展,文献计量法的理论及其三定律已经成为情报学研究的重要基础和组成部分。同时,也形成了一些较为 成熟的方法,如文献统计分析法、书目分析法、引文分析法等,其应用领域也由图书情报部门拓展到科学学、社会学、预测学、科学评价和科技管理等相关领域,为 科学管理和决策提供定量依据,发挥着重要作用。随着大量的信息在网络上进行传播,人们开始将注意力转向对网络信息的计量研究,这就促成了网络计量法的诞 生。通过对网络文献特征的计量统计,力求找出网络上信息分布规律,以求为网络信息的科学化、规范化管理提供理论依据,同时对网络信息服务业发挥一定的指导 作用。
内容分析法是一种以定量分析为依据的定性分析方法,分析结果是从统计数据中得出的定性结论。从20世纪初提出思路开 始,逐渐形成了比较系统的方法体系,包括确认并定义了内容分析法的研究对象、研究内容、研究性质,创建了内容分析法的基本研究模式、操作流程,并将此法广 泛地应用于军事情报研究、新闻报道研究、教育研究等方面。如通过对不同国家、不同报纸针对同一事件的新闻报道的描述内容、方式等方面进行比较研究,以获得 有价值的军事情报或是不同国家、不同报纸对同一事件的看法、立场等方面的差异性信息。随着信息内容表述多样化的发展,内容分析方法正在扩展为包括各种文 本、图像、声音、影像、多媒体等信息的内容分析。
在文献情报研究中,目前研究者大多数只采用单一的分析方法,这样得出的分析结果难免会带有一定的偏颇性与局限性。为 了克服采用单一研究方法造成的弊端,提高文献情报内容研究的效率,确保分析结果的可靠性与准确性,以适应网络信息环境下多元化与综合化研究的发展趋势,需 要将文献计量法与内容分析法结合起来开展综合研究。
2 文献计量法和内容分析法的比较研究
2.1相近性研究
2.1.1在实现的研究目的上文献计量法和内容分析法的研究目的都是经过对研究对象的特征分析,找出其发展变化的趋势和规律,以便对文献信息进行科学的、规范的管理与利用。
2.1.2在使用的理论方法上文献计量法要根据统计结果建立数学模型,就必须要应用数学与统计学知识;而内容分析法则需 要数学和统计学知识来检验分析结果的正确性与有效性。在使用哲学方法方面,内容分析法使用推理和比较的方法对事物发展趋势进行研究;而文献计量法则在建立 反映文献现象的数学模型之后,将其应用于实际环境时需要用推理和比较的方法对文献的分布规律性等进行分析。
2.1.3在总体的研究流程上两者都需要先搜集待分析对象,并在搜集过程中对其进行分类、聚类,接着确定分析单元(即明 确研究的具体内容),然后,使用统计软件或通过手工对分析单元做量化统计,以建立分析的定量基础,最后根据统计结果建立反映文献现象的数学模型或取得反映 其趋势变化的规律性结论。
2.1.4具有共同的研究对象——文献、文本早期的内容分析法主要是以报纸上刊载的文章为研究对象来研究社会现象的;文献计量法从产生的第一天起,一直以各种科学文献为主要研究对象,以研究文献各种外部特征的分布规律。
2.2差异性研究(见表1)
表1(略)
2.2.1两者的方法论基础存在差异文献计量法是以数学和统计学方法为方法论基础的,应用过程中再利用推理和比较的方法对文献的分布趋势进行预测;而内容分析法是先利用推理和比较的方法对研究对象的内容特征加以分析,再使用数学和统计学的方法对分析结果加以验证。
2.2.2研究对象的范围不同文献计量法的研究对象是以科学文献的外部特征为主,而内容分析法的研究对象范围较广,可以 是在各类期刊上发表的文章,也可以是报纸上刊登的社论、新闻、报道,还可以是各类广告、大众媒体制作的各类节目,等等。由此可以看出,内容分析法的研究对 象不仅是由文字组成的文件,还可以是由声音、图形、图像组成的文件,研究时是从多方面取材的,以提高研究的全面性与可靠性。随着互联网的发展,各种形式的 信息层出不穷,内容分析法和文献计量法的研究对象也在不断地拓宽。例如,可以采用内容分析法分析现在BBS上的语言特征,也可以采用文献计量法对网络信息 互相链接的情况加以分析。
2.2.3分析侧重点不同文献计量法侧重于分析文献外部形式特征的"量",从定量的角度分析文献规律,间接反映内容的相 关关系。它以布拉德福定律、齐夫定律、洛特卡定律等几个经验定律为核心,通过对文献形成方面的某种外部特征的统计分析,如统计特定作者在一定时间范围内发 表的文章篇数、一定时间内特定期刊上刊载的文章所引用的引文总数及引文载体类型等等,从中得出结论,以探寻科学文献的生产、流通和应用的规律。虽然文献计 量法中同样有词频统计,但其目的是研究词汇术语在科学文献中的分布规律以用于词表编制、词汇控制与自动标引等。内容分析法侧重于分析文献内容特征的 "量",其所研究的不仅是研究对象的外部特征信息,而且主要是对研究对象包含的语义信息量进行分析,如对报纸上的新闻报道进行研究,不仅要统计其形式上的 特点——头条、字体加粗加大、用不同的颜色等,还要对报道中不同概念出现的频率进行统计分析,以了解报道的真正目的和实质。
2.2.4具体分析步骤有所区别文献计量法的具体分析步骤是:以某种文献外部特征为计量单位,对其进行统计和分析,建立 适当的数学模型以揭示其中所包含的规律性内容,然后在实践检验中修正参数,使建立的模型更加接近真实情况。内容分析法的具体分析步骤:根据研究目的来确定 分析的单元、建立类目计划,然后根据类目定义将分析单元编码归类,在抽取的样本中对分析单元进行统计与分析,最后得出研究对象内容上的某些规律性结论。
2.2.5应用范围不同内容分析法适应范围广,文献计量法仅适用于科学文献,而且每个经验定律都有特定适用范围,如齐普 夫定律对高频词与低频词不适用,洛特卡定律是由物理化学两个学科文献统计推出,应用到其他学科必须进行修正。因此,文献计量法在从定量角度揭示文献内容的 深度方面不及内容分析法。
3 文献计量法和内容分析法的综合研究
3.1综合研究的优势与意义
通过以上比较分析可以看出,两者在实际应用中都有各自的局限性。文献计量法采用定量的分析方法,在拟合过程中往往要 忽略一定的异常数据及真实环境中的一些客观因素,才能得到比较满意的结果;内容分析法能够做到比较客观地分析对象,但是在定量统计与数学模型的建立方面有 所欠缺。将两者结合起来应用可以相互弥补各自的不足,使文献情报分析结果更加有效,在信息服务工作中更好地发挥方法论的指导作用,为用户提供更加准确的信 息。
同时,两种方法的综合研究将会全面提升学科研究的水平和效率,有利于从文献计量的分析过渡到对文献中知识的测度与分 析;有利于创新和改进研究方法,进一步完善方法论体系,使信息资源的开发和管理更加科学化与规范化,满足网络信息环境下文献计量学和情报学发展的客观需 要。
3.2综合研究的思路
文献计量法与内容分析法在研究目的、理论方法、总体研究流程与研究对象等方面存在着较大的相似性,这为两者的结合与应用提供了可能。经研究,笔者认为文献计量法和内容分析法的综合研究可以按照以下几点思路展开:
3.2.1前提条件充分研究网络环境下各种信息载体的特性,以探讨从数学和统计学角度对其进行计量分析的规律性,为文献 计量法和内容分析法的结合应用建立方法论基础。文本信息、图像信息、声音信息及视频信息存储在不同的信息载体上,所表现的特征是有差异的,如何计量并分析 它们在数量上存在的规律性,是开展文献计量法与内容分析法综合研究的前提。
3.2.2理论基础深入挖掘信息内容的表达形式和方法在语言学、行为科学范畴内的本质属性,以探讨文献计量法与内容分析 法结合应用的理论基础。在网络信息环境下,信息内容的表达形式与方法呈现多样化,不仅融合了传统的信息表达方式,在技术的支撑下扩展了如超链接、超媒体的 表达方式,而且信息内容被置于Web semantic、ontology、concept map等表达框架范围中。那么,如何从语言学与人类行为科学等角度研究与探讨信息内容表达的本质属性,是深入开展文献计量法与内容分析法综合研究的基础。
3.2.3发展方向分析用户的信息需求特征与规律性,并考察用户对利用不同加工方法生产的信息产品的偏好,以从用户角度 出发探求文献计量法与内容分析法综合应用的发展方向。因为综合研究方法的目的是为信息服务机构和信息用户提供有效利用信息产品的工具,满足用户的信息需求 是文献计量法与内容分析法综合应用的归属,网络环境为用户利用信息提供了方便而快捷的渠道,所以,对海量信息的提炼、加工,以满足用户获取要求成为了人们 关注的焦点。只有充分地研究用户对利用不同信息加工方法生产的信息产品的需求特征,才能有的放矢地把握信息服务的发展方向。
3.2.4通过比较分析,建立数学模型选择各种不同类别、不同内容的文献信息,进行大规模的实验数据统计分析,并分别考察应用单个分析方法与两种方法结合应用的不同结果,再经过比较分析研究,以探索能够将两者结合起来的可行的数学模型。
3.2.5开发两者相结合的软件进一步探讨两者结合的应用流程,并结合现代先进的信息技术,尝试开发内容分析法与文献计量法结合应用的软件工具。
4 文献计量法和内容分析法综合应用的软件架构设计
4.1现有软件的调查与分析
通过调查,笔者了解到现在较为常用的内容分析软件有20余种,其中ATLAS.ti、NUD*IST、 WinMaxPro、KEDS / TABARI、DIMAP等软件的功能较为强大,主要提供文本输入和管理、文本信息处理(词频统计、词语类目统计与分析等)、文本信息检索、建立词典及类 目并据其对文本进行编码、处理结果输出(具有可视化输出界面)五类功能。当然,目前还没有一种软件能够完全囊括上述的所有功能,每个软件对分析对象的类 型、分析方法、分析过程、分析结果的显示方法都有自己的特点和侧重点,这在某种程度上也阻碍了研究者对分析结果的可信度与有效性进行测评。现有的文本内容 分析软件按其预期的功能主要分为三类:①执行以词典为基础的内容分析,具有基本的分析功能,包括词语计数(word counting)、分类及简单的统计测试(simple statistical tests);②具有用户开发环境(development environment),在构建词典、语法规则及其他文本分析工具方面能够部分地实现自动化(半自动化),甚至可代替分析者完成这项工作;③可生成一些 辅助的注释信息,它们更像是分析人员进行手工分析时生成的页边注释、交叉引用及简短笔记的电子版。
目前的文献计量应用软件有针对某一定律开发的公式拟和软件,也有辅助分析的聚类、分类软件及信息计量软件等。如在针 对定律开发的软件工具中比较著名的是以洛特卡命名的软件,它是用来拟合如洛特卡定律一类的指数分布定律的软件,也可用于对齐普夫定律(Zipf's law)进行验证,采用此软件只需将相关数据进行整理输入即可。该软件的原理是以尼科尔斯的最大相似法来拟合参数,用柯尔莫哥洛夫-斯米尔诺夫方法对得到 的结果进行检验。该软件可以从网上免费下载,修改需征得软件制作者的同意。
在对辅助分析软件工具的查找中,笔者发现早在20世纪90年代初,中国科学技术情报所就在汉化的 CDS/ISIS2.3版基础上开发了情报检索软件——ISTIC/ISIS,与CDS/ISIS2.3相比,ISTIC/ISIS有包括下拉式菜单和窗 口在内的友好用户界面。从功能上看,增加了词表管理、TEXT文件转换、光盘数据处理等功能,其数据库安全性也有所提高。现在,该软件的Windows版 ——Winisis已经被开发出来,当前最高版本是Winisis1.4版,其特点在于:运行平台的可视化;可管理的数据库容量大大增加;具有多媒体文件 的管理功能;超级链结功能;提供检索界面向导。除此之外,该软件还可进行各种信息的计量统计,如按各个字段来统计人名、作者、关键词、主题词等的出现频 率,并可通过全文扫描来实现统计功能,以利于文献计量学(信息计量学)的分析。该版本已由武汉大学信息资源研究中心汉化成功,被命名为 C_Winisis,可供国内图书情报档案机构使用。另一个辅助分析工具是可选择多种相似性测度的模糊聚类分析的Internet分布式计算软件 Fuzzy Cluster。
4.2两者结合应用的软件架构
通过查阅各方面的资料,笔者发现目前还没有将两者结合起来应用的软件。因此,在对上述文本内容分析软件功能研究的基 础上,笔者提出了将两种分析方法结合应用的软件系统构架。由于文本类型的数据是文献计量法和内容分析法共同的研究对象,设计软件系统的基本思路是:软件的 功能包括上面所介绍的文本内容分析软件的各项功能,通过对文本信息的外部特征和内容特征分别加以统计分析,再借助于文献计量法的统计分析和数学建模方法与 工具,对文本外部特征和内容特征的统计结果做进一步的分析处理,以得出规律性的内容。不仅可以指导信息服务工作,而且也可以作为建议性的信息公开给用户, 帮助用户在最短的时间内找到准确的信息。该软件系统架构的具体组成部分包括:文本输入与管理,建立词典与类目等规则库,文本编码与统计,处理结果显示,数 学模型建立与分析结论导出,如图1所示。
文本输入与管理模块主要包括文本输入界面和文本预处理操作界面,以用于将研究相关的文本信息输入到计算机中,再作进 一步的处理与分析。文本的输入采用文件导入或手工输入,在预处理时为保证输入的信息具有研究价值,对于零散的文本信息可进行训练处理和适当地给文本手工添 加定界符,并根据需要设置不同的定界符文本结构、单元定界符和语法识别方法;词典与类目等规则库包括用户自定义的类目库、词典库、语境参数库和受控词表及 禁词表,以及软件系统自带的受控词表及禁词表、类目库、词典库、语境参数库;文本的编码与统计模块主要用于对文本中的词语串、词语、短语、句子、行、段或 整个文本根据不同的类目、词典、语境等标准指定一个或多个编码,给文本信息建立注释或合并编码,并根据编码计划进行词频统计或词语类别频率统计,或者输出 到其他统计分析软件中;在处理结果显示模块中,根据用户的需要以各种表格、图形等形式显示出统计的数据结果,以便用户使用;数学模型建立和分析结论导出模 块包括模型库、方法库及应用模型库,以存储常用的文献定量分析经验模型和数学、统计、推理、比较等方法。该模块的建立必须借助人工智能等技术,具体建模和 结论分析时还需要专家人工干预。
参考文献:
1陈维军. 文献计量法与内容分析法的比较研究. 情报科学,2001(8):884 -886
2Melina Alexa & Cornelia Zuell. Commonalities, differences and limitations of text analysis software.[2004-07-10] . http://www.gesis.org/Publikationen/Berichte/ZUMA_Arbeitsberichte/99/99_06abs.htm
3Will Lowe. Software for content analysis–a review. [2004-07-12].http: //www.wcfia.harvard.edu/misc/initiative/identity/images/content_analysis.pdf
4Brendan Rousseau,Ronald Rousseau. LOTKA: A program to fit a power law distribution to observed frequency data. [2004-07-15] . http://www.cindoc.csic.es/cybermetrics/articles/v4i1p4.html
5齐艳红. 网络计量学的一种INTERNET分布式聚类分析软件. 情报科学,2003(10):1069-1071,1079
6陈光祚,臧国全,阮建海. 一个值得重视和推广的国际性信息存储与检索软件 ——Winisis. [2004-07-22]. http://www.ceiea.com/http_cn/index_show.asp?artid=6535
7罗金增. 内容分析法与图书馆学. 情报杂志,2003(4):51-53
〔作者简介〕 王曰芬,女,1963年生,副教授,博士研究生,发表论文30余篇,出版著作和教材7部。路菲,女,1979年生,硕士研究生。吴小雷,男,1981年生,硕士研究生。
0 条评论:
发表评论
订阅 博文评论 [Atom]
<< 主页
============================================================
格兰仕微波炉报价单 英语六级历年真题听力下载 大陆身份证生成器
東方神起的所有反轉劇!!.[含东方剧场](會繼續更新以後的)(已可覲看)
电视剧《靠近你温暖我》全集下载(BT/迅雷/电驴/剧照)
精彩的洞庭湖人鼠大战(4视频+forcode点评)
一百多个电影字幕下载网站,精心收集整理!
(视频)(CCTV10“走进科学”-科幻之旅专题-克隆人 8.14)
国外BT站点和BT种子搜索站(国外完整bt搜索列表)
============================================================
forcode科幻小说《抽水马桶的秘密》正在起点中文网连载
《抽水马桶的秘密》读者评论:
(1)你的书很好看,比大刘,王晋康的创意好太多了,努力吧将来出实体书我一定会买的。(2)很有想象力的作者啊!!估计是看了不少科幻小说的人,希望不要浪费你非凡的想象力。 (3) 读者在自己博客或论坛对《抽水马桶的秘密》的评论。(4)点击此处查看全部的读者评论(18页,1000条以上)。
《抽水马桶的秘密》相关帖子:
《远程面包机》提纲|| 《进化论危机》提纲大家一起来设计
抽水马桶是外星人的试管|| 读者推荐超一万票
《抽水马桶的秘密》内容简介:
地球哺乳界正在发生的一次大规模跨物种升级,DNA机制并非人们所想像的那样是决定生命的最终遗传载体,而是类似浏览器这样的转译机制,真正的遗传物质存储在弥漫整个宇宙的光子数据库中,DNA机制实际上是一种设定了进化路径的文明压缩包的解压机制,数十亿年前灭绝的三栖人发明了光子数据库和DNA机制,目的是为了让这个机制最终复活三栖人文明,而人类(裸猿)这一物种在三栖人社会里其实是一种宠物,但是DNA机制似乎出现了点问题,或者说不知道什么原因裸猿突然变得太过聪明了,在播撒了始祖菌(DNA种子)的所有星球,进化路径发展到裸猿阶段,并没有继续演化出最后一步:三栖人,而强大的光子数据库一旦意识到DNA进化机制的这个漏洞,立刻关闭了这些星球对光子数据库的访问权限,这样,这些星球的生态系统都面临着灭绝的危险,因为他们脱离了光子数据库的遗传支持再也无法自然繁殖,只能靠遗传工程来复制现有的基因,或者做些小打小闹的修改,整个宇宙各星球上的基于DNA机制的生态系统都面临崩溃的危险。最终在13世纪,裸猿一族在银河边缘一个不起眼的小星系发现了地球这个由于某种原因至今还刚进化到裸猿初级阶段的星球,为了催熟地球的进化速度,外星裸猿文明开始介入地球的发展,为了防止光子数据库察觉到非地球文明的介入并关闭地球的权限,这种介入始终是暗中进行,因为介入方式的分歧,银河系裸猿文明分裂为两大集团,这两大集团的争斗伴随着人类近现代的发展,于是,文艺复兴开始了、三次科技革命出现了、两次世界大战也来了,直到今天,地球人类为自己的技术进步而沾沾自喜,丝毫不知道技术迅速发展的真正原因以及潜藏的危机。
============================================================
forcode2003年以前的习作:未来的婚姻、远程面包机
forcode朗诵《蜀道难》||forcode的一百多个科幻构思
奇想录:最新奇有趣的新技术和新闻点评|| 订阅“奇想录”