什么样的标题更容易被引(发表)?

发布于 2022-05-19 08:56



作者简介:
魏瑞斌 ,安徽财经大学管理科学与工程学院
一、引 言
一篇论文的被引与很多因素有关,如研究主题的重要性、论文的创新性、论文的研究方法等内在因素,还包括论文的可获得性、期刊的声誉、论文的语言、作者的声誉等外在因素。那么,论文标题属性与论文被引之间有什么关系呢?很多学者在这方面做了相关研究oNair等对这方面的研究成果进行了综述,并提出了一个论文标题属性与论文引用关系的综合模型。他们围绕论文标题的长度、字符、结构、范围和语言共5个属性提出了5个假设。他们以5种管理学的著名期刊为实证对象,最后结果表明,只有第2个假设成立;第3个假设部分成立;第1、第4和第5个假设不成立。

(1)论文标题长度与论文被引
这方面的研究有3种结论。第1种结论是,论文标题越长,其被引次数越多。如Habibzadeh等对医学和多学科期刊的论文标题研究;Jacques等对原始人类研究领域论文标题的研究。他们认为,论文标题越长,它能够提供给读者的信息更加丰富,更有利于用户理解论文的内容。第2种研究结论是,论文标题越短,其被引的次数越多。Paiva等对公共图书馆和生物医学领域论文标题的研究;Subotic等对心理学领域论文标题的研究;Gnewuch等对经济学领域论文标题的研究。他们认为,较短的论文标题能够更加准确、清晰地反映论文的内容,并且让读者易于理解和记忆。第3种结论是,论文标题长度与论文的被引次数之间没有关系。如Nair等对管理科学领域论文标题的研究;Alimoradi等对Web of Science收录的8种著名学术期刊论文标题的研究。

(2)含非数字和字母字符的标题与论文被引
在英文论文的标题当中,经常会出现冒号和问号等特殊字符。Buter等列出了29种特殊字符,排在前三位的是连字符、冒号和逗号。Hartley通过对不同学科论文标题的比较发现,社会科学领域的论文中,冒号所占的比例较高。

这些特殊字符的出现是否也会影响到论文被引用呢?Jacques等发现,在普通医学领域的论文,标题中包括冒号的论文,其被引相对较多o Hartley也发现,包括冒号的标题的论文被引相对较多。从林佳瑜的统计结果看,中文论文标题中包括冒号的论文被引也明显高于标题中不包括冒号的论文。Michelson、Paiva等、Jamali等发现,标题中包括问号、冒号等字符的论文,其被引却相对较少。

(3)论文标题结构与论文被引
很多学者从不同角度探讨了论文标题结构。Lewison等、Hartley把包括冒号的标题分为:短-长型、长-短型、平衡型3种类型,但没有对论文被引进行分析。Jamali等把标题分为结论型、描述型和问题型3种类型。其中,问题型题目的论文下载量更多但引用率却相对较少。Paiva等把标题分为方法描述性和结果描述型两种类型。研究发现,结果描述型的论文被引较多。但从林佳瑜的统计结果看,描述型和结论型论文的平均被引差别很小,问题型的平均被引相对较高。

(4)论文标题范围属性与论文被引
在一些论文标题中,作者把其研究内容限定一个特定的空间范围,如一个国家等。Jacques等、Paiva等研究发现,标题中包含空间范围信息的论文,其被引较少。Nair等还考虑了标题中包含公司名称和行业名称。他们研究发现,标题中包含国家、公司和行业名称的论文对论文被引负面影响的假设并不成立。

(5)标题语言属性与论文被引
Jacques等研究发现,在医学期刊上,标题中使用一些缩写的字符对论文被引有正面的影响o Nair等还考虑了标题中包含谚语和隐喻等词汇与论文被引的关系。但最终研究发现,标题中包含缩写语等对论文被引有正面影响的假设也不成立。

本文以Journal of the Association for Informaition Science and Technology和Scientometrics两种期刊为研究对象,从不同角度来探讨情报学领域发表的论文的标题属性与论文被引之间的关系。

2数据和方法
2.1数据

本文以Web of Knowledge为数据源,采集Journal of the Association for Information Science and Technology(2014年更名,以下简写为JASIST)和Scientometrics 1997年到2013年期间的论文数据,共计5735条oJASIST在1997到2000年期间的期刊名称为Journal of the American Society for Information Science;在2001年到2013年期间,期刊名称为:Journal of the American Society for Information Science and Technology。JASIST创刊于1950年,是美国信息科学技术学会会刊,是国外情报学领域最重要的学术期刊之一。Scientometrics创刊于1978年,是科学计量学领域最重要的学术期刊之一。本文以这两种期刊为研究对象,有一定的代表性和权威性。

该数据集中当包括论文的标题、作者等信息,还同时采集了每篇论文的总计被引次和平均被引次数(截至2017年2月15日)。从图1看,JAIST的发文量在1997年到2005年和2006年到2013年两个时间段都比较平稳。第2个阶段发文量有一个较大的提升。Scientometrics从1997年到2013年期间,发文数量有一定的波动,但整体是一个上升的趋势,从2011年开始,每年的发文量超过了JAIST。
2.2研究方法
参考Nair等的研究思路,本文预先提出4个假设。
(1)标题的长度越长,论文被引次数越多
从国外学者的研究看,标题长度统计时,有的学者[7]只统计了单词数;有的学者[18]既统计了标题的字符数,也统计了标题的单词数;有的学者⑵还统计了标题中的实词数等。本文对论文标题的字符数和单词数都进行统计,然后分别与论文的总被引进行分析。论文标题越长,有可能是研究者对相关研究从研究方法或研究视角等方面进行了限定,通常情况下可以为读者提供更加丰富的信息。虽然不利于读者记忆,但应该有利于读者对论文研究内容的理解。这样的论文有可能更能得到较多的引用。
(2)标题中包括冒号的论文,其被引次数较多冒号有论文标题当中,通常起到对其分隔开内
①Scientometrics and communication theory:To-wards theoretically informed indicators
②CiteSpace II:Detecting and visualizing emerg-ing trends and transient patterns in scientific literature
(3)标题结尾是问号的论文,其被引次数较多问号通常用于疑问句、设问句和反问句结尾。
在中文论文的标题中很少出现,但在英文论文中却可以经常见到。从Buter等[9]的统计结果看,国外期刊论文中,标题中包含特殊字符(包括问号)的论文的绝对数量在逐年上升,而相对数量保持稳定。Nair等⑵认为,标题中存在的特殊字符对论文被引起到的作用的负面的。本文假设标题中包括问号的论文更容易被引用。因为,问号的使用可以反映出标题是一种“问题型”标题,它也能够反映出论文所要解决的问题,更容易引起读者的注意。
(4)高被引论文对作者有示范效应
3数据分析
3.1标题长度与论文被引
Science中样本标题的平均长度是10.1个单词,Nature中样本标题的平均长度是9.85个单词。从表1看,JASIST单词数的均值是10.1,与Science一致,而Scientometrics单词数的均值是11.92,要多于JASIST。Scientometrics的均值、中值和众数都要大于JASIST。这反映出,Scientometric上发表的论文标题的平均长度要略大于JASIST。这可能是由于Scientometric的论文中会使用较多的专业术语,因此其标题长度相对较长;而JASIST综合性较强,涉及的研究范围比较宽泛,因此其论文标题的长度相对较短。
从图2看,两种期刊论文标题字符数的频率呈现较为明显的正态分布。两种期刊论文标题字符数频次分布的信度非常接近,整体上都是左偏,即标题字符数较短(小于平均值)的论文数量稍多一些。表2中JASIST的峰度要高于Scientometric,这表明JASIST的论文标题字符数频次分布更为集中。比较图2和图3可以看出,论文标题字符数频次分布和单词频次分布趋势是一样的。其差异在于,论文标题单词数的数量上远低于字符数的数量。
通过SPSS的相关性分析功能发现,标题的字符数和单词数的Pearson相关性相关系数为0.947,在置信度(双侧)为0.01时,相关性是显著的。这表明,尽管每个单词的字符数不同,但在大部分情况下,单词数越多,其对应的字符数越多。
图4是所有论文合计被引频次出现频率的分布曲线。该分布曲线整体呈现为一个负幂分布。当直接用论文长度(字符数或单词数)与论文被引进行相关性分析后发现,spearman相关系数0.190,两者几乎没有相关性。另外,这些论文发表的时间不同,直接把论文长度与论文被引频次进行相关性分析也不合理。
本文采取了另一种方法来研究论文标题长度与论文被引的关系。首先按字符数的平均值将论文分为两组:大于平均值的为长标题,小于平均值的为短标题。然后分别计算论文在不同时间段的平均被引频次(表3和表4)。
表3和表4中,C1和D1是短标题论文的平均被引次数,C2和D2是长标题论文的平均被引次数;C2-C1和D2-D1是两个平均被引次数的差。从表中数据看,表3中的C2-C1有3个负数,表4中的D2-D1有2个负数。如果单独从这个角度看,那么绝大多数情况下,长标题论文的平均被引次要高于短标题论文的平均被引次数。
另外,表3和表4中还出现一个一致的趋势。即1997年到2003年期间,表3中C2-C1的值大于其平均值3.06,而2004年到2013年期间C2-C1都小于平均值,C2和C1的差别都比较小。表4中的数据也呈现出这样的特征。由此可以判断,对于发表时间较长的论文(1997年到2003年,被引截至2016年),其标题越长,被引的次数越多。而发表时间相对较短的论文,也大体表现为标题越长,被引的次数越多,但不是特别明显。从中也反映出,这方面的研究结论与数据的时间属性关联性比较强。这个观点是否具有普遍性,还需要更多的数据来进行验证。总体上看,本文的第1个假设成立。

小于平均值,C2和C1的差别都比较小。表4中的数据也呈现出这样的特征。由此可以判断,对于发表时间较长的论文(1997年到2003年,被引截至2016年),其标题越长,被引的次数越多。而发表时间相对较短的论文,也大体表现为标题越长,被引的次数越多,但不是特别明显。从中也反映出,这方面的研究结论与数据的时间属性关联性比较强。这个观点是否具有普遍性,还需要更多的数据来进行验证。总体上看,本文的第1个假设成立。
3.2标题中包括冒号的论文被引
从图5看,标题中包括冒号的论文的绝对数量逐年呈现上升的趋势,而且其数量增加趋势与标题中不包括冒号的论文数量的趋势比较相近。从图6看,标题中包括冒号的论文数量所占比例基本保持在30%和50%之间,相对比较稳定。这个比例同Hartley的研究是一致的。
从图7看,标题中包括冒号和不包括冒号的论文的平均被引频次没有呈现出非常明显的特征。如果以平均被引次数的平均值3.06看,在17年当中,只有5年的数据表明标题中包括冒号和不包括冒号有较大有差别。在5组数据中,有3组数据(1999年、2000年和2003年)是标题中包括冒号的论文的平均被引频次大于不包括冒号的。而另2组数据(1998年和2004年)则是标题中包括冒号的论文的平均被引频次小于不包括冒号的。其他年份的数据则都小于平均值3.06。

如果从冒号对论文被引影响的显著性看,很难判断冒号在标题中出现,对论文被引的影响情况。只是在特定数据集范围之内来探讨两者的关系。总体看,本文的第2个假设不成立。
3.3标题中包括问号的论文被引
从图8看,这两种期刊上标题当中包括问号的论文数量整体是一个不断上升的趋势。从图9看,其占总体论文的比例在2%到5%。图8与图5相比,图9与图6相比,都可以发现,标题中包括问号的论文绝对数量和相对数量都远少于标题中包括问号论文的数量。
从图10来看,在1997年到2013年,除1999年、2000年、2001年、2003年和2009年外,其他年份标题结尾是问号的论文其平均被引频次要高于结尾不是问号的论文。
如果以平均被引次数的平均值12.6看,在17年当中,只有5年的数据表明标题中包括问号和不包括问号有较大的差别。这5组数据(1997年、1998年、2004年、2005年和2006年),都是标题中包括问号的论文的平均被引频次大于不包括问号的论文,而且差别非常明显。
如果从冒号对论文被引影响的显著性看,标题中包括问号,则其被引的次数较多。这表明本文的第3个假设成立。
3.4高被引论文有示范效应
本文选取两种期刊1997年到2011年期间100篇高被引文献(占总体的2%)为实证对象。
从统计结果看,100篇高被引论文中有61篇发表在JASIST上,有39篇发表在Scientometrics,但都约占到各自论文总数的2%。另外,2006年有15篇论文,2001年有11篇,最少的是2011年,只有2篇。


100篇论文的标题的字符平均数为75.56,单词个数平均为10.72。这两个数据都稍低于全体数据集的平均值。进一步将100篇论文按标题的字符数平均值和单词数平均值统计后发现,标题字符数和单词数大于平均值的论文被引平均值都是164.09次;而小于平均值的论文平均被引分别是197.69次和195.1次。从中可以看出,在100篇高被引论文中,标题长度短的论文,其被引次数较多。这与整体数据集的结果正好相反,而与Letchford等的研究结果相同。
100篇论文中,有40篇论文的标题中包括冒号,这个比例(40%)与整体数据集的平均水平39.89%基本相同。高被引论文中,标题包括冒号的论文平均被引是182.05次,而不包括冒号的论文平均被引是179。但这两个被引频次的差异非常小,仅占被引次数最少论文的2%。综合以上两个依据,可以认为标题中是否包括冒号的高被引论文数量没有明显的差异。
100篇论文中,只有4篇论文标题的结尾是问号,这个比例(4%)与整体数据集的平均水平3.4%也非常接近。高被引论文中标题中包括问号的4篇论文在高被引论文中的位次分别是第20位、第36位、第49位和第63位,其平均被引频次是166次,而标题中不包括问号的论文的平均被引是182.35次。综合两个方面的结果,可以认为标题中包括问号在论文被引方面没有明显的贡献。
综上所述,在100咼被引论文中,标题长度较短,其被引较多;冒号和问号对于论文被引没有明显的作用。如果高被引文献集合关于前述三个假说的特征与总体集合一致,就认为咼被引文献具有示范效应;否则,就认为第4个假说不成立。现在的实证数据表明假设不成立,即没有示范效应。
4结论
结合国内外学者的相关研究结果来看,大多数的研究都说明了论文标题特征与其被引之间是存在一定关系的。但这些研究的结论有时却是矛盾的,如有的学者认为论文标题长度对论文被引有正面作用,有的学者认为是负面作用。这种结果的矛盾性是多方面原因造成的。如这些研究通常都是以某一学科领域期刊上发表的论文为研究对象,学科差异是影响研究结论的很重要的因素。其次,研究者选取的数据源、数据的数量、期刊的数量和种类等也都不一样。原始数据也是导致结论不同的很重要的原因。第三,这些研究所采用的研究方法也存在差异。研究方法的局限性,也可能是造成结果不一致的原因。本文只选择了两种期刊为研究对象,其数据量有限,这对于研究结论的不确定性和矛盾性也产生一定影响。今后会通过更大的数据量来探索标题特征与其被引之间的相关性。


不服输


来不书


不书科研,对信赖我们的伙伴,

永远都只有偏爱和例外。


即刻拥有专属学术顾问

注:部分内容来源于网络,仅为学术交流,如有侵权请私聊,我们会尽快处理。

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材