科学出版物的下载量和被引次数间的关系:格兰杰因果性推断的介绍

发布于 2021-04-07 11:32

引言:在许多科学计量学的研究问题中,通过观察性实验捕获相关指标或变量间的因果关系是一项极具挑战性的工作。近期,数友科技服务的团队在信息科学领域国际顶级学术期刊Journal of Informetrics(信息计量学学报)上发表了一篇名为《科学出版物的下载量和被引次数间的关系:格兰杰因果性推断的介绍》,详细阐述了一种超越相关性分析的策略——格兰杰因果的基本思想、模型分析、滞后效应和方向性判断等。

同时,该文章以国际医学期刊《柳叶刀》作为分析案例,探索了下载量和被引次数间的因果关系,并观察了高、低被引文章和不同引文生命周期的文章视角下因果关系的差异性。该文的一个重要贡献是将格兰杰因果推理方法引入信息科学领域,并希望在未来,信息科学家能够采用这种方法来理解不同研究背景下时间序列的方向性问题

论文题目:

On the relationship between download and citation counts: An introduction of Granger-causality inference.

论文地址:https://www.sciencedirect.com/science/article/pii/S1751157720306428


数据介绍

The introduction of data
Shu You YIn LI

该文章使用了国际医学期刊《柳叶刀》自2017年1月至2017年10月出版的11531篇文章的下载量和被引次数,并剔除了数据集中从未被下载或被引用的文章。最终得到了7552篇文章的月度下载和月度被引时间序列。下图展示了《柳叶刀》每个月出版论文的数量(图1-a)及其下载量和被引次数的数量分布(图1-b)和图1-c)。


数据样本展示

The presentation of data sample
Shu You YIn LI

其中,time_span为一篇文章时间序列期数的标识;pid为文章在Mendeley数据库中文章的id,如pid为2-s2.0-59449098775的文章为Health before profits? Learning from Thailand's experience;year和month为其时间序列的具体日期,download和citation为该篇文章在当月的下载量和被引次数。

//////////

  下面进入正文让我们来看看这篇文章具体探讨了什么问题,又是如何开展?如何推进的?

首先,该文章落脚于下载量和被引次数间相互影响的滞后问题,例如,下图显示了来自《柳叶刀》的两篇文章,其中可以观察到在第一种情况下,下载和引用之间的时间差明显小于第二篇文章。因此,作者认为,下载量和被引次数间的影响确实存在滞后关系,且这种关系随文章而异而不是所有文章统一不变的。

其次,本文着重探讨了下载量和被引次数间影响的方向性。作者论述了前人对于两项指标间的实证研究,并发现大多数研究均采用一般的相关性分析方法来探讨医学等学科期刊文章的两项指标间的关系,却很少涉及对于下载和被引的“因”和“果”的角色确定。换句话说,该文的第二个贡献是为科学计量学中对于科学出版物相关指标的因果关系确定提供了研究思路。

最后,该研究提供了使用格兰杰因果来量化下载量和被引次数间影响的滞后效应和方向性问题,并提供了详尽的推导和应用步骤介绍:时间序列的平稳性检验、滞后阶数的确定,协整关系分析及Wald系数约束性检验等。同时,该文章还考虑了高被引文章(图A)、通过深度学习分类的引文生命周期(图B)两个粒度,分别阐述了在两种分类角度下格兰杰因果关系在不同类型文章的差异性。此外,本文作者提供了全实验过程的STATA和R语言代码。

图A:高、低被引论文的下载次数和被引次数的格兰杰因果关系分布情况。

图B:基于引用曲线划分五种论文被引用模式

SHU YOU YIN LI
格兰杰因果的基本思想

存在两个时间序列X和Y,如果已知Y的历史信息和X的历史信息对预测Y是有用的,那么变量X被称为Granger-cause于变量Y,即X是Y的格兰杰原因。其常用因果效应捕捉方法是通过一般回归的策略对Y时间序列自身的滞后值(Y的历史信息)和X时间序列的滞后值(X的历史信息)回归。然后,检验对X的滞后值的估计系数联合为零的零假设:当发现其回归结果反馈为无法拒绝格兰杰因果检验原假设,则认定X时间序列为Y时间序列的格兰杰原因。


结 论

conclusion
Shu You YIn LI

在《柳叶刀》的不同出版物中,下载量和被引次数间的方向是不同的。因此,基于这一发现的实际意义是,下载数量可能不是预测未来引文影响的早期信号。


由于“马太效应”,高被引文章的下载量和被引次数都高于低被引文章,这增加了下载量和被引次数之间存在双向因果关系的可能性。


双向性因果关系在高被引文章中占主导地位,且这种关系会受到引文生命周期的影响。


局 限

limitation
Shu You YIn LI

尽管格兰杰因果关系可能不是“真正的因果关系”,正如格兰杰本人所提到的,本文中提出的实现是超越相关性的良性探索。此外,这里使用的数据集有限——只考虑《柳叶刀》上的出版物,没有显示任何学科和期刊方面的比较和稳健性测试。未来将通过扩展数据集和不同的因果推理策略来探索下载和被引关系的细微差别。

END

/济南数友科技服务有限公司/

文字:丁杨

编辑:阮蕙心

审编:闫宁

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材