湖北省肿瘤医院-科研资讯

一些高引学者似乎是严重的“自引者”，不过研究人员提醒不要对自引加以约束。

根据最新披露的数据，世界上最高引的学者并不属于同一类人。从诺贝尔奖获得者到知名博学家，这个名单里还有一些名不见经传的人，比如说来自印度金奈的Sundarapandian Vaidyanathan。和Vaidyanathan类似的人有数百名，他们都有一个共同点，那就是他们的引用量大多来自他们自己的论文，或是合作者的论文。

来源：pixabay

Vaidyanathan是印度私立威尔科技大学的计算机科学家。根据8月发表在PLos Biology上的一篇论文¹，他是个特例，因为算到2017年，他94%的引用量来自他本人或合作者的论文。但是他并不是唯一。该数据库罗列了约10万名研究者，并且发现其中至少250名研究者的引用量有50%以上来自他们自己或合作者，而整体自引率的中位数仅为12.7%。

这项研究找出了一些潜在的极端自引者，以及他们背后的“引用农场”（citation farms）。引用农场指的是一群科学家大量互相引用的现象。斯坦福大学的医学家John Ioannidis 擅长研究元科学，他也是这项研究的主要作者。他说：“我认为自引农场比我们想象的要普遍。那些自引率超过25%的作者并不一定违背学术伦理，但是加强审查可能是必要的。”

这是目前已发表的最为庞大的自引数据集，而且发表的时机很恰当，因为资助机构和期刊等对过度自引所引发的问题愈来愈关注。7月，伦敦的出版业咨询机构出版伦理委员会（the Committee on Publication Ethics，COPE）将极端自引列为引用操纵的主要形式之一。极端自引还涉及更大的弊端：招聘、晋升和研究经费拨款决策过度依赖引用数据。

俄勒冈大学的心理学家Sanjay Srivastava表示：“当我们把职业晋升和引用数据挂钩，并且过于关注后者的时候，我们实际上在鼓励自引。”

虽然很多科学家也同意说极端自引是有问题的，但是就极端自引的界定以及相应处理措施，却没有达成一致意见。这背后的部分原因在于，研究者有很多的正当理由来引用自己或同事的研究。

Ioannidis提醒称，他的研究并不会导致对某些研究者的污名化，这主要是因为不同学科和处于不同职业生涯阶段的研究者的自引率千差万别，“这只是提供了一些完整透明的信息，而不应当被用来证明高自引等于学术不端。

数据驱动

Ioannidis和同事并没有侧重从自引的角度发表数据。自引只是研究的一部分，他们的研究还涉及一系列基于标准化引用的指标，涵盖了过去20年里176个科研领域的约10万研究者。

他和美国数据分析公司SciTech Strategies的Richard Klavans和 Kevin Boyack，以及荷兰出版商爱思唯尔的分析主管Jeroen Baas合作，共同编制了数据。数据来自爱思唯尔的Scopus文献数据库。这个团队希望他们的研究能够找到那些推动引用的因素。

但是，他们数据库中最抓人眼球的部分却是自引指标。通过搜索Scopus和科学网（Web of Science）一类的订阅数据库，已经可以查找某个作者自引次数的信息了。但是如果不分析不同的学科以及研究者所处的职业阶段，就很难理解这些数据并进行相互比对。

Vaidyanathan是一个极端案例，而且他还从中受益。去年，当时负责印度高等教育的政客，目前是印度环境部长的Prakash Javadekar由于Vaidyanathan的高产和引用数据而授予其2万卢比（280美金）的奖励，表彰其成为印度最顶尖的学者之一。

Vaidyanathan并没有回应《自然》的评论请求，但是在问答网站Quora上一条涉及威尔科技大学的帖子里，他曾经为自己的引用记录辩白。2017年，他在帖子里写道，由于研究是一个连续的过程，“下一次研究不可能在不参考之前的研究的情况下展开，”此外自引的目的不是为了误导其他人。

另外两个也受到过褒奖的极端自引研究者分别是数学家Theodore Simos和药物化学家Claudiu Supuran，Simos的个人网站上罗列了他所属的研究机构，包括沙特国王大学、俄罗斯乌拉尔联邦大学和希腊塞萨斯德谟克里特大学，Supuran来自意大利佛罗伦萨大学，同时也附属于沙特国王大学。

Simos的自引率为76%，Supuran为62%。在去年科学网所属的信息服务公司科睿唯安编制的“全球杰出研究者”的6000人表单中，两人都榜上有名。Simos和Supuran都没有回应《自然》的评论请求。科睿唯安则表示他们已经意识到了自引异常的问题，今后的计算方法可能会改良。

该怎么处理自引？

在过去的几年里，研究者对自引的问题愈发重视。2016年的一篇预印本论文²指出，男性研究者引用自己论文的次数比女性研究者多56%。但是去年的一项重复研究发现³，这可能是高产研究者的高自引率导致的，因为他们有更多自己的过往研究可引用，而这和性别没有关系。

2017年，一项研究发现，在2010年一项广受争议的政策实施后，意大利科学家的自引率开始上升。这项政策规定，符合晋升条件的学者必须要满足一些生产效率指标⁴。

印尼的研究部使用基于引用量的公式来为研究和奖学金拨款。去年，印尼的研究部表示一些研究者使用了不正当的手段提升个人分数，包括过度自引，或是形成相互引用的小团体。印尼的研究部表示已经切断了对15名研究者的资助，并打算将自引量从计算公式中去除，但是有研究者向《自然》表示这项举措尚未实施。

不过，公开个人自引率，或是在校正了自引率的情况下评估这些研究者的做法饱受争议。比如，在7月公开的一份讨论文档中⁵，COPE反对排除自引率，因为“这将自引的良好学术意义也排除在外了”。

2017年，苏黎世大学的生物学家Justin Flatt呼吁提高自引数据的透明度⁶。Flatt目前任职于赫尔辛基大学，他建议在常用的科研效率指标h指数外附加一个自引指标s指数（self-citation index）。h指数达到20意味着一个研究者发表了20篇有至少20次引用的论文；同理，s指数达到10意味着研究者发表了10篇至少有10次自引的论文。

Flatt得到了一笔资助用以为研究s指数搜集数据。他同意Ioannidis的观点，那就是这些指标的目的不是为了设置可接受的阈值，或是为了羞辱高自引者，“这么做绝非要把自引当作犯罪行为。”但是他指出，只要研究者还在用 h指数标榜自己，那么就有必要附上s指数以供参考。

前因后果要明确

Ioannidis的研究的一个独特之处在于它对自引的广义定义，这项定义将合作者的引用也包括了进来。比利时根特大学的社会学家Marco Seeber表示，这么做的目的是为了寻找引用农场的证据，但同时也的确会放大自引数值。比如，粒子物理学和天文学领域的论文通常包含数百甚至上千名合作者；把这些人都算到自引里去的话，就会拉高整个领域的自引平均水平。

Ioannidis表示，通过将研究者和本国均值、本职业生涯均值或学科均值进行比较，就可以排除系统性差异。但是从更宏观的角度来说，这个表单包含了一些值得加强关注的可疑分子。还有其他方法来发现问题，像是算一下引用量和引用了这些论文的论文数量的比值。

比如，Simos有10458次引用，但是引用他的论文数量只有1029篇。这意味着，平均每篇引用他的论文为他贡献了10次以上的引用量。Ioannidis表示，这个指标和自引指标结合起来，能够很好地圈定过度自引者。

来源：Jeroen Baas，未发表的Scopus数据库分析结果。

在一项没有发表的研究中，爱思唯尔的Baas表示，他用了类似的方法对700万名研究者进行了分析，这包括了Scopus数据库里所有发表了至少5篇论文的作者。

在这个数据库中，自引率中位数是15.5%，但是7%的作者的自引率超过40%，这个数据比最高引的科学家还大，因为在这700万人中，大多数人只有一丁点他引，或刚刚开始职业生涯。处于职业生涯早期的科学家的自引率会更高，因为他们的论文还没有足够的时间来累积他人的引用（见“青年效应”）。

来源：Jeroen Baas，未发表的Scopus数据库分析结果。

根据Baas的数据，俄罗斯和乌克兰的自引率中位数遥遥领先（见“不同国家的自引率”）。他的分析还表明，某些领域的自引率很高，比如核物理和粒子物理，以及天文学和天体物理学，这是因为这些领域论文的合作者特别多（见“物理学的特殊之处？”）。Baas表示，他并不打算公开这些数据。

来源：Jeroen Baas，未发表的Scopus数据库分析结果。

科学之患？

虽然这项PLoS Biology研究找到了一些极端自引者，并且提出了识别极端自引者的方法，但是一些研究者认为，自引数据集没什么用。这在一定程度上是因为不同学科、处于不同职业生涯阶段的自引情况存在非常大的差异。加拿大蒙特利尔大学的信息科学家Vincent Larivière表示：“自引比它表面看起来要复杂得多。”

Srivastava还表示，要对付过度自引以及其他操纵基于引用的指标的行为，最佳方法不一定非得是发表事无巨细的标准化数据表和综合指标，把研究者相互比来比去。这些方法也可能有缺陷，而且有可能把研究者拖入个人指标化评价体系的深渊，而正是这个问题在一开始激发了过度自引。

Srivastava说：“我们应该让编辑和论文审稿人留心不正当的自引。上述指标或许能提供一些有价值的参考，但是最终的解决方法要把职业评估和专家同行建议结合起来，而不能只看指标。” 印第安纳大学布卢明顿分校的信息科学家Cassidy Sugimoto也认为解决问题不能靠更多的指标，“给科学家排名对科学没有好处。”

但是，Ioannidis认为他的研究具有价值，“反正指标已经被看得很重了。问题在于如何最大程度地保证指标的正确性和系统性。引用指标不会，也不应该消失，我们应当更好地利用它们，同时承认它们的局限性。”

参考文献：

1. Ioannidis, J. P. A., Baas, J., Klavans, R. & Boyack, K. W. PLoS Biol. 17, e3000384 (2019).

2. King, M. M., Bergstrom, C. T., Correll, S. J., Jacquet, J. & West, J. D. Sociushttps://doi.org/10.1177/2378023117738903 (2017).

3. Mishra, S., Fegley, B. D., Diesner, J. & Torvik, V. I. PLoS ONE 13, e0195773 (2018).

4. Seeber, M., Cattaneo, M., Meoli, M. & Malighetti, P. Res. Policy 48, 478–491 (2019).

5. COPE Council. COPE Discussion Document: Citation Manipulation (COPE, 2019).

6. Flatt, J. W., Blasimme, A. & Vayena, E. Publications 5, 20 (2017).

原文以Hundreds of extreme self-citing scientists revealed in new database为标题发表在2019年08月19日的《自然》新闻特写上

引用自己的论文，多少才算太多？