【杨思洛】数智技术赋能科学计量评价-武汉大学中国科学评价研究中心

理论探讨

评价工作

理论探讨

【杨思洛】数智技术赋能科学计量评价

发布时间：2024年10月29日 12:23浏览次数：

科技评价包括项目评审、人才评价、机构评估、学科评估、期刊评价、成果评价等众多类型，对学术创新具有重要的导向作用。建立科学合理的科技评价体系，是新时期我国科技自立自强、建设创新型国家的必然要求。科学计量学是对科学本身进行定量研究的新兴学科，科学计量与科技评价深度融合、协同发展。科学计量为科技评价和管理提供方法支撑和理论依据，科技评价的突出问题和改革创新需求推动科学计量学不断发展和成长。科学计量与定性评价紧密关联，如被引量等数据本质上是学者定性选择的结果，而同行评议评价也离不开计量数据和分析工具的辅助。当前，大数据、云计算、人工智能、区块链等数智技术的快速兴起与发展，给科学计量与科技评价理论研究和实践应用带来了新契机。在新形势新需求下，无论是加强定量与定性方法的深度融合，还是提高计量指标与同行评议的互相补充，或是推进科技评价模式的转型，都离不开数智技术的应用与助推。有效利用数智技术切实推进科学计量与评价改革发展，是时代赋予的重要使命，也是社会提出的新要求和新需求。

传统计量评价的不足

目前，利用文献题录信息、基于简单频次统计的传统计量评价，已形成较完整的体系，包括理论、模型、方法、指标、数据与应用等。传统计量评价虽被广泛应用，但存在精度不高、较片面等诸多不足，受到质疑和批评。

由于技术成本的限制，传统计量评价在数据选取上来源单一、样本量小。一方面，计量评价对象及主体以可简单量化的科研成果（论文、著作、报告、会议文献等）及其题录元数据为主，数据粒度较粗。另一方面，主流计量评价指标往往围绕引文数据设计，如影响因子、特征因子、h指数及其衍生指数等，缺少对各类型文本数据以及科学大数据的计量，使得评价维度单一。引用表现出显著的马太效应，使得以引用频次为核心的传统计量评价存在先天性缺陷。

受到数据可获得的程度和质量限制，传统科学计量指标往往仅反映题录数据的频次。数据是基础，指标是关键。现行科技评价指标有：一是简单数量指标。通过简单的频次统计进行评价和测度，是科学计量评价最基本的形式。二是复合指标。在简单数量基础上，考虑了平均量、时间因素等，如常见的影响因子、CiteScore等指标。三是综合指标。评价不能仅依赖发表量和被引量，多源、多维指标的综合评价是主流。但利用小量的题录数据进行简单频次计量，无法对真实情况进行全面计量评价。对横向上结合社交媒体数据的Altmetrics指标及纵向上融合语义的内容指标研究还较初步。

受限于评价工具与方法，传统科学计量评价广泛存在以宏观维度计量代替微观主体评价。如期刊中论文的被引量呈偏态分布，期刊的影响因子往往由少数高被引论文决定，大部分论文被引量比均值低，且存在零被引。宏观维度的平均值无法反映一组偏态分布数据的真实情况。“以刊评文”是以期刊的整体质量评判单篇文章的质量；常用的引文指标或新发展的Altmetrics指标是对文章级别的整体评价，使得计量评价结果精度低，无法反映论文的真实水平。

以数值型数据为基础的传统科学计量评价无法反映内容和价值评判。无论是以引用为基础的各类引文指标，还是以链接为特色的网络计量指标，或是依托社交平台的Altmetrics指标，都是以频次数据为核心进行指标设计与评价模型构建。数值型数据包含的信息量不足，相同的数据背后可能存在复杂多样的行为逻辑（如引用行为的复杂性），使得无论指标模型多么精巧，都无法揭示学术成果的深层价值。随着科学研究的发展，科研成果快速增长，同行评议成本也相应增加，但目前基于频次统计的传统计量评价无法完全替代同行评议。利用语义挖掘、神经网络等技术的文本型数据计量及价值评价还未引起足够重视。

数智技术的多维赋能

科学计量评价的发展整体上主要经历了以下四个阶段。2000年以前，主要以引文指标为主，利用引文索引库，基于引文分析衍生出系列影响力评价指标。2000—2010年，出现网络计量学指标，特别是以链接类指标为主要特色，形成网络环境下评价体系。2010—2020年，基于社交媒体新环境，出现更全面的Altmetrics评价体系。2020年以后，结合数智技术的全文本分析兴起，向细粒度的微观层面和更精准高效的智能化评价转变。这里，数智技术在多个维度展现出对科学计量评价的赋能。

一是数据多源化。一方面，借助自然语言处理技术和文献结构化全文数据库的发展，计量评价对象从题录元数据发展为全文大数据。另一方面，由于数据开放可获取，对评价维度的分析从局限于引用数据到结合多平台计量数据，如知识共享平台、学术社交平台、大众社交平台、新闻平台、学科交流平台和视频网站等。此外，依托数智技术的发展，可将计量触角深入到科学大数据层面，将粗粒度的传统计量评价细化为基于科学大数据的知识元评价。

二是指标语义化。随着开放科学的兴起与人工智能的发展，包含更多信息量的结合语义的计量指标得到应用。例如，对引文内容分析，结合引用与被引用的位置、强度、功能和语境语义分析，构建颠覆性评价指标。知识单元计量分析中，通过自然语言处理与深度学习技术，深入文章的语词、语句和语篇等各个层面，对学术成果全文本进行深入的知识实体计量，包括术语、理论、方法、工具、研究问题、图表、公式、数据、亮点、贡献、局限、展望、语言等。结合全文本特征、语义与传统计量指标间关系，实现评价指标从文献外部特征到内容特征、从句法特征到语义特征、从宏观特征到微观特征等的转变。

三是结果精准化。通过数智技术的应用，结合全文本特征、语义分析、传统计量指标以及学术交流网络（包括传统引文网络与社交媒体传播网络），分析科研成果包含的知识单元，构建发展脉络，进而从“知识元”的维度对科研成果的质量、价值、学术地位进行更精准的评价。如通过基于全文的结构类指标、主题情感类指标、基于语义关联的复合指标以及综合性指标，从各个维度全面揭示学术成果的创新度、颠覆性、学术价值及社会贡献度等。

四是服务智能化。随着数智技术发展，尤其是知识表示和推理、人工神经网络等技术的发展，科学计量评价结果的呈现更加智能化。而生成式人工智能的应用，则为智能化服务带来了更多可能。从评价流程来看，可以依据数字识别方法及语义描述规则进行内容特征的智能识别与抽取；利用智能化语义相似度算法对内容进行比对与特征分类；采用大数据挖掘自动收集各维度评价数据，实现由数字评价系统自主评判成果的创新性、贡献度等；进而运用云计算等技术实时分享计量评价结果。从评价服务系统及平台来看，依托数智技术，基于科学大数据，结合云服务、个性化评价模型和评价层次塔，可以构建个性化科学计量评价系统模型，并通过云管理层实现对科学计量评价云服务平台、云存储池和云集群计算平台的调控与管理，提供内容个性化、形式多样化、服务主动化的科学计量评价服务。

来源：中国社会科学报

下一篇：【杨思洛】学术评价破除“唯论文”还须建立新标准

E-mail:rccse@whu.edu.cn

首页

中心概况

中心成果

中心服务

资源导航

科研信息

最新动态

评价工作

理论探讨

评价工作

理论探讨

Chinese University

媒体报道

最新大学评价报告

研究生院评价

理论探讨

【杨思洛】数智技术赋能科学计量评价