摘要

1) 一句话总结 ScholKG 提供了一个从 1450 万篇学术文献中自动生成的大规模计算机科学知识图谱(CS-KG),支持通过 SPARQL 端点或离线数据包获取结构化的学术实体与关系。

2) 核心要点

  • 定位与演进:CS-KG 是一个旨在结构化描述学术文献信息的自动生成知识图谱,现已取代早期的“人工智能知识图谱”(AI-KG)。
  • 数据规模:图谱从 1450 万篇文章中提取了 6700 万条陈述,涵盖 2400 万个学术实体(如任务、方法、材料、指标),包含 219 种语义关系。
  • 自动化提取流水线:综合使用 DyGIE++、Stanford CoreNLP、CSO Classifier 以及一种新型词性标注器(PoS Tagger)四种工具进行实体与关系的自动提取。
  • 数据质量控制:采用结合深度学习与语义技术的混合过滤机制,对生成的三元组(triples)进行整合与过滤。
  • 查询与获取方式:支持通过官方 SPARQL 端点进行在线检索,或下载 TTL 和 CSV 格式的完整数据转储(Dump)进行本地离线分析。
  • 配套资源:除主图谱外,还提供专门的基准测试集(Benchmark),并保留了旧版 AI-KG 的数据转储和本体(Ontology)供访问。
  • 开源协议:所有 CS-KG 数据均基于 CC BY 4.0 许可协议提供。

功能与定位

ScholKG 是 CS-KG 与 AI-KG 的官方入口站点,提供知识图谱的查询入口、数据下载、文档与本体 Schema。站点介绍中明确建议用户从 AI-KG 迁移到覆盖范围更大的 CS-KG。

典型使用场景

  • 用 SPARQL 做概念、方法、任务、指标等学术实体与关系的检索与统计分析。
  • 下载 TTL 或 CSV 数据后,在本地做离线分析、可视化、图算法或数据集构建。
  • 使用官方基准测试集进行信息抽取、知识图谱构建或补全相关研究的对比评测。

核心功能

  • 在线查询:提供 SPARQL 端点用于交互式查询与结果导出。
  • 数据分发:提供 CS-KG 的 TTL dump、CSV dump 与 benchmark 下载,同时保留 AI-KG 下载与本体。
  • 文档与本体:提供 CS-KG 的文档页面与本体 Schema,便于理解图谱结构与字段含义。

特色与差异点

  • 规模与覆盖:站点公布的 CS-KG 规模为 6700 万条陈述、1450 万篇文章、2400 万实体、219 种语义关系。
  • 自动化管线:实体与关系抽取使用 DyGIE++、Stanford CoreNLP、CSO Classifier 与 PoS Tagger,并在后处理阶段结合深度学习与语义技术做整合与过滤。
  • 标准化取向:站点声明 CS-KG 与 Knowledge Graph Construction W3C Community Group 的倡议对齐,用于支持基准、资源与工具建设。

使用方式(概览)

  1. 直接访问 SPARQL 端点,编写查询语句检索所需实体、关系与统计结果。
  2. 根据用途选择下载 TTL 或 CSV 数据,在本地加载到三元组存储、图数据库或分析管线中。
  3. 如需评测或复现研究,对照 benchmark 与相关论文说明进行实验设置。

限制与注意事项

  • 协议:数据按 CC BY 4.0 提供,使用与再分发需要遵守署名要求。
  • 演进:站点明确 CS-KG 正在替代 AI-KG;如依赖旧数据结构,需要同时参考 AI-KG 本体与旧版本数据。
  • 数据体量:CS-KG dump 体积较大,离线使用需要预留存储空间与计算资源。

链接

关联主题