grid机构数据集说明

grid机构数据集说明

https://www.grid.ac/downloads

这个网站搜集了全世界的机构名,并利用wikipedia,geoname的数据补充了机构的相关数据(位置),主页,wiki页面,以及机构间的关系,机构在不同语言下的名称,缩写等等

在2017-3-8的发布里包含了全世界72,633的机构,其中教育机构有17213家

下载后解压出来,如下:

1.简单版本

grid.csv是逗号分割并用””做补充分割的文件,第一列是ID,第二列是机构名,第三列是城市,第四列是州,第五列是国家

grid和grid.ttl分别是对应的json和xml格式

2.完整版本

full_talbes内的内容比较详细

  • acronyms.csv 记录了机构的编号与对应缩写

  • addresses.csv 在grid.csv基础上添加了state_code,country_code,geonames_city_id

  • aliases.csv 记录了对应的grid_id和机构名
  • geonames.csv是机构所在城市在geoname里的数据,包括geoname_id
  • institutes.csv 记录了
grid_id name wikipedia_url email_address established
  • labels.csv 记录了不同语言下的机构名

  • links.csv 记录了机构的官方主页
grid_id links
  • relationships.csv 记录了机构间的关系,包括哦Related,child,Parent三种关系

  • types.csv 记录了机构的类型,一个机构可能有多个类型