grid机构数据集说明
这个网站搜集了全世界的机构名,并利用wikipedia,geoname的数据补充了机构的相关数据(位置),主页,wiki页面,以及机构间的关系,机构在不同语言下的名称,缩写等等
在2017-3-8的发布里包含了全世界72,633的机构,其中教育机构有17213家
下载后解压出来,如下:
1.简单版本
grid.csv是逗号分割并用””做补充分割的文件,第一列是ID,第二列是机构名,第三列是城市,第四列是州,第五列是国家
grid和grid.ttl分别是对应的json和xml格式
2.完整版本
full_talbes内的内容比较详细
- acronyms.csv 记录了机构的编号与对应缩写
- addresses.csv 在grid.csv基础上添加了state_code,country_code,geonames_city_id
- aliases.csv 记录了对应的grid_id和机构名
- geonames.csv是机构所在城市在geoname里的数据,包括geoname_id
- institutes.csv 记录了
grid_id | name | wikipedia_url | email_address | established |
---|---|---|---|---|
- labels.csv 记录了不同语言下的机构名
- links.csv 记录了机构的官方主页
grid_id | links |
---|---|
- relationships.csv 记录了机构间的关系,包括哦Related,child,Parent三种关系
- types.csv 记录了机构的类型,一个机构可能有多个类型