大数据时代下,统计分析如何发展? 发表于 2017-03-02 | 大数据(Big Data)时代下,我们面临海量、高速增长和多样化的信息。那么,我们对于基于随机分析,或者说抽样调查,的统计分析的来对数据进行分析和处理还适用吗? 我认为,大数据时代下,人类对于产生的信息的收集、传播、存储、分析方面面临诸多挑战。而对于统计学来说的最主要的挑战则是信息的收集和分析方面的 ... 阅读全文 »
DPLP数据集的处理工作 发表于 2017-02-24 | DPLP是一个是由德国University of Trier的Michael Ley教授负责维护的计算机文献数据集,每个月都会有更新,数据存放在一个xml格式的文件里 http://dblp.uni-trier.de/ http://dblp.uni-trier.de/xml/ 另外,清华大学的唐杰 ... 阅读全文 »
一个带label网络的embedding问题 发表于 2017-02-23 | https://hashc.github.io/2017/02/13/%E4%B8%80%E4%B8%AA%E5%9C%A8%E5%A4%9A%E5%B1%82%E7%BD%91%E4%B8%8A%E7%9A%84%E4%BC%A0%E6%92%AD%E6%A8%A1%E5%9E%8B/ 之前一篇提 ... 阅读全文 »
一个在多层网上的传播模型 发表于 2017-02-13 | 一个在多层网络上的传播模型1.背景考虑一个科学家的合作或交流网络,我们通常都是用引文网络来研究科学家之间的交流关系的。一般的做法是基于两个科学家合作过的论文数量的统计来确定二者的合作强度。而在实际科学家的交流合作包括对知识的探索与分享是基于引文网络的,我们大多是通过一篇文章来索引它的参考文献,进而去 ... 阅读全文 »
安装phantomjs 发表于 2016-12-21 | Phantomjs是一款特别的浏览器,说它特别,主要是它是完全没有界面的,以至于不能称之为浏览器 ,但是用来做自动化浏览器开发测试却再好不过了。安装phantomjs主要是为了爬虫的需要。最简单的,如果网页上需要你点击下一页,也就是一个点击事件,才能获得浏览,而这种浏览不会转移网页地址,那么用传统的 ... 阅读全文 »
python爬虫学习(一) 发表于 2016-12-19 | 好几次因为不同的需要用到网络爬虫,于是到网上看了不少大神的博客,收益匪浅。下面把自己零零散散地学了一点相关的知识整理下来,方便自己和看到这篇博客的你。Python环境3.5 1.爬虫大概 网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(au ... 阅读全文 »
写给这个好天气 发表于 2016-11-19 | 今天是个好天气,应该是一直重复在脑际的一句话了。想不出太多去形容这浸在秋叶里的一天,银杏黄得娇嫩,梧桐褐得苍老,枫叶红得肆意,偏就在这一刻像是约定好似的,一股脑地散在草坪上,用这层织衣掩着身下的深绿。除却那堆不待见人的紫色花菊,藏不住霜寒后的疲软,羞羞地避开了三三两两拍照记录的路人,周遭的一切便再无 ... 阅读全文 »
科学计量学 发表于 2016-11-02 | 研究的对象 1.对科学活动的投入(如科研人员、研究经费) 2.产出(如论文数量、被引数量) 3.过程(如信息传播、交流网络的形成) 传播网络、小世界、无标度 研究内容与方向 1.知识的传播动力学(基于引用关系,文章层面,研究领域的演化、研究热点) 2.重要节点识别与排名(期刊、作者、研究机构,度 ... 阅读全文 »