Web Scraping
在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤
其中首先要做的就是获取数据,并提炼出有效地数据,为下一步的分析做好准备。
数据的来源多种多样,以为我本身是足球爱好者,而世界杯就要来了,所以我就想提取欧洲联赛的数据来做一个分析。许多的网站都提供了详细的足球数据,例如:
因为从网站抓取的数据可能存在不一致的情况,所以很有可能需要手工调整
Python提供了很便利的Web Scraping基础,有很多支持的库。这里列出一小部分
当然也不一定要用Python或者不一定要自己写代码,推荐关注import.io
下面,我们就一步步地用Python,从腾讯体育来抓取欧洲联赛13/14赛季的数据。
首先要安装Beautifulsoup