一、爬虫用来做什么的?
从互联网上提取数据的一组程序
1、什么是爬虫?
网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。
那么在大数据世代,我们的数据从哪里来呢
2、数据获取途径
途径1:企业产生的用户数据:
百度指数:index.baidu.com
阿里指数: alizs.taobao,com
TBI: tbi.tencent.com
新浪微博指数:data.weibo.com
途径2:数据平台购买数据
数据堂:datatang.com
国运数据市场:moojnn.com/data-market/
贵阳大数据交易所:trade.gbdex.com
途径3:政府/机构公开数据
国家统计局:
世界银行
联合国
纳斯达克
途径4:数据管理咨询公司
麦肯锡 mcjinsey.com
埃森哲
艾瑞咨询
途径5:爬取网络数据:
如果需要的数据市场上没有,或者不愿意购买,可以选择做一名爬虫工程师,自己动手爬取数据。
3、爬虫需要涉及知识:
- python基础语法
- Html页面的内容抓取
- Html页面中进行数据抓取
- Scrapy框架
- 爬虫与反爬虫,反反爬虫之间的争斗
4、通用爬虫与聚焦爬虫
根据使用场景:网络爬虫可分为通用爬虫与聚焦爬虫
通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
二、爬虫基本语法:
1 、 导入request模块
首先需要用到 python中的requests
import requests
2、构建网络接口
name = input('请输入要爬取的贴吧名称')
url = 'http://tieba.baidu.com/f?kw='+name
如果接口处是汉字需要注意在接口处的转码问题
有时候&#x