人身苦短,我用python
之前一直对爬虫爬数据很感兴趣,今天来学习一下!
关于python的介绍就不说了,直接进入主题:
爬虫入门:
爬虫需要什么?
需要 urllib 包
第一步导包:
from urllib import request
第二步爬的目标:
url = "http://www.baidu.com"
第三步:怎么爬?
入门级别就只需要知道怎么爬,在深入的话需要知道底层原理,先爬再说
content = request.urlopen(url).read()
我们把从网络上获得的数据保存到一个变量中,
然后写入进一个文件中,
print(content)
with open("d:/test.html", "wb") as f:
f.write(content)
当然这么写肯定是有点毛病的,我们不能把不需要的内容跟也保存下来,于是就有了后续~
1, 爬的数据格式是什么?
2,爬的数据大小是多大?
3,怎么从这些数据中找到我想要的?
先看一下爬到的数据:
在content=处发现数据编码跟我们想要的不太一样;
怎么解决呢?且看后续