Python-爬虫(一):最简单的爬虫思路
爬虫这种东西
并不是一种简单的算法
谨以此总结隔空打脸两年前的我
一、爬虫背景知识
1、爬虫是什么
按照一定规则从互联网上抓取信息的程序
其他详见大佬公众号的链接,【裸睡的猪】
2、HTTP & HTTPS详解
什么是互联网?
什么是网络协议?
这一部分算是**【计算机网络】**的知识
继续放链接有空总结
1、【HTTP详解】
2、【HTTPS原理详解】 (原文链接删除,以后自学)
3、网页结构
HTML语法,以及界面设计,还有html标签、数据、css样式、js等等什么的
东西很多,除了这个外必须自学一些别的
讲不定学个爬虫顺便还会设计网页了
平时有什么看到的也需要记录下来
【网页结构简介】
4、爬虫是否违法
爬虫法
爬虫相关新闻还是挺多的
XD
5、浏览器的开发者工具
这个
真的有时候搞不懂啊
需要系统了解一下Google Chrome的使用
二、简单静态网页爬取
1、最最最简单的版本
import requests
def spider_douban():
# 获取url
url="https://www.zhihu.com/people/yang-wang-13-98-55/activities"
# 爬取数据
try:
r = requests.get(url)
# get:通过URL参数,获取网页源码
r.raise_for_status()
# raise_for_status 手动判断网络连接状态,连接错误(404...)转入except子句
print(r.text)
except:
print("Error!\n")
if __name__ == "__main__":
spider_douban()
- URL(Uniform Resource Locator,统一资源定位符):WWW的统一资源定位标志,或者说唯一的网络地址)
protocol:// hostname[ :port] / path / [;parameters][?query]#fragment
2、带请求头
import requests
def spider_douban():
# 获取url
url="https://www.zhihu.com/people/yang-wang-13-98-55/activities"
#设置头
header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' }
# 爬取数据
try:
r = requests.get(url,headers = header)
# get:通过URL参数,获取网页源码
r.raise_for_status()
# raise_for_status 手动判断网络连接状态,连接错误(404...)转入except子句
print(r.text)
except:
print("Error!\n")
if __name__ == "__main__":
spider_douban()