爬虫:网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
1.爬虫基本程序
python3.7
print response.read()
response 对象有一个 read 方法,可以返回获取到的网页内容。
2.爬虫程序添加data、header,然后post请求
3.爬虫程序添加cookie
4.正则表达式
re.compile(正则表达式的语法)
根据正则表达式语法生成对应正则表达式对象,方便复用该正则表达式
注:正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪则相反,总是尝试匹配尽可能少的字符。在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。