python爬虫
张小北哈哈
这个作者很懒,什么都没留下…
展开
-
python爬取京东图片
import reimport urllib.requestdef craw(url,page): html1=urllib.request.urlopen(url).read() html1=str(html1) pat1='<div id="plist".+? <div class="page clearfix">' result1=re...转载 2019-04-10 22:37:34 · 685 阅读 · 0 评论 -
python爬虫基础知识—01request库学习
1、requests库import requestsr=requests.get("http://www.baidu.com")r.status_coder.encoding='utf-8'print(r.text)requests的方法https://www.jianshu.com/p/c4e401d57e64https://blog.csdn.net/weixin_425497...原创 2019-04-10 22:41:21 · 186 阅读 · 0 评论 -
python爬虫基础知识—02python网络爬虫与信息提取
1、soup=BeautifulSoup(‘data’,‘html.parser’)第一个为BeautifulSoup需要解析的代码、变量等,第二个为解析器2、BeautifulSoup库是解析、遍历、维护“标签树”的功能库 属性由键值对构成from bs4 import BeautifulSoupsoup=BeautifulSoup("data","html.parser")soup...原创 2019-04-10 22:48:32 · 141 阅读 · 0 评论 -
python爬虫基础知识—03爬虫实例
爬虫的问题1、爬虫的尺寸爬取网页:小规模,数据量小,——requests库爬取网站:中规模,数据规模较大,爬取速度敏感,scrapy库爬取全网:大规模,搜索引擎,爬取数据,定制开发,像谷歌背后等网络爬虫的法律风险,服务器上的数据产权所有服务器限制网站爬虫:1、来源审查:判断User_Agent进行限制 检查来访问http协议头的User_Agent域,只响应浏览器或友好爬...转载 2019-04-10 22:50:11 · 348 阅读 · 0 评论 -
python爬虫基础知识—04信息的标记
信息的标记标记后的信息可形成信息组织结构,增加了信息维度标记后的信息可用于通信、存储或展示1、XML用<> 来表示信息 <name> 可扩展性好,但繁琐2、JOSN JavaScript Object Notation有类型的键值对 key:value"key":[value1,value2]信息有类型,适合程序处理(js),较XML简洁移动应用云端...原创 2019-04-10 22:51:49 · 181 阅读 · 0 评论 -
python爬虫基础知识—05正则表达式
python爬虫慕课整理https://www.cnblogs.com/beiyin/p/9129443.html正则表达式 regular expression regex RE正则表达式是用来简洁表达一组字符串的表达式'PN' 'PYN' 'PYTHN' 'PYTHON' 正则表达式 P(Y|YT|YTH|YTHO)?N优势:简洁,一行胜千言示例:(1)'PY' 'PYY' ...原创 2019-04-10 22:53:08 · 325 阅读 · 0 评论 -
python爬虫基础知识—06爬虫实例(淘宝商品+股票数据)
1、“淘宝商品比价定向爬虫”实例介绍目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。理解:淘宝的搜索接口翻页的处理技术路线:requests+re书包:https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&imgfile=&commend=all&ssid=s5-e&search_type=it...转载 2019-04-10 22:56:08 · 582 阅读 · 0 评论