自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 python之基于scrapy的网络爬虫(基础):爬虫步骤,yield的使用,scrapy爬虫的数据类型

Scrapy 爬虫的框架介绍及常用命令:https://blog.csdn.net/qq_42281826/article/details/80998959Scrapy 爬虫的步骤:建立一个Scrapy 爬虫项目。(在command下执行)scrapy startproject projectname在工程中新建一个爬虫,在spiders下生成一个spidername.py文件。(在c...

2019-08-06 15:58:54 287

原创 python爬虫之股票数据

候选网站的选择:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制。程序结构:从东方财富网获取股票列表根据股票列表逐个到百度股票获取个股信息将结果存储到文件import requestsfrom bs4 import BeautifulSoupimport reimport tracebackdef getHTMLText(url): try...

2019-08-05 16:40:06 217

原创 python爬虫之淘宝商品比价定向爬虫

使用requests,re库来定向爬取淘宝商品。结构设计:提交商品搜索请求,循环获取后续页面对于每个页面,提取商品名称、价格信息将信息输入到屏幕上import requestsimport redef getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_s...

2019-08-01 09:44:47 963

原创 Python之正则表达式

regular expression----regex--------RE是用来简洁表达一组字符串的表达式,也可以用来判断某字符串是否有某一特征。正则表达式的语法:由字符和操作符构成字符描述.表示任何单个字符[ ]字符集,对单个字符给出取值范围,[abc]=a,b,c[^][^abc]=非a或非b或非c的单个字符**的前一个字符0次或无限次扩展...

2019-07-30 15:42:59 118

原创 网络爬虫

最近在学习网络爬虫,使用网络爬虫获取大学排名。其中使用到requests库,bs4库。import requestsfrom bs4 import BeautifulSoupimport bs4 #因为下面有引用bs4中的一个类bs4.element.Tagdef getHTMLText(url): try: r = requests.get(url)...

2019-07-25 15:58:18 94

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除