- 博客(5)
- 收藏
- 关注
原创 python之基于scrapy的网络爬虫(基础):爬虫步骤,yield的使用,scrapy爬虫的数据类型
Scrapy 爬虫的框架介绍及常用命令:https://blog.csdn.net/qq_42281826/article/details/80998959Scrapy 爬虫的步骤:建立一个Scrapy 爬虫项目。(在command下执行)scrapy startproject projectname在工程中新建一个爬虫,在spiders下生成一个spidername.py文件。(在c...
2019-08-06 15:58:54 311
原创 python爬虫之股票数据
候选网站的选择:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制。程序结构:从东方财富网获取股票列表根据股票列表逐个到百度股票获取个股信息将结果存储到文件import requestsfrom bs4 import BeautifulSoupimport reimport tracebackdef getHTMLText(url): try...
2019-08-05 16:40:06 244
原创 python爬虫之淘宝商品比价定向爬虫
使用requests,re库来定向爬取淘宝商品。结构设计:提交商品搜索请求,循环获取后续页面对于每个页面,提取商品名称、价格信息将信息输入到屏幕上import requestsimport redef getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_s...
2019-08-01 09:44:47 990
原创 Python之正则表达式
regular expression----regex--------RE是用来简洁表达一组字符串的表达式,也可以用来判断某字符串是否有某一特征。正则表达式的语法:由字符和操作符构成字符描述.表示任何单个字符[ ]字符集,对单个字符给出取值范围,[abc]=a,b,c[^][^abc]=非a或非b或非c的单个字符**的前一个字符0次或无限次扩展...
2019-07-30 15:42:59 129
原创 网络爬虫
最近在学习网络爬虫,使用网络爬虫获取大学排名。其中使用到requests库,bs4库。import requestsfrom bs4 import BeautifulSoupimport bs4 #因为下面有引用bs4中的一个类bs4.element.Tagdef getHTMLText(url): try: r = requests.get(url)...
2019-07-25 15:58:18 104
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人