winycg的博客

学习笔记

排序:
默认
按更新时间
按访问量

Python Scrapy运行爬虫时出现ModuleNotFoundError(win32api)

第一次在命令行运行scrapy爬虫时,可能会提示缺少win32 API库, 这是因为Python没有自带访问windows系统API的库的,需要下载第三方库。库的名称叫pywin32,可以从网上直接下载 下载链接:https://sourceforge.net/projects/pywin32/...

2017-10-12 00:31:57

阅读数:334

评论数:0

Python Scrapy爬虫框架

Scrapy爬虫框架结构: 数据流的3个路径: 一: 1.Engine从Spider处获得爬取请求(Request) 2.Engine将爬取请求转发给Scheduler,用于调度 二: 3.Engine从Scheduler处获得下一个要爬取的请求 4.Engine将爬取请求通过中间件发送给Dow...

2017-10-10 14:52:42

阅读数:396

评论数:0

python scrapy库安装过程提示错误 Running setup.py install for Twisted ... error

安装scrapy库时,使用pip install scrapy也会同时安装其他依赖库,当安装Twisted依赖库时,可能会产生安装错误, Running setup.py install for Twisted ... error Exception: Traceback (most rece...

2017-10-10 11:02:45

阅读数:2394

评论数:2

python 股票数据爬取(两种方法)

东方财富网可以看到股票信息: http://quote.eastmoney.com/stocklist.html 查看源代码: R014(201002)              R028(201003)              R091(201004)                     ...

2017-10-08 23:57:43

阅读数:1811

评论数:0

Python 淘宝商品价格爬取(requests库+正则表达式)

淘宝搜索关键词链接:https://s.taobao.com/search?q=关键词 第2页商品链接:https://s.taobao.com/search?q=关键词&s=44 第3页商品链接:https://s.taobao.com/search?q=关键词&s=88 ......

2017-10-08 20:15:39

阅读数:5585

评论数:0

Python Re正则表达式

正则表达式是用来简洁表达一组字符串的表达式 正则表达式在文本处理中十分常用: 表达文本类型的特征(病毒、入侵等) 同时查找或替换一组字符串 匹配字符串的全部或部分 …… 最主要应用在字符串匹配中 编译:将符合正则表达式语法的字符串转换成正则表达式特征 正则表达式的语法: 正则表达...

2017-10-07 21:02:21

阅读数:145

评论数:0

中国最好大学网爬取大学排名信息

最好大学网网址:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 从以上链接中爬取大学排名并格式化输出: from bs4 import BeautifulSoup import requests import bs4 def get...

2017-10-02 19:31:41

阅读数:385

评论数:0

Python Beautiful Soup库详解

BeautifulSoup对应一个HTML/XML文档的全部内容  from bs4 import BeautifulSoup soup=BeautifulSoup("asd","html.parser") print(soup.prettify())...

2017-10-01 16:04:11

阅读数:196

评论数:0

Python Request库小实例

实例一.京东商品爬取 from requests import * try: r=get("https://item.jd.com/3888216.html") r.raise_for_status() r.encoding=r.apparent_enc...

2017-09-28 16:14:52

阅读数:220

评论数:0

Python Requests库详解

r=requests.get(url,params=None,**kwargs) Url:拟获取页面的url连接 Params:url中的额外参数,字典或字节流格式,可选 **kwargs:12个控制访问的参数 get构造一个向服务器请求资源的Request对象 r为返回一个包含服务器资源的Res...

2017-09-27 23:16:04

阅读数:308

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭