爬虫
拉普拉斯之妖
这个作者很懒,什么都没留下…
展开
-
关闭 requests 的 InsecureRequestWarning
https://www.jianshu.com/p/fecf6b5074f5原创 2020-04-28 20:20:56 · 253 阅读 · 0 评论 -
两个随机生成User-Agent的库
两个随机生成User-Agent的库fake_useragent from fake_useragent import UserAgentua = UserAgent()ua.ieMozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US);ua.chromeMozilla/5.0 (compatible; MSIE 10.0;...原创 2020-04-28 18:16:10 · 197 阅读 · 0 评论 -
python爬虫实战笔记(8)scrapy
建立新项目scrapy startproject scrapydownloadertest 建立新spiderscrapy genspider httpbin httpbin.org 运行spiderscrapy crawl httpbin Scrapy原创 2020-04-27 21:45:48 · 76 阅读 · 0 评论 -
scarpy中crawl Unknown command
应该在有scrapy.cfg的文件下运行cmdscrapy crawl quotes原创 2020-04-27 10:50:31 · 104 阅读 · 0 评论 -
python之iamok每日定时签到程序
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWaic...原创 2020-04-19 10:53:41 · 130 阅读 · 0 评论 -
selenium点击无效问题(利用js选择节点)
原命令可以定位,但是就是无法点击btn = btn = wait.until((EC.presence_of_element_located((By.XPATH, '//*[@id="app"]/div/div/div[2]/div[3]/button'))))btn.click()js命令解决botton = 'document.getElementsByClassName("btn...原创 2020-04-19 10:37:14 · 347 阅读 · 0 评论 -
pycharm安装tesserocr
https://blog.csdn.net/coolcooljob/article/details/80385711?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-6&utm_source=distribute.pc_relevant.none-task-blog-BlogComm...原创 2020-04-18 19:32:59 · 156 阅读 · 0 评论 -
python爬取淘宝信息
from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfro...原创 2020-04-18 16:46:19 · 103 阅读 · 0 评论 -
python爬虫实战笔记(7)selenium
功能:模拟人工动态操作浏览器简单例程from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_condition...原创 2020-04-13 21:51:11 · 115 阅读 · 0 评论 -
'chromedriver' executable needs to be in PATH
首先需要下载Chromedriver,下载后得到的是一个chromedriver.exe文件。chromedriver下载地址:http://npm.taobao.org/mirrors/chromedriver/将chromedriver.exe拷贝至谷歌浏览器目录C:\Users\lenovo\AppData\Local\Google\Chrome\Application将谷歌浏览...原创 2020-04-12 21:11:27 · 87 阅读 · 0 评论 -
python3爬虫实战笔记(5)数据存储
各种格式文本存储文件存储形式多种多样,比如可以保存成TXT纯文本形式,也可以保存为JSON格式、CSV格式等TXT文件存储file = open('explore.txt', 'a', encoding='utf-8') file.write('\n'.join([question, author, answer])) file.write('\n' + '=' * 50 +...原创 2020-04-11 12:15:02 · 184 阅读 · 0 评论 -
python3爬虫实战笔记(4)解析库(代替正则表达式)XPath,BeautifulSoup,pyquery
XPath注意/和//的区别,其中/用于获取直接子节点,//用于获取子孙节点。实例from lxml import etree html = etree.parse('./test.html', etree.HTMLParser())result = html.xpath('//a[@href="link4.html"]/../@class')print(result)其余详情...原创 2020-04-08 19:57:19 · 224 阅读 · 0 评论 -
爬虫实例(1)抓取电影评分(request与正则)
import jsonimport requestsfrom requests.exceptions import RequestExceptionimport reimport time def get_one_page(url): try: response = requests.get(url) if response.status_cod...原创 2020-04-07 21:34:55 · 164 阅读 · 0 评论 -
python3爬虫实战笔记(3)基本库之requests与正则表达式
r = requests.get('http://httpbin.org')r = requests.post('http://httpbin.org/post')r = requests.put('http://httpbin.org/put')r = requests.delete('http://httpbin.org/delete')r = requests.head('http:...原创 2020-04-07 21:33:20 · 242 阅读 · 0 评论 -
python3爬虫实战笔记(2)基本库之urllib
urllibrequest:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样error:异常处理模块parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并robotparser:主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬request(请求)基本用法利用urlopen()方法可以实现最基本请求的发起...原创 2020-04-06 19:57:21 · 149 阅读 · 0 评论 -
python3爬虫实战笔记(1)基础概念与知识
选择器#container,其中#开头代表选择id,其后紧跟id的名称。用.wrapper,这里以点(.)开头代表选择class,其后紧跟class的名称。根据标签名筛选,例如想选择二级标题,直接用h2即可。CSS选择器还支持嵌套选择,各个选择器之间加上空格分隔开便可以代表嵌套关系,如#container .wrapper p则代表先选择id为container的节点,然后选中其内部的c...原创 2020-04-05 19:49:55 · 122 阅读 · 0 评论 -
TypeError: expected string or bytes-like object
出现错误TypeError: expected string or bytes-like object因此在正则表达式之前,转换一下数据类型,就解决了问题。如下:for say in says: #转换数据类型,不然会报错 say = str(say) # 正则表达式获取必要数据 say = re.search('<p>(.*?)</p>...原创 2020-03-29 15:44:28 · 301 阅读 · 0 评论