爬虫
云风Com
这个作者很懒,什么都没留下…
展开
-
python爬虫高级技术之验证码篇开源免费(验证码识别之pytesseract(windows))
今天要做的是验证码识别中最简单的一种办法,采用pytesseract解决,它属于Python当中比较简单的OCR识别库1.使用pytesseract之前,你需要通过pip 安装一下对应的模块 ,需要两个pytesseract库还有图像处理的pillow库了pip install pytesseractpip install pillow2.github官网下载pytesseract安装包安装到电脑中,https://github.com/tesseract-ocr/tesseract/wi原创 2020-09-26 01:01:00 · 870 阅读 · 0 评论 -
scrapy分布式环境的搭建
在终端执行pip install wheel下载twisted添加链接描述可以看这篇博客的流程安装twisted:cd 到刚才的下载目录,直接pip install 刚才下载的路径+文件名pip install pywin32pip install scrapy如果在这一步时报错,那就多尝试几遍...原创 2020-09-26 00:07:24 · 79 阅读 · 0 评论 -
利用selenium定位标签在iframe中以及动作链拖动
iframe切换关于本文中用到的webdriver驱动实例化一个浏览器对象看这篇文章这里>>>>>>点击这里如果要定位的标签位于iframe当中,那么通过switch_to.frame(xxxxx)切换frame导入动作链库: from selenium.webdriver import ActionChains实例化一个动作链对象:ActionChains(browser) 参数是浏览器对象点击并长按操作:click_and_hold(div)拖动:m原创 2020-09-25 11:18:46 · 225 阅读 · 0 评论 -
利用selenium实现浏览器自动化操作实例(淘宝搜素内容)
步骤实例化一个浏览器发起一个url的get请求:get(url)标签定位:find一系列方法标签交互:send_keys(xxxxx)执行js脚本:execute_script(xxxxx)前进:forward后退:back下面注意:browser = webdriver.Chrome(’./chromedriver.exe’)中的是谷歌浏览器的驱动程序,可以网上百度下载#!/usr/bin/env python# -*- coding:utf-8 -*-# @Time :原创 2020-09-25 10:45:01 · 676 阅读 · 0 评论 -
flask框架
flask框架的核心就是Werkzeug(负责路由转发的),Jinja2static就是存一些css,js文件,用来网页素材提供templates存放html的网页文件,反馈给用户想要的一些内容pycharm默认是没有开启debug模式的,即你改程序,只有重新启动服务器才生效,开启,debug模式方法下面这样写,应该怎样访问呢from flask import Flaskapp = Flask(__name__)@app.route('/index')def hello_wo原创 2020-09-21 11:51:51 · 2038 阅读 · 0 评论 -
爬虫之BeautifulSoup解析库
首先有一个test_baidu.html的文件,我放在了文末Tag 标签及其内容(只能拿到它所找到的第一个内容)执行下面程序,from bs4 import BeautifulSoupfile = open('test_baidu.html','rb')html = file.read()bs = BeautifulSoup(html, "html.parser")print(bs.title)print(type(bs.title))运行结果如下<title>百度.原创 2020-09-18 19:36:02 · 174 阅读 · 2 评论