![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spider
我加班还不行吗^-^
这个作者很懒,什么都没留下…
展开
-
python爬虫(爬取贴吧第一页,标题,作者,时间,链接,一楼内容只含文本信息)第一版(不用函数,不用类),只能爬取指定网页
import lxml.htmlimport pymongoimport requests'''1.爬取相应主题贴吧,解析出所有帖子(取帖子标题、作者、时间)2.下载帖子详情页的1楼信息(只要文字,不要多媒体信息)3.能够点击下一页进行翻页4.将解析结果存入数据库(mongodb)'''#连接mongodb数据库并创建tieba数据库和tiezi集合client ...原创 2019-02-28 21:12:58 · 921 阅读 · 0 评论 -
简单的面向对象的爬虫
import timefrom queue import Queuefrom selenium import webdriverclass JdScrapyed(): ''' 实现对京东网页的简单爬取 ''' def __init__(self,scrapy_name): ''' 实现广度优先搜索队列 :para...原创 2019-04-02 20:02:22 · 434 阅读 · 0 评论 -
KNN算法简单应用之预测队伍胜利
爬取了2019年LPL职业联赛的一些数据,通过大小龙,推塔数,以及队伍击杀数来预测队伍胜利,所以分为爬虫和knn算法俩块首先是爬虫部分,根据网页结构,创造了一个大列表来储存所有要爬取的url,然后循环这个url爬取我是卸载另一个文件里,所以下面需要导入这个函数,若写在一个文件中则不需要第一个lol_game_url.py文件:def make_url(): l = [] ...原创 2019-04-02 19:43:07 · 420 阅读 · 0 评论 -
爬虫识别验证码图片(baidu-aip),非常简单
1.注册百度文字识别,百度云账号等相关的账号都可以,注册成功然后去控制台创建应用,并添加通用文字识别技术,具体次数看百度网址,如下图这个添加进去会报个错误码6的问题(好像是的,小声比比),添加成功应用后复制粘贴你的APP_ID,API_KEY,SECRET_KEY到pycharm中,然后终端下载baidu-aip,pip install baidu-aip,最后添加如下代码:from aip...原创 2019-03-20 20:43:28 · 702 阅读 · 0 评论 -
爬虫之tesseract的安装过程
链接:https://pan.baidu.com/s/12SBXZcMd9dqVV9vSz8706A提取码:mu0n一路next,最好不要改路径,语言选取中文和英文,不选取也没事,下载时间长点。然后就是最重要的一步,把它的路径添加到环境变量中,但需要新建个环境变量,注意:是新建环境变量。如图所示:然后pycharm中pip install pytesseract,pycharm中双...原创 2019-03-12 10:17:56 · 190 阅读 · 0 评论 -
爬虫之字体解密(猫眼同58同城租房字形不变)
import base64import refrom io import BytesIOimport requestsfrom fontTools.ttLib import TTFontheaders={ 'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firef...原创 2019-03-15 19:39:16 · 684 阅读 · 0 评论 -
爬虫之字体解密(58同城字形不变)
import base64import reimport requestsfrom fontTools.ttLib import TTFont, BytesIO#没有user-agent会找不到headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Fi...原创 2019-03-15 19:32:58 · 772 阅读 · 0 评论 -
python爬虫scrapy框架今天踩得坑([scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'jobs.5)
今天用爬虫框架爬取前程51python职位,一直爬取不出详情页,下一页url和详情页url都没问题,但就是没显示详情页内容,也没有报错,后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图:后来发现是因为首页的域名和详情页的域名不一致导致的如下图:首页域名:详情页域名:而我写的是首页域名...原创 2019-03-09 11:51:10 · 1865 阅读 · 2 评论 -
python爬虫scrapy框架的俩个坑(windows且pycharm是社区版的)
首先安装scrapy:pip install scrapyscrapy依赖 twisted库(高性能异步网络访问响应式库),twisted库底层使用c实现,要安装#windows必须有vs20xx开发环境,linux必须有gcc、g++.如果没有,可以下载编译好的库#(https://www.lfd.uci.edu/~gohlke/pythonlibs百度网盘twist链接:https://p...原创 2019-03-08 19:11:39 · 2922 阅读 · 0 评论 -
python爬虫(2)
如何使用代理1.基本使用#proxies是代理池,使用key:value形式存放代理,Key是协议类型,value是具体的代理IP和端口号,推荐使用高匿代理proxies = {"http":"http://61.135.217.7:80"}requests.get("http://www.baidu.com",proxies=proxies)2.如何构建代理池 - 爬取代...原创 2019-02-26 21:07:02 · 137 阅读 · 0 评论 -
python爬虫(1)
1.首先是安装一个第三方库requests,pip install requests#下载百度首页,requests库将下载结果封装为response类response = requests.get("http://www.baidu.com")#dir可以查看类的内部结构#暴力调试可以了解类的内部方法行为print(dir(response))#text会使用默认的编码方式转换字符...原创 2019-02-26 17:46:13 · 96 阅读 · 0 评论 -
绕过selenium检测用过的方式
第一种:以开发者模式运行,参考博客:https://www.cnblogs.com/cloudbird/p/10524242.htmlfrom selenium import webdriveroptions = webdriver.ChromeOptions()# 此步骤很重要,设置为开发者模式,防止被各大网站识别出来使用了Seleniumoptions.add_experimental...原创 2019-06-18 12:52:44 · 3454 阅读 · 0 评论