自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 分布式爬虫简单应用,爬虫基础网站:http://lab.scrapyd.cn/

首先是redis数据库安装,然后修改配置文件可以使其他人连接,网上都能搜到。程序码云地址:分布式爬虫主要修改setting文件里边的设置,然后url是redis推送,利用redis订阅发布机制,大部分已经有scrapy-redis写好,我们只用写里边的内容,redis-key是你推送url的地方然后启动redis数据库,输入命令:lpush lab:abd(redis-key的内容) http...

2019-06-18 14:29:03 282

原创 分享几个可能用网站

python3官方中文文档爬虫框架网站scrapyPIP使用国内镜像提升下载速度和安装成功率pychearts使用官方网站地址pycharm专业版激活splash官方文档 splash介绍网址appnium安装教程Docker的安装——ubuntu中Docker加速目前为止最全的微信小程序项目实例数据来源国外...

2019-06-18 13:05:38 6990

原创 绕过selenium检测用过的方式

第一种:以开发者模式运行,参考博客:https://www.cnblogs.com/cloudbird/p/10524242.htmlfrom selenium import webdriveroptions = webdriver.ChromeOptions()# 此步骤很重要,设置为开发者模式,防止被各大网站识别出来使用了Seleniumoptions.add_experimental...

2019-06-18 12:52:44 3461

原创 记一个列表去重(不用set的方法,想了5分钟)

废话不多说,代码如下:lt1 = [1,1,2,4,5,6,7,9,5,7,9,1,8,9,52,4,3]#定义函数,lt冒号后的list是它的类型def delsame(lt:list): #定义一个空字典用来存储列表中数据和它出现的次数,然后将排序后的字典的键返回 dt = {} n=len(lt) for i in range(n): #...

2019-05-05 01:53:15 780

原创 关于正则的简单介绍(会的不用看系列)

2.1正则(re)模块正则在Python中应用非常广泛,如:特定字符串的查找、切割与替换等, 特定格式(邮箱、手机号、IP、URL)的校验,爬虫提取特定内容,所以在爬虫中, 正则还是比较重要的,它会帮你提取到你需要的信息。使用原则正则效率比较低,会较低代码可读性, 所以字符串函数可以解决的问题就不要使用正则。世界上最难以理解的三样东西:道士神符、医生处方、码农正则。不清楚功能不要去阅读别...

2019-04-11 17:43:19 148

原创 数据分析之电影top250(只抓取了232个。。。中途报错懒得抓了)

数据:链接:https://pan.baidu.com/s/1knJOiHBKmaLL6pn6E_92xw 提取码:iamy **’’‘1统计电影数量最多的前五个导演’’'**import sqlite3import pandas as pd#数据分析常用工具from pyecharts import Pie#饼图conn=sqlite3.connect(r'D:\BaiduN...

2019-04-05 14:55:35 757

原创 4月2号的简单记录python小知识

1.模块导入问题其实这个问题基本是俩个方面,一个是没有下载;一个是下载过导不进去。没有下载就下载就行了;下载过还不能导入可能就是你用的python的环境和下载的环境不一致导致的。左键点击左上角file,点击setting,然后找到如下图内容来查看是否有你安装的那个模块,如果没有点击加号进去输入相关内容下载(或找到你有这个模块的python环境);如果有这个模块,那怎么可能没找到。2....

2019-04-02 21:12:05 138

原创 简单的面向对象的爬虫

import timefrom queue import Queuefrom selenium import webdriverclass JdScrapyed(): ''' 实现对京东网页的简单爬取 ''' def __init__(self,scrapy_name): ''' 实现广度优先搜索队列 :para...

2019-04-02 20:02:22 435

原创 KNN算法简单应用之预测队伍胜利

爬取了2019年LPL职业联赛的一些数据,通过大小龙,推塔数,以及队伍击杀数来预测队伍胜利,所以分为爬虫和knn算法俩块首先是爬虫部分,根据网页结构,创造了一个大列表来储存所有要爬取的url,然后循环这个url爬取我是卸载另一个文件里,所以下面需要导入这个函数,若写在一个文件中则不需要第一个lol_game_url.py文件:def make_url(): l = [] ...

2019-04-02 19:43:07 423

原创 爬虫识别验证码图片(baidu-aip),非常简单

1.注册百度文字识别,百度云账号等相关的账号都可以,注册成功然后去控制台创建应用,并添加通用文字识别技术,具体次数看百度网址,如下图这个添加进去会报个错误码6的问题(好像是的,小声比比),添加成功应用后复制粘贴你的APP_ID,API_KEY,SECRET_KEY到pycharm中,然后终端下载baidu-aip,pip install baidu-aip,最后添加如下代码:from aip...

2019-03-20 20:43:28 707

原创 数据分析之解析电影中如下问题

“”"1.导演电影部数排名前5位的导演,分别导演了哪些电影Title,总票房多少?Revenue2.导演电影最多的导演是否平分平均分最高?3.科幻片票房最高的4.哪种类型的影片数量最多5.评分最高的影片分别是什么“”"数据如下下载,复制粘贴到你当前目录链接:https://pan.baidu.com/s/1YCff3HE0sbBoHt5ruG7QnQ提取码:g8ykimport...

2019-03-16 11:07:02 686

原创 爬虫之字体解密(猫眼同58同城租房字形不变)

import base64import refrom io import BytesIOimport requestsfrom fontTools.ttLib import TTFontheaders={ 'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firef...

2019-03-15 19:39:16 696

原创 爬虫之字体解密(58同城字形不变)

import base64import reimport requestsfrom fontTools.ttLib import TTFont, BytesIO#没有user-agent会找不到headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Fi...

2019-03-15 19:32:58 774

原创 爬虫之tesseract的安装过程

链接:https://pan.baidu.com/s/12SBXZcMd9dqVV9vSz8706A提取码:mu0n一路next,最好不要改路径,语言选取中文和英文,不选取也没事,下载时间长点。然后就是最重要的一步,把它的路径添加到环境变量中,但需要新建个环境变量,注意:是新建环境变量。如图所示:然后pycharm中pip install pytesseract,pycharm中双...

2019-03-12 10:17:56 194

原创 python爬虫scrapy框架今天踩得坑([scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'jobs.5)

今天用爬虫框架爬取前程51python职位,一直爬取不出详情页,下一页url和详情页url都没问题,但就是没显示详情页内容,也没有报错,后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图:后来发现是因为首页的域名和详情页的域名不一致导致的如下图:首页域名:详情页域名:而我写的是首页域名...

2019-03-09 11:51:10 1868 2

原创 python爬虫scrapy框架的俩个坑(windows且pycharm是社区版的)

首先安装scrapy:pip install scrapyscrapy依赖 twisted库(高性能异步网络访问响应式库),twisted库底层使用c实现,要安装#windows必须有vs20xx开发环境,linux必须有gcc、g++.如果没有,可以下载编译好的库#(https://www.lfd.uci.edu/~gohlke/pythonlibs百度网盘twist链接:https://p...

2019-03-08 19:11:39 2924

原创 python爬虫(爬取贴吧第一页,标题,作者,时间,链接,一楼内容只含文本信息)第一版(不用函数,不用类),只能爬取指定网页

import lxml.htmlimport pymongoimport requests'''1.爬取相应主题贴吧,解析出所有帖子(取帖子标题、作者、时间)2.下载帖子详情页的1楼信息(只要文字,不要多媒体信息)3.能够点击下一页进行翻页4.将解析结果存入数据库(mongodb)'''#连接mongodb数据库并创建tieba数据库和tiezi集合client ...

2019-02-28 21:12:58 940

原创 python爬虫(2)

如何使用代理1.基本使用#proxies是代理池,使用key:value形式存放代理,Key是协议类型,value是具体的代理IP和端口号,推荐使用高匿代理proxies = {"http":"http://61.135.217.7:80"}requests.get("http://www.baidu.com",proxies=proxies)2.如何构建代理池 - 爬取代...

2019-02-26 21:07:02 140

原创 python爬虫(1)

1.首先是安装一个第三方库requests,pip install requests#下载百度首页,requests库将下载结果封装为response类response = requests.get("http://www.baidu.com")#dir可以查看类的内部结构#暴力调试可以了解类的内部方法行为print(dir(response))#text会使用默认的编码方式转换字符...

2019-02-26 17:46:13 100

转载 flask-session设置

cookie和session结合使用:web开发发展至今,cookie和session的使用已经出现了一些非常成熟的方案。在如今的市场或者企业里,一般有两种存储方式:存储在服务端:通过cookie存储一个session_id,然后具体的数据则是保存在session中。如果用户已经登录,则服务器会在coo...

2019-02-18 17:29:28 206

原创 flask运行时出现如下图错误(redis.exceptions.ConnectionError: Error 111 connecting to localhost:6379. Connectio)

 原因是redis数据库没开,开启redis数据库就行。home目录下敲命令redis-server就ok了!如果不行就cd redis-4.0.8/,然后cd src,在src下敲  ./redis-server,如下图我的已经开启了,显示第二个红箭头。开启过后就能访问了。...

2019-02-16 14:59:38 1306

原创 计算一个字符串中所有数字的和(连续数字当成一个整数)

s='a1cz1xz20x112czcx2z'def he(s): l=0 m=''#定义一个空字符串 for i in s:#遍历 if i.isalpha():#如果i为字母 i=' ' #空格代替它 m=m+i#拼接 r=m.split()#按空格切,此时r为列表 for i in r:#...

2019-02-16 11:48:17 1922

原创 计算一个字符串中所有数字的和(连续的数字不看成一个整数)

def he(s): l = 0 #遍历 for i in s: #如果是数字 if i.isdecimal(): #转换整数 i=int(i) #不是整数 else: #变成0 i=0 #相加 ...

2019-02-16 11:34:39 320

原创 初学flask的几个第三方包

1.flask-script,相当于是一个包的管理工具,有了他以后我们就能实现,像django一样的简便方式,它里面提供了一个叫做Manager()的管理工具,我们需要使用这个管理工具对app进行包装。将app.run()修改为manage.run(),启动的时候, 我们可以根据需求自动的在        python manage.py runserver后面加上-r  -d  -p  这些参...

2019-02-12 20:50:17 429

原创 vmware出现如下图错误

win10左下角搜索服务,打开找到如下图启动服务后重新打开就行了

2019-02-08 13:43:07 185

原创 使用别人模板遇到的几个小问题

1.需要在你pycharm终端进入你的虚拟环境,当你第一次打开别人的模板时是不会进入你的虚拟环境(workon 虚拟环境)2.配置setting,选中虚拟环境,点ok3.下载所依赖的包 pip install -r requirement.txt,然后迁移数据应该就没问题了 ...

2019-01-24 17:51:32 193

原创 初学django做的注册登录小案列(3)

前边视图函数创建后需要你创建的html页面,简直粗糙的不得了。。。辣眼睛1注册页面,简单设置了一下<!DOCTYPE html><style>    form{        width: 300px;        height: 300px;        background:orange ;        margin: 0 auto;    ...

2019-01-12 10:46:06 102

原创 初学django做的注册登录小案列(2)

在models模块中创建用户表class User(models.Model):    u_name=models.CharField(max_length=32)    u_pwd=models.CharField(max_length=32)    u_token=models.CharField(max_length=258)配置路由app中的urlsfrom ap...

2019-01-12 10:40:10 136

原创 初学django做的注册登录小案列(1)

第一步,创建一个django项目,并创建一个app,然后进行配置,导入包啊什么的。pycharm快速创建:左上角file中点击newproject,选择django,然后点开俩个小三角配置,配置成功点击create。location是你项目文件位置,existing interpreter是你所依赖的虚拟环境,application name 是你应用的名字,为了简单我的就写上了app...

2019-01-12 10:03:43 120

原创 关于django中templates中几个小知识

1.{# 单行注释 #}2.{% comment %}    多行注释{% endcomment %}3.{% xxx %} 表示语句4.{{ xx }}  表示变量5.if语句  1   {% if xxx %}        xxx      {% endif %}  2   {% if xxx %}        xxx      {% else %}       ...

2019-01-10 20:50:19 333

原创 访问你的django项目中app报AttributeError at /app/showhero/如下图

后来发现是多写个括号!!!                  

2019-01-08 19:39:50 1132

原创 关于django中生成迁移文件报django.db.utils.OperationalError: (1045, "Access denied for user 'root'@'localhost'

后来发现是PASSWORD单词拼错看了半个小时。。。主要看你的数据库内容是否写对!

2019-01-08 13:52:10 2869 1

原创 web框架django初学

Django简介             Django,发音为[`dʒæŋɡəʊ],是用python语言写的开源web开发框架,并遵循MVC设计。劳伦斯出版集团为了开发以新闻内容为主的网站,而开发出来了这个框架,于2005年7月在BSD许可证下发布。这个名称来源于比利时的爵士音乐家DjangoReinhardt,他是一个吉普赛人,主要以演奏吉它为主,还演奏过小提琴等。由于Django在近年来的...

2019-01-08 09:07:52 202

原创 TCP协议的三次握手四次挥手

建立连接:三次握手         1.客户端发送请求给服务器          2.服务器收到请求并回应客户端          3.客户端收到回应确认后并返回给服务器关闭连接:四次挥手          1.客户端发送一个FIN,用来关闭客户端到服务器的数据传送           2.服务器收到这个FIN,发回一个ACK,确认序号为受到序号+1          ...

2018-12-27 18:59:06 79

原创 python基础第二周

                                                    结构1.顺序结构:由上到下依次执行2.分支结构: 第一种: if 表达式: 表达语句 第二种:非此即彼的关系 if 表达式: 表达语句 else: ...

2018-12-27 18:51:11 157

原创 python基础第一周

 INT(整型):如2,3-浮动(浮点):如2.3,科学计数法:3.1415926e-3    当你写print(1.2-1.0 == 0.2)会显示假,因为浮点数无法精确表示元组(元组):如(2,3)表示单个元组要加逗号(2)STR(字符串):如 '123asd'        切片操作:开始:结束:步进]含开始不含结尾第一个字符下标为0,最后一个为-1    s =...

2018-12-26 21:13:20 169

原创 CSS相关内容

。什么是CSS呢?答:Cascading Style Sheet的简称,叫做层叠样式表。有什么作用?答:HTML中的标签为页面的骨架,那CSS就是对网页骨架的修饰。为什么要使用CSS?答:1.样式和内容写在一起会显得臃肿,使用CSS可以把样式抽离出来,提高开发效率       2.CSS提供了许多HTML中没有的显示效果属性       3.CSS文件可以单独加载,实现...

2018-12-12 19:31:46 133

原创 1.返回一个字符串中出现次数第二多的单词 2.字符串中可能有英文单词、标点、空格 3.字符串中的英文字符全部是小写

'''写得不太好,重复的只会返回一个'''import res='i Can i More Than i Can say'def second_count_word(s): s=s.lower()#转换小写 c=re.findall(r'\b\w+\b',s)#匹配单词 dict={}#空字典,键次数,值为单词 m=[]#空列表,为了次数排序 fo...

2018-12-07 15:57:47 271

原创 1.求列表中所有数字元素的和 2.列表中的元素都是整数 3.列表中的元素可能重复,需要去掉重复元素 4.需要使用高级函数实现求和 5.返回计算的结果

from functools import reducedef sum_of_list(lt): lt = list(set(lt)) lt = reduce(lambda m, n: m + n, lt) return ltprint(sum_of_list([1,2,3,4,5,4,50]))#65

2018-12-07 15:55:01 1283

原创 1.传入一个列表,列表中元素可能是任意类型 2.使用高级函数完成非字符串元素的删除 3.然后按照字符串的长度进行降序排序 4.返回新的排序后的列表

def sort_list(lt): lt= filter(lambda x: type(x) == str, lt) lt=list(lt) for i in range(len(lt)-1): for j in range(len(lt)-1-i): if len(lt[j])<len(lt[j+1]): ...

2018-12-07 15:52:38 166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除