我加班还不行吗^-^-CSDN博客

原创分布式爬虫简单应用，爬虫基础网站：http://lab.scrapyd.cn/

首先是redis数据库安装，然后修改配置文件可以使其他人连接，网上都能搜到。程序码云地址：分布式爬虫主要修改setting文件里边的设置，然后url是redis推送，利用redis订阅发布机制，大部分已经有scrapy-redis写好，我们只用写里边的内容，redis-key是你推送url的地方然后启动redis数据库，输入命令:lpush lab:abd(redis-key的内容) http...

2019-06-18 14:29:03 304

原创分享几个可能用网站

python3官方中文文档爬虫框架网站scrapyPIP使用国内镜像提升下载速度和安装成功率pychearts使用官方网站地址pycharm专业版激活splash官方文档 splash介绍网址appnium安装教程Docker的安装——ubuntu中Docker加速目前为止最全的微信小程序项目实例数据来源国外...

2019-06-18 13:05:38 7035

原创绕过selenium检测用过的方式

第一种：以开发者模式运行，参考博客：https://www.cnblogs.com/cloudbird/p/10524242.htmlfrom selenium import webdriveroptions = webdriver.ChromeOptions()# 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Seleniumoptions.add_experimental...

2019-06-18 12:52:44 3495

原创记一个列表去重(不用set的方法，想了5分钟)

废话不多说，代码如下：lt1 = [1,1,2,4,5,6,7,9,5,7,9,1,8,9,52,4,3]#定义函数，lt冒号后的list是它的类型def delsame(lt:list): #定义一个空字典用来存储列表中数据和它出现的次数，然后将排序后的字典的键返回 dt = {} n=len(lt) for i in range(n): #...

2019-05-05 01:53:15 815

原创关于正则的简单介绍(会的不用看系列)

2.1正则(re)模块正则在Python中应用非常广泛，如：特定字符串的查找、切割与替换等，特定格式(邮箱、手机号、IP、URL)的校验，爬虫提取特定内容，所以在爬虫中，正则还是比较重要的，它会帮你提取到你需要的信息。使用原则正则效率比较低，会较低代码可读性，所以字符串函数可以解决的问题就不要使用正则。世界上最难以理解的三样东西：道士神符、医生处方、码农正则。不清楚功能不要去阅读别...

2019-04-11 17:43:19 157

原创数据分析之电影top250(只抓取了232个。。。中途报错懒得抓了)

数据:链接：https://pan.baidu.com/s/1knJOiHBKmaLL6pn6E_92xw 提取码：iamy **’’‘1统计电影数量最多的前五个导演’’'**import sqlite3import pandas as pd#数据分析常用工具from pyecharts import Pie#饼图conn=sqlite3.connect(r'D:\BaiduN...

2019-04-05 14:55:35 764

原创 4月2号的简单记录python小知识

1.模块导入问题其实这个问题基本是俩个方面，一个是没有下载；一个是下载过导不进去。没有下载就下载就行了；下载过还不能导入可能就是你用的python的环境和下载的环境不一致导致的。左键点击左上角file，点击setting，然后找到如下图内容来查看是否有你安装的那个模块，如果没有点击加号进去输入相关内容下载(或找到你有这个模块的python环境)；如果有这个模块，那怎么可能没找到。2....

2019-04-02 21:12:05 161

原创简单的面向对象的爬虫

import timefrom queue import Queuefrom selenium import webdriverclass JdScrapyed(): ''' 实现对京东网页的简单爬取 ''' def __init__(self,scrapy_name): ''' 实现广度优先搜索队列 :para...

2019-04-02 20:02:22 444

原创 KNN算法简单应用之预测队伍胜利

爬取了2019年LPL职业联赛的一些数据，通过大小龙，推塔数，以及队伍击杀数来预测队伍胜利，所以分为爬虫和knn算法俩块首先是爬虫部分，根据网页结构，创造了一个大列表来储存所有要爬取的url，然后循环这个url爬取我是卸载另一个文件里，所以下面需要导入这个函数，若写在一个文件中则不需要第一个lol_game_url.py文件:def make_url(): l = [] ...

2019-04-02 19:43:07 448

原创爬虫识别验证码图片（baidu-aip），非常简单

1.注册百度文字识别，百度云账号等相关的账号都可以，注册成功然后去控制台创建应用，并添加通用文字识别技术，具体次数看百度网址，如下图这个添加进去会报个错误码6的问题(好像是的，小声比比)，添加成功应用后复制粘贴你的APP_ID,API_KEY,SECRET_KEY到pycharm中，然后终端下载baidu-aip,pip install baidu-aip，最后添加如下代码：from aip...

2019-03-20 20:43:28 714

原创数据分析之解析电影中如下问题

“”"1.导演电影部数排名前5位的导演，分别导演了哪些电影Title，总票房多少？Revenue2.导演电影最多的导演是否平分平均分最高？3.科幻片票房最高的4.哪种类型的影片数量最多5.评分最高的影片分别是什么“”"数据如下下载，复制粘贴到你当前目录链接：https://pan.baidu.com/s/1YCff3HE0sbBoHt5ruG7QnQ提取码：g8ykimport...

2019-03-16 11:07:02 694

原创爬虫之字体解密（猫眼同58同城租房字形不变）

import base64import refrom io import BytesIOimport requestsfrom fontTools.ttLib import TTFontheaders={ 'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firef...

2019-03-15 19:39:16 737

原创爬虫之字体解密（58同城字形不变）

import base64import reimport requestsfrom fontTools.ttLib import TTFont, BytesIO#没有user-agent会找不到headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Fi...

2019-03-15 19:32:58 782

原创爬虫之tesseract的安装过程

链接：https://pan.baidu.com/s/12SBXZcMd9dqVV9vSz8706A提取码：mu0n一路next，最好不要改路径，语言选取中文和英文，不选取也没事，下载时间长点。然后就是最重要的一步，把它的路径添加到环境变量中，但需要新建个环境变量，注意：是新建环境变量。如图所示：然后pycharm中pip install pytesseract,pycharm中双...

2019-03-12 10:17:56 223

原创 python爬虫scrapy框架今天踩得坑([scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'jobs.5)

今天用爬虫框架爬取前程51python职位，一直爬取不出详情页，下一页url和详情页url都没问题，但就是没显示详情页内容，也没有报错，后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图：后来发现是因为首页的域名和详情页的域名不一致导致的如下图：首页域名：详情页域名：而我写的是首页域名...

2019-03-09 11:51:10 1893 2

原创 python爬虫scrapy框架的俩个坑(windows且pycharm是社区版的)

首先安装scrapy:pip install scrapyscrapy依赖 twisted库(高性能异步网络访问响应式库),twisted库底层使用c实现，要安装#windows必须有vs20xx开发环境,linux必须有gcc、g++.如果没有，可以下载编译好的库#(https://www.lfd.uci.edu/~gohlke/pythonlibs百度网盘twist链接：https://p...

2019-03-08 19:11:39 2956

原创 python爬虫(爬取贴吧第一页，标题，作者，时间，链接，一楼内容只含文本信息)第一版(不用函数，不用类)，只能爬取指定网页

import lxml.htmlimport pymongoimport requests'''1.爬取相应主题贴吧，解析出所有帖子(取帖子标题、作者、时间)2.下载帖子详情页的1楼信息(只要文字，不要多媒体信息)3.能够点击下一页进行翻页4.将解析结果存入数据库(mongodb)'''#连接mongodb数据库并创建tieba数据库和tiezi集合client ...

2019-02-28 21:12:58 961

原创 python爬虫（2）

如何使用代理1.基本使用#proxies是代理池,使用key:value形式存放代理,Key是协议类型,value是具体的代理IP和端口号，推荐使用高匿代理proxies = {"http":"http://61.135.217.7:80"}requests.get("http://www.baidu.com",proxies=proxies)2.如何构建代理池 - 爬取代...

2019-02-26 21:07:02 150

原创 python爬虫（1）

1.首先是安装一个第三方库requests,pip install requests#下载百度首页,requests库将下载结果封装为response类response = requests.get("http://www.baidu.com")#dir可以查看类的内部结构#暴力调试可以了解类的内部方法行为print(dir(response))#text会使用默认的编码方式转换字符...

2019-02-26 17:46:13 109

转载 flask-session设置

cookie和session结合使用：web开发发展至今，cookie和session的使用已经出现了一些非常成熟的方案。在如今的市场或者企业里，一般有两种存储方式：存储在服务端：通过cookie存储一个session_id，然后具体的数据则是保存在session中。如果用户已经登录，则服务器会在coo...

2019-02-18 17:29:28 214

原创 flask运行时出现如下图错误（redis.exceptions.ConnectionError: Error 111 connecting to localhost:6379. Connectio）

原因是redis数据库没开，开启redis数据库就行。home目录下敲命令redis-server就ok了！如果不行就cd redis-4.0.8/，然后cd src，在src下敲 ./redis-server,如下图我的已经开启了，显示第二个红箭头。开启过后就能访问了。...

2019-02-16 14:59:38 1316

原创计算一个字符串中所有数字的和（连续数字当成一个整数）

s='a1cz1xz20x112czcx2z'def he(s): l=0 m=''#定义一个空字符串 for i in s:#遍历 if i.isalpha():#如果i为字母 i=' ' #空格代替它 m=m+i#拼接 r=m.split()#按空格切，此时r为列表 for i in r:#...

2019-02-16 11:48:17 1935

原创计算一个字符串中所有数字的和（连续的数字不看成一个整数）

def he(s): l = 0 #遍历 for i in s: #如果是数字 if i.isdecimal(): #转换整数 i=int(i) #不是整数 else: #变成0 i=0 #相加 ...

2019-02-16 11:34:39 348

原创初学flask的几个第三方包

1.flask-script,相当于是一个包的管理工具，有了他以后我们就能实现，像django一样的简便方式，它里面提供了一个叫做Manager()的管理工具，我们需要使用这个管理工具对app进行包装。将app.run()修改为manage.run()，启动的时候，我们可以根据需求自动的在 python manage.py runserver后面加上-r -d -p 这些参...

2019-02-12 20:50:17 458

原创 vmware出现如下图错误

win10左下角搜索服务，打开找到如下图启动服务后重新打开就行了

2019-02-08 13:43:07 196

原创使用别人模板遇到的几个小问题

1.需要在你pycharm终端进入你的虚拟环境，当你第一次打开别人的模板时是不会进入你的虚拟环境(workon 虚拟环境)2.配置setting，选中虚拟环境，点ok3.下载所依赖的包 pip install -r requirement.txt,然后迁移数据应该就没问题了 ...

2019-01-24 17:51:32 197

原创初学django做的注册登录小案列（3）

前边视图函数创建后需要你创建的html页面，简直粗糙的不得了。。。辣眼睛1注册页面，简单设置了一下<!DOCTYPE html><style> form{ width: 300px; height: 300px; background:orange ; margin: 0 auto; ...

2019-01-12 10:46:06 113

原创初学django做的注册登录小案列（2）

在models模块中创建用户表class User(models.Model): u_name=models.CharField(max_length=32) u_pwd=models.CharField(max_length=32) u_token=models.CharField(max_length=258)配置路由app中的urlsfrom ap...

2019-01-12 10:40:10 170

原创初学django做的注册登录小案列（1）

第一步，创建一个django项目，并创建一个app，然后进行配置，导入包啊什么的。pycharm快速创建:左上角file中点击newproject，选择django，然后点开俩个小三角配置，配置成功点击create。location是你项目文件位置，existing interpreter是你所依赖的虚拟环境，application name 是你应用的名字，为了简单我的就写上了app...

2019-01-12 10:03:43 135

原创关于django中templates中几个小知识

1.{# 单行注释 #}2.{% comment %} 多行注释{% endcomment %}3.{% xxx %} 表示语句4.{{ xx }} 表示变量5.if语句 1 {% if xxx %} xxx {% endif %} 2 {% if xxx %} xxx {% else %} ...

2019-01-10 20:50:19 340

原创访问你的django项目中app报AttributeError at /app/showhero/如下图

后来发现是多写个括号！！！

2019-01-08 19:39:50 1145

原创关于django中生成迁移文件报django.db.utils.OperationalError: (1045, "Access denied for user 'root'@'localhost'

后来发现是PASSWORD单词拼错看了半个小时。。。主要看你的数据库内容是否写对！

2019-01-08 13:52:10 2894 1

原创 web框架django初学

Django简介 Django，发音为[`dʒæŋɡəʊ]，是用python语言写的开源web开发框架，并遵循MVC设计。劳伦斯出版集团为了开发以新闻内容为主的网站，而开发出来了这个框架，于2005年7月在BSD许可证下发布。这个名称来源于比利时的爵士音乐家DjangoReinhardt，他是一个吉普赛人，主要以演奏吉它为主，还演奏过小提琴等。由于Django在近年来的...

2019-01-08 09:07:52 223

原创 TCP协议的三次握手四次挥手

建立连接：三次握手 1.客户端发送请求给服务器 2.服务器收到请求并回应客户端 3.客户端收到回应确认后并返回给服务器关闭连接：四次挥手 1.客户端发送一个FIN，用来关闭客户端到服务器的数据传送 2.服务器收到这个FIN，发回一个ACK，确认序号为受到序号+1 ...

2018-12-27 18:59:06 84

原创 python基础第二周

结构1.顺序结构：由上到下依次执行2.分支结构：第一种： if 表达式: 表达语句第二种：非此即彼的关系 if 表达式: 表达语句 else: ...

2018-12-27 18:51:11 166

原创 python基础第一周

INT（整型）：如2,3-浮动（浮点）：如2.3，科学计数法：3.1415926e-3 当你写print（1.2-1.0 == 0.2）会显示假，因为浮点数无法精确表示元组（元组）：如（2,3）表示单个元组要加逗号（2）STR（字符串）：如 '123asd' 切片操作：开始：结束：步进]含开始不含结尾第一个字符下标为0，最后一个为-1 s =...

2018-12-26 21:13:20 174

原创 CSS相关内容

。什么是CSS呢？答：Cascading Style Sheet的简称，叫做层叠样式表。有什么作用？答：HTML中的标签为页面的骨架，那CSS就是对网页骨架的修饰。为什么要使用CSS？答：1.样式和内容写在一起会显得臃肿，使用CSS可以把样式抽离出来，提高开发效率 2.CSS提供了许多HTML中没有的显示效果属性 3.CSS文件可以单独加载，实现...

2018-12-12 19:31:46 140

原创 1.返回一个字符串中出现次数第二多的单词 2.字符串中可能有英文单词、标点、空格 3.字符串中的英文字符全部是小写

'''写得不太好，重复的只会返回一个'''import res='i Can i More Than i Can say'def second_count_word(s): s=s.lower()#转换小写 c=re.findall(r'\b\w+\b',s)#匹配单词 dict={}#空字典，键次数，值为单词 m=[]#空列表，为了次数排序 fo...

2018-12-07 15:57:47 277

原创 1.求列表中所有数字元素的和 2.列表中的元素都是整数 3.列表中的元素可能重复，需要去掉重复元素 4.需要使用高级函数实现求和 5.返回计算的结果

from functools import reducedef sum_of_list(lt): lt = list(set(lt)) lt = reduce(lambda m, n: m + n, lt) return ltprint(sum_of_list([1,2,3,4,5,4,50]))#65

2018-12-07 15:55:01 1288

原创 1.传入一个列表，列表中元素可能是任意类型 2.使用高级函数完成非字符串元素的删除 3.然后按照字符串的长度进行降序排序 4.返回新的排序后的列表

def sort_list(lt): lt= filter(lambda x: type(x) == str, lt) lt=list(lt) for i in range(len(lt)-1): for j in range(len(lt)-1-i): if len(lt[j])<len(lt[j+1]): ...

2018-12-07 15:52:38 187

空空如也

空空如也