
python
我加班还不行吗^-^
这个作者很懒,什么都没留下…
展开
-
计算一个字符串中所有数字的和(连续的数字不看成一个整数)
def he(s): l = 0 #遍历 for i in s: #如果是数字 if i.isdecimal(): #转换整数 i=int(i) #不是整数 else: #变成0 i=0 #相加 ...原创 2019-02-16 11:34:39 · 382 阅读 · 0 评论 -
爬虫识别验证码图片(baidu-aip),非常简单
1.注册百度文字识别,百度云账号等相关的账号都可以,注册成功然后去控制台创建应用,并添加通用文字识别技术,具体次数看百度网址,如下图这个添加进去会报个错误码6的问题(好像是的,小声比比),添加成功应用后复制粘贴你的APP_ID,API_KEY,SECRET_KEY到pycharm中,然后终端下载baidu-aip,pip install baidu-aip,最后添加如下代码:from aip...原创 2019-03-20 20:43:28 · 775 阅读 · 0 评论 -
数据分析之电影top250(只抓取了232个。。。中途报错懒得抓了)
数据:链接:https://pan.baidu.com/s/1knJOiHBKmaLL6pn6E_92xw 提取码:iamy **’’‘1统计电影数量最多的前五个导演’’'**import sqlite3import pandas as pd#数据分析常用工具from pyecharts import Pie#饼图conn=sqlite3.connect(r'D:\BaiduN...原创 2019-04-05 14:55:35 · 806 阅读 · 0 评论 -
KNN算法简单应用之预测队伍胜利
爬取了2019年LPL职业联赛的一些数据,通过大小龙,推塔数,以及队伍击杀数来预测队伍胜利,所以分为爬虫和knn算法俩块首先是爬虫部分,根据网页结构,创造了一个大列表来储存所有要爬取的url,然后循环这个url爬取我是卸载另一个文件里,所以下面需要导入这个函数,若写在一个文件中则不需要第一个lol_game_url.py文件:def make_url(): l = [] ...原创 2019-04-02 19:43:07 · 487 阅读 · 0 评论 -
简单的面向对象的爬虫
import timefrom queue import Queuefrom selenium import webdriverclass JdScrapyed(): ''' 实现对京东网页的简单爬取 ''' def __init__(self,scrapy_name): ''' 实现广度优先搜索队列 :para...原创 2019-04-02 20:02:22 · 469 阅读 · 0 评论 -
4月2号的简单记录python小知识
1.模块导入问题其实这个问题基本是俩个方面,一个是没有下载;一个是下载过导不进去。没有下载就下载就行了;下载过还不能导入可能就是你用的python的环境和下载的环境不一致导致的。左键点击左上角file,点击setting,然后找到如下图内容来查看是否有你安装的那个模块,如果没有点击加号进去输入相关内容下载(或找到你有这个模块的python环境);如果有这个模块,那怎么可能没找到。2....原创 2019-04-02 21:12:05 · 186 阅读 · 0 评论 -
记一个列表去重(不用set的方法,想了5分钟)
废话不多说,代码如下:lt1 = [1,1,2,4,5,6,7,9,5,7,9,1,8,9,52,4,3]#定义函数,lt冒号后的list是它的类型def delsame(lt:list): #定义一个空字典用来存储列表中数据和它出现的次数,然后将排序后的字典的键返回 dt = {} n=len(lt) for i in range(n): #...原创 2019-05-05 01:53:15 · 849 阅读 · 0 评论 -
分享几个可能用网站
python3官方中文文档爬虫框架网站scrapyPIP使用国内镜像提升下载速度和安装成功率pychearts使用官方网站地址pycharm专业版激活splash官方文档 splash介绍网址appnium安装教程Docker的安装——ubuntu中Docker加速目前为止最全的微信小程序项目实例数据来源国外...原创 2019-06-18 13:05:38 · 7147 阅读 · 0 评论 -
爬虫之tesseract的安装过程
链接:https://pan.baidu.com/s/12SBXZcMd9dqVV9vSz8706A提取码:mu0n一路next,最好不要改路径,语言选取中文和英文,不选取也没事,下载时间长点。然后就是最重要的一步,把它的路径添加到环境变量中,但需要新建个环境变量,注意:是新建环境变量。如图所示:然后pycharm中pip install pytesseract,pycharm中双...原创 2019-03-12 10:17:56 · 267 阅读 · 0 评论 -
数据分析之解析电影中如下问题
“”"1.导演电影部数排名前5位的导演,分别导演了哪些电影Title,总票房多少?Revenue2.导演电影最多的导演是否平分平均分最高?3.科幻片票房最高的4.哪种类型的影片数量最多5.评分最高的影片分别是什么“”"数据如下下载,复制粘贴到你当前目录链接:https://pan.baidu.com/s/1YCff3HE0sbBoHt5ruG7QnQ提取码:g8ykimport...原创 2019-03-16 11:07:02 · 721 阅读 · 0 评论 -
爬虫之字体解密(猫眼同58同城租房字形不变)
import base64import refrom io import BytesIOimport requestsfrom fontTools.ttLib import TTFontheaders={ 'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firef...原创 2019-03-15 19:39:16 · 772 阅读 · 0 评论 -
计算一个字符串中所有数字的和(连续数字当成一个整数)
s='a1cz1xz20x112czcx2z'def he(s): l=0 m=''#定义一个空字符串 for i in s:#遍历 if i.isalpha():#如果i为字母 i=' ' #空格代替它 m=m+i#拼接 r=m.split()#按空格切,此时r为列表 for i in r:#...原创 2019-02-16 11:48:17 · 2007 阅读 · 0 评论 -
flask运行时出现如下图错误(redis.exceptions.ConnectionError: Error 111 connecting to localhost:6379. Connectio)
原因是redis数据库没开,开启redis数据库就行。home目录下敲命令redis-server就ok了!如果不行就cd redis-4.0.8/,然后cd src,在src下敲 ./redis-server,如下图我的已经开启了,显示第二个红箭头。开启过后就能访问了。...原创 2019-02-16 14:59:38 · 1359 阅读 · 0 评论 -
flask-session设置
cookie和session结合使用:web开发发展至今,cookie和session的使用已经出现了一些非常成熟的方案。在如今的市场或者企业里,一般有两种存储方式:存储在服务端:通过cookie存储一个session_id,然后具体的数据则是保存在session中。如果用户已经登录,则服务器会在coo...转载 2019-02-18 17:29:28 · 235 阅读 · 0 评论 -
python爬虫(爬取贴吧第一页,标题,作者,时间,链接,一楼内容只含文本信息)第一版(不用函数,不用类),只能爬取指定网页
import lxml.htmlimport pymongoimport requests'''1.爬取相应主题贴吧,解析出所有帖子(取帖子标题、作者、时间)2.下载帖子详情页的1楼信息(只要文字,不要多媒体信息)3.能够点击下一页进行翻页4.将解析结果存入数据库(mongodb)'''#连接mongodb数据库并创建tieba数据库和tiezi集合client ...原创 2019-02-28 21:12:58 · 1023 阅读 · 0 评论 -
python爬虫(1)
1.首先是安装一个第三方库requests,pip install requests#下载百度首页,requests库将下载结果封装为response类response = requests.get("http://www.baidu.com")#dir可以查看类的内部结构#暴力调试可以了解类的内部方法行为print(dir(response))#text会使用默认的编码方式转换字符...原创 2019-02-26 17:46:13 · 134 阅读 · 0 评论 -
python爬虫(2)
如何使用代理1.基本使用#proxies是代理池,使用key:value形式存放代理,Key是协议类型,value是具体的代理IP和端口号,推荐使用高匿代理proxies = {"http":"http://61.135.217.7:80"}requests.get("http://www.baidu.com",proxies=proxies)2.如何构建代理池 - 爬取代...原创 2019-02-26 21:07:02 · 176 阅读 · 0 评论 -
python 3.6.2,安装pillow已完成,但仍报错No module named 'PIL'
已经下载好pillow用PyCharm导入模块但还会报错问题:显示没有这个模块同学帮我解决了这个问题(“好像是路径原因):首先进入PyCharm这个软件,左键点击左上角file文件,有个settings设置,左键点进去(格式:文件| 设置| 项目:PyCharm社区Edi ...),然后点击里边的(文件| 设置| 项目:PyCharm社区Edi ... | )Proje...原创 2018-12-06 19:45:58 · 16388 阅读 · 9 评论 -
python爬虫scrapy框架今天踩得坑([scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'jobs.5)
今天用爬虫框架爬取前程51python职位,一直爬取不出详情页,下一页url和详情页url都没问题,但就是没显示详情页内容,也没有报错,后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图:后来发现是因为首页的域名和详情页的域名不一致导致的如下图:首页域名:详情页域名:而我写的是首页域名...原创 2019-03-09 11:51:10 · 1926 阅读 · 2 评论 -
分布式爬虫简单应用,爬虫基础网站:http://lab.scrapyd.cn/
首先是redis数据库安装,然后修改配置文件可以使其他人连接,网上都能搜到。程序码云地址:分布式爬虫主要修改setting文件里边的设置,然后url是redis推送,利用redis订阅发布机制,大部分已经有scrapy-redis写好,我们只用写里边的内容,redis-key是你推送url的地方然后启动redis数据库,输入命令:lpush lab:abd(redis-key的内容) http...原创 2019-06-18 14:29:03 · 349 阅读 · 0 评论