自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李玺

微信搜索《pythonlx》公众号加入群聊 | 首页有博主微信

  • 博客(29)
  • 资源 (65)
  • 问答 (1)
  • 收藏
  • 关注

原创 scrapy下载图片

items.py:fishPicId = scrapy.Field() #图片url地址。要是个列表image_path = scrapy.Field() #->>保存img绝对路径。spider.py:item['fishPicId'] = [img_src] # ImagesPipeline用到的是图片的url列表settings.py:...

2019-05-31 22:27:28 1423

原创 url中的 #、?的作用和意义

#号 : 代表网页中的一个位置。其右面的字符,就是该位置的标识符。比如,你点击下面url:https://blog.csdn.net/weixin_43582101/article/details/90416944看到的是页面是正常。你加个#号,再写一些东西,他就定位到那了#就代表网页index.html的ChromeOptions的位置。浏览器读取这个URL后,会自动将Chrome...

2019-05-30 13:55:31 5003

原创 定时删除过期数据(MySQL数据表)

需求: Mysql用户信息表,每隔15天进行一次清理,只保留15天内的用户数据1.表结构class UserInfo(db.Model): __tablename__ = '用户信息表' id = db.Column(db.Integer, primary_key=True) username = db.Column(db.String(32), index=True...

2019-05-29 21:57:25 4446

原创 HTTP状态码

HTTP状态码由三个十进制数字组成HTTP状态码列表:

2019-05-28 10:53:08 732

原创 Opencv:验证码图像处理

本篇讲的主要是对验证码图片的二值去边去线降噪。最近天热了。人也有点疲惫,不打太多字。首先安装 opencv :(点击链接查看)https://blog.csdn.net/weixin_43582101/article/details/88660570我自己画了个图(下文图片数据根据这张图写的)图片名:1234567.png:读入图片1234567.pngimport cv2im ...

2019-05-27 18:33:53 6629 6

原创 模拟登陆12306

12306模拟登陆demo:最近有点疲惫, 不打那么多字了。用selenium来进行模拟登陆操作,主要是这个验证码部分。https://kyfw.12306.cn/otn/resources/login.html这个验证码解决的方法,可以利用机器学习,让计算机能够不断在互联网上搜集不同图片和其相应的“标签”,经过大量图片和相应标签的训练,计算机习得了各种不同标签图片之间的差别与关系。形...

2019-05-26 14:25:13 1605

原创 淘宝:使用微博账号模拟登陆

测试图放前面:一开始我是直接使用selenium来账号密码登陆的,没想到问题挺多的。去年搞过一次,当时的检测机制还没那么复杂。如果直接使用selenium来登陆的话,会被识别出来。出现一个滑块,并且手动拖动也会报错。然后我就使用了开发者模式,发现还是一样的问题。我就接着尝试,想看看是 navigator 哪一个被检测出来了,后来试了半天没找出来 =。=醉了再然后就发现,他这个检测机制,是...

2019-05-23 22:09:55 2407

原创 单线程Redis 和 I/O 多路复用

被问了IO多路复用,一脸懵逼,之前并没有深入了解过。本文内容收集与网络。redis为什么是单线程的:redis 核心就是 如果我的数据全都在内存里,我单线程的去操作 就是效率最高的,为什么呢,因为多线程的本质就是 CPU 模拟出来多个线程的情况,这种模拟出来的情况就有一个代价,就是上下文的切换,对于一个内存的系统来说,它没有上下文的切换就是效率最高的。redis 用 单个CPU 绑定一块内存...

2019-05-23 09:56:42 2918 3

原创 selenium-携程酒店评论

最近好像对这方面需求比较高,总有人问我爬过携程没,我寻思着拿selenium也没太大难度吧,晚上就做了个demo。这里做的是携程上面天津市酒店的所有评论信息demo,你要问我为啥不拿信息价格类型标签之类的,毕竟是demo嘛,评论跟那些数据在同一页面的,有需要可以自己花点时间改一下。我提的数据直接界面上copy xpath的,只拿了用户的id和他的评论。下面是测试图,这次放上面。那就先说下用...

2019-05-21 22:32:24 2473 2

原创 NLTK-008:分类文本(有监督分类的更多例子)

句子分割:句子分割可以看作是一个标点符号的分类任务:每当我们遇到一个可能会结束的句子的符号,我们必须决定他是否终止了当前句子。#首先获得一些已被分割成句子的数据 #将他转换成一种适合提取特征的形式import nltksents = nltk.corpus.treebank_raw.sents() tokens = [] ...

2019-05-19 15:05:44 838

原创 NLTK-007:分类文本(文档情感分类)

之前我们看了几个例子,那里文档已经按类别标记。使用这些语料库,我们可以建立分类器。自动给新文档添加适当的类别标签。首先我们构造一个标记了相应类别的文档清单,对于这个例子,我选择了nltk中的电影评论语料库,将每个评论分为正面或者负面。import randomfrom nltk.corpus import movie_reviewsdocuments = [(list(movie_revi...

2019-05-18 20:56:42 1243

原创 NLTK-006:分类文本(性别鉴定)

分类是为给定的输入选择正确的类标签的任务,在基本的分类任务中,每个输入被认为是与所有其它输入隔离的,并且标签集是预先定义的。下面是分类任务的一些例子:判断一封邮件是否是垃圾邮件。从一个固定的主题领域列表中,如‘体育’、‘技术’、‘政治’,决定新闻报道的主题是什么。基本的分类任务有许多有趣的变种。例如:在多类分类中,每个实例可以分配多个标签,在开放性分类中,标签集是没有定义的。在序列分类...

2019-05-18 16:11:10 1583

原创 NLTK-005:分类和标注词汇

之前大家也肯定学过名字、动词、形容词、副词之间的差异,这些词类不是闲置的,而是对许多语言处理任务都有用的分类,正如我们将看到的,这些分类源于对文本中词的分布的简单的分析。将词汇按照他们的词性(POS)分类以及相应的标注它们的过程被称作为词性标注(POS tagging),简称为标注。词性也被称为词类或词汇范畴。用于特定任务的标记的集合被称为一个标记集,我们本章的重点是利用标记和自动标注文本。使...

2019-05-17 21:34:28 905

原创 NLTK-004:加工原料文本

从网络和硬盘访问文本编号 2554 的文本是《罪与罚》的英文翻译,我们可以用如下方式访问它。from urllib import requesturl = "http://www.gutenberg.org/files/2554/2554.txt"response = request.urlopen(url)raw = response.read().decode('utf8')(如...

2019-05-17 16:26:26 696

原创 NLTK-003:词典资源

词典或者词典资源的意思是一个 词或短语 以及一些相关信息的集合。例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。词汇列表语料库nltk.corpus.words仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇import nltkdef unusual_words(text): text_vocab = set([w.l...

2019-05-17 12:14:20 1173

原创 NLP自然语言处理002:NLTK中的语料和词汇资源

在自然语言处理的实际项目中,通常要使用大量的语言数据或者语料库。NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speechtag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Par...

2019-05-16 22:12:06 1376

原创 NLP自然语言处理001:NLTK入门

准备写一个系统的nlp入门博客,就从 nltk 开始把。NLTK:Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。我们需要通过他里面的数据来进行学习和练习。NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发 [1] 。NLTK由StevenBird和Edward Loper在宾夕法尼...

2019-05-15 22:15:01 1005

原创 几道数据结构选择题

删除一个顺序表中一个数据元素的基本思想是:将要删除的数据元素的后续数据元素依次向前移动1个数据单元位置,也就是将要删除的数据元素覆盖掉,然后再将该顺序表的长度减去1.需要注意的是,本题中没有指定要删除哪一个元素,既要删除的元素位置并不确定。所以本题 选 D要删除表中的一个元素,就是把该元素后面的一个元素向前移动一个位置,比如现在有 [a,b,c],要删除a,就是把 b,c 往前移动,所...

2019-05-13 20:39:30 3278

原创 自动化测试:邮件和定时任务

自动发邮件功能:python里面提供了专门用来发邮件的模块。我们需要去邮箱把SMTP服务启动,这里以QQ邮箱为例。POP3/SMTP 开启后,会给你一个授权码。一点要保存下来。定时任务:python中 可以使用时间模块来做一个简单的定时任务。windows 中定时任务:控制面板->任务计划->添加任务计划->选择文件或者在:所有程序 >> 附件...

2019-05-11 17:27:19 1046

原创 Selenium深入:自动化测试模型和测试类型

自动化测试模型:还是以百度为例。线性测试:接着往下看两个简单的脚本:(假设我们登陆的属性如下)模块化与类库:这个很简单吧。把脚本中的相同部分的代码独立出来,形成模块或库:数据驱动:说白了就是:实现数据和脚本的分离,实现了参数化。提高脚本的复用性。关键字驱动:selenium IDE 可以看做一种关键字驱动的自动化工具。测试类型:W...

2019-05-11 15:24:33 785

原创 Selenium提高:JS操作和cookie处理

上一篇基础篇: https://blog.csdn.net/weixin_43582101/article/details/90082023还是以百度为例。调用JavaScript:执行JS一般由两种场景:一种是在页面上直接执行JS另一种是在某个已经定位的元素上执行JS隐藏百度一下按钮:弹出新窗口的情况:在编写自动化程序的时候,会遇到弹出新窗口的情况,而程序总是默认在...

2019-05-11 12:05:39 1062

原创 Selenium基础:对象操作和事件处理

以百度首页为例,使用selenium进行对象操作和事件处理。下面的代码在注释后,可以逐个解开运行。文件上传操作:文件下载操作:

2019-05-10 18:36:10 728

转载 十道海量数据处理面试题与十个方法大总结(转载)

原文链接: https://blog.csdn.net/v_JULY_v/article/details/6279498作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是...

2019-05-09 11:03:21 755

原创 进程线程协程素质三连

今天被问了进程和线程是什么?按概念回答了 “进程是操作系统分配资源的最小单元,线程是操作系统调度的最小单元”。然后追问,为什么线程是操作系统调度的最小单元?一条线程是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。又问,进程如何并发多个线程? 卒。单个CPU(也可以多个CPU)将多个线程中的每个线程(多个进程中的每个进程)按时间分为一个一个...

2019-05-08 23:10:11 664

原创 python高阶函数和枚举

python enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中,可同时得到数据对象的值及对应的索引值。举个例子:for i in enumerate([i for i in range(5)]): print(i)今天去腾讯笔试的一道 enumerate 题:s=['a','b'...

2019-05-07 17:50:57 857

原创 019:Selenium操作Boss直聘进行一键职位投递

这里不是打广告,好的招聘平台有很多,Boss直聘是一个。虽然Boss直聘上面可以跟 HR 直接沟通很实用,但是投递职位非常麻烦,需要一个一个的手动去点击,大多数沟通了还没有反应。所以我今天就用 Selenium + Python 写了一个自动沟通的脚本。写的时候发现,Boss直聘上面反 Selenium 措施也是很到位的。下面我就介绍下代码实现的具体步骤吧。首先模拟登陆:Boss直聘官...

2019-05-04 23:22:18 11651 19

原创 pyecharts数据可视化

pyecharts 是为了与 Python 进行对接,方便在 Python 中直接使用数据生成图.使用pyecharts可以生成独立的网页,也可以在flask、django中集成使用pyecharts 安装很简单:pip install pyechartspyecharts_snapshot 图片导出功能:pip install pyecharts_snapshotpyech...

2019-05-03 12:56:10 3702 2

原创 018:websocket实时动态数据爬取

我们先看一下斗鱼直播的弹幕:大家可以发现右下角在一直不断变化。轮询和WebSocket:Web 领域中,用于实现数据’实时’更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一定时间间隔(如 1 秒)访问服务端接口,从而达到 ‘实时’ 的效果,虽然看起来数据像是实时更新的,但实际上它有一定的时间间隔,并不是真正的实时更新。轮询通常采用 拉 模式,由客户端主动从服务端拉取...

2019-05-02 13:55:40 3882 5

原创 017:Opencv+Selenium模拟QQ邮箱滑块操作

本篇则是用opencv+selenium来对QQ邮箱的滑块进行模拟测试

2019-05-01 15:11:58 2726 12

本硕博学科专业目录-专业大类2023

普通高等学校本科专业目录、研究生学科专业目录、博士专业目录 包括门类、专业类、专业代码、专业名称等

2023-02-23

河南省157所高校数据

涵盖字段如下:高校名称、简称(其他名称)、层次、院校类型、主管部门、人数(万)、办学类型、所在省份 所在城市 所在辖区 详细地址 双一流、211、占地面积(亩)、2022招生数量 2021招生数量、重点学科、官方网址、官方电话、电子邮箱、创建时间、硕士点数量、博士点数量、 国家重点学科 党委书记 党委书记毕业院校 校长 校长毕业院校 校长籍贯 校长学位 校长专业 学校简介 Logo 国家特色专业 双一流建设学科

2023-01-12

military和 defence期刊名、技术词.xlsx

简单整理了一份military 和 defence名列表和技术词列表

2022-12-09

高校毕业生就业管理平台项目建设方案

项目建设方案

2022-10-09

电脑知识稿件模板及要求-2015

电脑知识与技术的稿件模板及要求-2015

2022-09-25

涉密文件搜索工具、自检工具

能够快速找到电脑中含秘密机密绝密等关键字的文件。 软件主要功能: 1、全盘扫描,快速定位可疑文件; 2、对扫描结果快速浏览(双击打开),也可打开文件所在文件夹; 3、获取本机硬盘号(硬盘物理VID号); 4、对可以文件所在目录进行批量更名删

2022-08-24

wordpress-kratos-pjax-0.4.4

wordpress-kratos-pjax-0.4.4

2022-08-15

医学背景的院士、杰青、长江学者

2022年手工整理的资料,中国工程院和中国科学院中具有医学背景的院士,以及其他组织机构中具有杰青、长江学者荣誉的医学人才。 数据量:300多条。 数据格式:姓名-基本情况。 基本情况引用自百度百科。 姓名:卞修武 基本情况:人体病理学家,主要从事人体病理诊断和研究。1963年11月出生于安徽省寿县。1986年毕业于第三军医大学临床医学系,1989和1995年先后获该校硕士和博士学位。2017年当选为中国科学院院士。 姓名:丁健 基本情况: 肿瘤药理学家。江苏无锡人。1992年毕业于日本国立九州大学,获博士学位。现任中国科学院大学药学院院长、中国科学院学术委员会生命与健康专门委员会委员、中科院上海药物研究所学术委员会主任,曾任中科院上海药物研究所所长。 姓名:雷光华 基本情况: 雷光华,男,骨科学博士,一级主任医师,二级教授,博士生/后导师,中南大学湘雅医院院长。国家“万人计划”领军人才,教育部“长江学者”特聘教授,科技部“中青年科技创新领军人才”,国家卫生计生突出贡献中青年专家,享受国务院政府特殊津贴专家,国家临床重点专科骨科和运动医学科带头人

2022-06-30

郑州市产业园区规划信息,800多条。

公开信息,园区名称、省份、城市、地区、详细地址、大约面积(亩)、企业数、园区简介、园区专线等

2022-03-25

PC微信小程序解锁工具

PC微信小程序解锁工具

2022-01-13

unidbg0.9.5 Jar包

unidbg-android-0.9.5.jar 、 unidbg-api-0.9.5.jar

2022-01-09

Wireshark3.2.4中文版.zip

Wireshark3.2.4中文版

2021-12-01

提莫有情况 微信提示音修改

提莫 有情况 微信提示音修改方法和音频文件

2021-11-26

全国学校中小学高中学校名单列表

共24万条数据。字段:学校编号 学校名称 省份编号 省份 地市编号 地市 区县编号 区县

2021-11-19

人力资源行业投融资事件

国内外人力资源投融资事件,Hr投融资。截止到今天,一共1600条。字段:【时间、公司名、公司全称、网址、行业、子行业、轮次、金额、投资方、投后估值、最新估值(仅为估算 谨慎参考)、公司简介、地址】

2021-10-28

neo4j-community-4.3.6-windows

neo4j-4.3.6-windows 。 windows下的neo4j 数据库 4.3.6版本

2021-10-26

河南国企名单、河南国企名录

河南省内12000条国企数据,2021年9月整理,文件为excel。表中主要字段:公司名称、法定代表人、联系电话、地址、经营范围、行业代码、邮箱、公司类型。 格式清晰无遗漏,人工整理准确高

2021-09-24

全球地区_含经纬度城市中英文.json

全球城市中英文地区_含经纬度

2021-09-18

charles 4.2.7中文版.zip

我本地的 charles 4.2.7 中文版打包的。

2021-08-19

简历数据、人才数据、高管履历、

公司高管履历数据(1990-2020年)。数据将近8w条。 字段有:姓名、职务、任职日期、性别、国籍、出生年份、年龄、学历、最高学历、所属行业、职称、专业技术资格、年薪 上市公司高管信息、人才数据。

2021-08-09

京东商品销量预测分析python

基于情感分析与逻辑回归的京东商品的销售数据分析与预测。 京东商品评论爬虫、处理、可视化、情感分析与模型评估实践。 分为四大模块:爬虫、预处理、分析和可视化、建模,其余还包括配置和工具模块 - spider.py : 商品信息和评论数量 - process.py : 数据预处理和关系相关性分析 - models.py : 建模和预测 - data目录:存放数据:原始数据、预处理数据、训练集和测试集 - charts目录:存放数据可视化输出结果:词云图、折线图、饼状图 - crawler.py:爬虫模块 - res:资源文件,stopwords.txt存放停用词 - configs.py:存放所有相关的静态配置 - pipeline.py:主控制模块 - processing.py:数据预处理模块 - plotter.py:数据可视化模块 - model.py:建模与评估模块 - utils.py:工具类

2021-08-06

微博用户情感演化分析python

突发事件下微博用户的情感演化机理研究。疫情作为研究对象,确定突发事件和事件发生、爆发、结束三个相关时间矢点,按三个时段利用并发技术进行数据采集。通过机器学习等方法分析突发事件的不同时段的微博用户情感倾向,建立相关模型。使用贝叶斯线性回归方程分析网络用户情感变化趋势,建立微博用户情感演变的动态分析模型。总结舆情演化生命周期的划分结果。

2021-08-06

基于协同过滤的图书推荐系统python

基于物品的协同过滤算法实现图书推荐系统,前后端一体,页面丰富,功能俱全。

2021-08-06

招聘分析系统python

毕业设计,采集51job的数据做分析和可视化。Python3、urllib库、flask框架、Echarts.js、wordcloud库、sqlite3数据库。

2021-08-06

微博好友推荐系统python

基于itemcf的微博好友评分推荐系统。 采用flask 和 sqlite3 ,bootstrap搭建的推荐系统。有管理页、登陆、注册、详情、评分、列表等页面。

2021-08-06

EI-CPX--期刊目录

EI-CPX-期刊目录

2021-08-03

北大核心期刊目录.json

北大核心期刊目录.json

2021-08-03

html列表图片展示ui特效.zip

html列表图片展示ui特效,蓝色背景,静态页面

2021-07-26

SB-Admin2后台管理界面模板(黑色)

SB-Admin2后台管理界面模板(黑色)

2021-06-25

基于OCR的latex公式转换系统

采用pyqt5开发的基于OCR的latex公式转换系统,主要使用了mathpix的接口。 流程:输入含有数学公式的图片,会返回mathpix的结果。 输入方式:支持手动上传文件、或者从剪贴板复制。 输出结果: mathpix的结果转换为自然语言公式结果。 注意事项:运行前在config中输入你的mathpix账号和密码。 下载需知:本系统基于开源应用修改而来,增加了些功能。

2021-06-08

cityloads.zip

中国省市区县列表和世界城市列表

2021-05-19

世界国家名称简称中文名称.zip

220+的世界国家英文名称、简称代码、中文名称

2021-05-19

脉脉职位行业标签分类大全

json文件。脉脉的高级搜索标签,职位分类大全。 分类规则:顶级行业名称-->细分行业名称-->职业方向 - 金融业->银行业->(银行柜员、销售、理财经理/顾问、保险代理人、信贷业务、财务/审计/税务、基金经理、技术/研发、人力资源(HR)/人事、行政/后勤/文员等) - IT/互联网->云计算/大数据/人工智能->(研发、产品、数据分析、销售、设计、测试、运营、项目管理、风控、政府关系、客服、法务、财务、采购、人力资源、行政/后勤/文员、运维等)

2021-04-20

游侠网单机游戏评分数据2015-2020年

数据很齐全,字段更丰富,有游戏名、公司、平台、评分、语言、更新时间、发布时间、游戏大小、游戏类型、图片和链接。

2021-04-10

游侠网单机游戏数据集.csv

游侠网单机游戏数据库,从2009到2021年4月,一共有18000条数据。 字段:《游戏名、链接、图片、游戏类型、平台、发布时间、游戏大小》

2021-04-09

中国企业CEO名单、世界500强企业CEO名单、企业500强、全国乡镇企业家名单

中国知名企业CEO名单、世界500强企业的CEO名单、2020中国民营企业500强榜单、2020中国企业500强榜单、中国乡镇企业功勋、全国优秀乡镇企业家、全国乡镇企业家名单。一共5个文件。

2021-04-02

500强的首席执行官名单和著名公司的首席执行官名单

TOP500的首席执行官名单和著名公司的首席执行官名单。该列表还包括具有与首席执行官(CEO)(例如常务董事(MD))相对应的职位的主要高管,以及所有同时担任的职位。两个csv文件,注意文件格式。

2021-03-31

全球奖项收录情况.json

全球奖项获奖情况、国际奖项获奖名单。 一共近400个国际知名奖项,比如达尔文奖、国际生物学奖、克拉福德奖、阿斯图利亚斯王子奖、爱因斯坦世界科学奖、埃布尔森奖、瓦伦贝格奖等等,数据截至到当前日期。 Json文件,字段有【奖项名称、奖项简介、资金来源、管理机构、评奖程序、授奖形式、数据来源、获奖列表(获奖时间、人选、国家)】

2021-03-31

网页智能解析相关资料.rar

网页智能解析12篇相关论文,基于文档内容的提取方法,基于DOM的网页主体信息块抽取,基于xml的Deep+Web信息自动抽取技术的研究,基于文本行特征的网页正文信息抽取方法研究,基于重复模式识别的网页信息抽取研究等等。

2021-03-28

autojsApk和案例

Auto.js是一款安卓手机应用,和微信一样,安装在手机上使用。 Auto.js是一款自动化软件,根据脚本内容便可以自动地执行相关的操作,并且手机无需root。 Auto.js的脚本需要使用JavaScript编写。

2021-03-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除