2019年05月_考古学家lx(李玺)

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 scrapy下载图片

items.py：fishPicId = scrapy.Field() #图片url地址。要是个列表image_path = scrapy.Field() #->>保存img绝对路径。spider.py：item['fishPicId'] = [img_src] # ImagesPipeline用到的是图片的url列表settings.py:...

2019-05-31 22:27:28 1423

原创 url中的 #、？的作用和意义

#号：代表网页中的一个位置。其右面的字符，就是该位置的标识符。比如，你点击下面url：https://blog.csdn.net/weixin_43582101/article/details/90416944看到的是页面是正常。你加个#号，再写一些东西，他就定位到那了#就代表网页index.html的ChromeOptions的位置。浏览器读取这个URL后，会自动将Chrome...

2019-05-30 13:55:31 5003

原创定时删除过期数据（MySQL数据表）

需求： Mysql用户信息表，每隔15天进行一次清理，只保留15天内的用户数据1.表结构class UserInfo(db.Model): __tablename__ = '用户信息表' id = db.Column(db.Integer, primary_key=True) username = db.Column(db.String(32), index=True...

2019-05-29 21:57:25 4446

原创 HTTP状态码

HTTP状态码由三个十进制数字组成HTTP状态码列表：

2019-05-28 10:53:08 732

原创 Opencv：验证码图像处理

本篇讲的主要是对验证码图片的二值去边去线降噪。最近天热了。人也有点疲惫，不打太多字。首先安装 opencv ：（点击链接查看）https://blog.csdn.net/weixin_43582101/article/details/88660570我自己画了个图（下文图片数据根据这张图写的）图片名：1234567.png：读入图片1234567.pngimport cv2im ...

2019-05-27 18:33:53 6629 6

原创模拟登陆12306

12306模拟登陆demo：最近有点疲惫，不打那么多字了。用selenium来进行模拟登陆操作，主要是这个验证码部分。https://kyfw.12306.cn/otn/resources/login.html这个验证码解决的方法，可以利用机器学习，让计算机能够不断在互联网上搜集不同图片和其相应的“标签”，经过大量图片和相应标签的训练，计算机习得了各种不同标签图片之间的差别与关系。形...

2019-05-26 14:25:13 1605

原创淘宝：使用微博账号模拟登陆

测试图放前面：一开始我是直接使用selenium来账号密码登陆的，没想到问题挺多的。去年搞过一次，当时的检测机制还没那么复杂。如果直接使用selenium来登陆的话，会被识别出来。出现一个滑块，并且手动拖动也会报错。然后我就使用了开发者模式，发现还是一样的问题。我就接着尝试，想看看是 navigator 哪一个被检测出来了，后来试了半天没找出来 =。=醉了再然后就发现，他这个检测机制，是...

2019-05-23 22:09:55 2407

原创单线程Redis 和 I/O 多路复用

被问了IO多路复用，一脸懵逼，之前并没有深入了解过。本文内容收集与网络。redis为什么是单线程的：redis 核心就是如果我的数据全都在内存里，我单线程的去操作就是效率最高的，为什么呢，因为多线程的本质就是 CPU 模拟出来多个线程的情况，这种模拟出来的情况就有一个代价，就是上下文的切换，对于一个内存的系统来说，它没有上下文的切换就是效率最高的。redis 用单个CPU 绑定一块内存...

2019-05-23 09:56:42 2918 3

原创 selenium-携程酒店评论

最近好像对这方面需求比较高，总有人问我爬过携程没，我寻思着拿selenium也没太大难度吧，晚上就做了个demo。这里做的是携程上面天津市酒店的所有评论信息demo，你要问我为啥不拿信息价格类型标签之类的，毕竟是demo嘛，评论跟那些数据在同一页面的，有需要可以自己花点时间改一下。我提的数据直接界面上copy xpath的，只拿了用户的id和他的评论。下面是测试图，这次放上面。那就先说下用...

2019-05-21 22:32:24 2473 2

原创 NLTK-008：分类文本（有监督分类的更多例子）

句子分割：句子分割可以看作是一个标点符号的分类任务：每当我们遇到一个可能会结束的句子的符号，我们必须决定他是否终止了当前句子。#首先获得一些已被分割成句子的数据 #将他转换成一种适合提取特征的形式import nltksents = nltk.corpus.treebank_raw.sents() tokens = [] ...

2019-05-19 15:05:44 838

原创 NLTK-007：分类文本（文档情感分类）

之前我们看了几个例子，那里文档已经按类别标记。使用这些语料库，我们可以建立分类器。自动给新文档添加适当的类别标签。首先我们构造一个标记了相应类别的文档清单，对于这个例子，我选择了nltk中的电影评论语料库，将每个评论分为正面或者负面。import randomfrom nltk.corpus import movie_reviewsdocuments = [(list(movie_revi...

2019-05-18 20:56:42 1243

原创 NLTK-006：分类文本（性别鉴定）

分类是为给定的输入选择正确的类标签的任务，在基本的分类任务中，每个输入被认为是与所有其它输入隔离的，并且标签集是预先定义的。下面是分类任务的一些例子：判断一封邮件是否是垃圾邮件。从一个固定的主题领域列表中，如‘体育’、‘技术’、‘政治’，决定新闻报道的主题是什么。基本的分类任务有许多有趣的变种。例如：在多类分类中，每个实例可以分配多个标签，在开放性分类中，标签集是没有定义的。在序列分类...

2019-05-18 16:11:10 1583

之前大家也肯定学过名字、动词、形容词、副词之间的差异，这些词类不是闲置的，而是对许多语言处理任务都有用的分类，正如我们将看到的，这些分类源于对文本中词的分布的简单的分析。将词汇按照他们的词性（POS）分类以及相应的标注它们的过程被称作为词性标注（POS tagging），简称为标注。词性也被称为词类或词汇范畴。用于特定任务的标记的集合被称为一个标记集，我们本章的重点是利用标记和自动标注文本。使...

2019-05-17 21:34:28 905

原创 NLTK-004：加工原料文本

从网络和硬盘访问文本编号 2554 的文本是《罪与罚》的英文翻译，我们可以用如下方式访问它。from urllib import requesturl = "http://www.gutenberg.org/files/2554/2554.txt"response = request.urlopen(url)raw = response.read().decode('utf8')（如...

2019-05-17 16:26:26 696

原创 NLTK-003：词典资源

词典或者词典资源的意思是一个词或短语以及一些相关信息的集合。例如：词性和词意定义等相关信息。词典资源附属于文本，通常在文本的帮助下创建和丰富。词汇列表语料库nltk.corpus.words仅仅包含词汇列表的语料库，可以用来寻找文本语料中不常见的或者拼写错误的词汇import nltkdef unusual_words(text): text_vocab = set([w.l...

2019-05-17 12:14:20 1173

原创 NLP自然语言处理002：NLTK中的语料和词汇资源

在自然语言处理的实际项目中，通常要使用大量的语言数据或者语料库。NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speechtag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Par...

2019-05-16 22:12:06 1376

原创 NLP自然语言处理001：NLTK入门

准备写一个系统的nlp入门博客，就从 nltk 开始把。NLTK：Natural Language Toolkit，自然语言处理工具包，在NLP领域中，最常使用的一个Python库。我们需要通过他里面的数据来进行学习和练习。NLTK是一个开源的项目，包含：Python模块，数据集和教程，用于NLP的研究和开发 [1] 。NLTK由StevenBird和Edward Loper在宾夕法尼...

2019-05-15 22:15:01 1005

原创几道数据结构选择题

删除一个顺序表中一个数据元素的基本思想是:将要删除的数据元素的后续数据元素依次向前移动1个数据单元位置，也就是将要删除的数据元素覆盖掉，然后再将该顺序表的长度减去1.需要注意的是，本题中没有指定要删除哪一个元素，既要删除的元素位置并不确定。所以本题选 D要删除表中的一个元素，就是把该元素后面的一个元素向前移动一个位置，比如现在有 [a,b,c]，要删除a，就是把 b,c 往前移动，所...

2019-05-13 20:39:30 3278

原创自动化测试：邮件和定时任务

自动发邮件功能：python里面提供了专门用来发邮件的模块。我们需要去邮箱把SMTP服务启动，这里以QQ邮箱为例。POP3/SMTP 开启后，会给你一个授权码。一点要保存下来。定时任务：python中可以使用时间模块来做一个简单的定时任务。windows 中定时任务：控制面板->任务计划->添加任务计划->选择文件或者在：所有程序 >> 附件...

2019-05-11 17:27:19 1046

原创 Selenium深入：自动化测试模型和测试类型

自动化测试模型：还是以百度为例。线性测试：接着往下看两个简单的脚本：(假设我们登陆的属性如下)模块化与类库：这个很简单吧。把脚本中的相同部分的代码独立出来，形成模块或库：数据驱动：说白了就是：实现数据和脚本的分离，实现了参数化。提高脚本的复用性。关键字驱动：selenium IDE 可以看做一种关键字驱动的自动化工具。测试类型：W...

2019-05-11 15:24:33 785

原创 Selenium提高：JS操作和cookie处理

上一篇基础篇： https://blog.csdn.net/weixin_43582101/article/details/90082023还是以百度为例。调用JavaScript：执行JS一般由两种场景：一种是在页面上直接执行JS另一种是在某个已经定位的元素上执行JS隐藏百度一下按钮：弹出新窗口的情况：在编写自动化程序的时候，会遇到弹出新窗口的情况，而程序总是默认在...

2019-05-11 12:05:39 1062

原创 Selenium基础：对象操作和事件处理

以百度首页为例，使用selenium进行对象操作和事件处理。下面的代码在注释后，可以逐个解开运行。文件上传操作：文件下载操作：

2019-05-10 18:36:10 728

转载十道海量数据处理面试题与十个方法大总结（转载）

原文链接： https://blog.csdn.net/v_JULY_v/article/details/6279498作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随时交流、指正。第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是...

2019-05-09 11:03:21 755

原创进程线程协程素质三连

今天被问了进程和线程是什么？按概念回答了 “进程是操作系统分配资源的最小单元，线程是操作系统调度的最小单元”。然后追问，为什么线程是操作系统调度的最小单元？一条线程是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。又问，进程如何并发多个线程？卒。单个CPU（也可以多个CPU）将多个线程中的每个线程（多个进程中的每个进程）按时间分为一个一个...

2019-05-08 23:10:11 664

原创 python高阶函数和枚举

python enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中，可同时得到数据对象的值及对应的索引值。举个例子：for i in enumerate([i for i in range(5)]): print(i)今天去腾讯笔试的一道 enumerate 题：s=['a','b'...

2019-05-07 17:50:57 857

原创 019：Selenium操作Boss直聘进行一键职位投递

这里不是打广告，好的招聘平台有很多，Boss直聘是一个。虽然Boss直聘上面可以跟 HR 直接沟通很实用，但是投递职位非常麻烦，需要一个一个的手动去点击，大多数沟通了还没有反应。所以我今天就用 Selenium + Python 写了一个自动沟通的脚本。写的时候发现，Boss直聘上面反 Selenium 措施也是很到位的。下面我就介绍下代码实现的具体步骤吧。首先模拟登陆：Boss直聘官...

2019-05-04 23:22:18 11651 19

原创 pyecharts数据可视化

pyecharts 是为了与 Python 进行对接，方便在 Python 中直接使用数据生成图.使用pyecharts可以生成独立的网页，也可以在flask、django中集成使用pyecharts 安装很简单：pip install pyechartspyecharts_snapshot 图片导出功能：pip install pyecharts_snapshotpyech...

2019-05-03 12:56:10 3702 2

原创 018：websocket实时动态数据爬取

我们先看一下斗鱼直播的弹幕：大家可以发现右下角在一直不断变化。轮询和WebSocket：Web 领域中，用于实现数据’实时’更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一定时间间隔（如 1 秒）访问服务端接口，从而达到 ‘实时’ 的效果，虽然看起来数据像是实时更新的，但实际上它有一定的时间间隔，并不是真正的实时更新。轮询通常采用拉模式，由客户端主动从服务端拉取...

2019-05-02 13:55:40 3882 5

原创 017：Opencv+Selenium模拟QQ邮箱滑块操作

本篇则是用opencv+selenium来对QQ邮箱的滑块进行模拟测试

2019-05-01 15:11:58 2726 12

本硕博学科专业目录-专业大类2023

普通高等学校本科专业目录、研究生学科专业目录、博士专业目录包括门类、专业类、专业代码、专业名称等

2023-02-23

河南省157所高校数据

涵盖字段如下：高校名称、简称(其他名称)、层次、院校类型、主管部门、人数(万)、办学类型、所在省份所在城市所在辖区详细地址双一流、211、占地面积(亩)、2022招生数量 2021招生数量、重点学科、官方网址、官方电话、电子邮箱、创建时间、硕士点数量、博士点数量、国家重点学科党委书记党委书记毕业院校校长校长毕业院校校长籍贯校长学位校长专业学校简介 Logo 国家特色专业双一流建设学科

2023-01-12

military和 defence期刊名、技术词.xlsx

简单整理了一份military 和 defence名列表和技术词列表

2022-12-09

高校毕业生就业管理平台项目建设方案

项目建设方案

2022-10-09

电脑知识稿件模板及要求-2015

电脑知识与技术的稿件模板及要求-2015

2022-09-25

涉密文件搜索工具、自检工具

能够快速找到电脑中含秘密机密绝密等关键字的文件。软件主要功能： 1、全盘扫描，快速定位可疑文件； 2、对扫描结果快速浏览（双击打开），也可打开文件所在文件夹； 3、获取本机硬盘号（硬盘物理VID号）； 4、对可以文件所在目录进行批量更名删

2022-08-24

wordpress-kratos-pjax-0.4.4

2022-08-15

医学背景的院士、杰青、长江学者

2022年手工整理的资料，中国工程院和中国科学院中具有医学背景的院士，以及其他组织机构中具有杰青、长江学者荣誉的医学人才。数据量：300多条。数据格式：姓名-基本情况。基本情况引用自百度百科。姓名：卞修武基本情况：人体病理学家，主要从事人体病理诊断和研究。1963年11月出生于安徽省寿县。1986年毕业于第三军医大学临床医学系，1989和1995年先后获该校硕士和博士学位。2017年当选为中国科学院院士。姓名：丁健基本情况：肿瘤药理学家。江苏无锡人。1992年毕业于日本国立九州大学，获博士学位。现任中国科学院大学药学院院长、中国科学院学术委员会生命与健康专门委员会委员、中科院上海药物研究所学术委员会主任，曾任中科院上海药物研究所所长。姓名：雷光华基本情况：雷光华，男，骨科学博士，一级主任医师，二级教授，博士生/后导师，中南大学湘雅医院院长。国家“万人计划”领军人才，教育部“长江学者”特聘教授，科技部“中青年科技创新领军人才”，国家卫生计生突出贡献中青年专家，享受国务院政府特殊津贴专家，国家临床重点专科骨科和运动医学科带头人

2022-06-30

郑州市产业园区规划信息，800多条。

公开信息，园区名称、省份、城市、地区、详细地址、大约面积(亩)、企业数、园区简介、园区专线等

2022-03-25

PC微信小程序解锁工具

2022-01-13

unidbg0.9.5 Jar包

unidbg-android-0.9.5.jar 、 unidbg-api-0.9.5.jar

2022-01-09

Wireshark3.2.4中文版.zip

Wireshark3.2.4中文版

2021-12-01

提莫有情况微信提示音修改

提莫有情况微信提示音修改方法和音频文件

2021-11-26

全国学校中小学高中学校名单列表

共24万条数据。字段：学校编号学校名称省份编号省份地市编号地市区县编号区县

2021-11-19

人力资源行业投融资事件

国内外人力资源投融资事件，Hr投融资。截止到今天，一共1600条。字段：【时间、公司名、公司全称、网址、行业、子行业、轮次、金额、投资方、投后估值、最新估值(仅为估算谨慎参考)、公司简介、地址】

2021-10-28

neo4j-community-4.3.6-windows

neo4j-4.3.6-windows 。 windows下的neo4j 数据库 4.3.6版本

2021-10-26

河南国企名单、河南国企名录

河南省内12000条国企数据，2021年9月整理，文件为excel。表中主要字段：公司名称、法定代表人、联系电话、地址、经营范围、行业代码、邮箱、公司类型。格式清晰无遗漏，人工整理准确高

2021-09-24

全球地区_含经纬度城市中英文.json

全球城市中英文地区_含经纬度

2021-09-18

charles 4.2.7中文版.zip

我本地的 charles 4.2.7 中文版打包的。

2021-08-19

简历数据、人才数据、高管履历、

公司高管履历数据（1990-2020年）。数据将近8w条。字段有：姓名、职务、任职日期、性别、国籍、出生年份、年龄、学历、最高学历、所属行业、职称、专业技术资格、年薪上市公司高管信息、人才数据。

2021-08-09

京东商品销量预测分析python

基于情感分析与逻辑回归的京东商品的销售数据分析与预测。京东商品评论爬虫、处理、可视化、情感分析与模型评估实践。分为四大模块：爬虫、预处理、分析和可视化、建模，其余还包括配置和工具模块 - spider.py : 商品信息和评论数量 - process.py : 数据预处理和关系相关性分析 - models.py : 建模和预测 - data目录：存放数据：原始数据、预处理数据、训练集和测试集 - charts目录：存放数据可视化输出结果：词云图、折线图、饼状图 - crawler.py：爬虫模块 - res：资源文件，stopwords.txt存放停用词 - configs.py：存放所有相关的静态配置 - pipeline.py：主控制模块 - processing.py：数据预处理模块 - plotter.py：数据可视化模块 - model.py：建模与评估模块 - utils.py：工具类

2021-08-06

国外有哪些顶尖的数据挖掘与智能交互研究机构呀

2021-06-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

本硕博学科专业目录-专业大类2023

河南省157所高校数据

military和 defence期刊名、技术词.xlsx

高校毕业生就业管理平台项目建设方案

电脑知识稿件模板及要求-2015

涉密文件搜索工具、自检工具

wordpress-kratos-pjax-0.4.4

医学背景的院士、杰青、长江学者

郑州市产业园区规划信息，800多条。

PC微信小程序解锁工具

unidbg0.9.5 Jar包

Wireshark3.2.4中文版.zip

提莫有情况 微信提示音修改

全国学校中小学高中学校名单列表

人力资源行业投融资事件

neo4j-community-4.3.6-windows

河南国企名单、河南国企名录

全球地区_含经纬度城市中英文.json

charles 4.2.7中文版.zip

简历数据、人才数据、高管履历、

京东商品销量预测分析python

微博用户情感演化分析python

基于协同过滤的图书推荐系统python

招聘分析系统python

微博好友推荐系统python

EI-CPX--期刊目录

北大核心期刊目录.json

html列表图片展示ui特效.zip

SB-Admin2后台管理界面模板（黑色）

基于OCR的latex公式转换系统

cityloads.zip

世界国家名称简称中文名称.zip

脉脉职位行业标签分类大全

游侠网单机游戏评分数据2015-2020年

游侠网单机游戏数据集.csv

中国企业CEO名单、世界500强企业CEO名单、企业500强、全国乡镇企业家名单

500强的首席执行官名单和著名公司的首席执行官名单

全球奖项收录情况.json

网页智能解析相关资料.rar

autojsApk和案例

国外有哪些顶尖的数据挖掘与智能交互研究机构呀

提莫有情况微信提示音修改