- 博客(29)
- 资源 (65)
- 问答 (1)
- 收藏
- 关注
原创 scrapy下载图片
items.py:fishPicId = scrapy.Field() #图片url地址。要是个列表image_path = scrapy.Field() #->>保存img绝对路径。spider.py:item['fishPicId'] = [img_src] # ImagesPipeline用到的是图片的url列表settings.py:...
2019-05-31 22:27:28 1423
原创 url中的 #、?的作用和意义
#号 : 代表网页中的一个位置。其右面的字符,就是该位置的标识符。比如,你点击下面url:https://blog.csdn.net/weixin_43582101/article/details/90416944看到的是页面是正常。你加个#号,再写一些东西,他就定位到那了#就代表网页index.html的ChromeOptions的位置。浏览器读取这个URL后,会自动将Chrome...
2019-05-30 13:55:31 5003
原创 定时删除过期数据(MySQL数据表)
需求: Mysql用户信息表,每隔15天进行一次清理,只保留15天内的用户数据1.表结构class UserInfo(db.Model): __tablename__ = '用户信息表' id = db.Column(db.Integer, primary_key=True) username = db.Column(db.String(32), index=True...
2019-05-29 21:57:25 4446
原创 Opencv:验证码图像处理
本篇讲的主要是对验证码图片的二值去边去线降噪。最近天热了。人也有点疲惫,不打太多字。首先安装 opencv :(点击链接查看)https://blog.csdn.net/weixin_43582101/article/details/88660570我自己画了个图(下文图片数据根据这张图写的)图片名:1234567.png:读入图片1234567.pngimport cv2im ...
2019-05-27 18:33:53 6629 6
原创 模拟登陆12306
12306模拟登陆demo:最近有点疲惫, 不打那么多字了。用selenium来进行模拟登陆操作,主要是这个验证码部分。https://kyfw.12306.cn/otn/resources/login.html这个验证码解决的方法,可以利用机器学习,让计算机能够不断在互联网上搜集不同图片和其相应的“标签”,经过大量图片和相应标签的训练,计算机习得了各种不同标签图片之间的差别与关系。形...
2019-05-26 14:25:13 1605
原创 淘宝:使用微博账号模拟登陆
测试图放前面:一开始我是直接使用selenium来账号密码登陆的,没想到问题挺多的。去年搞过一次,当时的检测机制还没那么复杂。如果直接使用selenium来登陆的话,会被识别出来。出现一个滑块,并且手动拖动也会报错。然后我就使用了开发者模式,发现还是一样的问题。我就接着尝试,想看看是 navigator 哪一个被检测出来了,后来试了半天没找出来 =。=醉了再然后就发现,他这个检测机制,是...
2019-05-23 22:09:55 2407
原创 单线程Redis 和 I/O 多路复用
被问了IO多路复用,一脸懵逼,之前并没有深入了解过。本文内容收集与网络。redis为什么是单线程的:redis 核心就是 如果我的数据全都在内存里,我单线程的去操作 就是效率最高的,为什么呢,因为多线程的本质就是 CPU 模拟出来多个线程的情况,这种模拟出来的情况就有一个代价,就是上下文的切换,对于一个内存的系统来说,它没有上下文的切换就是效率最高的。redis 用 单个CPU 绑定一块内存...
2019-05-23 09:56:42 2918 3
原创 selenium-携程酒店评论
最近好像对这方面需求比较高,总有人问我爬过携程没,我寻思着拿selenium也没太大难度吧,晚上就做了个demo。这里做的是携程上面天津市酒店的所有评论信息demo,你要问我为啥不拿信息价格类型标签之类的,毕竟是demo嘛,评论跟那些数据在同一页面的,有需要可以自己花点时间改一下。我提的数据直接界面上copy xpath的,只拿了用户的id和他的评论。下面是测试图,这次放上面。那就先说下用...
2019-05-21 22:32:24 2473 2
原创 NLTK-008:分类文本(有监督分类的更多例子)
句子分割:句子分割可以看作是一个标点符号的分类任务:每当我们遇到一个可能会结束的句子的符号,我们必须决定他是否终止了当前句子。#首先获得一些已被分割成句子的数据 #将他转换成一种适合提取特征的形式import nltksents = nltk.corpus.treebank_raw.sents() tokens = [] ...
2019-05-19 15:05:44 838
原创 NLTK-007:分类文本(文档情感分类)
之前我们看了几个例子,那里文档已经按类别标记。使用这些语料库,我们可以建立分类器。自动给新文档添加适当的类别标签。首先我们构造一个标记了相应类别的文档清单,对于这个例子,我选择了nltk中的电影评论语料库,将每个评论分为正面或者负面。import randomfrom nltk.corpus import movie_reviewsdocuments = [(list(movie_revi...
2019-05-18 20:56:42 1243
原创 NLTK-006:分类文本(性别鉴定)
分类是为给定的输入选择正确的类标签的任务,在基本的分类任务中,每个输入被认为是与所有其它输入隔离的,并且标签集是预先定义的。下面是分类任务的一些例子:判断一封邮件是否是垃圾邮件。从一个固定的主题领域列表中,如‘体育’、‘技术’、‘政治’,决定新闻报道的主题是什么。基本的分类任务有许多有趣的变种。例如:在多类分类中,每个实例可以分配多个标签,在开放性分类中,标签集是没有定义的。在序列分类...
2019-05-18 16:11:10 1583
原创 NLTK-005:分类和标注词汇
之前大家也肯定学过名字、动词、形容词、副词之间的差异,这些词类不是闲置的,而是对许多语言处理任务都有用的分类,正如我们将看到的,这些分类源于对文本中词的分布的简单的分析。将词汇按照他们的词性(POS)分类以及相应的标注它们的过程被称作为词性标注(POS tagging),简称为标注。词性也被称为词类或词汇范畴。用于特定任务的标记的集合被称为一个标记集,我们本章的重点是利用标记和自动标注文本。使...
2019-05-17 21:34:28 905
原创 NLTK-004:加工原料文本
从网络和硬盘访问文本编号 2554 的文本是《罪与罚》的英文翻译,我们可以用如下方式访问它。from urllib import requesturl = "http://www.gutenberg.org/files/2554/2554.txt"response = request.urlopen(url)raw = response.read().decode('utf8')(如...
2019-05-17 16:26:26 696
原创 NLTK-003:词典资源
词典或者词典资源的意思是一个 词或短语 以及一些相关信息的集合。例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。词汇列表语料库nltk.corpus.words仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇import nltkdef unusual_words(text): text_vocab = set([w.l...
2019-05-17 12:14:20 1173
原创 NLP自然语言处理002:NLTK中的语料和词汇资源
在自然语言处理的实际项目中,通常要使用大量的语言数据或者语料库。NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speechtag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Par...
2019-05-16 22:12:06 1376
原创 NLP自然语言处理001:NLTK入门
准备写一个系统的nlp入门博客,就从 nltk 开始把。NLTK:Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。我们需要通过他里面的数据来进行学习和练习。NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发 [1] 。NLTK由StevenBird和Edward Loper在宾夕法尼...
2019-05-15 22:15:01 1005
原创 几道数据结构选择题
删除一个顺序表中一个数据元素的基本思想是:将要删除的数据元素的后续数据元素依次向前移动1个数据单元位置,也就是将要删除的数据元素覆盖掉,然后再将该顺序表的长度减去1.需要注意的是,本题中没有指定要删除哪一个元素,既要删除的元素位置并不确定。所以本题 选 D要删除表中的一个元素,就是把该元素后面的一个元素向前移动一个位置,比如现在有 [a,b,c],要删除a,就是把 b,c 往前移动,所...
2019-05-13 20:39:30 3278
原创 自动化测试:邮件和定时任务
自动发邮件功能:python里面提供了专门用来发邮件的模块。我们需要去邮箱把SMTP服务启动,这里以QQ邮箱为例。POP3/SMTP 开启后,会给你一个授权码。一点要保存下来。定时任务:python中 可以使用时间模块来做一个简单的定时任务。windows 中定时任务:控制面板->任务计划->添加任务计划->选择文件或者在:所有程序 >> 附件...
2019-05-11 17:27:19 1046
原创 Selenium深入:自动化测试模型和测试类型
自动化测试模型:还是以百度为例。线性测试:接着往下看两个简单的脚本:(假设我们登陆的属性如下)模块化与类库:这个很简单吧。把脚本中的相同部分的代码独立出来,形成模块或库:数据驱动:说白了就是:实现数据和脚本的分离,实现了参数化。提高脚本的复用性。关键字驱动:selenium IDE 可以看做一种关键字驱动的自动化工具。测试类型:W...
2019-05-11 15:24:33 785
原创 Selenium提高:JS操作和cookie处理
上一篇基础篇: https://blog.csdn.net/weixin_43582101/article/details/90082023还是以百度为例。调用JavaScript:执行JS一般由两种场景:一种是在页面上直接执行JS另一种是在某个已经定位的元素上执行JS隐藏百度一下按钮:弹出新窗口的情况:在编写自动化程序的时候,会遇到弹出新窗口的情况,而程序总是默认在...
2019-05-11 12:05:39 1062
原创 Selenium基础:对象操作和事件处理
以百度首页为例,使用selenium进行对象操作和事件处理。下面的代码在注释后,可以逐个解开运行。文件上传操作:文件下载操作:
2019-05-10 18:36:10 728
转载 十道海量数据处理面试题与十个方法大总结(转载)
原文链接: https://blog.csdn.net/v_JULY_v/article/details/6279498作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是...
2019-05-09 11:03:21 755
原创 进程线程协程素质三连
今天被问了进程和线程是什么?按概念回答了 “进程是操作系统分配资源的最小单元,线程是操作系统调度的最小单元”。然后追问,为什么线程是操作系统调度的最小单元?一条线程是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。又问,进程如何并发多个线程? 卒。单个CPU(也可以多个CPU)将多个线程中的每个线程(多个进程中的每个进程)按时间分为一个一个...
2019-05-08 23:10:11 664
原创 python高阶函数和枚举
python enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中,可同时得到数据对象的值及对应的索引值。举个例子:for i in enumerate([i for i in range(5)]): print(i)今天去腾讯笔试的一道 enumerate 题:s=['a','b'...
2019-05-07 17:50:57 857
原创 019:Selenium操作Boss直聘进行一键职位投递
这里不是打广告,好的招聘平台有很多,Boss直聘是一个。虽然Boss直聘上面可以跟 HR 直接沟通很实用,但是投递职位非常麻烦,需要一个一个的手动去点击,大多数沟通了还没有反应。所以我今天就用 Selenium + Python 写了一个自动沟通的脚本。写的时候发现,Boss直聘上面反 Selenium 措施也是很到位的。下面我就介绍下代码实现的具体步骤吧。首先模拟登陆:Boss直聘官...
2019-05-04 23:22:18 11651 19
原创 pyecharts数据可视化
pyecharts 是为了与 Python 进行对接,方便在 Python 中直接使用数据生成图.使用pyecharts可以生成独立的网页,也可以在flask、django中集成使用pyecharts 安装很简单:pip install pyechartspyecharts_snapshot 图片导出功能:pip install pyecharts_snapshotpyech...
2019-05-03 12:56:10 3702 2
原创 018:websocket实时动态数据爬取
我们先看一下斗鱼直播的弹幕:大家可以发现右下角在一直不断变化。轮询和WebSocket:Web 领域中,用于实现数据’实时’更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一定时间间隔(如 1 秒)访问服务端接口,从而达到 ‘实时’ 的效果,虽然看起来数据像是实时更新的,但实际上它有一定的时间间隔,并不是真正的实时更新。轮询通常采用 拉 模式,由客户端主动从服务端拉取...
2019-05-02 13:55:40 3882 5
河南省157所高校数据
2023-01-12
涉密文件搜索工具、自检工具
2022-08-24
医学背景的院士、杰青、长江学者
2022-06-30
人力资源行业投融资事件
2021-10-28
河南国企名单、河南国企名录
2021-09-24
简历数据、人才数据、高管履历、
2021-08-09
京东商品销量预测分析python
2021-08-06
微博用户情感演化分析python
2021-08-06
招聘分析系统python
2021-08-06
微博好友推荐系统python
2021-08-06
基于OCR的latex公式转换系统
2021-06-08
脉脉职位行业标签分类大全
2021-04-20
中国企业CEO名单、世界500强企业CEO名单、企业500强、全国乡镇企业家名单
2021-04-02
500强的首席执行官名单和著名公司的首席执行官名单
2021-03-31
全球奖项收录情况.json
2021-03-31
网页智能解析相关资料.rar
2021-03-28
autojsApk和案例
2021-03-24
国外有哪些顶尖的数据挖掘与智能交互研究机构呀
2021-06-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人