- 博客(14)
- 资源 (65)
- 问答 (1)
- 收藏
- 关注
原创 爬虫管道
from datetime import datetimefrom scrapy.exporters import JsonItemExporter, CsvItemExporterimport pymongoimport redisfrom .settings import REDIS_HOST, REDIS_PORT, MONGO_HOST, MONGO_PORT数据源的管道cl...
2019-04-29 17:26:41 750
原创 selenium模拟国航滑块验证码
本文就是大致讲解下使用selenium进行这个滑块验证码的拖动问题。临时起意,看到了中国国际航空公司的官网,想试着采集下航班信息,发现官网是有不少难度的,操作也比较麻烦。于是就用 fiddler 找了下国航的app接口。https://m.airchina.com.cn/ac/于是我就直接开始采用selenium来进行页面信息采集。我们要请求的接口是: https://m.a...
2019-04-29 11:36:24 2933
原创 Fiddler抓取视频数据
准备工作:(1)、手机(安卓、ios都可以)/安卓模拟器,今天主要以安卓模拟器为主,操作过程一致。(2)、抓包工具:Fiddel 下载地址:(https://www.telerik.com/download/fiddler )(3)、编程工具:pycharm(4)、安卓模拟器上安装抖音(逍遥安装模拟器)一、fiddler配置在tools中的options中,按照图中勾选后点击Actio...
2019-04-27 12:13:41 46490 102
原创 016:Scrapy使用中必须得会的问题
Scrapy 的优缺点?(1)优点:scrapy 是异步的采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库(2)缺点:基于 python 的爬虫框架,扩展性比较差基于 twisted 框架,运行中的 exception 是不会干掉 re...
2019-04-24 15:44:20 1032
原创 记一下要做的事、爬虫系统更新
公司有一项业务是做某电商网站信息收集。系统是基于Scrapy框架开发的,由于python自身的队列不支持分布式,采用了Redis来作为url排重和队列,以实现爬虫的分布式抓取;存储采用的是mongodb数据库;动态网页采用的是Selenium模拟浏览器加载。其中实现了信息标题、时间、内容的自动抽取,类别等的自动划分等功能。做计划时把爬虫的改版任务列入计划中,我粗略规划了下下一步要改进的方面:...
2019-04-22 11:11:00 789
原创 Web机器人记录访问地和避免在动态虚拟web空间的循环和重复
版权声明:内容采集自 《HTTP权威指南》全链接爬取时如何记录已经访问过的url:so:and已知服务器信息时,如何过滤存在别名的url地址:such as:so:如何避免在动态虚拟web空间的循环和重复?SO...
2019-04-21 13:45:25 946
原创 Mysql一些面试题
1、Redis数据结构的底层实现https://www.cnblogs.com/ysocean/p/9080942.html2、Mysql对字段的一部分添加索引(例如一个公司的邮箱@后面都是一样的,如何只对@之前添加索引)https://blog.csdn.net/u011383596/article/details/803597403、Mysql事物的隔离性有几级,分别说一下https...
2019-04-17 21:37:11 1951
原创 京东20W条数据统计清洗分析
Readme:针对京东商城20W条美的热水器评论数据进行统计清洗分析。分析出所有正面评论和负面评论。分词统计热词出现频率。分析出销售问题所在。开发环境:本项目的文本情感分析使用的是基于情感字典的文本情感分析。为了能够正确标注一段中文文本的情感。需要如下几个情感字典:①停用词字典:用于过滤掉一段文本中的噪声词组。②情感词字典:用于得到一段文本中带有情感色彩的词组及其评分。...
2019-04-14 19:38:17 6059
原创 AJAX 工作原理
1.什么是 AJAX?AJAX 全称为“Asynchronous JavaScript and XML”(异步 JavaScript 和 XML),是一种创建交互式网页应用的网页开发技术。它使用:使用 XHTML+CSS 来标准化呈现;使用 XML 和 XSLT 进行数据交换及相关操作;使用 XMLHttpRequest 对象与Web 服务器进行异步数据通信;使用 Javascript...
2019-04-13 09:56:34 2384
原创 Hbase数据库
海量数据存储解决方案:Hbase数据库解析HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Had...
2019-04-10 20:25:00 4273
原创 Python算法基础题目
本篇文章内容是我从曾经的笔试题或者面试题中筛选出来的时间有点久远-------------------苹果2014年笔试题“逻辑学家们围成一圈坐着,他们的额头上面画有数字……”又来一个逻辑学家围成一圈的问题,这次是这样的,三个拥有完美逻辑推理能力的人围成一圈坐在一个房间里,每个人的额头上都画着一个大于0的数字,三个人的数字各不相同,每个人都看得见其他两个人的数字,看不见自己的。这三个...
2019-04-06 15:06:31 4892
原创 支持向量机
.分类作为数据挖掘领域中一项非常重要的任务,它的目的是学会一个分类函数或分类模型(或者叫做分类器)。支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier)。其决...
2019-04-04 16:08:39 2125
原创 卷积神经网络
看这种文章,来首高山流水吧,省的太过干涩。 卷积神经网络卷积神经网络,它们也被称作CNNs或着ConvNets,是深层神经网络领域的主力。它们已经学会对图像进行分类,在某些情况下甚至超过了人类。如果有一个方法证明了这种假设,那就是CNN。下图为卷积神经网络流程图:(这里看不懂没关系)为了帮助指导你理解卷积神经网络,我们讲采用一个非常简化的例子:确定一幅图像是包含有"X"还...
2019-04-01 21:22:13 1934
原创 015:Redis-Codis
Codis由来在大数据高并发场景下,单个 Redis 实例往往会显得捉襟见肘。首先体现在内存上,单个 Redis 的内存不宜过大,内存太大会导致 rdb 文件过大,进一步导致主从同步时全量同步时间过长,在实例重启恢复时也会消耗很长的数据加载时间,特别是在云环境下,单个实例内存往往都是受限的。其次体现在 CPU 的利用率上,单个 Redis 实例只能利用单个核心,这单个核心要完成海量数据的存取和...
2019-04-01 19:51:57 2662
河南省157所高校数据
2023-01-12
涉密文件搜索工具、自检工具
2022-08-24
医学背景的院士、杰青、长江学者
2022-06-30
人力资源行业投融资事件
2021-10-28
河南国企名单、河南国企名录
2021-09-24
简历数据、人才数据、高管履历、
2021-08-09
京东商品销量预测分析python
2021-08-06
微博用户情感演化分析python
2021-08-06
招聘分析系统python
2021-08-06
微博好友推荐系统python
2021-08-06
基于OCR的latex公式转换系统
2021-06-08
脉脉职位行业标签分类大全
2021-04-20
中国企业CEO名单、世界500强企业CEO名单、企业500强、全国乡镇企业家名单
2021-04-02
500强的首席执行官名单和著名公司的首席执行官名单
2021-03-31
全球奖项收录情况.json
2021-03-31
网页智能解析相关资料.rar
2021-03-28
autojsApk和案例
2021-03-24
国外有哪些顶尖的数据挖掘与智能交互研究机构呀
2021-06-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人