自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李玺

微信搜索《pythonlx》公众号加入群聊 | 首页有博主微信

  • 博客(14)
  • 资源 (65)
  • 问答 (1)
  • 收藏
  • 关注

原创 爬虫管道

from datetime import datetimefrom scrapy.exporters import JsonItemExporter, CsvItemExporterimport pymongoimport redisfrom .settings import REDIS_HOST, REDIS_PORT, MONGO_HOST, MONGO_PORT数据源的管道cl...

2019-04-29 17:26:41 750

原创 selenium模拟国航滑块验证码

本文就是大致讲解下使用selenium进行这个滑块验证码的拖动问题。临时起意,看到了中国国际航空公司的官网,想试着采集下航班信息,发现官网是有不少难度的,操作也比较麻烦。于是就用 fiddler 找了下国航的app接口。https://m.airchina.com.cn/ac/于是我就直接开始采用selenium来进行页面信息采集。我们要请求的接口是: https://m.a...

2019-04-29 11:36:24 2933

原创 Fiddler抓取视频数据

准备工作:(1)、手机(安卓、ios都可以)/安卓模拟器,今天主要以安卓模拟器为主,操作过程一致。(2)、抓包工具:Fiddel 下载地址:(https://www.telerik.com/download/fiddler )(3)、编程工具:pycharm(4)、安卓模拟器上安装抖音(逍遥安装模拟器)一、fiddler配置在tools中的options中,按照图中勾选后点击Actio...

2019-04-27 12:13:41 46490 102

原创 016:Scrapy使用中必须得会的问题

Scrapy 的优缺点?(1)优点:scrapy 是异步的采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库(2)缺点:基于 python 的爬虫框架,扩展性比较差基于 twisted 框架,运行中的 exception 是不会干掉 re...

2019-04-24 15:44:20 1032

原创 记一下要做的事、爬虫系统更新

公司有一项业务是做某电商网站信息收集。系统是基于Scrapy框架开发的,由于python自身的队列不支持分布式,采用了Redis来作为url排重和队列,以实现爬虫的分布式抓取;存储采用的是mongodb数据库;动态网页采用的是Selenium模拟浏览器加载。其中实现了信息标题、时间、内容的自动抽取,类别等的自动划分等功能。做计划时把爬虫的改版任务列入计划中,我粗略规划了下下一步要改进的方面:...

2019-04-22 11:11:00 789

原创 Web机器人记录访问地和避免在动态虚拟web空间的循环和重复

版权声明:内容采集自 《HTTP权威指南》全链接爬取时如何记录已经访问过的url:so:and已知服务器信息时,如何过滤存在别名的url地址:such as:so:如何避免在动态虚拟web空间的循环和重复?SO...

2019-04-21 13:45:25 946

原创 Mysql一些面试题

1、Redis数据结构的底层实现https://www.cnblogs.com/ysocean/p/9080942.html2、Mysql对字段的一部分添加索引(例如一个公司的邮箱@后面都是一样的,如何只对@之前添加索引)https://blog.csdn.net/u011383596/article/details/803597403、Mysql事物的隔离性有几级,分别说一下https...

2019-04-17 21:37:11 1951

原创 京东20W条数据统计清洗分析

Readme:针对京东商城20W条美的热水器评论数据进行统计清洗分析。分析出所有正面评论和负面评论。分词统计热词出现频率。分析出销售问题所在。开发环境:本项目的文本情感分析使用的是基于情感字典的文本情感分析。为了能够正确标注一段中文文本的情感。需要如下几个情感字典:①停用词字典:用于过滤掉一段文本中的噪声词组。②情感词字典:用于得到一段文本中带有情感色彩的词组及其评分。...

2019-04-14 19:38:17 6059

原创 AJAX 工作原理

1.什么是 AJAX?AJAX 全称为“Asynchronous JavaScript and XML”(异步 JavaScript 和 XML),是一种创建交互式网页应用的网页开发技术。它使用:使用 XHTML+CSS 来标准化呈现;使用 XML 和 XSLT 进行数据交换及相关操作;使用 XMLHttpRequest 对象与Web 服务器进行异步数据通信;使用 Javascript...

2019-04-13 09:56:34 2384

原创 Hbase数据库

海量数据存储解决方案:Hbase数据库解析HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Had...

2019-04-10 20:25:00 4273

原创 Python算法基础题目

本篇文章内容是我从曾经的笔试题或者面试题中筛选出来的时间有点久远-------------------苹果2014年笔试题“逻辑学家们围成一圈坐着,他们的额头上面画有数字……”又来一个逻辑学家围成一圈的问题,这次是这样的,三个拥有完美逻辑推理能力的人围成一圈坐在一个房间里,每个人的额头上都画着一个大于0的数字,三个人的数字各不相同,每个人都看得见其他两个人的数字,看不见自己的。这三个...

2019-04-06 15:06:31 4892

原创 支持向量机

.分类作为数据挖掘领域中一项非常重要的任务,它的目的是学会一个分类函数或分类模型(或者叫做分类器)。支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier)。其决...

2019-04-04 16:08:39 2125

原创 卷积神经网络

看这种文章,来首高山流水吧,省的太过干涩。 卷积神经网络卷积神经网络,它们也被称作CNNs或着ConvNets,是深层神经网络领域的主力。它们已经学会对图像进行分类,在某些情况下甚至超过了人类。如果有一个方法证明了这种假设,那就是CNN。下图为卷积神经网络流程图:(这里看不懂没关系)为了帮助指导你理解卷积神经网络,我们讲采用一个非常简化的例子:确定一幅图像是包含有"X"还...

2019-04-01 21:22:13 1934

原创 015:Redis-Codis

Codis由来在大数据高并发场景下,单个 Redis 实例往往会显得捉襟见肘。首先体现在内存上,单个 Redis 的内存不宜过大,内存太大会导致 rdb 文件过大,进一步导致主从同步时全量同步时间过长,在实例重启恢复时也会消耗很长的数据加载时间,特别是在云环境下,单个实例内存往往都是受限的。其次体现在 CPU 的利用率上,单个 Redis 实例只能利用单个核心,这单个核心要完成海量数据的存取和...

2019-04-01 19:51:57 2662

本硕博学科专业目录-专业大类2023

普通高等学校本科专业目录、研究生学科专业目录、博士专业目录 包括门类、专业类、专业代码、专业名称等

2023-02-23

河南省157所高校数据

涵盖字段如下:高校名称、简称(其他名称)、层次、院校类型、主管部门、人数(万)、办学类型、所在省份 所在城市 所在辖区 详细地址 双一流、211、占地面积(亩)、2022招生数量 2021招生数量、重点学科、官方网址、官方电话、电子邮箱、创建时间、硕士点数量、博士点数量、 国家重点学科 党委书记 党委书记毕业院校 校长 校长毕业院校 校长籍贯 校长学位 校长专业 学校简介 Logo 国家特色专业 双一流建设学科

2023-01-12

military和 defence期刊名、技术词.xlsx

简单整理了一份military 和 defence名列表和技术词列表

2022-12-09

高校毕业生就业管理平台项目建设方案

项目建设方案

2022-10-09

电脑知识稿件模板及要求-2015

电脑知识与技术的稿件模板及要求-2015

2022-09-25

涉密文件搜索工具、自检工具

能够快速找到电脑中含秘密机密绝密等关键字的文件。 软件主要功能: 1、全盘扫描,快速定位可疑文件; 2、对扫描结果快速浏览(双击打开),也可打开文件所在文件夹; 3、获取本机硬盘号(硬盘物理VID号); 4、对可以文件所在目录进行批量更名删

2022-08-24

wordpress-kratos-pjax-0.4.4

wordpress-kratos-pjax-0.4.4

2022-08-15

医学背景的院士、杰青、长江学者

2022年手工整理的资料,中国工程院和中国科学院中具有医学背景的院士,以及其他组织机构中具有杰青、长江学者荣誉的医学人才。 数据量:300多条。 数据格式:姓名-基本情况。 基本情况引用自百度百科。 姓名:卞修武 基本情况:人体病理学家,主要从事人体病理诊断和研究。1963年11月出生于安徽省寿县。1986年毕业于第三军医大学临床医学系,1989和1995年先后获该校硕士和博士学位。2017年当选为中国科学院院士。 姓名:丁健 基本情况: 肿瘤药理学家。江苏无锡人。1992年毕业于日本国立九州大学,获博士学位。现任中国科学院大学药学院院长、中国科学院学术委员会生命与健康专门委员会委员、中科院上海药物研究所学术委员会主任,曾任中科院上海药物研究所所长。 姓名:雷光华 基本情况: 雷光华,男,骨科学博士,一级主任医师,二级教授,博士生/后导师,中南大学湘雅医院院长。国家“万人计划”领军人才,教育部“长江学者”特聘教授,科技部“中青年科技创新领军人才”,国家卫生计生突出贡献中青年专家,享受国务院政府特殊津贴专家,国家临床重点专科骨科和运动医学科带头人

2022-06-30

郑州市产业园区规划信息,800多条。

公开信息,园区名称、省份、城市、地区、详细地址、大约面积(亩)、企业数、园区简介、园区专线等

2022-03-25

PC微信小程序解锁工具

PC微信小程序解锁工具

2022-01-13

unidbg0.9.5 Jar包

unidbg-android-0.9.5.jar 、 unidbg-api-0.9.5.jar

2022-01-09

Wireshark3.2.4中文版.zip

Wireshark3.2.4中文版

2021-12-01

提莫有情况 微信提示音修改

提莫 有情况 微信提示音修改方法和音频文件

2021-11-26

全国学校中小学高中学校名单列表

共24万条数据。字段:学校编号 学校名称 省份编号 省份 地市编号 地市 区县编号 区县

2021-11-19

人力资源行业投融资事件

国内外人力资源投融资事件,Hr投融资。截止到今天,一共1600条。字段:【时间、公司名、公司全称、网址、行业、子行业、轮次、金额、投资方、投后估值、最新估值(仅为估算 谨慎参考)、公司简介、地址】

2021-10-28

neo4j-community-4.3.6-windows

neo4j-4.3.6-windows 。 windows下的neo4j 数据库 4.3.6版本

2021-10-26

河南国企名单、河南国企名录

河南省内12000条国企数据,2021年9月整理,文件为excel。表中主要字段:公司名称、法定代表人、联系电话、地址、经营范围、行业代码、邮箱、公司类型。 格式清晰无遗漏,人工整理准确高

2021-09-24

全球地区_含经纬度城市中英文.json

全球城市中英文地区_含经纬度

2021-09-18

charles 4.2.7中文版.zip

我本地的 charles 4.2.7 中文版打包的。

2021-08-19

简历数据、人才数据、高管履历、

公司高管履历数据(1990-2020年)。数据将近8w条。 字段有:姓名、职务、任职日期、性别、国籍、出生年份、年龄、学历、最高学历、所属行业、职称、专业技术资格、年薪 上市公司高管信息、人才数据。

2021-08-09

京东商品销量预测分析python

基于情感分析与逻辑回归的京东商品的销售数据分析与预测。 京东商品评论爬虫、处理、可视化、情感分析与模型评估实践。 分为四大模块:爬虫、预处理、分析和可视化、建模,其余还包括配置和工具模块 - spider.py : 商品信息和评论数量 - process.py : 数据预处理和关系相关性分析 - models.py : 建模和预测 - data目录:存放数据:原始数据、预处理数据、训练集和测试集 - charts目录:存放数据可视化输出结果:词云图、折线图、饼状图 - crawler.py:爬虫模块 - res:资源文件,stopwords.txt存放停用词 - configs.py:存放所有相关的静态配置 - pipeline.py:主控制模块 - processing.py:数据预处理模块 - plotter.py:数据可视化模块 - model.py:建模与评估模块 - utils.py:工具类

2021-08-06

微博用户情感演化分析python

突发事件下微博用户的情感演化机理研究。疫情作为研究对象,确定突发事件和事件发生、爆发、结束三个相关时间矢点,按三个时段利用并发技术进行数据采集。通过机器学习等方法分析突发事件的不同时段的微博用户情感倾向,建立相关模型。使用贝叶斯线性回归方程分析网络用户情感变化趋势,建立微博用户情感演变的动态分析模型。总结舆情演化生命周期的划分结果。

2021-08-06

基于协同过滤的图书推荐系统python

基于物品的协同过滤算法实现图书推荐系统,前后端一体,页面丰富,功能俱全。

2021-08-06

招聘分析系统python

毕业设计,采集51job的数据做分析和可视化。Python3、urllib库、flask框架、Echarts.js、wordcloud库、sqlite3数据库。

2021-08-06

微博好友推荐系统python

基于itemcf的微博好友评分推荐系统。 采用flask 和 sqlite3 ,bootstrap搭建的推荐系统。有管理页、登陆、注册、详情、评分、列表等页面。

2021-08-06

EI-CPX--期刊目录

EI-CPX-期刊目录

2021-08-03

北大核心期刊目录.json

北大核心期刊目录.json

2021-08-03

html列表图片展示ui特效.zip

html列表图片展示ui特效,蓝色背景,静态页面

2021-07-26

SB-Admin2后台管理界面模板(黑色)

SB-Admin2后台管理界面模板(黑色)

2021-06-25

基于OCR的latex公式转换系统

采用pyqt5开发的基于OCR的latex公式转换系统,主要使用了mathpix的接口。 流程:输入含有数学公式的图片,会返回mathpix的结果。 输入方式:支持手动上传文件、或者从剪贴板复制。 输出结果: mathpix的结果转换为自然语言公式结果。 注意事项:运行前在config中输入你的mathpix账号和密码。 下载需知:本系统基于开源应用修改而来,增加了些功能。

2021-06-08

cityloads.zip

中国省市区县列表和世界城市列表

2021-05-19

世界国家名称简称中文名称.zip

220+的世界国家英文名称、简称代码、中文名称

2021-05-19

脉脉职位行业标签分类大全

json文件。脉脉的高级搜索标签,职位分类大全。 分类规则:顶级行业名称-->细分行业名称-->职业方向 - 金融业->银行业->(银行柜员、销售、理财经理/顾问、保险代理人、信贷业务、财务/审计/税务、基金经理、技术/研发、人力资源(HR)/人事、行政/后勤/文员等) - IT/互联网->云计算/大数据/人工智能->(研发、产品、数据分析、销售、设计、测试、运营、项目管理、风控、政府关系、客服、法务、财务、采购、人力资源、行政/后勤/文员、运维等)

2021-04-20

游侠网单机游戏评分数据2015-2020年

数据很齐全,字段更丰富,有游戏名、公司、平台、评分、语言、更新时间、发布时间、游戏大小、游戏类型、图片和链接。

2021-04-10

游侠网单机游戏数据集.csv

游侠网单机游戏数据库,从2009到2021年4月,一共有18000条数据。 字段:《游戏名、链接、图片、游戏类型、平台、发布时间、游戏大小》

2021-04-09

中国企业CEO名单、世界500强企业CEO名单、企业500强、全国乡镇企业家名单

中国知名企业CEO名单、世界500强企业的CEO名单、2020中国民营企业500强榜单、2020中国企业500强榜单、中国乡镇企业功勋、全国优秀乡镇企业家、全国乡镇企业家名单。一共5个文件。

2021-04-02

500强的首席执行官名单和著名公司的首席执行官名单

TOP500的首席执行官名单和著名公司的首席执行官名单。该列表还包括具有与首席执行官(CEO)(例如常务董事(MD))相对应的职位的主要高管,以及所有同时担任的职位。两个csv文件,注意文件格式。

2021-03-31

全球奖项收录情况.json

全球奖项获奖情况、国际奖项获奖名单。 一共近400个国际知名奖项,比如达尔文奖、国际生物学奖、克拉福德奖、阿斯图利亚斯王子奖、爱因斯坦世界科学奖、埃布尔森奖、瓦伦贝格奖等等,数据截至到当前日期。 Json文件,字段有【奖项名称、奖项简介、资金来源、管理机构、评奖程序、授奖形式、数据来源、获奖列表(获奖时间、人选、国家)】

2021-03-31

网页智能解析相关资料.rar

网页智能解析12篇相关论文,基于文档内容的提取方法,基于DOM的网页主体信息块抽取,基于xml的Deep+Web信息自动抽取技术的研究,基于文本行特征的网页正文信息抽取方法研究,基于重复模式识别的网页信息抽取研究等等。

2021-03-28

autojsApk和案例

Auto.js是一款安卓手机应用,和微信一样,安装在手机上使用。 Auto.js是一款自动化软件,根据脚本内容便可以自动地执行相关的操作,并且手机无需root。 Auto.js的脚本需要使用JavaScript编写。

2021-03-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除