2019年04月_考古学家lx(李玺)

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创爬虫管道

from datetime import datetimefrom scrapy.exporters import JsonItemExporter, CsvItemExporterimport pymongoimport redisfrom .settings import REDIS_HOST, REDIS_PORT, MONGO_HOST, MONGO_PORT数据源的管道cl...

2019-04-29 17:26:41 750

原创 selenium模拟国航滑块验证码

本文就是大致讲解下使用selenium进行这个滑块验证码的拖动问题。临时起意，看到了中国国际航空公司的官网，想试着采集下航班信息，发现官网是有不少难度的，操作也比较麻烦。于是就用 fiddler 找了下国航的app接口。https://m.airchina.com.cn/ac/于是我就直接开始采用selenium来进行页面信息采集。我们要请求的接口是： https://m.a...

2019-04-29 11:36:24 2933

原创 Fiddler抓取视频数据

准备工作：（1）、手机（安卓、ios都可以）/安卓模拟器，今天主要以安卓模拟器为主，操作过程一致。（2）、抓包工具：Fiddel 下载地址：（https://www.telerik.com/download/fiddler ）（3）、编程工具：pycharm（4）、安卓模拟器上安装抖音（逍遥安装模拟器）一、fiddler配置在tools中的options中，按照图中勾选后点击Actio...

2019-04-27 12:13:41 46490 102

原创 016：Scrapy使用中必须得会的问题

Scrapy 的优缺点?（1）优点：scrapy 是异步的采取可读性更强的 xpath 代替正则强大的统计和 log 系统，同时在不同的 url 上爬行支持 shell 方式，方便独立调试写 middleware,方便写一些统一的过滤器，通过管道的方式存入数据库（2）缺点：基于 python 的爬虫框架，扩展性比较差基于 twisted 框架，运行中的 exception 是不会干掉 re...

2019-04-24 15:44:20 1032

公司有一项业务是做某电商网站信息收集。系统是基于Scrapy框架开发的，由于python自身的队列不支持分布式，采用了Redis来作为url排重和队列，以实现爬虫的分布式抓取；存储采用的是mongodb数据库；动态网页采用的是Selenium模拟浏览器加载。其中实现了信息标题、时间、内容的自动抽取，类别等的自动划分等功能。做计划时把爬虫的改版任务列入计划中，我粗略规划了下下一步要改进的方面:...

2019-04-22 11:11:00 789

原创 Web机器人记录访问地和避免在动态虚拟web空间的循环和重复

2019-04-21 13:45:25 946

原创 Mysql一些面试题

1、Redis数据结构的底层实现https://www.cnblogs.com/ysocean/p/9080942.html2、Mysql对字段的一部分添加索引（例如一个公司的邮箱@后面都是一样的，如何只对@之前添加索引）https://blog.csdn.net/u011383596/article/details/803597403、Mysql事物的隔离性有几级，分别说一下https...

2019-04-17 21:37:11 1951

原创京东20W条数据统计清洗分析

Readme:针对京东商城20W条美的热水器评论数据进行统计清洗分析。分析出所有正面评论和负面评论。分词统计热词出现频率。分析出销售问题所在。开发环境：本项目的文本情感分析使用的是基于情感字典的文本情感分析。为了能够正确标注一段中文文本的情感。需要如下几个情感字典：①停用词字典：用于过滤掉一段文本中的噪声词组。②情感词字典：用于得到一段文本中带有情感色彩的词组及其评分。...

2019-04-14 19:38:17 6059

原创 AJAX 工作原理

1.什么是 AJAX?AJAX 全称为“Asynchronous JavaScript and XML”(异步 JavaScript 和 XML)，是一种创建交互式网页应用的网页开发技术。它使用：使用 XHTML+CSS 来标准化呈现;使用 XML 和 XSLT 进行数据交换及相关操作;使用 XMLHttpRequest 对象与Web 服务器进行异步数据通信;使用 Javascript...

2019-04-13 09:56:34 2384

原创 Hbase数据库

海量数据存储解决方案:Hbase数据库解析HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Had...

2019-04-10 20:25:00 4273

原创 Python算法基础题目

本篇文章内容是我从曾经的笔试题或者面试题中筛选出来的时间有点久远-------------------苹果2014年笔试题“逻辑学家们围成一圈坐着，他们的额头上面画有数字……”又来一个逻辑学家围成一圈的问题，这次是这样的，三个拥有完美逻辑推理能力的人围成一圈坐在一个房间里，每个人的额头上都画着一个大于0的数字，三个人的数字各不相同，每个人都看得见其他两个人的数字，看不见自己的。这三个...

2019-04-06 15:06:31 4892

原创支持向量机

.分类作为数据挖掘领域中一项非常重要的任务，它的目的是学会一个分类函数或分类模型(或者叫做分类器)。支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类（binary classification）的广义线性分类器（generalized linear classifier）。其决...

2019-04-04 16:08:39 2125

原创卷积神经网络

看这种文章，来首高山流水吧，省的太过干涩。卷积神经网络卷积神经网络，它们也被称作CNNs或着ConvNets，是深层神经网络领域的主力。它们已经学会对图像进行分类，在某些情况下甚至超过了人类。如果有一个方法证明了这种假设，那就是CNN。下图为卷积神经网络流程图：（这里看不懂没关系）为了帮助指导你理解卷积神经网络，我们讲采用一个非常简化的例子：确定一幅图像是包含有"X"还...

2019-04-01 21:22:13 1934

原创 015：Redis-Codis

Codis由来在大数据高并发场景下，单个 Redis 实例往往会显得捉襟见肘。首先体现在内存上，单个 Redis 的内存不宜过大，内存太大会导致 rdb 文件过大，进一步导致主从同步时全量同步时间过长，在实例重启恢复时也会消耗很长的数据加载时间，特别是在云环境下，单个实例内存往往都是受限的。其次体现在 CPU 的利用率上，单个 Redis 实例只能利用单个核心，这单个核心要完成海量数据的存取和...

2019-04-01 19:51:57 2662

本硕博学科专业目录-专业大类2023

普通高等学校本科专业目录、研究生学科专业目录、博士专业目录包括门类、专业类、专业代码、专业名称等

2023-02-23

河南省157所高校数据

涵盖字段如下：高校名称、简称(其他名称)、层次、院校类型、主管部门、人数(万)、办学类型、所在省份所在城市所在辖区详细地址双一流、211、占地面积(亩)、2022招生数量 2021招生数量、重点学科、官方网址、官方电话、电子邮箱、创建时间、硕士点数量、博士点数量、国家重点学科党委书记党委书记毕业院校校长校长毕业院校校长籍贯校长学位校长专业学校简介 Logo 国家特色专业双一流建设学科

2023-01-12

military和 defence期刊名、技术词.xlsx

简单整理了一份military 和 defence名列表和技术词列表

2022-12-09

高校毕业生就业管理平台项目建设方案

项目建设方案

2022-10-09

电脑知识稿件模板及要求-2015

电脑知识与技术的稿件模板及要求-2015

2022-09-25

涉密文件搜索工具、自检工具

能够快速找到电脑中含秘密机密绝密等关键字的文件。软件主要功能： 1、全盘扫描，快速定位可疑文件； 2、对扫描结果快速浏览（双击打开），也可打开文件所在文件夹； 3、获取本机硬盘号（硬盘物理VID号）； 4、对可以文件所在目录进行批量更名删

2022-08-24

wordpress-kratos-pjax-0.4.4

2022-08-15

医学背景的院士、杰青、长江学者

2022年手工整理的资料，中国工程院和中国科学院中具有医学背景的院士，以及其他组织机构中具有杰青、长江学者荣誉的医学人才。数据量：300多条。数据格式：姓名-基本情况。基本情况引用自百度百科。姓名：卞修武基本情况：人体病理学家，主要从事人体病理诊断和研究。1963年11月出生于安徽省寿县。1986年毕业于第三军医大学临床医学系，1989和1995年先后获该校硕士和博士学位。2017年当选为中国科学院院士。姓名：丁健基本情况：肿瘤药理学家。江苏无锡人。1992年毕业于日本国立九州大学，获博士学位。现任中国科学院大学药学院院长、中国科学院学术委员会生命与健康专门委员会委员、中科院上海药物研究所学术委员会主任，曾任中科院上海药物研究所所长。姓名：雷光华基本情况：雷光华，男，骨科学博士，一级主任医师，二级教授，博士生/后导师，中南大学湘雅医院院长。国家“万人计划”领军人才，教育部“长江学者”特聘教授，科技部“中青年科技创新领军人才”，国家卫生计生突出贡献中青年专家，享受国务院政府特殊津贴专家，国家临床重点专科骨科和运动医学科带头人

2022-06-30

郑州市产业园区规划信息，800多条。

公开信息，园区名称、省份、城市、地区、详细地址、大约面积(亩)、企业数、园区简介、园区专线等

2022-03-25

PC微信小程序解锁工具

2022-01-13

unidbg0.9.5 Jar包

unidbg-android-0.9.5.jar 、 unidbg-api-0.9.5.jar

2022-01-09

Wireshark3.2.4中文版.zip

Wireshark3.2.4中文版

2021-12-01

提莫有情况微信提示音修改

提莫有情况微信提示音修改方法和音频文件

2021-11-26

全国学校中小学高中学校名单列表

共24万条数据。字段：学校编号学校名称省份编号省份地市编号地市区县编号区县

2021-11-19

人力资源行业投融资事件

国内外人力资源投融资事件，Hr投融资。截止到今天，一共1600条。字段：【时间、公司名、公司全称、网址、行业、子行业、轮次、金额、投资方、投后估值、最新估值(仅为估算谨慎参考)、公司简介、地址】

2021-10-28

neo4j-community-4.3.6-windows

neo4j-4.3.6-windows 。 windows下的neo4j 数据库 4.3.6版本

2021-10-26

河南国企名单、河南国企名录

河南省内12000条国企数据，2021年9月整理，文件为excel。表中主要字段：公司名称、法定代表人、联系电话、地址、经营范围、行业代码、邮箱、公司类型。格式清晰无遗漏，人工整理准确高

2021-09-24

全球地区_含经纬度城市中英文.json

全球城市中英文地区_含经纬度

2021-09-18

charles 4.2.7中文版.zip

我本地的 charles 4.2.7 中文版打包的。

2021-08-19

简历数据、人才数据、高管履历、

公司高管履历数据（1990-2020年）。数据将近8w条。字段有：姓名、职务、任职日期、性别、国籍、出生年份、年龄、学历、最高学历、所属行业、职称、专业技术资格、年薪上市公司高管信息、人才数据。

2021-08-09

京东商品销量预测分析python

基于情感分析与逻辑回归的京东商品的销售数据分析与预测。京东商品评论爬虫、处理、可视化、情感分析与模型评估实践。分为四大模块：爬虫、预处理、分析和可视化、建模，其余还包括配置和工具模块 - spider.py : 商品信息和评论数量 - process.py : 数据预处理和关系相关性分析 - models.py : 建模和预测 - data目录：存放数据：原始数据、预处理数据、训练集和测试集 - charts目录：存放数据可视化输出结果：词云图、折线图、饼状图 - crawler.py：爬虫模块 - res：资源文件，stopwords.txt存放停用词 - configs.py：存放所有相关的静态配置 - pipeline.py：主控制模块 - processing.py：数据预处理模块 - plotter.py：数据可视化模块 - model.py：建模与评估模块 - utils.py：工具类

2021-08-06

国外有哪些顶尖的数据挖掘与智能交互研究机构呀

2021-06-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

本硕博学科专业目录-专业大类2023

河南省157所高校数据

military和 defence期刊名、技术词.xlsx

高校毕业生就业管理平台项目建设方案

电脑知识稿件模板及要求-2015

涉密文件搜索工具、自检工具

wordpress-kratos-pjax-0.4.4

医学背景的院士、杰青、长江学者

郑州市产业园区规划信息，800多条。

PC微信小程序解锁工具

unidbg0.9.5 Jar包

Wireshark3.2.4中文版.zip

提莫有情况 微信提示音修改

全国学校中小学高中学校名单列表

人力资源行业投融资事件

neo4j-community-4.3.6-windows

河南国企名单、河南国企名录

全球地区_含经纬度城市中英文.json

charles 4.2.7中文版.zip

简历数据、人才数据、高管履历、

京东商品销量预测分析python

微博用户情感演化分析python

基于协同过滤的图书推荐系统python

招聘分析系统python

微博好友推荐系统python

EI-CPX--期刊目录

北大核心期刊目录.json

html列表图片展示ui特效.zip

SB-Admin2后台管理界面模板（黑色）

基于OCR的latex公式转换系统

cityloads.zip

世界国家名称简称中文名称.zip

脉脉职位行业标签分类大全

游侠网单机游戏评分数据2015-2020年

游侠网单机游戏数据集.csv

中国企业CEO名单、世界500强企业CEO名单、企业500强、全国乡镇企业家名单

500强的首席执行官名单和著名公司的首席执行官名单

全球奖项收录情况.json

网页智能解析相关资料.rar

autojsApk和案例

国外有哪些顶尖的数据挖掘与智能交互研究机构呀

提莫有情况微信提示音修改