python
文章平均质量分 54
不要香菜哈
摸鱼中……
展开
-
用Python实现主成分分析对数据进行降维
主成分分析主成分分析(Principal Component Analysis,PCA,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。1.准备数据在这里我们使用sklearn提供的鸢尾花数据集。import numpy as npfrom sklearn原创 2021-04-15 18:10:13 · 1140 阅读 · 3 评论 -
数据挖掘基础——数据标准化
数据标准化评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据,而在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。1.Min_Max标准化min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-m原创 2021-04-15 17:51:41 · 1123 阅读 · 2 评论 -
决策树的原理及构建(基于ID3算法)
决策树原理决策树(Decision Tree)是根据一系列规则对数据进行分类的过程。实际上决策树的生成过程就是使用满足划分准则的特征不断的将数据集划分为纯度更高,不确定性更小的子集的过程。对于当前数据集的每一次的划分,都希望根据某特征划分之后的各个子集的纯度更高,不确定性更小。在学习之前先了解几个概念。信息量:香农被称为“信息论之父”,他认为“信息就是用来消除不确定的性的东西”,也就是信息量越大,不确定性就越小,信息量的大小与事件发生的概率成反比。信息量的公式为:l(x)= -log2P(x) ,其原创 2021-04-05 22:39:47 · 3260 阅读 · 7 评论 -
Python爬取重点产业专利信息网(仅供学习交流!!)
由于要做有关专利方面的研究,所有选择了重点产业专利信息网获取数据,该网站提供了数据下载功能,但由于网站响应比较慢,而且需要数量较多,所以选择爬虫进行爬取。1.数据获取经过分析发现该网站需要模拟登录才能实现数据获取,并且我们从post请求的数据可以看出登录的用户名为: ‘cnipr’,密码为:123456。登录失请求的url为:‘http://chinaip.sipo.gov.cn/login’,该网站需要维持session,所以我们使用session = requests.session(),然后用原创 2021-04-01 14:03:48 · 3831 阅读 · 15 评论 -
基于LSTM的新型冠状病毒预测模型
基于LSTM的新型冠状病毒预测模型LSTM的优势我们本次使用tensorflow搭建LSTM模型功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入LSTM的优势长短期记忆网络(LSTM,Long Short-Term Memory原创 2021-04-01 13:26:33 · 7757 阅读 · 11 评论 -
找出数组中重复的数字
找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例 1:输入:[2, 3, 1, 0, 2, 5, 3]输出:2 或 3来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/s...原创 2020-02-14 16:08:24 · 492 阅读 · 2 评论 -
用python将爬取内容写入csv文件中用excel打开后的乱码问题
在平时的数据采集中我们经常会将一些数据存入csv文件,但是有时候用excel打开csv文件会发现乱码。可能有的人会问为什么不直接将数据写去excel中,而是先写入csv然后又用excel打开,不嫌麻烦嘛?这就是因为python写入csv文件比写入excel文件极其的方便和简单。就比如在追加写入的时候,如果我们使用excel就会比较麻烦,会用到xlutils这个库from xlutils.c...原创 2019-12-02 18:48:41 · 4386 阅读 · 1 评论 -
用selenium实现淘宝毫秒级自动抢券
淘宝秒杀脚本,扫码登录版from selenium import webdriverimport datetimeimport timedef main(): # 打开淘宝登录页,并进行扫码登录 #https://detail.tmall.com/item.htm?id=605884215543&spm=a1z0k.6846577.0.0.6aa35e765uE1E...原创 2019-12-02 18:28:12 · 6929 阅读 · 5 评论 -
python实现猫眼电影评论的爬取
直接上代码import xlrdimport requestsfrom lxml import etreeimport randomimport jsonpathimport jsonimport xlwtimport timeimport datetimeimport csvimport pandas as pd获取电影名称列表def get_movie_list(p...原创 2019-12-02 18:24:30 · 2741 阅读 · 0 评论 -
python抓取淘宝商品评论最新版
python抓取淘宝商品评论最新思路import jsonimport refrom lxml import etreeimport pandas as pdimport timeimport xlrdimport csvimport xlwtimport jsonpathdef loads_jsonp(jsonp): """ 解析json...原创 2019-12-02 18:19:59 · 2185 阅读 · 2 评论