数据获取与数据处理
数据获取与数据处理
WoLykos
这个作者很懒,什么都没留下…
展开
-
Python之Numpy的基础及进阶函数(图文)
一样,咱的计算机还是得先拥有Python,并且安装了Numpy库。有疑问的话可以看这里呦~~~~下面开讲: NumPy的主要对象是齐次多维数组。它是一个元素表(通常是数字),并且都是相同类型,由正整数的元组索引。 其他暂且略过,咱主要说一些可以听懂的并且有实际效用的。 首先,我们得创建有一个ndarry对象,简单地介绍其中三种方法吧: a=np.a...原创 2018-03-20 21:30:00 · 93 阅读 · 0 评论 -
Python习题(第2课)
一、天天向上的力量 C 一年365天,以第1天的能力值为基数,记为1.0。当好好学习时,能力值相比前一天提高N‰;当没有学习时,由于遗忘等原因能力值相比前一天下降N‰。每天努力或放任,一年下来的能力值相差多少呢?其中,N的取值范围是1到10,N可以是小数。 获得用户输入N,计算每天努力和每天放任365天后的能力值及能力间比值,其中,能力值保留小数点后2位,能力间比值输出整数,输出结果间...原创 2018-03-26 22:20:00 · 5644 阅读 · 0 评论 -
Python习题(第1课)
想了想其他的太简单了,还是不放了,剩三题吧。一、完美立方 编写一个程序,对任给的正整数N (N≤100),寻找所有的四元组(a, b, c, d),使得a^3= b^3 + c^3 + d^3,其中a,b,c,d 大于 1, 小于等于N。 输入一个正整数N (N≤100),输出 每行输出一个完美立方。输出格式为: Cube = a, Triple = (b,c,d) 其中a,b...原创 2018-04-03 23:53:00 · 1213 阅读 · 0 评论 -
Python习题(第一课)
想了想其他的太简单了,还是不放了,就这三题吧。一、完美立方 编写一个程序,对任给的正整数N (N≤100),寻找所有的四元组(a, b, c, d),使得a^3= b^3 + c^3 + d^3,其中a,b,c,d 大于 1, 小于等于N。 输入一个正整数N (N≤100),输出 每行输出一个完美立方。输出格式为: Cube = a, Triple = (b,c,d) 其中a,...原创 2018-04-03 23:54:19 · 996 阅读 · 0 评论 -
Python十题(第二课)
一、天天向上的力量 C 一年365天,以第1天的能力值为基数,记为1.0。当好好学习时,能力值相比前一天提高N‰;当没有学习时,由于遗忘等原因能力值相比前一天下降N‰。每天努力或放任,一年下来的能力值相差多少呢?其中,N的取值范围是1到10,N可以是小数。 获得用户输入N,计算每天努力和每天放任365天后的能力值及能力间比值,其中,能力值保留小数点后2位,能力间比值输出整数,输出结果间...原创 2018-04-06 16:01:24 · 3251 阅读 · 0 评论 -
Python之Numpy的基础及进阶函数(图文)
一样,咱的计算机还是得先拥有Python,并且安装了Numpy库。有疑问的话可以看这里呦~~~~下面开讲: NumPy的主要对象是齐次多维数组。它是一个元素表(通常是数字),并且都是相同类型,由正整数的元组索引。 其他暂且略过,咱主要说一些可以听懂的并且有实际效用的。 首先,我们得创建有一个ndarry对象,简单地介绍其中三种方法吧: a=np.a...原创 2018-04-21 20:52:03 · 344 阅读 · 0 评论 -
Python习题(第3课)
一、独一无二的路 从前有一只小小的机器人叫小器,小器站在一个M*N的格子地板的最左上角,很孤单,世界辣么大,它也想去看看,经过不懈的努力它终于可以(只能)向下或者向右移动啦,它有一个宏伟的愿望就是要穿过格子地板到达右下角的砖,所以如果小器告诉你M和N,你能不能帮它计算一下这中间可以有多少条独一无二的路径? 代码如下:(递归,个人喜欢,但可能会超出时间) 1 def way...原创 2018-07-21 11:08:00 · 556 阅读 · 0 评论 -
Python基础知识之疑点难点
一、标识符(1) 标识符不能以数字开头;以下划线开头的标识符具有特殊的意义,使用时需要特别注意。 以单下划线开头(如_foo)的标识符代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用 “from xxx import *”而导入。 以双下划线开头(如__foo)的标识符代表类的私有成员。 以双下划线开头和结尾(如__foo__)的标识符代表Python里特殊方法专...原创 2018-07-22 09:21:00 · 109 阅读 · 0 评论 -
Python之Pandas知识点
很多人都分不清Numpy,Scipy,pandas三个库的区别。在这里简单分别一下:NumPy:数学计算库,以矩阵为基础的数学计算模块,包括基本的四则运行,方程式以及其他方面的计算什么的,纯数学; SciPy :科学计算库,有一些高阶抽象和物理模型,在NumPy基础上,封装了一层,没有那么纯数学,提供方法直接计算结果; 比如: 做个傅立叶变换,这是纯数学的,用Numpy; 做个滤...原创 2018-07-22 11:49:00 · 198 阅读 · 0 评论 -
标签与分类
这阵子越写越觉得自己的标签和分类有点乱,所以决定花点时间整理一下,方便自己也方便博友们了解和查找。 (以标签为主,分类为次,持续更新)标签:Python(13):基础知识,难点疑点,以及下方的各种库 Pandas(5) error(4):各种报错和解决方案 其他(2) 软件工程(6):构建流程 numpy(4) 数据处理(4):数据分析的一模...原创 2018-07-28 10:50:00 · 183 阅读 · 0 评论 -
ctypes库调用dll的个人见解
最近着手开发一个小东西涉及到了API接口的知识点,第一次使用到了ctypes库,在网上找了一大圈,基本都是讲add.dll之后就没了。就像下面这个:from ctypes import *dll = CDLL(“test.dll”) # 调用 test.dlldll.add(10, 30) # 调用 add 函数 而我需要的读出一张ACR122U卡的卡号,于是愚笨地写下...原创 2018-11-05 11:32:00 · 145 阅读 · 0 评论 -
Python爬虫总结——常见的报错、问题及解决方案
在爬虫开发时,我们时常会遇到各种BUG各种问题,下面是我初步汇总的一些报错和解决方案。在以后的学习中,如果遇到其他问题,我也会在这里进行更新。各位如有什么补充,欢迎评论区留言~~~问题:IP被封,或者因访问频率太高被拦截???解决方案之一:使用代理IP即可。问题:正确使用XPath之后并没有输出???解决方案之一:XPath只能提取未注释的代码,改用正则表达式即可。...原创 2019-12-24 21:59:50 · 10627 阅读 · 0 评论 -
Python爬虫进阶——Request对象之Get请求与URL编码【英雄联盟吧】
在上一篇中,我们是通过urllib.request.urlopen直接访问的网页地址,但在实际应用中,我们更多地使用urllib.request.Request对象,因为其可以封装headers和data。一、Request类的参数class Request: def __init__(self, url, data=None, headers={}, ...原创 2019-12-20 16:31:18 · 1415 阅读 · 0 评论 -
Python爬虫基础——正则表达式
说到爬虫,不可避免的会牵涉到正则表达式。因为你需要清晰地知道你需要爬取什么信息?它们有什么共同点?可以怎么去表示它们?而这些,都需要我们熟悉正则表达,才能更好地去提取。先简单复习一下各表达式所代表的意思:案例:定义密码的正则表达式:英文字母开头,可以包括数字、大小写英文字母、下划线,6-16位。表达式为:password_pattern='^[a-zA-Z]{1}[a-zA...原创 2019-12-19 22:39:42 · 869 阅读 · 0 评论 -
Python爬虫基础——re模块的提取、匹配和替换
re是Python的一个第三方库。为了能更直观的看出re的效果,我们先新建一个HTML网页文件(可直接复制):index.html<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title><...原创 2019-12-19 23:31:25 · 2172 阅读 · 0 评论 -
Python爬虫进阶——JsonPath使用案例
如果一个网站采用前端渲染,那么这个网站的前端会访问后端的一些接口,然后拿到后端向前端返回的数据(一般都是Json类型,Json对象的本质其实是一个bytes字节流,但我们可以通过转码的方式,把它转成str),再把Json数据交给JS,JS对其进行解析,最终渲染页面。这就是前端渲染的一个流程。很多商城网站都会这样做,因为可以减缓服务器的压力。那对于我们爬虫开发来说,如果我们拿到了后端向前端返...原创 2019-12-20 14:27:00 · 648 阅读 · 0 评论 -
Python 数据分析基础小结
一、数据读取1、读写数据库数据读取函数:pandas.read_sql_table(table_name, con, schema=None, index_col=None, coerce_float=True, columns=None) pandas.read_sql_query(sql, con, index_col=None, coerce_float=True) pand...原创 2018-09-04 10:22:00 · 523 阅读 · 0 评论 -
分类模型构建
分类模型构建 分类是指构造一个分类模型,输入样本的特征值,输出对应的类别,将每个样本映射到预先定义好的类别中。分类模型若建立在已有类标记的数据集上,则属于有监督学习。在实际应用场景中,分类算法被用于行为分析,物品识别,图像检测等。模块 函数 算法名称 linear_model LogisticRegression 逻辑斯蒂回归 svm SVC ...原创 2018-08-31 16:31:00 · 2423 阅读 · 0 评论 -
数据分析——数据校验
很多时候在数据分析之前,我们需要对样本进行校验,以确定样本的价值。 先写入数据:import pandas as pdimport numpy as npdf = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90], '二班':[75,98,100,None,77,45,None...原创 2018-07-25 22:31:00 · 818 阅读 · 0 评论 -
数据处理——缺失值处理
数据导入可见:《Python之Pandas知识点》此文图方便,就直接输入数据了。import pandas as pddf = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90], '二班':[75,98,100,None,77,45,None,66,56,80,57], ...原创 2018-07-28 08:54:00 · 287 阅读 · 0 评论 -
数据处理——异常值检测
一、3σ原则 3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。 正态分布状况下,数值分布表:数值分布 在数据中的占比 (μ-σ,μ+σ) 0.6827 (μ-2σ,μ+2σ) 0.9545 (μ-3σ,μ+3σ) 0...原创 2018-07-28 09:15:00 · 2437 阅读 · 1 评论 -
数据处理——时间数据处理
时间类型数据的转换(字符串转为时间)pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix')arg:表示想要转换...原创 2018-07-28 09:35:00 · 324 阅读 · 0 评论 -
数据处理——数据合并
# 一样,数据处理就先给导入pandas先import pandas as pd# df1==df2df1 = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90], '二班':[75,98,100,None,77,45,None,66,56,80,57], ...原创 2018-07-28 15:42:00 · 406 阅读 · 0 评论 -
数据处理——数据变换
1哑变量处理 也叫独热编码,英文:One-hot Encoding。可将任意离散型数据变为0-1数值。import pandas as pddf = pd.DataFrame({'性别':['男','女','男'], '学历':['本科','硕士','本科'], '民族':['汉族','仫佬族','维吾尔族...原创 2018-07-30 20:39:00 · 235 阅读 · 0 评论 -
数据分析处理——透析表和交叉表
1透视表 数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。 之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。 数据分析中的透析表十分强大,甚至可以说是相当于分组聚合外加哑变量三个步骤了。但有个前提就是:在使用透析表之前,你必须明确知道...原创 2018-08-04 09:25:00 · 1128 阅读 · 0 评论 -
数据处理——数据集划分
数据集划分一般在日常工作中我们会将数据集拆分为训练集(train_set)和测试集(test_set)训练集:一般用于训练模型,需要尽可能保证训练的数据具有代表性。 测试集:用于测试模型,检测模型的性能(包括了运行时间,模型的效果等)trian_test_split(*arrays,train_size,test_size,ramdom_state)*arrays:表示需要进行划...原创 2018-08-31 09:57:00 · 610 阅读 · 0 评论 -
sklearn——数据集调用及应用
忙了许久,总算是又想起这边还没写完呢。 那今天就写写sklearn库的一部分简单内容吧,包括数据集调用,聚类,轮廓系数等等。自带数据集API数据集函数 中文翻译 任务类型 数据规模 load_boston Boston房屋价格 回归 506*13 fetch_california_housing 加州住房 回归 2064...原创 2018-08-31 10:45:00 · 1035 阅读 · 0 评论 -
回归模型构建
回归模型构建模块 函数 算法名称 简称 linear_model LinearRegression 线性回归 LR svm SVR 支持向量机回归 SVM neighbors KNeighborsRegressor 最近邻回归 KNN tree DecisionTreeRegressor 回归决...原创 2018-08-31 14:57:00 · 454 阅读 · 0 评论 -
WOE和IV
woe全称是“Weight of Evidence”,即证据权重,是对原始自变量的一种编码形式。进行WOE编码前,需要先把这个变量进行分组处理(离散化) 其中,pyi是这个组中响应客户(即模型中预测变量取值为“是”或1的个体,也叫坏样本)占所有样本中所有响应客户的比例,pni是这个组中未响应客户(也叫好样本)占样本中所有未响应客户的比例; #yi是这个组中响应客户的数量,#ni...原创 2018-09-04 15:35:00 · 199 阅读 · 0 评论