Python
文章平均质量分 81
ziyin_2013
这个作者很懒,什么都没留下…
展开
-
熵值法原理、应用及其Python实现
熵值法是一种依据各指标值所包含的信息量的多少确定指标权重的客观赋权法,某个指标的熵越小,说明该指标值的变异程度越大,提供的信息量也就越多,在综合评价中起的作用越大,则该指标的权重也应越大。熵值法可单独进行综合评价;也可以与其他方法相结合,如层次分析法,用熵值法确定各指标的权重,然后运用层次分析法得到各个评价对象的综合得分。原创 2021-05-22 18:26:03 · 24816 阅读 · 14 评论 -
数据清洗:Python删除一条记录内的换行符
近日在处理数据的时候遇到一条记录内存在换行符"\n",记录结尾处以“\r\n”换行,如果不注意有可能读取过来按两条记录处理了。这种情况下,如何保证数据原样读取,另外为了避免因记录内存在换行符"\n"干扰数据应用,考虑将其删除。原创 2021-04-17 11:42:09 · 1050 阅读 · 1 评论 -
数据清洗:pandas缺失值处理
缺失数据在大部分数据分析应用中都很常见,数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。缺失值产生的原因有很多中,要根据缺失值产生的原因选择适当的处理方式,缺失值的处理方式主要有删除、填充、不处理。Python中的pandas库提供了对缺失数据的处理,pandas使用浮点值NaN(Not a Number)表示浮点和非浮点数组中的缺失数据,便于监测。原创 2021-04-13 09:18:02 · 540 阅读 · 0 评论 -
数据清洗:Python将一列数据拆分成多列
最近在处理数据的时候遇到这样一个问题,原始数据中有些字段以(key:value)形式存储的数据,如表中Sex一列取值[F: Female],其中F是key、Female是具体的value。为了简化数据,利用pandas.Series.str.split(pat=None, n=-1, expand=False)进行数据拆分,只取其中的value。原创 2021-04-02 15:17:31 · 13545 阅读 · 3 评论 -
Python将Excel转成Json格式
Json是一种轻量级的数据交换格式,简洁和清晰的层次结构使其成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。然而我们很多数据经常是用Excel处理或保存的,为了更好的让研发人员使用,需要将数据转成Json格式。Python中提供了json模块,可用json.dumps()和json.loads()函数分别编码和解码Json对象。原创 2021-02-10 14:22:10 · 7908 阅读 · 1 评论 -
Python实现基于3σ原则的异常值检测
异常值是指样本中的个别值明显偏离其余的观测值。异常值的存在会对数据分析、建模产生干扰,因此需要对数据集进行异常值检测并进行异常值删除或修正,以便后续更好地进行数据分析和挖掘。对于异常值检测,有描述性统计、3σ原则方法、箱线图、基于聚类的方法等,而3σ原则是最常使用的异常值检测方法之一。在3σ原则下,一般认为数据的取值99.7%的概率集中在(μ-3σ,μ+3σ)区间内(μ为平均值,σ为标准差),超出这个范围的可能性仅占0.3%,属于极个别的小概率事件,因此将超出(μ-3σ,μ+3σ)范围的值认为是异常值。原创 2021-01-24 15:49:41 · 16359 阅读 · 11 评论 -
运用Python+ElementTree解析XML
近日遇到一些XML数据,想把其解析出来,便于后期归纳汇总数据。搜集资料,发现运用Python的ElementTree可以解析XML数据。ElementTree提供了parse()、from_string()、ElementTree类ElementTree()等方式解析xml。然后可以直接循环遍历,也可以采用find(match)、findall(match) 、 iter(tag=None)等方法来匹配遍历。原创 2021-01-17 14:41:06 · 672 阅读 · 0 评论