自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

越吃越胖的博客

一个IT小白的进阶路

  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 Python_文本分析_分词

文本分词的介绍网上已经很全面了,这里主要介绍一种文本分词、去停用词的具体实现,停用词表是对百度、哈工大等常见停用词表融合后去重 import csv import datetime import re import pandas as pd import numpy as np import jieba # 停用词路径 def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', enc

2020-05-29 11:21:29 1955 3

原创 Python_notebook魔法函数

在学习过程中梳理了一些好用的魔法函数【持续更新】 % paste – 防止粘贴时候格式错乱 % timeit – 重复运行计算代码运行时间 % time – 计算长时间的代码运行时间 % mode – 控制异常 % debug – debug操作 ...

2020-05-23 01:39:43 1161

原创 Python_notebook快捷键

1 命令模式快捷键 H:显示快捷键帮助 F:查找和替换 P:打开命令面板 Ctrl-Enter:运行当前cell Shift-Enter:运行当前cell并跳转到下一cell Alt-Enter:运行当前cell并在下方新建cell Y:把当前cell内容转换为代码形式 M:把当前cell内容转换为markdown形式 16:把当前cell内容设置为标题16格式 Shift+上下键:按住Shift进行上下键操作可复选多个cell A:在上方新建cell B:在下方新建cell X/C/Shift-V/V:剪

2020-05-23 01:33:43 1536

原创 Python_数据分析_pandas_06合并与连接

1. 合并与连接 合并与链接基于pandas的merge()函数,链接的种类分为一对一链接、多对一链接、多对多链接 1.1 设置合并的键 基础的方式是on 合并的数据集列名不一致时:left_on right_on 1.2 设置合并的规则 内连接设置how = ‘inner’ 是默认设置(数据库中的inner join) 内连接对应的是外连接 outer 左连接left 对应右链接 right 2.案例:美国州数据 2.1 数据说明 数据链接为: https://github.com/

2020-05-19 23:18:25 1142

原创 Python_数据分析_pandas_05数据集合并

1. 合并数据集 基本函数为:pd.concat(objs, axis=0, join = ‘outer’, join_axes = None, ignore_index = False, verify_intergrity=Flase) List itemobjs为合并对象,列表表示 [A, B] axis是坐标轴方向,默认0按行合并 join有outer inner两种方式,及列取全集 交集 join_axes是针对不同列明自定义保留列 ignore_index:是无视索引 verify_int

2020-05-18 01:10:33 1106

原创 Python_数据分析_pandas_04缺失值处理

1. 缺失值处理 缺失值处理主要有三个内容、四个函数:发现缺失值(isnull() notnull())、删除缺失值(dropna())、填补缺失值(fillna()) 首先创建一个矩阵 1.1 发现缺失值 发现缺失值是生成布尔类型的掩码数据,两个函数相反 1.2 删除缺失值 基本类型dropna(axis=0, how =‘any’,tresh) ,其中axis是按行还是按列删除、how有两种any-有缺失值即删除和all-全部确实删除、tresh是限定非缺失值的数量 eg1:有缺失删除该列 e

2020-05-16 23:20:14 2139

原创 Python_数据分析_pandas_03数值运算

1. 运算类型 add(+) sub(-) mul(*) div(/) floordiv(//) mod(%) pow(**)构建两个DataFrame 1.1 add运算 加固定值、加某一行、加某一列 两个矩阵相加 1.2 sub运算 这里展示一个按行减改行最小值 1.3 div运算 其他用法类似,这里展示一下俺行进行归一化处理,即(value-min)/(max-min) ...

2020-05-16 22:43:47 1621

原创 Python_数据分析_Pandas_02数据取值与选择

2.数据取值与选择 2.1 Series数据选择方法 2.1.1 将Series看作字典 利用键值对索引 利用字典的表达式检测索引和值 2.1.2 将Series看作一维数组 可以利用索引-显式、隐式,掩码进行索引 2.1.3 索引器 loc iloc ix loc:取值和切片都是显式的 iloc:取值和切片都是隐式的 ix:是混合形式,主要用于DataFrame 2.2 DataFrame数据选择方法 首先创建一个较为有意义的DataFrame对象 2.2.1 将DataFra

2020-05-16 01:08:36 3345

原创 Python_数据分析_Pandas_01pandas对象简介

三个基本数据结构 pandas有三个基本数据结构:Series,DataFrame和Index 1.1 Series对象 创建对象pd.Series(data, index=index)——data可以是标量,可以是字典;index是可选参数 相比于NumPy数组,NumPy使用隐式定义数组索引获取数值;Pandas采用显式定义的索引获取数值,即索引可以自定义。 常用函数:values、index 1.2 DataFrame对象 创建方式:通过字典列表创建、通过Series创建、通过Numpy创建

2020-05-16 00:28:33 2572

SEM数据_对应博客进行数据分析

SEM数据_对应博客进行数据分析

2020-12-15

stopWordsNew.txt

最新停用词表,结合百度、哈工大等多家停用词并加入一些现在的停用词,使用前可进行集合去重,使用案例可以参照博文https://blog.csdn.net/weixin_44585839/article/details/106421761。有文本分析问题欢迎私信交流

2020-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除