自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

越吃越胖的博客

一个IT小白的进阶路

12月 11月 09月 08月 07月 06月 05月 03月 02月

原创 Python_文本分析_分词

文本分词的介绍网上已经很全面了，这里主要介绍一种文本分词、去停用词的具体实现，停用词表是对百度、哈工大等常见停用词表融合后去重 import csv import datetime import re import pandas as pd import numpy as np import jieba # 停用词路径 def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', enc

2020-05-29 11:21:29 1955 3

原创 Python_notebook魔法函数

在学习过程中梳理了一些好用的魔法函数【持续更新】 % paste – 防止粘贴时候格式错乱 % timeit – 重复运行计算代码运行时间 % time – 计算长时间的代码运行时间 % mode – 控制异常 % debug – debug操作 ...

2020-05-23 01:39:43 1161

原创 Python_notebook快捷键

1 命令模式快捷键 H：显示快捷键帮助 F：查找和替换 P：打开命令面板 Ctrl-Enter：运行当前cell Shift-Enter：运行当前cell并跳转到下一cell Alt-Enter：运行当前cell并在下方新建cell Y：把当前cell内容转换为代码形式 M：把当前cell内容转换为markdown形式 16：把当前cell内容设置为标题16格式 Shift+上下键：按住Shift进行上下键操作可复选多个cell A：在上方新建cell B：在下方新建cell X/C/Shift-V/V：剪

2020-05-23 01:33:43 1536

原创 Python_数据分析_pandas_06合并与连接

1. 合并与连接合并与链接基于pandas的merge()函数，链接的种类分为一对一链接、多对一链接、多对多链接 1.1 设置合并的键基础的方式是on 合并的数据集列名不一致时：left_on right_on 1.2 设置合并的规则内连接设置how = ‘inner’ 是默认设置（数据库中的inner join）内连接对应的是外连接 outer 左连接left 对应右链接 right 2.案例：美国州数据 2.1 数据说明数据链接为： https://github.com/

2020-05-19 23:18:25 1142

原创 Python_数据分析_pandas_05数据集合并

1. 合并数据集基本函数为：pd.concat（objs, axis=0, join = ‘outer’, join_axes = None, ignore_index = False, verify_intergrity=Flase） List itemobjs为合并对象，列表表示 [A, B] axis是坐标轴方向，默认0按行合并 join有outer inner两种方式，及列取全集交集 join_axes是针对不同列明自定义保留列 ignore_index：是无视索引 verify_int

2020-05-18 01:10:33 1106

原创 Python_数据分析_pandas_04缺失值处理

1. 缺失值处理缺失值处理主要有三个内容、四个函数：发现缺失值（isnull() notnull()）、删除缺失值（dropna()）、填补缺失值（fillna()）首先创建一个矩阵 1.1 发现缺失值发现缺失值是生成布尔类型的掩码数据，两个函数相反 1.2 删除缺失值基本类型dropna(axis=0, how =‘any’,tresh) ，其中axis是按行还是按列删除、how有两种any-有缺失值即删除和all-全部确实删除、tresh是限定非缺失值的数量 eg1：有缺失删除该列 e

2020-05-16 23:20:14 2139

原创 Python_数据分析_pandas_03数值运算

1. 运算类型 add(+) sub(-) mul(*) div(/) floordiv(//) mod(%) pow(**)构建两个DataFrame 1.1 add运算加固定值、加某一行、加某一列两个矩阵相加 1.2 sub运算这里展示一个按行减改行最小值 1.3 div运算其他用法类似，这里展示一下俺行进行归一化处理，即（value-min）/（max-min） ...

2020-05-16 22:43:47 1621

原创 Python_数据分析_Pandas_02数据取值与选择

2.数据取值与选择 2.1 Series数据选择方法 2.1.1 将Series看作字典利用键值对索引利用字典的表达式检测索引和值 2.1.2 将Series看作一维数组可以利用索引-显式、隐式，掩码进行索引 2.1.3 索引器 loc iloc ix loc：取值和切片都是显式的 iloc：取值和切片都是隐式的 ix：是混合形式，主要用于DataFrame 2.2 DataFrame数据选择方法首先创建一个较为有意义的DataFrame对象 2.2.1 将DataFra

2020-05-16 01:08:36 3345

原创 Python_数据分析_Pandas_01pandas对象简介

三个基本数据结构 pandas有三个基本数据结构：Series，DataFrame和Index 1.1 Series对象创建对象pd.Series(data, index=index)——data可以是标量，可以是字典；index是可选参数相比于NumPy数组，NumPy使用隐式定义数组索引获取数值；Pandas采用显式定义的索引获取数值，即索引可以自定义。常用函数：values、index 1.2 DataFrame对象创建方式：通过字典列表创建、通过Series创建、通过Numpy创建

2020-05-16 00:28:33 2572

SEM数据_对应博客进行数据分析

SEM数据_对应博客进行数据分析

2020-12-15

stopWordsNew.txt

最新停用词表，结合百度、哈工大等多家停用词并加入一些现在的停用词，使用前可进行集合去重，使用案例可以参照博文https://blog.csdn.net/weixin_44585839/article/details/106421761。有文本分析问题欢迎私信交流

2020-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除