自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 对岗位名称进行特征抽取,取出无用字符,保留有用信息

import pandas as pd import numpy as np import jieba from sklearn.feature_extraction.text import CountVectorizer data = pd.read_csv('python51job.csv')[:10] #读取csv里的数据 只取10条 # print(data) data1 =...

2019-05-06 19:49:28 185

原创 数据预处理

from sklearn import preprocessing #预处理模块 import numpy as np 均值移除 将数据跨度大(比如:[-1000,10,1000])的数据均值处理,处理到0和1左右, mean 平均值 Std 标准差 data = np.array([[-1000,10,40],[10,300,10],[20,1,30]]) print(data) [[-10...

2019-05-03 19:46:54 139

原创 分词

分词 import jieba cut_all=True 为全模式 cut_all=False为精确模式 result = jieba.lcut('他来到上海交通大学',cut_all=True) #全模式 print(result) ['他', '来到', '上海', '上海交通大学', '交通', '大学'] result1 = jieba.lcut('他来到上海交通大学'...

2019-05-03 19:39:43 267

原创 Matpltlib 画图

柱状图 bar import matplotlib from matplotlib import pyplot as plt %matplotlib inline #仅限于jupyter不支持 pycharm 替代 show() #指定默认字体 matplotlib.rcParams['font.sans-serif'] = ['SimHei'] #第一个参数:索引 #第二个参数:高...

2019-04-30 15:19:34 176

原创 Pandas

Pandas import pandas as pd 导入模块 import numpy as np #数据类型:series一维 dataframe 二维 series一维 data = pd.Series([1,2,3,4,5,6,7,8,9,10]) print(data) 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7...

2019-04-29 19:41:36 67

原创 numpy

import numpy as np 导入模块 #初始化矩阵 data = np.array([1,2,3,4,5,6,7,8]) print(data) [1 2 3 4 5 6 7 8] print(data.ndim) #查看高维数组的维度 查看是几维 1 print(data.shape) #查看高维数组的形状 (8,) print(data.reshape(2,4)) #...

2019-04-29 19:09:05 109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除