机器学习
苏路
这个作者很懒,什么都没留下…
展开
-
分词
分词import jiebacut_all=True 为全模式 cut_all=False为精确模式result = jieba.lcut('他来到上海交通大学',cut_all=True) #全模式print(result)['他', '来到', '上海', '上海交通大学', '交通', '大学']result1 = jieba.lcut('他来到上海交通大学'...原创 2019-05-03 19:39:43 · 267 阅读 · 0 评论 -
数据预处理
from sklearn import preprocessing #预处理模块import numpy as np均值移除将数据跨度大(比如:[-1000,10,1000])的数据均值处理,处理到0和1左右,mean 平均值Std 标准差data = np.array([[-1000,10,40],[10,300,10],[20,1,30]])print(data)[[-10...原创 2019-05-03 19:46:54 · 137 阅读 · 0 评论 -
numpy
import numpy as np 导入模块#初始化矩阵data = np.array([1,2,3,4,5,6,7,8])print(data) [1 2 3 4 5 6 7 8]print(data.ndim) #查看高维数组的维度 查看是几维 1print(data.shape) #查看高维数组的形状 (8,)print(data.reshape(2,4)) #...原创 2019-04-29 19:09:05 · 108 阅读 · 0 评论 -
Pandas
Pandasimport pandas as pd 导入模块import numpy as np#数据类型:series一维 dataframe 二维series一维data = pd.Series([1,2,3,4,5,6,7,8,9,10])print(data)0 11 22 33 44 55 66 77...原创 2019-04-29 19:41:36 · 67 阅读 · 0 评论 -
对岗位名称进行特征抽取,取出无用字符,保留有用信息
import pandas as pdimport numpy as npimport jiebafrom sklearn.feature_extraction.text import CountVectorizer data = pd.read_csv('python51job.csv')[:10] #读取csv里的数据 只取10条# print(data)data1 =...原创 2019-05-06 19:49:28 · 183 阅读 · 0 评论