![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
文章平均质量分 70
姚尔摩斯
这个作者很懒,什么都没留下…
展开
-
【机器学习】K-Nearest Neighbors
K-Nearest Neighborsn特征的数据可以概念化为位于n维空间中的点。 可以使用距离公式来比较数据点。相似的数据点之间的距离较小。 可以通过查找k最近邻居来对具有未知类别的点进行分类 为了验证分类器的有效性,可以将具有已知类的数据分成训练集和验证集。然后可以计算验证错误。 分类器具有可以调整的参数以提高其有效性。在K-Nearest Neighbors的情况下,k可以改...原创 2018-12-14 13:02:36 · 479 阅读 · 0 评论 -
【机器学习】距离公式
Euclidean DistanceManhattan DistanceHamming DistanceNormalization 1.Euclidean Distance 欧几里得距离def euclidean_distance(pt1,pt2): distance=0 for i in range(len(pt1)): distance+=(pt...原创 2018-12-13 14:59:02 · 579 阅读 · 0 评论 -
【python数据处理】matplotlib
最近学习python与数据处理时,发现数据总是很生硬,所以我便开始学习python一个强大的库matplotlib,可以有效将数据转化为直观的图形。1.一些公共的方法标签控制Modify Ticks 调整横纵坐标值注意要修改坐标名为sting类型时要 先使用plt.subplotax = plt.subplot()ax.set_xticks(months)ax.set_xt...原创 2018-11-06 21:31:45 · 972 阅读 · 0 评论 -
【python数据处理】pandas多表操作
pandas多表操作1.Inner Merge 合并dataframe pd.merge()将两张dataframe合成一张除了pandas的方法,each DataFrame都有自己的merge()方法查询 类似于SELECT WHEREresults = all_data[all_data.revenue > all_data.target]#1sales...原创 2018-12-02 22:03:47 · 2707 阅读 · 0 评论 -
【python数据处理】numpy
numpyarray与 python list很像1.第一种创建方式可用np.array方法将list转化成numpy arrayimport numpy as nptest_1=np.array([92, 94, 88, 91, 87])my_list = [1, 2, 3, 4, 5, 6]my_array = np.array(my_list)第二种创建方式将c...原创 2018-11-28 17:08:09 · 465 阅读 · 0 评论 -
【python数据处理】pandas行列操作及聚合
1.列操作 apply df.coulumn.function() (df.count.mean()这种)例子:将Name列全部大写 from string import upperdf['Name'] = df.Name.apply(upper)用lambda操作列例子:创建一列email的供应商df['Email Provider'] = df.Ema...原创 2018-12-02 21:41:06 · 4605 阅读 · 0 评论 -
【python数据处理】seaborn
简化了matplotlib 不存在直方图Seaborn是一个Python数据可视化库,它提供简单的代码,为统计探索和洞察创建优雅的可视化。Seaborn基于Matplotlib,但在几个方面改进了Matplotlib:Seaborn提供更具视觉吸引力的绘图风格和简洁的语法。 Seaborn本身了解Pandas DataFrames,可以更轻松地直接从CSV绘制数据。 Seaborn可...原创 2018-12-06 16:23:59 · 1714 阅读 · 0 评论 -
【python数据处理】pandas基础操作
基础操作 1.创建表 dataframe 类似于csv 与SQL表 方法1import codecademylibimport pandas as pddf1 = pd.DataFrame({ 'Product ID': [1, 2, 3, 4], 'Product Name': ['t-shirt', 't-shirt', 'skirt', 'skirt']...原创 2018-11-29 15:52:16 · 703 阅读 · 0 评论 -
【python数据处理】Lists
1.Lists [x,x,x,x]可以使用.append 或者 + 来连接heights = [61, 70, 67, 64]list 以逗号间隔ints_and_strings = [1, 2, 3, 'four', 'five']list 不限定同一种数据类型,上面可行heights = [['Jenny', 61], ['Alexus', 70], ['Sam...原创 2018-11-27 15:05:40 · 361 阅读 · 0 评论 -
【python数据处理】jieba分词
jieba(结巴)是一个强大的分词库,完美支持中文分词三种分词模式import jiebas = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'cut = jieba.cut(s)#三种模式print( '【Output】精确模式:')print (cut)print ('/'.join(cut))print( '【Output】全模式:')print (...原创 2018-11-07 17:35:45 · 1112 阅读 · 0 评论