特征处理
CristinaM
这个作者很懒,什么都没留下…
展开
-
【特征工程】特征选择Feature Selection
正好在写这部分,就顺带练习一下吧。一如既往地,来源:https://towardsdatascience.com/feature-selection-techniques-1bfab5fe0784数据集:https://www.kaggle.com/uciml/mushroom-classification减少特征数量的好处有:准确性提高。减少过度拟合。加快训练速度。改进数据可视化...原创 2020-01-06 21:42:10 · 438 阅读 · 0 评论 -
【特征工程】(资料)使用Xgboost筛选特征重要性
资料:Using XGBoost For Feature SelectionFeature Importance and Feature Selection With XGBoost in Python原创 2019-12-14 16:42:10 · 881 阅读 · 0 评论 -
【特征工程】在机器学习中使用地理空间数据(转载)
原文:Working with Geospatial Data in Machine Learning如何使用地理空间类数据。首先通过可视化数据集(坐标点)来获得有价值的信息,然后,提出用于提取和创造新特征的不同方法,这些新特征将优化模型的建立。数据集来自:New York City Taxi Fare Prediction由于数据集实在太大,我只使用了测试集。import num...原创 2019-12-11 22:15:21 · 2013 阅读 · 0 评论 -
【特征工程】处理经纬度的9种方法/技巧(转载)
转载加修改:Feature engineering: all I learnt about Geo-spatial features1. 极坐标法Add two new features of Polar coordinates to the datasetx = Longitude;y = Latituderot_x = x * cosθ + y * sinθrot_y = x *...原创 2019-12-11 17:01:34 · 6261 阅读 · 0 评论 -
【CASE】芝加哥犯罪率数据集(CatBoostClassifier)
参考:top 2% based on CatBoostClassifier导入库与数据import numpy as npimport pandas as pdpd.set_option("display.max_columns", None)from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, OneHotEnc...原创 2019-12-12 15:32:22 · 2710 阅读 · 0 评论 -
【特征处理】Label Encoding与One Hot
其实Catboost自带处理类别数据的功能。但还是学习一下。Label Encoding与One Hot的区别-201805131.两类模型:(A)逻辑回归,SVM。对数值大小是敏感的,即变量间的数值大小本身是有比较意义的。(B)树模型。对数值变化不敏感,数值存在的意义更多的是为了排序,即0.1,0.2,0.3与1,2,3是没有区别的,这部分模型绝大部分是。2.两类类别变量:2.1...原创 2019-12-09 16:01:43 · 432 阅读 · 0 评论 -
把文本里含有某个关键词的赋值1,其余赋值为0
依旧是芝加哥犯罪的demo:dataset['Block'] = dataset['Address'].str.contains('block', case=False)dataset['Block'] = dataset['Block'].map(lambda x: 1 if x == True else 0)print(dataset.Block.head())0 01 ...原创 2019-12-08 22:36:21 · 723 阅读 · 0 评论 -
【特征处理】时间序列的一些处理
其余几个Demo讲清楚了,其实我就单拎出来。以消费者数据为例#%%import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport repd.set_option('display.max_columns', 1000)pd.set_option('dis...原创 2019-12-08 21:53:48 · 302 阅读 · 0 评论 -
芝加哥犯罪率数据集(数据分析与特征处理)
参照:SF-Crime Analysis & PredictionCrime Scene Exploration and Model Fit主要是因为这个数据集包含了时间序列和坐标点。练习一下特征处理。数据分析导入库#%%%matplotlib inlineimport numpy as np import pandas as pdimport mathimport s...原创 2019-12-08 16:42:35 · 6284 阅读 · 1 评论 -
LabelEncoer,类别特征转换为数值特征,transform的使用
demo参照E-Commerce Data那篇对country类别的处理。换个简单的数据集Demo:import pandas as pdimport numpy as npdf = pd.DataFrame({"Person": ["John", "Myla", "Lewis", "John", "Myla"], ...原创 2019-12-07 10:27:50 · 763 阅读 · 0 评论 -
kaggle上面的E-Commerce Data数据集练习(可视化与部分特征工程)
接上篇:https://editor.csdn.net/md/?articleId=103394900Part 2 特征工程及可视化一种处理时间数据的方法data.insert(loc = 2, column='year_month',value=data['InvoiceDate'].map(lambda x:100*x.year+x.month))data.insert(loc = ...原创 2019-12-06 11:27:25 · 1552 阅读 · 1 评论 -
kaggle上面的E-Commerce Data数据集练习(数据处理)
熟练一下pandas和数据处理项目地址参考:Python数据清洗指南Customer Segmentation with XGBoost (97.92%)项目描述:这是一个跨国数据集,包含2010年12月1日至2011年12月9日期间英国注册的非商店在线零售的所有交易。该公司主要销售独特的万能礼品。公司的许多客户都是批发商。Part 1 分析数据和清洗数据导入数据data = pd...原创 2019-12-04 21:46:52 · 3088 阅读 · 0 评论 -
pandas数据处理练习(数据集:犯罪率)
导入库import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npdata = pd.read_csv("C:\\Users\\Nihil\\Documents\\pythonlearn\\data\\random\\crimerate.csv")data.drop(...原创 2019-12-04 17:30:34 · 757 阅读 · 1 评论 -
数据共线性处理——用seaborn的方式(1),顺便也存些seaborn的资料
参考:https://zhuanlan.zhihu.com/p/50736139https://www.jiqizhixin.com/articles/2019-01-30-15https://lanpeihui.top/2018/09/27/%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9%E5%AE%9E%E8%B7%B5/http://codingdict.co...原创 2019-11-28 11:29:43 · 413 阅读 · 0 评论