一 数据获取:
数据库或数据仓库
问卷数据 :csv(数据量比excel大) txt excel
合作数据 (第三方购买数据):注意数据来源
二 数据探索(EDA探索性数据分析)
1.数据观测:形状() 数据类型(不合适的类型要转换或映射) 观测有无重复值(分情况选择 不管或 删除) 空缺值(空缺率过大选择删除,或填充:经验法----前后填充;统计法----均值 中位数 众数 最大值 最小值 其他分位数),挖掘法:分类 回归) 异常值(过大或过小,不符合现实。修改为99%数据,删除) 特征的关联性检测(线性 非线性 图形检测(幂次相关 周期性相关) )
2.清洗数据:
三.数据预处理(数据分割):
挑选与因变量(y)相关的特征;
去除特征相关的其他特征(当某些特征表达一样的结果);
数据分割;
四.特征工程
1.无量纲化:对计算形式比较特殊的最近邻算法
2.文本的特征处理(TFIDF)
3.离散数据数值化:映射的一种。可将字符串换为数字型
4.分箱(pd.cut):定制化分箱;等距分箱;等频分箱(pd.qcut);聚类分箱(多因素聚为一类)
5.哑变量(OneHotEncoding):稀疏化(单位矩阵)
6.嵌入过程:特征的重要程度
五.选择算法模型
1.网格搜索和交叉验证
2.多算法测试
3.评估选定模型
4.模型保存
5.模型迭代
六.常见分析方法
1.PEST
帮助企业检阅其外部环境的一种方法
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B6MuPD5P-1628010859589)(数据处理步骤.assets/image-20210510200934504.png)]
2.5W2H模型:
对决策和执行性的活动措施有帮助,也有助于弥补问题的漏洞
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9Li0tX0X-1628010859592)(数据处理步骤.assets/image-20210510201134896.png)]
3.BCG波士顿矩阵:增长率、市场占有率
又称市场增长率—相对市场份额矩阵、四象限分析法、产品系列结构管理法等,是一种规划企业产品组合的方法。问题的关键在于要解决如何使企业的产品品种及其结构适合市场需求的变化
这个模型主要用来协助企业进行业务组合或投资组合。在矩阵坐标轴是的两个变量分别是业务单元所在市场的增长程度和所占据的市场份额
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U3OUMewW-1628010859593)(数据处理步骤.assets/c8177f3e670.jpg)]
4.帕累托分析(贡献度分析):
二八法则,即20%的产品提供80%的收益。有针对性的采取措施,提高效率减少成本。
5.相关性分析
Pearson(皮尔逊相关系数),Sperman(秩相关系数/斯皮尔曼相关系数)
data.corr(method='pearson')
# method='spearman'
6.市场营销理论4P,4C,4R,4S
4P是指产品product,价格price,地点place,促销promotion
4C是指消费者consumer,成本cost,便利convenience,沟通communication
4R是指与顾客建立关联Relevance,反应React,关系Relation,回报Return。
4S是指满意satisfaction,服务service,速度speed,诚意sincerity。
4R是指与顾客建立关联Relevance,反应React,关系Relation,回报Return。
4S是指满意satisfaction,服务service,速度speed,诚意sincerity。