数据科学导论
文章平均质量分 82
rose~Fxl
这个作者很懒,什么都没留下…
展开
-
数据科学导论重点(三)
文本数据体量和市场价值典型的文本处理与分析场景。原创 2023-02-18 08:27:38 · 93 阅读 · 0 评论 -
数据科学导论重点(二)
对现实世界的一种“有用”的简化估计(Estimation)是使用观测到的数据来拟合参数预测(Prediction)是使用拟合的参数来求解未知的数据 在简单(一元)线性回归SLR模型基础上添加更多的独立变量 d维 1. 根据支持度,寻找所有的频繁项集(频繁k项集) 2. 根据频繁项集,生成频繁规则(长度大于2的频繁k项集) 暴力解法 频繁项集生成的经典算法 ◼APriori算法 ◼DHP算法(课后学习)原创 2023-02-18 02:51:24 · 322 阅读 · 0 评论 -
数据科学导论重点(一)
连续数据过于细致,数据之间的关系难以分析划分为离散化的区间,发现数据之间的关联,便于算法处理非监督离散化(无类别信息)数值型变量分箱Binning可以减少数据量、压缩数据、去除异常值•等宽划分离散化•优点:简单、易懂•缺点:分成多少个箱合适?受噪音影响大•等高划分离散化等频分箱使用、等距分箱使用聚类:监测并且去除噪声数据•将类似的数据聚成簇• 每个簇计算一个值用以将该簇的数据离散化有监督离散化(有类别信息)—基于熵的离散化。原创 2023-02-17 23:58:11 · 908 阅读 · 0 评论