数据挖掘
浩波的笔记
微信公众号:浩波的笔记
展开
-
早高峰共享单车潮汐点的群智优化(想法)
一些想法结合天气、地理环境等因素对时间进行分类讨论,分为工作日和周末实时计算潮汐点的变化,进行动态推荐,并结合红绿等,与当地公交、地铁相结合来进行多种交通方式推荐,提供多条路线供用户选择。统计每辆单车骑行率,对于骑行率低的单车做一些特殊处理(减少权重等等)额外数据公交数据地铁数据打车服务数据天气等数据...原创 2021-02-25 00:18:42 · 445 阅读 · 0 评论 -
早高峰共享单车潮汐点的群智优化Baseline
参考自:coogle数据科学 https://coggle.club/learn/dcic2021/赛题说明2021数字中国创新大赛大数据赛道-城市管理大数据专题原创 2021-02-19 23:00:45 · 2239 阅读 · 5 评论 -
天池-新闻推荐-数据分析
前言读取数据此次比赛是新闻推荐场景下的用户行为预测挑战赛, 是Datawhale与天池联合举办,该赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题!赛题链接: 零基础入门推荐系统 - 新闻推荐对于刚接触推荐系统同学推荐先浏览以下基础知识:推荐系统摘要推荐系统知识梳理——协同过滤推荐系统知识梳理——矩阵分解推荐系统原创 2020-11-27 22:54:54 · 1829 阅读 · 0 评论 -
数据竞赛入门-金融风控(贷款违约预测)五、模型融合
前言本次活动为datawhale与天池联合举办,为金融风控之贷款违约预测挑战赛(入门)比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均简单平均法简单加权平均,结果直接融合 求多个预测结果的原创 2020-09-27 23:56:55 · 1204 阅读 · 0 评论 -
数据竞赛入门-金融风控(贷款违约预测)四、建模与调参
前言本次活动为datawhale与天池联合举办,为金融风控之贷款违约预测挑战赛(入门)比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction模型对比与性能评估逻辑回归推荐博客:机器学习笔记I: 基于逻辑回归的分类预测机器学习系列(1)_逻辑回归初步优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合原创 2020-09-24 23:53:28 · 2697 阅读 · 0 评论 -
数据竞赛入门-金融风控(贷款违约预测)三、特征工程
注:之后会加详细说明:明晚前导入包并读取数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_selection import SelectKBestfrom原创 2020-09-21 23:58:05 · 600 阅读 · 0 评论 -
数据竞赛入门-金融风控(贷款违约预测)二、EDA
查看某一个数值型变量的分布,查看变量是否符合正态分布,如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出正态化的原因:一些情况下正态非正态可以让模型更快的收敛,一些模型要求数据正态(eg. GMM、KNN),保证数据不要过偏态即可,过于偏态可能会影响模型预测结果。...原创 2020-09-18 23:56:36 · 809 阅读 · 0 评论 -
数据竞赛入门-金融风控(贷款违约预测)一、赛题介绍
赛题概况比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。通过这道赛题来引导大家走进金融风控数据竞赛的世界,主要针对于于竞赛新人进行自我练习、自我提高.原创 2020-09-15 22:55:41 · 1098 阅读 · 0 评论 -
DCIC巡游车与网约车运营特征对比分析-数据读取
读取代码由于赛题给定的数据集文件都比较大,文件行数都比较多,如果完全进行读取可会让电脑卡死,内存爆炸;可以只读取部分文件,读取单个文件完成数分析;修改字段类型节约空间;接下来看单个文件和部分文件的读取方法1. 巡游车GPS数据读取在读取数据时,可以完成以下操作:通过read_csv函数输入路径和nrows设置读取的文件行数;nrows可以取值为数值或者None,前者数值控制行数,后者读取所有(默认是读取所有);读取完成后的数据为DataFrame形式,可以通过describe()函数原创 2020-09-10 16:57:00 · 811 阅读 · 1 评论 -
数据挖掘之方差分析
1 概要方差分析(Analysis of variance, ANOVA) 主要研究分类变量作为自变量时,对因变量的影响是否是显著的。方差分析的方法是由20世纪的统计学家Ronald Aylmer Fisher在1918年到1925年之间提出并陆续完善起来的,该方法刚开始是用于解决田间实验的数据分析问题,因此,方差分析的学习是和实验设计、实验数据的分析密不可分的。实验设计和方差分析都有自己相应的语言。因此,在这里我们通过一个焦虑症治疗的实例,先了解一些术语,并且思考一下,方差分析主要用于解决什么样的问原创 2020-06-30 23:50:43 · 674 阅读 · 0 评论 -
数据挖掘之数理统计与常见分布与假设检验
1 一般随机变量1.1 随机变量的两种类型根据随机变量可能取值的个数分为离散型(取值有限)和连续型(取值无限)两类。1.2 离散型随机变量对于离散型随机变量,使用概率质量函数(probability mass function),简称PMF,来描述其分布律。假定离散型随机变量X,共有n个取值,X1X_1X1, X2X_2X2, …, XnX_nXn, 那么 P(X=Xn)≥0 P(X=X_n) \geq 0 P(X=Xn)≥0Σ1nP(X=Xn)=1 \Sigma_{1}^{n} P(X原创 2020-06-27 20:57:58 · 686 阅读 · 0 评论 -
数据挖掘之随机事件与随机变量
一、随机事件1.基本概念释义现实生活中,一个动作或一件事情,在一定条件下,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种,称这种现象为随机现象。 例如,抛掷一枚硬币,其结果有可能是出现正面,也有可能是出现反面;掷骰子游戏中,出现的数字可能是1,2,3,4,5,6其中的任意一个。以上这些现象都是随机现象。使随机现象得以实现和对它观察的全过程称为随机试验,记为**EEE**。随机实验满足以下三个条件:可以在相同条件下重复进行;结果有多种可能性,并且所有可能结果事先已知;作一次试验原创 2020-06-22 22:44:03 · 310 阅读 · 0 评论