自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 新闻推荐系统【DAY1】

赛题简介赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。赛题数据赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测

2022-04-25 06:27:03 1379

原创 Task01逻辑回归&线性回归

逻辑回归&线性回归

2021-12-16 02:39:15 965

原创 有关SQL

SQL进阶及工作中常用SQL1.工作中常用sql排行2.工作中常用sql小技巧3.SQL进阶(这是重点)1.关于null值null值常见问题null值克星(重点):1.工作中常用sql排行①group by(用来聚合也时常用来去重注意用groupby select 后要跟聚合字段)②where(SQL计算之前进行过滤,对性能是极大的提高,代码测试阶段where条件下尽量跟分区)③having(SQL计算之后进行过滤,它的使用会极大提升的代码的简洁性,同样它的功能十分强大)④时间函数(时间与我们息息

2021-06-16 21:09:39 183

转载 基于统计学的方法.

1、概述异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象被一个以Θ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产生的概率。该值越小,x越可能是异常点。非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方

2021-05-15 02:26:03 336

转载 异常类别与检测

什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常(point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;条件异常(conditional anomalies),又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度

2021-05-12 00:45:30 637

原创 Hive sql 易错点

rank()over()、dense_rank() over()、row_number() over()区别区别(1)rank() over()例子(2)dense_rank() over()例子(3)row_number() over()例子

2020-11-08 17:43:30 354

原创 Baseline

import pandas as pdimport osimport gcimport lightgbm as lgbimport xgboost as xgbfrom catboost import CatBoostRegressorfrom sklearn.linear_model import SGDRegressor,LinearRegression,Ridgefrom sklearn.preprocessing import MinMaxScalerimport mathimpo

2020-10-10 23:56:34 1308 1

原创 Task4 建模与调参

此部分为零基础入门金融风控的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略4.1学习目标学习在金融风控领域常见的机器学习模型学习机器学习模型的建模任务与调参流程完成相应的学习打卡任务4.2内容介绍逻辑回归模型理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型Lig

2020-10-06 19:56:29 547

原创 TASK 3:特征工程

3.1学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务3.2内容介绍数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱(选做作业)特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试(选做作业)特征编码one-hot编码l

2020-10-05 23:08:31 427 1

原创 泰勒公式

https://www.matongxue.com/madocs/7

2020-10-03 22:35:30 111

原创 两个重要极限及其推导过程

一、证明:由上图可知, 即二、证明:首先证明此极限存在 构造数列 而对于n+1...

2020-10-03 00:10:31 13454 1

原创 补充学习内容(数据挖掘:理论与算法)

清华大学-数据挖掘:理论与算法(国家级精品课)B站地址https://www.bilibili.com/video/BV154411Q7mG?p=38笔记地址https://blog.csdn.net/qq_43724306/article/details/104531299

2020-09-27 20:16:43 127

原创 Task5 模型融合

5.1学习目标将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程)5.2内容介绍模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均简单平均加权平均投票简单投票法加权投票法综合排序融合log融合stacking构建多层模型blen

2020-09-27 01:09:51 91

原创 Task01:赛题理解

Task01:赛题理解本次新人赛是Datawhale与天池联合发起的金融风控之贷款违约预测挑战赛。 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。1.1 学习目标理解赛题数据和目标,清楚评分体系。完成相应报名,下载数据和结果提交打卡,熟悉比赛流程。1.2 了解赛题1.2.1赛题概况比赛要求参赛选手根据

2020-09-19 16:17:04 454

原创 Task2 数据分析

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')#在python中代码可以正常运行但是会提示警告,我们可以通过警告过滤器进行控制是否发出警告消息。data_train=pd.read_csv('train.csv')data_test_

2020-09-19 10:53:21 271

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除