自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (16)
  • 收藏
  • 关注

原创 Python 图算法系列2 -电影推荐

0 说明例子原文来自Kaggle,本文会以原文例子为主线进行展开。主要的点在于将非结构化数据(文本描述)进行向量化,然后通过图的结构关系做推荐。1 数据数据可以到这里下载(Kaggle),或者也可以在这里下载(CSDN), 文件不大,大概2.3M左右。数据一共6234行,12列。列名含义show_id每部电影的唯一IDtypeN,分类变量,电影Movie Or 电视剧TVtitle电影或电视剧的名称,可能不唯一director导演cast演员

2020-05-30 15:10:35 1116

原创 Python 全栈系列3 - Bootstrap4 Tabs

Tabs使用Bootstrap4 做一个Tabs,可以在一个页面中展示较多的信息。

2020-05-28 00:34:27 491

原创 建模杂谈系列4-预测模型分类

说明预测模型的价值不用赘复,本篇探讨预测模型的类型以及其作用机制。预测模型大致可以分为三类:1 高维模型2 时间约束模型3 空间约束模型以下就这三类预测模型进行简单的探讨。内容1 高维模型(HDPM,High Dimension Prediction Model)常见的逻辑回归、决策树、XGBOOST都可以归于此类模型。此类模型的特点是不考虑时间和空间的变化。此类模型的本质是Lookalike分析,寻找样本之间固有的属性特质,从而预测样本发生事件的概率。如果用于精准营销,那么就是找

2020-05-26 23:55:26 3869

原创 Python一些可能用的到的函数系列4(数据操作包DataManipulation)

说明DataManipulation是个人开发的包,当前版本0.1.6,后续可能还会继续更新。主要用于建模前的数据处理。构建方式见之前的文章函数主要在DataManipulation文件夹下面。内容审核后包可以在这里下载。内容1 存储类from_pickle和to_pickle2 数据集的分割train_validate_split用于样本的分割,确保模型稳定性3 数据查探view_df_varattr查看数据集的变量元数据4 离散化get_dis

2020-05-24 00:49:34 610

原创 Python 全栈系列4 - BS4基础页面

说明计划以BS4的风格进行排版,然后层级的嵌套各个功能到基础页面。具体来说:1 基础页面具有导航栏和侧边栏1 导航栏主要提供页面内的内容导航2 侧边栏提供以用户为中心的内容导航2 内容部分1 以行(row)展示内容2 每行的内容只有两种形式1 简单的H5格式文本或者Markdown2 iframe嵌入网页灵活性主要在iframe嵌入的网页上:主要有多标签页的网页、步骤条导航、图(由pyecharts或者d3js生成,允许异步拉取数据的网页)、表(DataTable

2020-05-23 13:30:11 299

原创 Python Tips系列3 - 项目制作安装包

0 说明为了更方便的提高代码的复用率,更好的组织代码结构结构,本篇探讨将Python项目封装为可安装包的方法。几个基本要求:1 作为一个独立的可拷贝文件2 包内的其他非py类型文件也可以被添加3 安装包可以依据不同的版本号更新4 安装包可以指定依赖包的版本1 前提简单起见,假设项目按照如下规范组织:1 Python的项目下,在__init__.py 中一开始就导入项目所需的所有包。2 项目下的其他py文件以func1.py - funcn.py 命名,每个py中只有一个函数。2

2020-05-17 17:26:33 360

原创 Python 全栈系列3 - 步骤条1( Bootstrap4/Font-Awesome)

说明本文解析使用Bootstrap4和Font-Awesome制作步骤条。步骤条用于在一个比较长的流程中引导客户的行为。以下内容有两部分步骤条的H5代码分析增加一个折叠按钮。前序准备下载Font-Awesome的包,放在指定位置H5 代码以下是前端H5的代码,首先是在head 部分引入对应的包,然后是在body里面按bootstarp4的方式布局,步骤条的小图标和字体样式则主要由Font-Awesome提供。虽然BS4和FA已经提供了很多样式设计上的便利,但是要读懂或者较快的进行实

2020-05-17 00:09:11 359

原创 Python 全栈系列2 - Bootstrap4 基础页面

基础页面加载基本的组件,可以展示一个基础的BS4风格页面。Note: 按照全栈系列1的介绍,我们已经建立了一个web server。前端页面:./app/templates/base1.html在目录下建立一个新的h5前端页面。<!DOCTYPE html><html><head> <meta charset="utf-8"> <meta name="viewport" content="width=device-widt

2020-05-10 01:09:20 331

原创 建模杂谈系列2-建模过程(逻辑回归)

建模过程以逻辑回归为例,简述一次建模过程的流程。0公式0代码的梳理。1 确定目标只有0和1两种取值对于一般的监督学习而言,目标是首先要确认的。在这步甚至可以保留多个可能的目标变量(但是在每次建模中只使用一个)。2 数据质量缺失错误不平衡当变量的缺失比例较高时,可以考虑直接弃用变量。缺失的问题是比较麻烦的:可能是由于客户不愿意录入、录入了但是存储失败甚至是取数时的失误都可能导致缺失。错误是指数据“不干净”。例如性别有三个取值,年龄超过1000岁等。不平衡是指数据的分布

2020-05-10 00:34:22 926

原创 Python一些可能用的到的函数系列2(模型性能)

基于混淆矩阵计算的模型指标混淆矩阵按照预测(0,1)和真实(0,1)形成了2*2的矩阵,基于此计算模型的性能指标。有一点需要注意,预测的初始值一般是类似概率的连续值,那么在什么阈值之下预测为1呢?毕竟要作出分类预测才能计算模型“准不准”。以sklearn的规范为例,y = targety_hat = predict_proba# 将真实值、预测概率值组成dfdef make_ordered_pct_df(y, y_hat): tem_df = pd.DataFrame() t

2020-05-09 01:15:54 391

原创 建模杂谈系列6-建模数据抽取建议

1 两种类型的表以客户作为分析主体:1.1 主表主表是指每行对应于一个客户数据的表如果有时间的化一般为创建时间和更新时间客户ID特征1特征2…创建时间更新时间C001123A…2020-1-12020-6-1C002456B…2020-1-12020-6-11.2 日志表日志表一般对应于一个客户随时间变化的行为记录(或交易记录)一般只有创建时间客户ID行为ID特征1特征2…创建时间C0

2020-05-08 20:19:18 663

原创 Python一些可能用的到的函数系列1

说明一些暂未归类但可能有用的函数,FYI.1 使用层次聚类,给定指定聚类数,返回变量名下载数据In [106]: X.head() Out[106]: AMT_ANNUITY_dis_woe ... ...

2020-05-02 15:39:19 186

原创 Python Tips系列1

各种python小技巧:1. 列表相减:列表A是一个完整轨迹,B是已走过的轨迹,求剩下的轨迹# A: ['a','b','c','d']# B: ['a','b']In [89]: A = ['a','b','c','d'] In [90]: B = ['a','b'] ...

2020-05-01 20:50:05 592

原创 Python实现决策树(系列文章7)-- 连续型变量属性值分割修正

1 问题在我的例子中,对于连续变量的属性值二分点选择是通过先做百分点切割(切成一百份),然后循环的测试这些切割点的gini指数。那么一个变量就要大约执行100次测试,普通的python代码执行都是单进程的,因此会阻塞等待,浪费大量的时间和算力。2 思路将所有的切割点测试改为矩阵计算,那么每次选优的计算估计也就是原来5%不到的时间。在实现上大约分为三步:1 获得变量的切分点向量2 构...

2020-05-01 11:14:51 1213

原创 Python Tips系列2 - 矩阵方式离散化变量

1 目的用更快、更健壮的方法对变量进行离散化。这里的数据是pd.DataFrame 表格数据。使用numpy进行矩阵(向量)计算。2 数据使用某个连续变量(该变量没有缺失,事实上如果有缺失会更好)In [40]: data.head() Out[40]: 0 ...

2020-05-01 01:08:59 693

sh000016.csv

沪深300的日线数据

2021-12-21

customer_segmentation.zip

使用sklearn kmeans客户分群

2021-05-04

credit_scoring.zip

使用german credit数据做的多模型选择例子

2021-05-04

churn_sample.zip

用python实现knime的churn prediction

2021-05-03

正则表达式.ipynb

简单梳理了一下python正则表达式的几个函数

2021-01-13

python语言基础

python基本的语法、规范,数据对象等。适合0基础想学python的人。 内容只有一个jupyter,极度精简,1个小时应该能看完。

2021-01-11

1 python的三种类方法

Python对象里有三类方法: 1 类方法 @classmethod :基于类的一些属性进行调用,第一个参数是cls 2 静态方法 @staticmethod: 本质上和普通函数没什么不同,归集到一个类下面,相当于整理 3 实例方法 :需要结合对象的实例使用,第一个参数是cls

2021-01-10

DataManipulation-0.1.12.1-py3-none-any.whl

数据处理的基本函数包。主要基于Pandas,Numpy。 import pandas as pd import numpy as np import pickle import datetime import os import hashlib import pika import json import time

2020-07-11

DataManipulation-0.1.7-py3-none-any.whl

包含了一些数据操作用的函数,当前版本0.1.6。用于建模的数据清洗、重采样 、离散化、计算信息值等操作。拷贝后使用pip3 install + 路径/文件名即可。依赖的包目前为numpy,pandas和pickle,都是常用基础包

2020-05-30

netflix_titles.csv

TV Shows and Movies listed on Netflix This dataset consists of tv shows and movies available on Netflix as of 2019. The dataset is collected from Flixable which is a third-party Netflix search engine. In 2018, they released an interesting report which shows that the number of TV shows on Netflix has nearly tripled since 2010. The streaming service’s number of movies has decreased by more than 2,000 titles since 2010, while its number of TV shows has nearly tripled. It will be interesting to explore what all other insights can be obtained from the same dataset. Integrating this dataset with other external datasets such as IMDB ratings, rotten tomatoes can also provide many interesting findings. Inspiration Some of the interesting questions (tasks) which can be performed on this dataset - Understanding what content is available in different countries Identifying similar content by matching text-based features Network analysis of Actors / Directors and find interesting insights Is Netflix has increasingly focusing on TV rather than movies in recent years.

2020-05-29

DataManipulation-0.1.6-py3-none-any.whl

包含了一些数据操作用的函数,当前版本0.1.6。用于建模的数据清洗、重采样 、离散化、计算信息值等操作。拷贝后使用pip3 install + 路径/文件名即可。依赖的包目前为numpy,pandas和pickle,都是常用基础包

2020-05-24

raw_data.csv

10万条数据,用于dataframe的一般性测试数据。10万条数据,用于dataframe的一般性测试数据。

2020-05-09

sample_data4.csv

用于展示聚类寻找变量的样例数据集。用于展示聚类寻找变量的样例数据集。用于展示聚类寻找变量的样例数据集。用于展示聚类寻找变量的样例数据集。

2020-05-02

sample_data3.csv

大约10万条数据,有x和y两列,用于算法的样本测试。

2020-05-01

sample_data2.csv

用于连续边浪的属性切分。

2020-04-29

sample_data1.csv

测试数据集,用于测试决策树的

2020-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除