自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

红叶谷 wsp_1138886114的博客

不想写了,佛系,躺平了...

  • 博客(36)
  • 资源 (27)
  • 收藏
  • 关注

原创 sklearn——数据预处理

一、数据预处理简介数据预处理:将未加工数据转换成适合分析的形式,包括多数据源的数据融合、数据清洗、维规约等等 为什么要进行预处理(数据通常存在以下问题) 名称 描 述 原 因 杂乱性 数据缺乏统一标准和定义,数据结构有较大的差异 原始数据一般是从各个实际应用系统中获取的(多种数据库、多种文件系统),而这些系统的格式并不相同。 ...

2018-06-29 21:55:59 2645

原创 机器学习-准备 scikit-learn-Orange安装

一、scikit-learn引导 1.1 scikit-learn 是什么面向python免费机器学习库建立在Numpy、Scipy、和 scikit-learn 模块之上包含分类、回归、聚类算法 比如:SVM,随机森林,K-mean等包含降维、模型筛选、预处理算法 1.2 scikit-learn 安装推荐Anaconda 已经封装了 scikit-lear...

2018-06-29 20:46:58 4173 1

原创 python——爬虫(豆瓣top250)

一、抓取豆瓣top250网页数据import urllib.request as urlrequestfrom bs4 import BeautifulSouptop250_url = "https://movie.douban.com/top250?start={}&filter="with open('./top250_f1.csv','w',encoding='utf8...

2018-06-28 21:42:39 2431 1

转载 爬虫----网易云音乐Top250的歌曲表单以及每首歌词的连续爬取

一、新建一个项目二、在items.py文件中写入需要爬取的信息三、在spiders.py文件中新建一个py文档,写基础爬虫的文件四、准备好保存的文件的位置,在pipline.py设定路径五、在setting.py文件中修改头部,修改默认ITEM_PIPELINES的保存类,改为自定的类六、在singer中创建一个主要运行文件 ...

2018-06-27 15:09:06 939

原创 Pandas——练习题二

作业一:import pandas as pdimport numpy as npfrom pandas import DataFrame,SeriesStep 1.加载数据(datasets/users.csv)users = pd.read_csv("datasets/users.csv",sep = '|')usersStep 2. 以occupation...

2018-06-26 14:52:36 5048 3

原创 pandas 常用函数与方法汇总

pandas数据变形–分组与聚合agg(func)agg实现了apply+combine func取内置聚合函数(如max,min) func取自定义函数 func取函数列表 func取key为列名、value为函数的dict结果 行索引为groupby 的by值 列名: 当func为一个函数时,列名为原始列名 ...

2018-06-25 17:39:04 2292

原创 pandas 高级二(数据分组,筛选;文件保存)

以下示例均导入以下包import pandas as pdfrom numpy import nan as Naimport numpy as npfrom pandas import DataFrame,Seriesimport sys一、数据分组 cut / qcut 1.1 pd.cutpd.cut(arr,bins,right=True,labels=Non...

2018-06-25 13:04:21 3944

原创 python—爬虫练习题(scrapy)

一、爬取 51job 1.1 新建scrapy项目:在D:\learning_code_scrapy (自定义)文件夹目录中执行cmd打开终端终端执行:scrapy startproject Test_Monday_job51使用pycharm打开文件:Test_Monday_job51(使用新窗口打开) 1.2 编写scrapy项目: ◆ 编辑 items....

2018-06-24 18:21:03 3067

原创 Pandas——练习题一

作业一:(使用jupyter notebook 工具)Step 1. 导入相应的模块import pandas as pdimport numpy as npfrom pandas import Series,DataFrameStep 2. 给定的原始数据集 # Create an example dataframe about a fictional armyraw_...

2018-06-22 11:08:28 11567 8

原创 Pandas——进阶二(字符串、时间戳)

一、pandas中 字符串 处理对字符串 进行拆分连接(去空格或者其它符号)import re text ='foo bar \t good \tssda' strlist = re.split('\s+',text) #正则匹配任意空字符(去除空格)输出1:['foo', 'bar', 'good', 'ssda']"#".join(strl

2018-06-22 11:05:34 2881

原创 Pandas——进阶一(数据处理)

Pandas——进阶一、Pandas数据修改 1.1 数据复制–直接赋值 若直接赋值的话,只是复制索引,元素存储在相同内存位置中,对元素修改会影响另外一个 train1 = train.head() train1.iloc[0,0] #源数据 train.iloc[0,0] = 100 #修改其中一个对象 #对2个对象都起作用 ...

2018-06-21 12:35:17 3480 1

原创 python 爬虫—selenium(切换frame以及滚动条操作)

python 中使用 selenium–操作滚动条from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains import time driver =...

2018-06-19 11:14:50 3096 1

原创 概率论——随机变量

数理统计的应用场景 一、常用的统计学概论与方法 二、样本空间与随机试验 三、频率与概率 3.2 条件概率 3.3 贝叶斯公式 四、随机变量及其分步 ...

2018-06-14 21:39:35 402

原创 极限-导数-微积分

一、极限 1.1 洛必达法则: 1.1.1扩展实数的定义 扩展实数R加上+∞和−∞得到(注意+∞和−∞)+∞和−∞得到(注意+∞和−∞)+∞和-∞得到(注意+∞和-∞)并不是实数,写作R或者[−∞,+∞][−∞,+∞][-∞,+∞]。 1.1.2 求出特定函数极限值。 令c∈R¯c∈R¯c\in \bar{\mathbb{R}}(扩展函数),两函数f(x),g(...

2018-06-14 20:25:00 2010

原创 特征工程——特征选择

一、特征选择–与降维的差异相同点:效果一样,都是试图减少数据集中的特征数目不同点:方法不同 降维: 通过对原特征进行映射后得到新的少量特征,带到降维目的 特征选择:从原特征中选择出 对模型重要的特征子集,达到降维的目的 1.1 特征选择:提高预测准确性构造更快,消耗更低的预测模型能够对模型有更好的理解和解释特征选择方法: F...

2018-06-14 13:37:45 828

原创 特征工程——数据降维

数据降维概念:在尽量减少信息量的前提下,采用某种映射方法(函数)把原来的高维数据(变量多)---映射--->低维数据(变量少)避免维数灾难 :增加样本量常用的降维方法: 线性方法 非线性方法有监督方法 --> LDA(线性判别分析) 无无监督方法 --> PCA(主成

2018-06-14 13:27:02 1889

原创 特征工程——特征转换

特征转换一、连续型变量 1.1 连续变量无量纲化无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一)无量纲化方法:标准化, 区间所方法 标准化: 将连续性变量转变为 均值0 标准差1 的变量 x′=x−x¯¯¯σx′=x−x¯σ{x}'=\frac{x-\overline{x}}{\sigma} 其中x¯¯¯x¯\overline{x}是...

2018-06-14 13:09:06 8198 1

原创 Tensorflow 进阶

TensorFlow 代码入门 编写 tensorflow 可以总结为两步: (1)组装一个graph; (2)使用session去执行graph中的operation。一、 graph 与 session (1)计算图 Tensorflow 是基于计算图的框架,因此理解 graph 与 session 显得尤为重要。不过在讲解 graph 与 s...

2018-06-14 10:59:24 599

原创 Tensorflow 入门基础

一、TensorFlow简介与安装TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,采用数据流图(data flow graphs), 用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互 张量从流图的一端流动到另一端计算过程。TensorFlow不只局限于神经网络,其数据流式图支持非常自由...

2018-06-14 09:52:50 582

原创 机器学习——多项式拟合

一、梯度定义 二、梯度下降法定义

2018-06-13 15:18:17 5560

原创 基于RFM模型实现的零售精准营销响应预测系统

CRISP-DM:跨行业数据挖掘标准流程 商业理解(Business Understanding) 数据理解(Data Understanding) 数据准备(Data Preparation 构建模型(Modeling) 模型评估(Evaluation) 模型发布(Deployment)Step1:项目背景和业务目标 评估...

2018-06-12 14:06:14 6691 10

原创 基于SVD协同过滤算法实现的电影推荐系统

● 数据获取 将数据集下载并保存在本地 http://files.grouplens.org/datasets/movielens/ml-100k.zip 解压到项目文件下 其中u.data文件包含完整的数据集,README 是对整个数据文件的介绍,从中可以得知u.data中的列依次为: user id|item id|rating|tim...

2018-06-11 22:29:54 9765 20

原创 python爬虫-scrapy框架

一、利用Scrapy框架抓取数据 1.1 Scrapy吸引人的地方在于它是一个框架。 任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 1.2、Scrapy主要包括了以下组件:引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心)...

2018-06-11 17:13:17 531

原创 向量与矩阵(点线距离与交点)

一、向量 二、矩阵与线性变换

2018-06-11 15:46:30 2201

原创 基于Kaggle的经典AI项目:预测房价系统

预测房价系统Kaggle 项目链接: http://www.kaggle.com/c/house-prices-adcvanced-regression-techniques/data一、 数据理解和整体探索1.1 数据理解 1.1.1 字段含义 1.1.2 字段整体探索1.2 整体探索 1.2.1 因变量分布探索 1.2.2 连续型自...

2018-06-09 17:28:27 2731 5

原创 python爬虫—练习题(re,request&BeautifulSoup,selenium)

一、使用 正则 抓取网页文字信息 案例1:获取51job职位信息(python3.x环境) import re #导入re模块import xlwtimport chardetfrom urllib import requestimport randomdef getHtml(url): ...

2018-06-09 16:48:36 16895 1

原创 pandas 高级(函数与运算)

pandas高级篇一、向量化函数操作向量化函数应用 -map(变换数据和创造新变量)map是作用在 Series 上,是元素级别操作Series.map(arg,na_action=None) arg可以是一个函数,对元素做函数变换 也可以是一个dict、series 对元素做数据映射向量化函数应用 -applymapapplymap 是作用在 dat...

2018-06-08 08:40:59 6240

原创 python爬虫

西刺代理IP:http://www.xicidaili.com/一、入门 1.1 直接访问网址 (python2.x环境下) import urllib2req = urllib2.Request("http://www.baidu.com&amp

2018-06-07 22:28:23 1154

原创 集成学习—多算法融合

集成学习(Emsemble Learning)–融合学习使用一系列学习器进行学习,把各个学习结果进行融合,从而获得比单个学习器更好的学习效果的一种机器学习方法。1模型融合单个模型容易发生过拟合,多个模型提高泛化能力(提升预测能力)2 Voting 和 Averaging 融合Voting: 投票法 --针对分类问题硬投票(hard):基于分类标签投票软投票(soft)...

2018-06-03 09:13:23 9561 2

原创 机器学习概况—总结

一、数据挖掘和机器学习概况数据挖掘=机器学习+数据库+统计学二、数据挖掘的六大任务2.1 分类问题(Classfication)构建一个函数(分类器),对样本进行判断典型分类问题:垃圾邮件识别、广告点击率预测 文本分类、 信用评分、 图像识别、 商品推荐、 用户流失预测2.2 聚类问题(Clustering) ...

2018-06-02 21:25:21 444

原创 机器学习——决策树

一、决策树 从数据集中构造一颗决策树决策树构造过程:选择不同属性对决策树进行分裂(生长),让叶子节点中更纯 属性分裂-影响 属性类型: 属性字段类型: Norminal(类别型) Ordinal(有序型) Continiuous(连续型) 分叉数量: ...

2018-06-02 21:24:19 1487

原创 机器学习——贝叶斯算法

一、贝叶斯公式概率:二、朴树贝叶斯分类原理基本流程:确定特征属性--> 获取训练样本--> 对每个样本计算P(Ci)--> 对每个特征属性 计算所有划分的条件概率P(X1,X1,,,Xn|Ci)--> 对每个类别计算P(X|Ci)*P(Ci)--> 以P(x

2018-06-02 21:23:00 1032

原创 回归模型-评估指标

一、多元线性回归房价预测案例:多重共线性(Multicollinearty): 是指线性回归模型中的 解释变量(X)之间 由于存在高度相关关系而使模型估计失真或难以估计准确二、多元线性回归模型三、多重共线性概念如何发现多重共线性 对X变量探索两两之间的相关性(相关矩阵)四、逐步回归概念是一种多元回归模型进行变量筛选的方法,筛选最少的...

2018-06-02 21:22:04 8780 1

原创 Matplotlib—数据可视化

一、Matplotlib 入门 初识mtaplotlib1 简介:Matplotlib 是开源项目 官网:http://matplotlib.org2 Matplotlib 基本绘图 调用figure 创建一个绘图对象:plt.figure(figsize=(8,4)) figsize:指定绘图对象的宽度和高度 单位,英寸 dpi: 绘图分辨率,...

2018-06-02 15:36:25 868

原创 MySQL数据库

MySQL的语法结构一、入门简介 1.1 登陆MySQL:        &am

2018-06-02 12:55:11 611

原创 Numpy基础+进阶+高级

一、ndarray概念 1、回顾python基本类型数字类型: 整型: 布尔型bool、整型int、长整形long 非整型:浮点float 、复数complex容器: 序列:字符串str 、列表list、元组tuple 集合:可变集合set、不可变集合frozen set ...

2018-06-01 13:59:32 4102 2

goturn-files.7z

模型文件:GOTURN模型–视频对象跟踪模型 使用方法查看文档:https://wangsp.blog.csdn.net/article/details/120260258

2021-09-17

google_class.7z

模型文件:GoogleNet数据模型为例,实现对图像常见分类模型支持1000种常见图像分类模型 使用方法查看文档:https://wangsp.blog.csdn.net/article/details/120260258

2021-09-17

face_detector_检测模型.7z

使用tensorflow的人脸检测模型:模型文件与配置文件。 使用方法查看文档:https://wangsp.blog.csdn.net/article/details/118732135

2021-09-17

华为通用表格识别格式化成excel

调用华为OCR通用表格后,将批量json文件转成excel。里面包含文件(demo_01.py,huawei_table2excel..so,huawei_table2excel.pyd)一个是win平台,一个是linux平台

2020-03-20

LC算法python实现.zip

里面共三个文件:demo_LC.cp36-win_amd64.pyd;readme.txt;test.py。使用方法在readme文件中。 源代码:https://blog.csdn.net/wsp_1138886114/article/details/102966403 参考代码:https://blog.csdn.net/wsp_1138886114/article/details/102560328

2019-11-08

psf2otf_circShift函数.zip

这是psf2otf的python实现方法。关于详情请查看文章:https://blog.csdn.net/wsp_1138886114/article/details/95024180。

2019-07-23

CT肺结节权重和临时数据

包含权重文件:unet.hd5;3dcnn.hd5。和处理的临时文件temp_dir

2019-02-19

基于RFM模型实现的零售精准营销响应预测系统代码

包含4个文件:1_从交易数据中提取RFM特征.ipynb,2_客户RFM分析.ipynb,3_响应预测模型训练和选择.ipynb,4_模型部署和应用.ipynb

2019-02-15

基于RFM模型实现的零售精准营销响应预测系统数据

基于RFM模型实现的零售精准营销响应预测系统数据:Retail_Data_Response.csv:customer_id,response Retail_Data_Transactions.csv:customer_id,trans_date,tran_amount

2018-11-01

爬虫获取的数据,一些可能能用的ip地址,化学品供应信息

主要是python 爬虫获取的数据。包括化学品供应信息.xls和西刺网站IP地址.xls 如有需要的话,请下载

2018-10-20

文本识别opencv-text-recognition

该压缩包主要包含文件:测试用的图片images,以及已经训练好的权重frozen_east_text_detection.pb,及运行代码:text_recognition.py

2018-10-16

ml-100k-ALS推荐算法数据集

该数据集为公共数据集:主要有u.data,u.genre,u.info,u.item,u.user,u.occupation 等文件

2018-09-21

工业生产流程的数据分析预测

工业故障智能预测:使用随机深林进行预测。含有:testA_suzhou,train_suzhou,测试A_20180117,测试B_20180117,训练_20180117等数据和模型代码

2018-08-29

基于聚类(Kmeans)算法实现客户价值分析系统(电信运营商)

基于聚类(Kmeans)算法实现客户价值分析系统(电信运营商)包含(custinfo.csv,custcall.csv以及输出的数据集result,还有图片)

2018-08-20

基于聚类(Kmeans)算法实现的客户价值分析系统data

基于聚类(Kmeans)算法实现的客户价值分析系统(包含custcall,custinfo,result,tariff,国内某航空公司会员数据)等数据信息

2018-08-18

基于NLP自然语言构建的文档自动分类_test_data _stopwords

对爬取的搜狐文档数据进行自动分类,主要有“体育,健康,房地产,娱乐,女人,文化,新闻”等文章类别,为测试数据和停用词

2018-08-18

基于NLP自然语言构建的文档自动分类系统_data

对爬取的搜狐文档数据进行自动分类,主要有“体育,健康,房地产,娱乐,女人,文化,新闻”等文章类别,已经标记好为训练数据

2018-08-18

贝叶斯模型LDA贝叶斯算法实现的电商行业商品评论与情感分析案例

LDA贝叶斯算法实现的电商行业商品评论与情感分析案例,数据集主要涉及‘美的’品牌的评论

2018-08-15

从新闻网站点击流中挖掘

从新闻网站点击流量中挖掘 在新闻网站上,一个会用户不断点击和浏览各种新闻报道,最终该用户的这些点击会被记录下来,成为该用户点击的历史记录。而所有用户的点击历史记录,是一个蕴含了巨大价值的数据集。

2018-08-15

卷积神经网络实现数字识别数据

卷积神经网络实现数字识别数据集,主要有t10k-images.idx3-ubyte,t10k-labels.idx1-ubyte,train-images.idx3-ubyte,train-labels.idx1-ubyte四个数据集

2018-08-14

基于Kaggle的经典AI项目——数据集

基于Kaggle的经典AI项目——数据集: 含有如下字段 MSZoning: String, // 房屋类型:农用,商用等 LotFrontage: String, // 距离街道的距离 LotArea: String, // 房屋的面积

2018-08-09

shape_predictor_68_face_landmarks和dlib

shape_predictor_68_face_landmarks用于标定脸部68个特征点和dlib库

2018-08-08

预测Titanic号上的乘客生存概率-数据集

预测Titanic号上的乘客生存概率-数据集,训练集,测试集,预测结果

2018-08-08

Pandas——练习题一:在校生饮酒消费数据分析

Pandas—练习题一:在校生饮酒消费数据分析。主要用于pandas的函数操作练习

2018-07-25

Pandas——练习题二——数据集

博客中Pandas练习题数据集。user数据集与chipotle.csv数据集

2018-07-25

pandas+matplotlib习题数据集

博客中pandas+matplot习题数据集,主要是关于pandas的数据处理操作

2018-07-23

pyspark_ml_pipeline_DecisionTreeClassifier_RF数据集

pyspark_ml_pipeline_DecisionTreeClassifier_RF数据集(day.csv/flights.csv/hour.csv/test.tsv/u.data/wc.data)

2015-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除