2018年06月_SongpingWang

12月 11月 10月 09月 08月 07月 06月 05月

原创 sklearn——数据预处理

一、数据预处理简介数据预处理：将未加工数据转换成适合分析的形式，包括多数据源的数据融合、数据清洗、维规约等等为什么要进行预处理(数据通常存在以下问题) 名称描述原因杂乱性数据缺乏统一标准和定义，数据结构有较大的差异原始数据一般是从各个实际应用系统中获取的(多种数据库、多种文件系统)，而这些系统的格式并不相同。 ...

2018-06-29 21:55:59 2645

原创机器学习-准备 scikit-learn-Orange安装

一、scikit-learn引导 1.1 scikit-learn 是什么面向python免费机器学习库建立在Numpy、Scipy、和 scikit-learn 模块之上包含分类、回归、聚类算法比如：SVM，随机森林，K-mean等包含降维、模型筛选、预处理算法 1.2 scikit-learn 安装推荐Anaconda 已经封装了 scikit-lear...

2018-06-29 20:46:58 4173 1

原创 python——爬虫（豆瓣top250）

一、抓取豆瓣top250网页数据import urllib.request as urlrequestfrom bs4 import BeautifulSouptop250_url = "https://movie.douban.com/top250?start={}&filter="with open('./top250_f1.csv','w',encoding='utf8...

2018-06-28 21:42:39 2431 1

转载爬虫----网易云音乐Top250的歌曲表单以及每首歌词的连续爬取

一、新建一个项目二、在items.py文件中写入需要爬取的信息三、在spiders.py文件中新建一个py文档，写基础爬虫的文件四、准备好保存的文件的位置，在pipline.py设定路径五、在setting.py文件中修改头部，修改默认ITEM_PIPELINES的保存类，改为自定的类六、在singer中创建一个主要运行文件 ...

2018-06-27 15:09:06 939

作业一：import pandas as pdimport numpy as npfrom pandas import DataFrame,SeriesStep 1.加载数据（datasets/users.csv）users = pd.read_csv(&amp;amp;amp;quot;datasets/users.csv&amp;amp;amp;quot;,sep = '|')usersStep 2. 以occupation...

2018-06-26 14:52:36 5048 3

原创 pandas 常用函数与方法汇总

pandas数据变形–分组与聚合agg(func)agg实现了apply+combine func取内置聚合函数（如max，min） func取自定义函数 func取函数列表 func取key为列名、value为函数的dict结果行索引为groupby 的by值列名：当func为一个函数时，列名为原始列名 ...

2018-06-25 17:39:04 2292

原创 pandas 高级二（数据分组，筛选；文件保存）

以下示例均导入以下包import pandas as pdfrom numpy import nan as Naimport numpy as npfrom pandas import DataFrame,Seriesimport sys一、数据分组 cut / qcut 1.1 pd.cutpd.cut(arr,bins，right=True,labels=Non...

2018-06-25 13:04:21 3944

原创 python—爬虫练习题（scrapy）

一、爬取 51job 1.1 新建scrapy项目:在D:\learning_code_scrapy （自定义）文件夹目录中执行cmd打开终端终端执行：scrapy startproject Test_Monday_job51使用pycharm打开文件：Test_Monday_job51（使用新窗口打开） 1.2 编写scrapy项目: ◆ 编辑 items....

2018-06-24 18:21:03 3067

原创 Pandas——练习题一

作业一：(使用jupyter notebook 工具)Step 1. 导入相应的模块import pandas as pdimport numpy as npfrom pandas import Series,DataFrameStep 2. 给定的原始数据集 # Create an example dataframe about a fictional armyraw_...

2018-06-22 11:08:28 11567 8

原创 Pandas——进阶二（字符串、时间戳）

一、pandas中字符串处理对字符串进行拆分连接（去空格或者其它符号）import re text ='foo bar \t good \tssda' strlist = re.split('\s+',text) #正则匹配任意空字符（去除空格）输出1：['foo', 'bar', 'good', 'ssda']&amp;amp;amp;amp;quot;#&amp;amp;amp;amp;quot;.join(strl

2018-06-22 11:05:34 2881

原创 Pandas——进阶一（数据处理）

Pandas——进阶一、Pandas数据修改 1.1 数据复制–直接赋值若直接赋值的话，只是复制索引，元素存储在相同内存位置中，对元素修改会影响另外一个 train1 = train.head() train1.iloc[0,0] #源数据 train.iloc[0,0] = 100 #修改其中一个对象 #对2个对象都起作用 ...

2018-06-21 12:35:17 3480 1

原创 python 爬虫—selenium（切换frame以及滚动条操作）

python 中使用 selenium–操作滚动条from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains import time driver =...

2018-06-19 11:14:50 3096 1

原创概率论——随机变量

数理统计的应用场景一、常用的统计学概论与方法二、样本空间与随机试验三、频率与概率 3.2 条件概率 3.3 贝叶斯公式四、随机变量及其分步 ...

2018-06-14 21:39:35 402

原创极限-导数-微积分

一、极限 1.1 洛必达法则： 1.1.1扩展实数的定义扩展实数R加上+∞和−∞得到（注意+∞和−∞）+∞和−∞得到（注意+∞和−∞）+∞和-∞得到（注意+∞和-∞）并不是实数，写作R或者[−∞,+∞][−∞,+∞][-∞,+∞]。 1.1.2 求出特定函数极限值。令c∈R¯c∈R¯c\in \bar{\mathbb{R}}（扩展函数），两函数f(x),g(...

2018-06-14 20:25:00 2010

原创特征工程——特征选择

一、特征选择–与降维的差异相同点：效果一样，都是试图减少数据集中的特征数目不同点：方法不同降维：通过对原特征进行映射后得到新的少量特征，带到降维目的特征选择：从原特征中选择出对模型重要的特征子集，达到降维的目的 1.1 特征选择：提高预测准确性构造更快，消耗更低的预测模型能够对模型有更好的理解和解释特征选择方法： F...

2018-06-14 13:37:45 828

原创特征工程——数据降维

数据降维概念：在尽量减少信息量的前提下，采用某种映射方法（函数）把原来的高维数据（变量多）---映射---&amp;amp;amp;amp;gt;低维数据（变量少）避免维数灾难：增加样本量常用的降维方法：线性方法非线性方法有监督方法 --&amp;amp;amp;amp;gt; LDA（线性判别分析）无无监督方法 --&amp;amp;amp;amp;gt; PCA（主成

2018-06-14 13:27:02 1889

原创特征工程——特征转换

特征转换一、连续型变量 1.1 连续变量无量纲化无量纲化：使不同规格尺度的数据转化统一规格尺度（将数据单位统一）无量纲化方法：标准化, 区间所方法标准化：将连续性变量转变为均值0 标准差1 的变量 x′=x−x¯¯¯σx′=x−x¯σ{x}'=\frac{x-\overline{x}}{\sigma} 其中x¯¯¯x¯\overline{x}是...

2018-06-14 13:09:06 8198 1

原创 Tensorflow 进阶

TensorFlow 代码入门编写 tensorflow 可以总结为两步：（1）组装一个graph; （2）使用session去执行graph中的operation。一、 graph 与 session （1）计算图 Tensorflow 是基于计算图的框架，因此理解 graph 与 session 显得尤为重要。不过在讲解 graph 与 s...

2018-06-14 10:59:24 599

原创 Tensorflow 入门基础

一、TensorFlow简介与安装TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，采用数据流图（data flow graphs），用于数值计算的开源软件库。节点（Nodes）在图中表示数学操作，图中的线（edges）则表示在节点间相互张量从流图的一端流动到另一端计算过程。TensorFlow不只局限于神经网络，其数据流式图支持非常自由...

2018-06-14 09:52:50 582

原创机器学习——多项式拟合

一、梯度定义二、梯度下降法定义

2018-06-13 15:18:17 5560

原创基于RFM模型实现的零售精准营销响应预测系统

CRISP-DM：跨行业数据挖掘标准流程商业理解（Business Understanding）数据理解（Data Understanding）数据准备（Data Preparation 构建模型（Modeling）模型评估（Evaluation）模型发布（Deployment）Step1：项目背景和业务目标评估...

2018-06-12 14:06:14 6691 10

原创基于SVD协同过滤算法实现的电影推荐系统

● 数据获取将数据集下载并保存在本地 http://files.grouplens.org/datasets/movielens/ml-100k.zip 解压到项目文件下其中u.data文件包含完整的数据集，README 是对整个数据文件的介绍，从中可以得知u.data中的列依次为: user id|item id|rating|tim...

2018-06-11 22:29:54 9765 20

原创 python爬虫-scrapy框架

一、利用Scrapy框架抓取数据 1.1 Scrapy吸引人的地方在于它是一个框架。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。 1.2、Scrapy主要包括了以下组件：引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心)...

2018-06-11 17:13:17 531

原创向量与矩阵（点线距离与交点）

一、向量二、矩阵与线性变换

2018-06-11 15:46:30 2201

原创基于Kaggle的经典AI项目：预测房价系统

预测房价系统Kaggle 项目链接： http://www.kaggle.com/c/house-prices-adcvanced-regression-techniques/data一、数据理解和整体探索1.1 数据理解 1.1.1 字段含义 1.1.2 字段整体探索1.2 整体探索 1.2.1 因变量分布探索 1.2.2 连续型自...

2018-06-09 17:28:27 2731 5

原创 python爬虫—练习题（re，request&BeautifulSoup,selenium）

一、使用正则抓取网页文字信息案例1：获取51job职位信息（python3.x环境） import re #导入re模块import xlwtimport chardetfrom urllib import requestimport randomdef getHtml(url): ...

2018-06-09 16:48:36 16895 1

原创 pandas 高级（函数与运算）

pandas高级篇一、向量化函数操作向量化函数应用 -map(变换数据和创造新变量)map是作用在 Series 上，是元素级别操作Series.map(arg,na_action=None) arg可以是一个函数，对元素做函数变换也可以是一个dict、series 对元素做数据映射向量化函数应用 -applymapapplymap 是作用在 dat...

2018-06-08 08:40:59 6240

原创 python爬虫

西刺代理IP：http://www.xicidaili.com/一、入门 1.1 直接访问网址 (python2.x环境下) import urllib2req = urllib2.Request(&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;http://www.baidu.com&amp

2018-06-07 22:28:23 1154

原创集成学习—多算法融合

集成学习（Emsemble Learning）–融合学习使用一系列学习器进行学习，把各个学习结果进行融合，从而获得比单个学习器更好的学习效果的一种机器学习方法。1模型融合单个模型容易发生过拟合，多个模型提高泛化能力（提升预测能力）2 Voting 和 Averaging 融合Voting：投票法 --针对分类问题硬投票（hard）：基于分类标签投票软投票（soft）...

2018-06-03 09:13:23 9561 2

原创机器学习概况—总结

一、数据挖掘和机器学习概况数据挖掘=机器学习+数据库+统计学二、数据挖掘的六大任务2.1 分类问题（Classfication）构建一个函数（分类器），对样本进行判断典型分类问题：垃圾邮件识别、广告点击率预测文本分类、信用评分、图像识别、商品推荐、用户流失预测2.2 聚类问题（Clustering） ...

2018-06-02 21:25:21 444

原创机器学习——决策树

一、决策树从数据集中构造一颗决策树决策树构造过程：选择不同属性对决策树进行分裂（生长），让叶子节点中更纯属性分裂-影响属性类型：属性字段类型： Norminal（类别型） Ordinal（有序型） Continiuous（连续型）分叉数量： ...

2018-06-02 21:24:19 1487

原创机器学习——贝叶斯算法

一、贝叶斯公式概率:二、朴树贝叶斯分类原理基本流程：确定特征属性--&amp;amp;amp;gt; 获取训练样本--&amp;amp;amp;gt; 对每个样本计算P(Ci)--&amp;amp;amp;gt; 对每个特征属性计算所有划分的条件概率P(X1,X1,,,Xn|Ci)--&amp;amp;amp;gt; 对每个类别计算P(X|Ci)*P(Ci)--&amp;amp;amp;gt; 以P(x

2018-06-02 21:23:00 1032

原创回归模型-评估指标

一、多元线性回归房价预测案例：多重共线性（Multicollinearty）: 是指线性回归模型中的解释变量（X）之间由于存在高度相关关系而使模型估计失真或难以估计准确二、多元线性回归模型三、多重共线性概念如何发现多重共线性对X变量探索两两之间的相关性（相关矩阵）四、逐步回归概念是一种多元回归模型进行变量筛选的方法，筛选最少的...

2018-06-02 21:22:04 8780 1

原创 Matplotlib—数据可视化

一、Matplotlib 入门初识mtaplotlib1 简介：Matplotlib 是开源项目官网：http://matplotlib.org2 Matplotlib 基本绘图调用figure 创建一个绘图对象：plt.figure(figsize=(8,4)) figsize:指定绘图对象的宽度和高度单位，英寸 dpi: 绘图分辨率，...

2018-06-02 15:36:25 868

原创 MySQL数据库

MySQL的语法结构一、入门简介 1.1 登陆MySQL： &amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;&am

2018-06-02 12:55:11 611

原创 Numpy基础+进阶+高级

一、ndarray概念 1、回顾python基本类型数字类型：整型：布尔型bool、整型int、长整形long 非整型：浮点float 、复数complex容器：序列：字符串str 、列表list、元组tuple 集合：可变集合set、不可变集合frozen set ...

2018-06-01 13:59:32 4102 2

goturn-files.7z

模型文件：GOTURN模型–视频对象跟踪模型使用方法查看文档：https://wangsp.blog.csdn.net/article/details/120260258

2021-09-17

google_class.7z

模型文件：GoogleNet数据模型为例，实现对图像常见分类模型支持1000种常见图像分类模型使用方法查看文档：https://wangsp.blog.csdn.net/article/details/120260258

2021-09-17

face_detector_检测模型.7z

使用tensorflow的人脸检测模型：模型文件与配置文件。使用方法查看文档：https://wangsp.blog.csdn.net/article/details/118732135

2021-09-17

华为通用表格识别格式化成excel

调用华为OCR通用表格后，将批量json文件转成excel。里面包含文件（demo_01.py，huawei_table2excel..so，huawei_table2excel.pyd）一个是win平台，一个是linux平台

2020-03-20

LC算法python实现.zip

里面共三个文件：demo_LC.cp36-win_amd64.pyd；readme.txt；test.py。使用方法在readme文件中。源代码：https://blog.csdn.net/wsp_1138886114/article/details/102966403 参考代码：https://blog.csdn.net/wsp_1138886114/article/details/102560328

2019-11-08