- 博客(36)
- 资源 (27)
- 收藏
- 关注
原创 sklearn——数据预处理
一、数据预处理简介数据预处理:将未加工数据转换成适合分析的形式,包括多数据源的数据融合、数据清洗、维规约等等 为什么要进行预处理(数据通常存在以下问题) 名称 描 述 原 因 杂乱性 数据缺乏统一标准和定义,数据结构有较大的差异 原始数据一般是从各个实际应用系统中获取的(多种数据库、多种文件系统),而这些系统的格式并不相同。 ...
2018-06-29 21:55:59 2645
原创 机器学习-准备 scikit-learn-Orange安装
一、scikit-learn引导 1.1 scikit-learn 是什么面向python免费机器学习库建立在Numpy、Scipy、和 scikit-learn 模块之上包含分类、回归、聚类算法 比如:SVM,随机森林,K-mean等包含降维、模型筛选、预处理算法 1.2 scikit-learn 安装推荐Anaconda 已经封装了 scikit-lear...
2018-06-29 20:46:58 4173 1
原创 python——爬虫(豆瓣top250)
一、抓取豆瓣top250网页数据import urllib.request as urlrequestfrom bs4 import BeautifulSouptop250_url = "https://movie.douban.com/top250?start={}&filter="with open('./top250_f1.csv','w',encoding='utf8...
2018-06-28 21:42:39 2431 1
转载 爬虫----网易云音乐Top250的歌曲表单以及每首歌词的连续爬取
一、新建一个项目二、在items.py文件中写入需要爬取的信息三、在spiders.py文件中新建一个py文档,写基础爬虫的文件四、准备好保存的文件的位置,在pipline.py设定路径五、在setting.py文件中修改头部,修改默认ITEM_PIPELINES的保存类,改为自定的类六、在singer中创建一个主要运行文件 ...
2018-06-27 15:09:06 939
原创 Pandas——练习题二
作业一:import pandas as pdimport numpy as npfrom pandas import DataFrame,SeriesStep 1.加载数据(datasets/users.csv)users = pd.read_csv("datasets/users.csv",sep = '|')usersStep 2. 以occupation...
2018-06-26 14:52:36 5048 3
原创 pandas 常用函数与方法汇总
pandas数据变形–分组与聚合agg(func)agg实现了apply+combine func取内置聚合函数(如max,min) func取自定义函数 func取函数列表 func取key为列名、value为函数的dict结果 行索引为groupby 的by值 列名: 当func为一个函数时,列名为原始列名 ...
2018-06-25 17:39:04 2292
原创 pandas 高级二(数据分组,筛选;文件保存)
以下示例均导入以下包import pandas as pdfrom numpy import nan as Naimport numpy as npfrom pandas import DataFrame,Seriesimport sys一、数据分组 cut / qcut 1.1 pd.cutpd.cut(arr,bins,right=True,labels=Non...
2018-06-25 13:04:21 3944
原创 python—爬虫练习题(scrapy)
一、爬取 51job 1.1 新建scrapy项目:在D:\learning_code_scrapy (自定义)文件夹目录中执行cmd打开终端终端执行:scrapy startproject Test_Monday_job51使用pycharm打开文件:Test_Monday_job51(使用新窗口打开) 1.2 编写scrapy项目: ◆ 编辑 items....
2018-06-24 18:21:03 3067
原创 Pandas——练习题一
作业一:(使用jupyter notebook 工具)Step 1. 导入相应的模块import pandas as pdimport numpy as npfrom pandas import Series,DataFrameStep 2. 给定的原始数据集 # Create an example dataframe about a fictional armyraw_...
2018-06-22 11:08:28 11567 8
原创 Pandas——进阶二(字符串、时间戳)
一、pandas中 字符串 处理对字符串 进行拆分连接(去空格或者其它符号)import re text ='foo bar \t good \tssda' strlist = re.split('\s+',text) #正则匹配任意空字符(去除空格)输出1:['foo', 'bar', 'good', 'ssda']"#".join(strl
2018-06-22 11:05:34 2881
原创 Pandas——进阶一(数据处理)
Pandas——进阶一、Pandas数据修改 1.1 数据复制–直接赋值 若直接赋值的话,只是复制索引,元素存储在相同内存位置中,对元素修改会影响另外一个 train1 = train.head() train1.iloc[0,0] #源数据 train.iloc[0,0] = 100 #修改其中一个对象 #对2个对象都起作用 ...
2018-06-21 12:35:17 3480 1
原创 python 爬虫—selenium(切换frame以及滚动条操作)
python 中使用 selenium–操作滚动条from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains import time driver =...
2018-06-19 11:14:50 3096 1
原创 概率论——随机变量
数理统计的应用场景 一、常用的统计学概论与方法 二、样本空间与随机试验 三、频率与概率 3.2 条件概率 3.3 贝叶斯公式 四、随机变量及其分步 ...
2018-06-14 21:39:35 402
原创 极限-导数-微积分
一、极限 1.1 洛必达法则: 1.1.1扩展实数的定义 扩展实数R加上+∞和−∞得到(注意+∞和−∞)+∞和−∞得到(注意+∞和−∞)+∞和-∞得到(注意+∞和-∞)并不是实数,写作R或者[−∞,+∞][−∞,+∞][-∞,+∞]。 1.1.2 求出特定函数极限值。 令c∈R¯c∈R¯c\in \bar{\mathbb{R}}(扩展函数),两函数f(x),g(...
2018-06-14 20:25:00 2010
原创 特征工程——特征选择
一、特征选择–与降维的差异相同点:效果一样,都是试图减少数据集中的特征数目不同点:方法不同 降维: 通过对原特征进行映射后得到新的少量特征,带到降维目的 特征选择:从原特征中选择出 对模型重要的特征子集,达到降维的目的 1.1 特征选择:提高预测准确性构造更快,消耗更低的预测模型能够对模型有更好的理解和解释特征选择方法: F...
2018-06-14 13:37:45 828
原创 特征工程——数据降维
数据降维概念:在尽量减少信息量的前提下,采用某种映射方法(函数)把原来的高维数据(变量多)---映射--->低维数据(变量少)避免维数灾难 :增加样本量常用的降维方法: 线性方法 非线性方法有监督方法 --> LDA(线性判别分析) 无无监督方法 --> PCA(主成
2018-06-14 13:27:02 1889
原创 特征工程——特征转换
特征转换一、连续型变量 1.1 连续变量无量纲化无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一)无量纲化方法:标准化, 区间所方法 标准化: 将连续性变量转变为 均值0 标准差1 的变量 x′=x−x¯¯¯σx′=x−x¯σ{x}'=\frac{x-\overline{x}}{\sigma} 其中x¯¯¯x¯\overline{x}是...
2018-06-14 13:09:06 8198 1
原创 Tensorflow 进阶
TensorFlow 代码入门 编写 tensorflow 可以总结为两步: (1)组装一个graph; (2)使用session去执行graph中的operation。一、 graph 与 session (1)计算图 Tensorflow 是基于计算图的框架,因此理解 graph 与 session 显得尤为重要。不过在讲解 graph 与 s...
2018-06-14 10:59:24 599
原创 Tensorflow 入门基础
一、TensorFlow简介与安装TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,采用数据流图(data flow graphs), 用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互 张量从流图的一端流动到另一端计算过程。TensorFlow不只局限于神经网络,其数据流式图支持非常自由...
2018-06-14 09:52:50 582
原创 基于RFM模型实现的零售精准营销响应预测系统
CRISP-DM:跨行业数据挖掘标准流程 商业理解(Business Understanding) 数据理解(Data Understanding) 数据准备(Data Preparation 构建模型(Modeling) 模型评估(Evaluation) 模型发布(Deployment)Step1:项目背景和业务目标 评估...
2018-06-12 14:06:14 6691 10
原创 基于SVD协同过滤算法实现的电影推荐系统
● 数据获取 将数据集下载并保存在本地 http://files.grouplens.org/datasets/movielens/ml-100k.zip 解压到项目文件下 其中u.data文件包含完整的数据集,README 是对整个数据文件的介绍,从中可以得知u.data中的列依次为: user id|item id|rating|tim...
2018-06-11 22:29:54 9765 20
原创 python爬虫-scrapy框架
一、利用Scrapy框架抓取数据 1.1 Scrapy吸引人的地方在于它是一个框架。 任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 1.2、Scrapy主要包括了以下组件:引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心)...
2018-06-11 17:13:17 531
原创 基于Kaggle的经典AI项目:预测房价系统
预测房价系统Kaggle 项目链接: http://www.kaggle.com/c/house-prices-adcvanced-regression-techniques/data一、 数据理解和整体探索1.1 数据理解 1.1.1 字段含义 1.1.2 字段整体探索1.2 整体探索 1.2.1 因变量分布探索 1.2.2 连续型自...
2018-06-09 17:28:27 2731 5
原创 python爬虫—练习题(re,request&BeautifulSoup,selenium)
一、使用 正则 抓取网页文字信息 案例1:获取51job职位信息(python3.x环境) import re #导入re模块import xlwtimport chardetfrom urllib import requestimport randomdef getHtml(url): ...
2018-06-09 16:48:36 16895 1
原创 pandas 高级(函数与运算)
pandas高级篇一、向量化函数操作向量化函数应用 -map(变换数据和创造新变量)map是作用在 Series 上,是元素级别操作Series.map(arg,na_action=None) arg可以是一个函数,对元素做函数变换 也可以是一个dict、series 对元素做数据映射向量化函数应用 -applymapapplymap 是作用在 dat...
2018-06-08 08:40:59 6240
原创 python爬虫
西刺代理IP:http://www.xicidaili.com/一、入门 1.1 直接访问网址 (python2.x环境下) import urllib2req = urllib2.Request("http://www.baidu.com&amp
2018-06-07 22:28:23 1154
原创 集成学习—多算法融合
集成学习(Emsemble Learning)–融合学习使用一系列学习器进行学习,把各个学习结果进行融合,从而获得比单个学习器更好的学习效果的一种机器学习方法。1模型融合单个模型容易发生过拟合,多个模型提高泛化能力(提升预测能力)2 Voting 和 Averaging 融合Voting: 投票法 --针对分类问题硬投票(hard):基于分类标签投票软投票(soft)...
2018-06-03 09:13:23 9561 2
原创 机器学习概况—总结
一、数据挖掘和机器学习概况数据挖掘=机器学习+数据库+统计学二、数据挖掘的六大任务2.1 分类问题(Classfication)构建一个函数(分类器),对样本进行判断典型分类问题:垃圾邮件识别、广告点击率预测 文本分类、 信用评分、 图像识别、 商品推荐、 用户流失预测2.2 聚类问题(Clustering) ...
2018-06-02 21:25:21 444
原创 机器学习——决策树
一、决策树 从数据集中构造一颗决策树决策树构造过程:选择不同属性对决策树进行分裂(生长),让叶子节点中更纯 属性分裂-影响 属性类型: 属性字段类型: Norminal(类别型) Ordinal(有序型) Continiuous(连续型) 分叉数量: ...
2018-06-02 21:24:19 1487
原创 机器学习——贝叶斯算法
一、贝叶斯公式概率:二、朴树贝叶斯分类原理基本流程:确定特征属性--> 获取训练样本--> 对每个样本计算P(Ci)--> 对每个特征属性 计算所有划分的条件概率P(X1,X1,,,Xn|Ci)--> 对每个类别计算P(X|Ci)*P(Ci)--> 以P(x
2018-06-02 21:23:00 1032
原创 回归模型-评估指标
一、多元线性回归房价预测案例:多重共线性(Multicollinearty): 是指线性回归模型中的 解释变量(X)之间 由于存在高度相关关系而使模型估计失真或难以估计准确二、多元线性回归模型三、多重共线性概念如何发现多重共线性 对X变量探索两两之间的相关性(相关矩阵)四、逐步回归概念是一种多元回归模型进行变量筛选的方法,筛选最少的...
2018-06-02 21:22:04 8780 1
原创 Matplotlib—数据可视化
一、Matplotlib 入门 初识mtaplotlib1 简介:Matplotlib 是开源项目 官网:http://matplotlib.org2 Matplotlib 基本绘图 调用figure 创建一个绘图对象:plt.figure(figsize=(8,4)) figsize:指定绘图对象的宽度和高度 单位,英寸 dpi: 绘图分辨率,...
2018-06-02 15:36:25 868
原创 MySQL数据库
MySQL的语法结构一、入门简介 1.1 登陆MySQL:        &am
2018-06-02 12:55:11 611
原创 Numpy基础+进阶+高级
一、ndarray概念 1、回顾python基本类型数字类型: 整型: 布尔型bool、整型int、长整形long 非整型:浮点float 、复数complex容器: 序列:字符串str 、列表list、元组tuple 集合:可变集合set、不可变集合frozen set ...
2018-06-01 13:59:32 4102 2
goturn-files.7z
2021-09-17
google_class.7z
2021-09-17
face_detector_检测模型.7z
2021-09-17
华为通用表格识别格式化成excel
2020-03-20
LC算法python实现.zip
2019-11-08
psf2otf_circShift函数.zip
2019-07-23
基于RFM模型实现的零售精准营销响应预测系统代码
2019-02-15
基于RFM模型实现的零售精准营销响应预测系统数据
2018-11-01
文本识别opencv-text-recognition
2018-10-16
工业生产流程的数据分析预测
2018-08-29
基于聚类(Kmeans)算法实现客户价值分析系统(电信运营商)
2018-08-20
基于聚类(Kmeans)算法实现的客户价值分析系统data
2018-08-18
基于NLP自然语言构建的文档自动分类_test_data _stopwords
2018-08-18
从新闻网站点击流中挖掘
2018-08-15
卷积神经网络实现数字识别数据
2018-08-14
基于Kaggle的经典AI项目——数据集
2018-08-09
shape_predictor_68_face_landmarks和dlib
2018-08-08
pyspark_ml_pipeline_DecisionTreeClassifier_RF数据集
2015-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人