2019年09月_curd_boy

12月 11月 10月 09月 08月 07月 06月 05月

原创 Git的使用总结

1.Git简介Git(读音为/gɪt/。)是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。 [1] Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。版本控制系统如何帮我们控制版本？我们需要进行版本控制的文件都要提交到一个**仓库（其实就是一个隐藏文件夹）**里面，我们对文件做出的修改都会被这...

2019-09-30 14:12:24 199

文章目录1.准备数据2.数据展示3.可视化展示3.1 各城市高校数量 bar3.2 高校数量前十名 pie3.3 高校数量后十名 pie3.4 高校分布热力图 geo3.5 各地区高校数量段位图 geo3.6 高校质量分析985_211 pie bar3.7 高质量高校分布热力图 geo map3.8 地区高质量高校占比 liquid北京高质量高校占比北京上海江苏高质量高校占比占比前十城市高质量高...

2019-09-27 18:28:29 2847 2

原创某宝爬取商品的数据分析成图总结

文章目录1.数据清洗2.标题关键字与价格分析2.1 商品标题词云图2.2 关键词柱状图2.3 标题高频关键字与平均销量关系2.4 标题高频关键字与平均售价关系3.销量与价格、地区的关系3.1 商品价格、销量区间分布3.2 商品价格与平均销量关系分析3.3 省份与销量的分布3. 函数分布3.1 分析标题关键字与其他属性的关系analysis_title_keywords()3.2 分析商品某数值区间...

2019-09-19 01:14:15 1455 3

原创 ERROR 1055 (42000): Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregate

问题原因：ONLY_FULL_GROUP_BY的意思是：对于GROUP BY聚合操作，如果在SELECT中的列，没有在GROUP BY中出现，那么这个SQL是不合法的，因为列不在GROUP BY从句中，也就是说查出来的列必须在group by后面出现否则就会报错，或者这个字段出现在聚合函数里面。解决办法：SET sql_mode=(SELECT REPLACE(@@sql_mode,'ONL...

2019-09-10 01:17:34 1140

原创 Mongodb数据库的使用

安装参考：https://blog.csdn.net/qq_27378621/article/details/80933354https://www.cnblogs.com/zhoulifeng/p/9429597.html注意要手动设置文件存储地方以上次爬取的天猫美食为例：from selenium import webdriverimport refrom selenium....

2019-09-04 17:11:51 376

原创多进程爬取猫眼电影TOP100的电影数据

崔庆才 Python3爬虫入门到精通课程视频练习利用多线程和re 爬取猫眼电影TOP100的电影数据爬虫与数据分析：Github代码如下：# -*- coding:utf-8 -*-import requestsimport reimport jsonfrom multiprocessing import Pooldef get_one_page(url): head...

2019-09-04 15:35:59 380

原创《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐（协同推荐）数据预处理篇②

1 数据清洗1.1 查看各个需要删除的规则包含的信息类型网页import pandas as pdfrom sqlalchemy import create_engine# 读取数据库数据engine = create_engine('mysql+pymysql://root:@localhost/wangye?charset=utf8')sql = pd.read_sql('...

2019-09-03 17:04:45 1105 4

原创《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐（协同推荐）数据探索分析篇①

文章目录1 背景与目标分析2.数据探索分析2.1 网页类型分析2.1.1 统计各个网页类型所占的比例2.1.2 网页107类型中的内部统计2.1.3 统计带"?"问号网址类型统计2.1.4 统计199类型中的具体类型占比2.1.5 统计瞎逛用户中各个类型占比2.2 点击次数分析2.2.1 统计点击次数2.2.2 点击次数与用户数量关系2.2.3 统计1~7次数及7次以上的点击数2.2.4 浏览一次...

2019-09-03 13:53:43 5310 8

原创《Python数据分析与挖掘实战》第11章——应用系统负载分析与磁盘容量预测（时间序列）

文章目录1.背景与目标分析2.2 数据探索2.1 查看数据信息2.2 数据平稳性分析3 数据预处理3.1 数据清洗3.2 数据变换——属性构造4 模型构建4.1 确定模型—— ARMA or ARIMA?4.2 平稳性检测4.2 白噪声检验4.3 模型识别（最优模型）4.4 模型检验4.5 模型预测4.5 模型评价5 预测可视化《Python数据分析与挖掘实战》的实战部分的第11章的数据——《应...

2019-09-02 18:52:34 1941

原创《Python数据分析与挖掘实战》第9章——基于水色图像的水质评价（svm）

1.基于水色图像的水质评价背景有经验的渔业生产的从业者可以通过观察水质变化调控水质，来维持养殖水体生态系统中的浮游植物、微生物、浮游动物等的动态平衡，然而这些判断是通过经验和肉眼观察得出的，存在主观性引起的观察性偏差，使观察结果的可比性、可重复性降低，不易推广使用。数字图像处理技术为计算机监控技术在水产养殖业的应用提供了更大的空间。在水质在线监测方面，数字图像处理技术是基于计算机视觉的...

2019-09-02 13:14:55 4624 1

原创《Python数据分析与挖掘实战》第8章——中医证型关联规则挖掘（Apriori关联）

本文是基于《Python数据分析与挖掘实战》的实战部分的第八章的数据——《中医证型关联规则挖掘》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码。主要有：1）将原始数据按照聚类结果进行标记类别1 背景与目标分析此项目旨在根据相关数据建模，获取中医证素与乳腺癌TNM分期之间的关系。2 数据预处理2.1 数据变换2.1.1 数据离散化datafile = 'data...

2019-09-02 09:35:26 2827 1