八月长安tsliao-CSDN博客

原创 Python数据科学:Matplotlib数据可视化

Matplotlib常用技巧设置绘图样式我们使用 plt.style 来选择图形的绘图风格。现在选择经典（classic）风格，这样画出的图就都是经典的 Matplotlib 风格了：plt.style.use(‘classic’)显示图形如果你在一个脚本文件中使用 Matplotlib，那么显示图形的时候必须使用 plt.show()。plt. show() 会启动一个事件循环（ev...

2019-09-09 14:22:15 431

原创 Python数据科学：Pandas数据处理教程

Pandas对象简介Pandas的Series对象Pandas 的 Series 对象是一个带索引数据构成的一维数组， Series 对象将一组数据和一组索引绑定在一起，我们可以通过 values 属性和 index 属性获取数据。values 属性返回的结果与 NumPy 数组类似，index 属性返回的结果是一个类型为 pd.Index 的类数组对象。Serise是通用的NumPy数组...

2019-08-22 17:05:53 1058

原创 Python数据科学：Numpy教程

numpy数组基础数组的属性import numpy as np.random.seed(0) #设置随机数种子x1 = np.random.randint(10,size=6) #一维数组x2 = np.random.randint(10,size=(3,4)) #二维数组x3 = np.random.randint(10,size=(3,4,5)) #三维数组#每个数组有nidm...

2019-08-20 14:51:21 506

原创 Python爬虫：Scrapy框架之项目创建

安装好Scrapy包然后进入进入cmd窗口进行以下操作：scrapy startproject BossObject根据提示输入：cd BossObject进入目录scrapy genspider 项目名称域名最后这个Scrapy项目就已经创建完成了。...

2019-08-07 15:44:42 246

原创机器学习（五）：Python 决策树

import numpy as npimport matplotlib.pyplot as pltimport pandas as pd#导入数据dataset = pd.read_csv('Social_Network_Ads.csv')X = dataset.iloc[:, [2, 3]].valuesy = dataset.iloc[:, 4].values#将数据集拆分为...

2019-07-30 15:35:21 1053

原创机器学习（四）：Python支持向量机（SVM）

import numpy as npimport matplotlib.pyplot as pltimport pandas as pd#导入数据dataset = pd.read_csv('Social_Network_Ads.csv')X = dataset.iloc[:, [2, 3]].valuesy = dataset.iloc[:, 4].values#拆分数据集为训...

2019-07-30 15:20:26 479

原创机器学习（三）：Python多元线性回归

import pandas as pdimport numpy as np#导入数据集dataset = pd.read_csv('50_Startups.csv')X = dataset.iloc[ : , :-1].valuesY = dataset.iloc[ : , 4 ].values#将类别数据数字化from sklearn.preprocessing import...

2019-07-30 14:52:52 1247

原创机器学习（二）：Python K-近邻算法

# 数组模块import numpy as np# 存储了许多有用的数据集from sklearn import datasets# 分割数据的模块，把数据集分为训练集和测试集from sklearn.model_selection import train_test_split# KNN算法from sklearn.neighbors import KNeighborsClassi...

2019-07-30 11:32:40 361

原创机器学习笔记（一）：模型评估与选择

经验误差与过拟合经验误差：学习器的实际预测输出与样本的真实输出之间的差异称为“误差”，学习器在训练集上的误差称为“训练误差”或“经验误差”。过拟合：当学习器把训练样本学的‘太好’的时候，很可能把训练样自身的一些特点当作所有潜在样本都会具有的一般性质，这样就会导致泛化性能力下降，这种现象在机器学习中称为“过拟合”。与过拟合相对的是欠拟合，这种是指对训练样本的一般性质尚未学好。评估方法留出法：...

2019-07-25 19:27:17 462

原创机器学习（一）：Python一元线性回归模型

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom pandas import DataFrame, Seriesfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Linear...

2019-07-24 17:20:24 3940

原创 Python3连接MySQL，存入数据。

安装pymysql，然后执行一下代码import pymysqldb = pymysql.connect( user="root", password="密码", host="localhost", database="数据库", port=3306, charset="utf8") # 创建游标cursor = db.curso...

2019-07-23 17:52:12 235

原创电商平台产品价格监控并且自动提醒功能实现原理

因工作需要监控竞争对手产品的价格调整，所以用Python写了改价自动钉钉群提醒的脚本。以下是实现原理数据库准备本人使用的mysql：创建了三张表：1、数据源表：最初的产品价格表2、匹配表：跟数据源表进行价格匹配3、更新表：记录更新的价格记录工具（Python爬虫）将最初的数据抓取存入数据源表中，作为数据匹配源；然后进行第二次数据抓取存取匹配表中，跟源表数据进行匹配；通过sql...

2019-07-23 17:04:28 17920 7

原创 Redis数据库启动以及连接可视化操作界面

Redis数据库启动进去CMD窗口，cd进去自己redis文件目录下：cd C:\Users\Administrator\Desktop\redis-master然后再执行：redis-server redis.windows.conf出现以下界面即启动成功。连接Redis可视化输入localhost，再进行测试连接：连接Redis服务器成功。下面以我存放的代理池为例：...

2019-07-23 16:31:09 1076

原创 Python3：ip代理池创建、维护，Redis库的储存，代码实战图文详解

搭建代理池作用平时我们爬取网站的时候，如果太频繁，容易导致IP被封。所以搭建代理池，每次随机获取可用的代理，伪装成其它IP去访问网站，能够有效防止爬虫被封禁，让爬虫脱离IP被封的苦海。代理有很多免费的网站，但是不稳定。付费的代理池会相对稳定很多，具体看个人需求。搭建代理池的准备工作安装Redis数据库、此外Python要安装：aiohttp、requests 、redis-py 、pyqu...

2019-07-15 17:42:45 11566 3

原创 Python3爬虫抓取微信好友数量、性别、以及城市分布等信息。

import itchatimport pandas as pd# 先登录itchat.login()# 获取好友列表friends = itchat.get_friends(update=True)[0:]#number_friends = itchat.get_friends(update=True)number_of_friends = len(friends)# 初始化计...

2019-07-12 14:22:11 1488

原创将Python文件打包成exe，图文详解操作。

首先原文件的内容是这样的然后直接进入cmd窗口节目，切换到Python文件的目录执行pyinstaller -w -F wechat.py进行打包以下提示表示成功可以看看原来的文件夹会多出三个文件下以及一个txt文件，打包的exe文件则放在dist文件夹里面直接点击执行即可。...

2019-07-12 11:45:56 492

原创 python 定时执行 schedule包的使用

下面代码直接用即可，具体执行时间需求看个人import scheduleimport timedef passdata(): print('开始执行') #将执行的脚本放入这里schedule.every(5).minutes.do(job)#每隔五分钟执行一次任务schedule.every().hour.do(job)#每隔一小时执行一次任务schedule....

2019-06-29 17:37:25 1334

原创 MySQL：CMD窗口使用的常规操作

CMD窗口登录MySQL输入：mysql -hlocalhost -uroot -p会出现Enter password:直接输入密码就可以登陆成功查询数据库show databases;进入数据库并且查询表结构use 库名；desc 表名select语句加where限定条件select * from 表名 where 条件= 什么限制查询数量在查询语句后面加LIMIT...

2019-06-25 18:42:31 224

原创 Python3 连接钉钉API接口自动发送消息到钉钉群

Python脚本以及消息发生相关设置机器人的webhook在机器人设置里面即可查看，详细的使用教程可以到点击下面链接：钉钉开发文档的自定义机器人# url为机器人的webhook url = "https://oapi.dingtalk.com/robot/send?access_token=af22959df71e0fc16a29387186361c9fdc90c60a5...

2019-06-25 17:37:55 9301 1

原创 Python字典里面添加数据

Python字典里面添加数据的方法result = {'user':'sily','age':'18'}#执行以下代码result['day'] = '2019-06-20'print(result)#输出结果{'user':'sily','age':'18','day':'2019-06-20'}...

2019-06-20 11:39:10 61857 3

原创 chromedriver与chrome版本对应及驱动下载以及chromedriver环境变量设置

chromedriver与chrome版本对应及驱动下载chromedriver版本支持的Chrome版本v2.46 v71-73v2.45 v70-72v2.44 v69-71v2.43 v69-71v2.42 v68-70v2.41 v67-69v2.40 v66-68v2.39 v66-68v2.38 v65-67v2.37 v64-66v2.36 v63-65v...

2019-06-17 10:09:29 1829

原创 python3爬虫：用正则re匹配Xpath提取的数字数据以及用replace去掉数据中的特殊符号

replace 替换字符串中的特殊符号数据中含有逗号，需要把它去掉，代码如下：result = '45,4564'result = str.replace(result,",",'')print(result)正则匹配数据中的数字一开始用XPATH提取的result用下面re进行匹配：results = re.findall(r"\d+\.?\d*",result)匹配之...

2019-06-15 19:52:19 6178

原创 python3 使用format函数对URL进行拼接

URL拼接替换参数最近爬虫遇到需要替换URL里面的商品ID，从而抓取不同商品的数据，所以怎么把替换的ID拼接成完整的URL就成了一个问题，下面是解决方法。通过python的format函数即可完成拼接，把所以ID放到一个集合里，使用for循环就可以批量替换了。#完整的URLurl = 'https://www.aliexpress.com/item/1215121315.html'#拼...

2019-06-15 19:26:02 8142

原创 Python插入字符串数据到MySQL出现乱码、问号的解决方法

字符串数据存入数据库出现乱码、问号之前爬虫插入字符串数据，查询出来都是问号，这个问题出现的原因一般是创建表的时候没有定义UFT8格式，只需要在创建表的最后添加**[“DEFAULT CHARSET=utf8”]**即可解决。create table realtime_store_data(time varchar(255),payAmt float,payAmtRank varchar...

2019-06-14 11:26:01 1270

原创 Python3爬虫：selenium模拟登录获取cookie提取数据，存入数据库MySQL

selenium模拟登录获取cookie提取数据Python3 爬虫selenium模拟登录获取数据Python3 爬虫因为工作需要selenium爬取数据，所以写一下自己的整个流程以及过程中踩过的坑，希望能帮到大家！selenium模拟登录获取数据如果不行自动化窗口弹出，添加option就可以实现，因为我是设置定时执行的，所以每次弹出很不方便。这里遇到的第一个坑，是element定位账...

2019-06-13 15:20:50 9391

【八月长安tsliao】的博客