自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 python高潜用户分析

我们运行查看行为类型后发现,已经是有分好类了,1,2,3,4,5,6.这六种类型,分别对应了多少行。所以可以根据实际分析,购买的行为应该是最少的。这里我们先读action.csv ,由于数据量比较大,(数据太大读不出来,程序会报错)我们需要按块读取,每次读一点。user_id 用户编号 user_id 用户编号。使用pyecharts库生成一个HTML文件,这个库做出了的表比较好看,有一点动画效果。这个表的数据基本可以算是比较好的,不需要数据清洗。

2023-04-01 15:30:01 381

原创 python用户价值分析

如果我们对上面的数据做一个这样的数据透视表,在excel表个是这样的,因为这个表格中用户ID是很多重复的,所以我们要分析用户的话需要将用户提取出来,根据RFM模型,我们需要获得每个用户的 最后一次交易时间,交易次数,和最近一段时间内交易的金额。客户最近一次交易时间的间隔 = 分析的数据时间段内最晚的时间 - 最后一次交易时间,这里我们用InvoiceDate列所有数据最后一次交易时间为基准。︰客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。

2023-03-30 14:32:33 891

原创 python数据清洗

空值,异常值,重复值,类型转换和数据整合

2023-03-25 09:47:19 3057 1

原创 python多元线性回归--波士顿房价预测

使用python进行房价预测

2023-02-16 17:31:03 2159

原创 python简单线性回归---鸢尾花

python一元线性回归

2023-02-16 16:40:37 983

原创 将json文件里面的数据写入数据库

这个数据是用scrapy框架从兼职猫里面爬取出来的一部分数据,保存文件的格式是json格式。我之前有个文章是淘宝数据写入数据库 ,漏了一段代码。现在改回来了。在数据写入数据库之前,我们要做的事是建数据库和数据表数据库创建语句是:create database 数据库名 charset=utf8;create database jianzhimaocharset=utf8;创建一个名为qwe的表。数据表创建语句:create table qwe( id int auto_increment primary k

2022-06-09 17:29:38 4141

原创 MySQL 数据库基本命令

MySQL数据库登录:mysql -uroot -p: u代表用户名 p是密码(这里登录的是本地的MySQL数据库)数据库语句后面要加(;)显示所有数据库:show databases;创建新的数据库:create database 数据库名 charset=utf8; (保存格式为utf8,也就是utf-8)查询当前使用的数据库:select database();切换数据库:use 数据库名;删除数据库:drop database 数据库名;表级操作:显示所有数据表: show t

2022-05-11 15:47:33 875

原创 scrapy 框架的认识(1)

scrapy框架介绍:scrapy 框架是一个爬虫框架,是为了提高爬虫效率开发的框架。可以通过redis数据库实现分布式爬虫,(分布式爬虫是将爬虫程序url分布到其他电脑进行爬虫程序)。scrapy框架安装同样是在命令行运行:pip install scrapy -i https://pypi.douban.com.simple会把辅助框架一起给下载了,scrapy 框架基础命令介绍:第一步:cmd创建scrapy爬虫项目:scrapy startproject 项目名称xxx (如:s

2022-05-11 11:19:49 202

原创 python 异常处理

我们敲代码遇到报错,异常是很正常的。有时候我们程序报错后还是要继续接着跑,或者我们输入错误什么的报错了。为了不让程序停下来,我们就可以用到异常处理。1.捕获异常格式一:语法格式:try: 检测的代码块except: 如果检测到异常,执行这个位置的代码try: a # NameErrorexcept NameError as error: # as error相当于把异常信息保存在error里面; error是变量名,可以自定义 prin...

2022-04-25 22:14:22 572

原创 python 函数调用

1.参数--形参和实参形参:写在定义函数的位置,这个变量叫形参实参:写在函数调用的位置,这个值叫实参#函数调用# 设置全局变量n = 10,m = 20n = 10m = 20# 定义一个qwe函数,接收两个未知数n ,m。返回m+n的值numdef qwe(m, n): num = m + n print(num) # 这里num = 30 return num# 定义一个asd 函数,调用qwe 函数*30def asd(): # 定义一

2022-04-25 21:09:04 1003

原创 python 函数大全

什么是函数:函数指被封装起来的、实现某种功能的一段代码。Python安装包、标准库中自带的函数统称为内置函数,用户自己编写的函数称为自定义函数,不管是哪种函数,其定义和调用方式都是一样的。#定义好的函数直到被程序调用时才会执行。函数的调用格式如下:#函数名([参数列表]) 如 调用刚刚定义的weather()函数。def weather(): print("*" * 13) print("日期:4月8日") print("温度:14~2...

2022-04-19 22:50:30 4447

原创 python 集合

集合的增删:# 1. 添加元素: add update# 列表---append(整体)/extend(拆分)# 集合---add(整体)/ update(拆分)s2 = {1, 2, 3, 4}print(s2)s2.add('abc')print(s2)#update #把传入的元素拆分,一个个放入集合s2.update('abc') # TypeError: 'int' object is not iterableprint('添加后:', s2)...

2022-04-18 22:36:21 916

原创 python 元组 与 字典

元组使用圆括号创建元组使用圆括号“()”创建元组,并将元组中的元素用逗号进行分隔。当使用圆括号“()”创建元组时,如果元组中只包含一个元素,那么需要在该元素的后面添加逗号,从而保证Python解释器能够识别其为元组类型。tu_one = () # 空元组tu_two = (‘t’, ‘u’, ‘p’, ‘l’, ‘e’) # 元组中元素类型相同tu_three = (0.3, 1, 'python',

2022-04-18 21:34:48 2542

原创 python列表操作大全

列表相关操作#1. 添加元素append 、 extend 、insert# li2 = [1, 'b', 'c', 'd']# li2.append([2, 3, 4]) # append整体添加在原来列表后面 [1, 'b', 'c', 'd', [2, 3, 4]]# li2.extend([2, 3, 4]) # extend 分散添加, 将另外一个类型中的元素逐一添加 [1, 'b', 'c', 'd', 2, 3, 4]# li2.insert(1, '5') .

2022-04-17 22:28:45 2998

原创 广城云服务实现每天定时填写一日一报

基于python实现的一日一报学校的小程序更新了,所以我们的代码也要稍微改一下。我这边重新抓包一下,先打开我们的Charles,在将我们分享到文件传输助手的广城云服务打开。我们通过些文本信息可以知道这个是我们的所需要抓包的小程序。这次学校小程序进行了大改,域名都改了。但是对于我们来说丝毫不影响,原理都一样。我们实现自动填报的原理是模拟正常用户发送数据包到他们后台数据。我们正常用户访问的网页是通过get请求去获取数据的,而,我们提交数据用的就是post请求,我们要做的是使用post请求发送..

2022-04-14 22:57:14 777

原创 selenium使用大全

selenium使用 使用selenium有一个硬性条件,1;使用Google浏览器 2:下载chromedrive.exe工具。驱动的下载地址如下:http://chromedriver.storage.googleapis.com/index.html查看浏览器的版本:浏览器右上角三个点: > 帮助 > 关于Google chrome-- 89.0.4389.90 根据这个数字去找对应的版本工具-- 找到之后点进去: linux, mac win-- 89.0..

2022-04-10 17:34:52 4467

原创 广城云服务使用代码实现一日一报

在前一篇文章中我们已经知道广城云服务提交的URL,不知道如何获取的同学可以看我前一篇文章。小程序主页URL: https://g.hc-web.cn/api/index/login 使用的是post请求 :点击我的健康卡:获取之前的填报信息URL: https://g.hc-web.cn/api/index/getDay点击每日记录(一日一报)URL = https://g.hc-web.cn/api/index/getDayInfo提交表单数据:url = https://g.

2022-03-20 16:18:50 171 2

原创 广城云服务抓包(Charles抓包)

抓包?为什么要抓包, 为了实现程序自动化,为了爬虫。Charles 是我用过最好用的抓包工具,安装过程也很简单安装过程可以看这篇文章抓包工具Charles下载安装使用_Lucky52hz的博客-CSDN博客_charles下载。安装可以到官网安装,Charles安装步骤及其简单,这里就不写了,安装好后是英文版的,汉化包链接:https://pan.baidu.com/s/1LxoYGK3T5uLDji3YEx3oaA提取码:1234 汉化包如何使用我也放在里面了。在电脑中找到Char...

2022-03-20 15:50:03 3467 2

原创 关于CMD终端命令行错误常见问题(添加新硬盘后)

由于电脑内存不够用,加了一个新的硬盘,分好区后,发现很多CMD命令用不了。1:cmd命令一般用来打开其他程序或者查资料啥的,分好盘后,连查询IP地址的ipconfig这个命令都用不了。这种情况一般是环境变量有问题,建议重新写一下。我这个是Win10的笔记本。右键此电脑--选择属性--高级系统设置--选择高级 --环境变量选择下面的系统变量--找到path(我这里标了一个MySQL的路径,是因为分盘后我的MySQL用不了所以重新配了一个路径)双击path,进入这个页面2:

2022-03-02 14:07:22 3195

转载 python与MySQL数据库连接

python连接数据库依赖一个第三方库:pymysql安装:在终端(cmd): pip install PyMySQL -i https://pypi.douban,com.simple(豆瓣的镜像文件)直接pip install PyMySQL也行参数列表:参数host:连接的mysql主机,如果本机是'localhost'(如果是别人的数据库,就要查看对方的IP 地址,cmd进去 ipconfig 选择第一个IPv4 如:192.168.100.167) ......

2021-10-15 10:55:50 800

原创 python天气语音播报

今天的小项目是一个天气播报,项目效果是点击运行就读出今天的天气。那么我们可以分两步走,第一个:先爬取到今天的天天气内容,第二步:电脑读出今天的天气内容想要电脑读出内容,就用到一个第三方库叫pyttsx3 ,安装和其他第三方库一样,在cmd里面输入pip install pyttsx3第一步:爬取天气,选择的是:https://tianqi.2345.com/...

2021-10-11 15:21:13 450

原创 将淘宝爬取的数据写入Excel表格

我们上一篇文章已经获取到淘宝的数据写入了.json文件。现在我们就可以写入Excel表格。运行结果是这样子的。from selenium.webdriver import Chromeimport timefrom lxml import etreeimport jsonimport xlwt#导包if __name__ == '__main__': chrome_obj = Chrome() #因为是个类,所以要创建一个对象。 chrome_obj.ge.

2021-10-09 15:15:58 1599

原创 chromedriver.exe安装

这个安装是不需要配置环境变量的,我看见有些博主是有搞哪个环境变量。第一步:进入chromedriver官网:https://npm.taobao.org/mirrors/chromedriver第二步:根据浏览器的版本下载对应的压缩包,我们用的是谷歌浏览器。点击浏览器右上角三个点: > 帮助 > 关于Google chrome -- 94.0.4606.54 根据这个数字去找对应的版本工具第三步:找到之后点进去: linux, mac win -- 94.0.4606.54.

2021-10-09 12:06:14 8965

原创 淘宝销量获取

想爬取什么数据你们可以在文章下面评论一下,我好锻炼一下自己的爬虫能力,当然源码会给你们放出来。我们今天就使用自动化爬取数据,自动化的话就是人可以怎么操作,机器就可以怎么操作。用到的工具chromedrive.exe,下载地址:https://npm.taobao.org/mirrors/chromedriver。这个工具下载安装好后要把这个chromedriver.exe复制到跟你的解释器同一目录之下cmd 中 where python, chromedriver.exe 跟 python.exe(指

2021-10-09 10:28:26 565

原创 哔哩哔哩代码优化

废了,这个csdn有点严格,一些源码放上去直接将你的删除。所以后续可能就不怎么用csnd了,爬虫这东西本来就敏感。那后续的加密数据爬取就没办法写了。优化: --1.合成视频之后,删除掉纯视频,纯音频文件 --2.屏蔽掉ffmpeg的调试信息: 加载终端命令的最后 -loglevel quiet --如果没有达到预期,就不要去屏蔽,可以查看报错信息 --3.手动抓包的30080,30280数据包的url,,并不是固定不变的,动态变化的... 目

2021-09-28 09:57:06 434

原创 安装ffmpeg 配置环境变量

第一步搜索ffmpeg官网:第二步:点击Download,下滑,看到下面这个第三步:确定自己的电脑是哪一种,我的是window10,64位。点击第二个,出现下面这个页面第四步:找到win64下载安装。第五步:找到你自己下载安装的路径,准备配置环境变量。第六步:复制安装的路径:找到电脑关于>高级系统设置>点击高级,>点击环境变量第七步:找到path,点击编辑,将复制的路径粘贴,点击确定即可。第八步:在cmd里面输入ffmpeg –ver...

2021-09-25 10:42:32 5618 9

原创 pycharm连接MySQL数据库

喜欢python的同学应该都知道python又很多库,使得我们写起代码的时候相比Java,C语言方便简单,高效很多。今天我们要用到的库呢是第三方库,是需要我们去下载安装的。点击Terminal 进入命令行模式,输入pip install pymysql 按下回车即可下载。等待下载安装好之后我们就可以开始了。(这里写的是爬虫的模板,在写入数据库,先安装MySQL数据库)第一步:写代码之前肯定是导库了导入我们可能用到的库import requestsimport jsonpathim.

2021-09-22 20:02:46 4823

原创 Xpath解析html数据

在爬虫中,数据一般存在json,html数据包中,我们今天就解析HTML数据,HTML数据呢可以使用正则,或者使用xpath来解析出我们想要的数据。xpath的安装包和教程可以上网搜索一下,可以参考一下这个:关于xpath的安装_Jxiepc的博客-CSDN博客_xpath安装我们就用京东来开刀吧!这边选择的是京东电脑,url:电脑_笔记本_台式机_电脑配件_办公设备-京东第一步:右键点击检查>点击小箭头>点击我们想要的数据(爬虫只能爬取我们看得到的数据)第二步:出现我们想要的数

2021-09-16 11:58:24 654

原创 jsonpath 解析json数据

上一篇文章中我们爬取了数据但没有分析json数据我将豆瓣的那个接送数据复制过来。在复制之前呢,我们可以先把复制的数据放到json.cn这个网页看一下。会把我们的数据格式话这样子,让我们一眼可以看的清楚。有一个大括号把一部电影的数据呢全部包围起来了,有电影名称,评分,链接等等。一般我们要获取数据呢基本都是跨节点,又快,又不容易出错。上部分链接:json解析豆瓣数据_weixin_58520733的博客-CSDN博客# 这里面的代码可以参照我上一次写的那个获取豆瓣那个代码一起用# $..

2021-09-14 17:44:32 381

原创 json解析豆瓣数据

继续上次的文章,我们找到了json的数据包,那么证明我们可以获取到他们的数据。点击Headers,Request URL对应的就是json数据的url。找到url之后我们就可以开始爬虫了。import requestsimport jsonimport jsonpathif __name__ == '__main__': #json数据的url(链接) url_ = 'https://movie.douban.com/j/search_subject...

2021-09-14 17:08:48 869

原创 查找json数据

json数据呢,就是动态数据,在页面不变的情况下呢,有新的数据包产生,一般都是json数据。html数据熟悉吧,一般都是渲染页面主体,而json数据呢是在原有的数据填充页面。一般翻页的数据是json数据。查看json数据在所需数据页面右键选择>检查(比如豆瓣)>点击Network>点击Fetch/XHR>最后点击键盘ctrl+R键(就和ctrl+c复制一样)等待数据刷新。我们将数据复制出来,然后打开json.cn,将数据粘贴到json.cn,这个网页会自动格式

2021-09-14 12:18:25 3002 2

原创 python代理IP的使用

我们使用代理IP是为了搞爬虫的时候不会被封禁账号,比如豆瓣,如果爬多了,就很容易被检测出来是爬虫,进而封禁我们的IP,我们想要正常访问都访问不到了,一般都是封禁几天或者时间长的话就一两个月。使用代理IP,不再使用真实IPimport requests# xxxxxxxxxxif __name__ == '__main__': # 1.目标的url url_ = 'http://2021.ip138.com/' # 手动的构造用户代理, cookie的参数 he

2021-09-14 11:41:36 1791

原创 使用selenium自动化测试删除搜索框原本的数据

第一步,导库import timefrom selenium.webdriver import Chrome第二步,使用clear()使用xpath定位到搜索框,再后面加入.clear()即可​#删除搜索框数据input_obj = chrome_obj.find_element_by_xpath('//*[@id="J_search_key"]').clear()#输入搜索框数据input_obj = chrome_obj.find_element_by_xpath('/.

2021-09-14 10:41:12 1699 1

原创 python爬取顶点小说简单版

python爬取顶点小说简单版爬取网络资源首先要下载requests库因为这里面也有数据提取和分析所以也要有etree库,re库下载库的代码是:pip install 库名如:pip install requsets下载库:可以通过win+R 键进入cmd模式,直接运行pip install requsets废话不多说代码如下:import requestsimport timeimport refrom lxml import etreeif __name__ == '__main

2021-08-11 20:41:03 689

robot.py机器人智能对话

一个链接百度对话机器人的程序,实现在智能对话

2021-11-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除