自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (6)
  • 收藏
  • 关注

原创 kettle学习(利用jsonPath定位,json文件转换)

.zpData.jobList…jobName 和 $.zpData.jobList【*】.jobName 的区别。JSONPath 和 XPath 都是用于在数据结构中进行查询和导航的路径语言,但它们针对不同的数据格式。获取到该页面的json数据之后,双击进入源代码内,按住crtl+s保存json文件到本地。josn文件取自,boss直聘中的城市数据。不过两种用法在某些情况结果可能不一样。】.jobName 使用了方括号(【后面实验可知道下面这种方法也可以。

2024-06-11 15:27:26 786

转载 数据分析学习网站

w3school 学SQL https://www.w3school.com.cn/sql互联网数据资讯网 https://www.199it.com/CDA数据分析师官网 https://www.cda.cn/网易云课堂 https://study.163.com/CDA网校 https://edu.cda.cn/

2024-05-23 17:30:01 75

原创 python多线程的使用

在 Python 编程中,多线程是一项强大的技术,它允许我们同时执行多个任务,从而提高程序的效率和响应性。线程是进程中的一个执行单元,可以与其他线程共享进程的资源。在 Python 中,我们可以使用threading模块来创建线程。当多个线程访问共享资源时,可能会出现数据不一致的问题。为了解决这个问题,我们可以使用锁。线程之间可以通过一些机制进行通信,例如使用队列。

2024-05-20 17:43:50 212

原创 # Selenium 与浏览器自动化

Selenium 是一个用于自动化 Web 应用程序测试的工具。Selenium 支持多种编程语言,包括 Python、Java、C# 和Ruby,并且可以与主流的 Web 浏览器进行交互,以实现自动化测试。以下是关于 Selenium 和浏览器自动化的一些介绍。

2024-05-17 18:19:54 444

原创 Python 获取当前IP地址(爬虫代理)

在Python中,获取当前的公网IP地址通常涉及到发送一个请求到外部服务,因为本地IP地址通常只在你的私有网络内部是可见的,而公网IP地址是由你的ISP(互联网服务提供商)分配的。如果你的计算机连接到多个网络或具有多个网络接口,你可能需要检查每个接口来找到正确的IP地址。一个常见的方法是使用第三方API或服务,如 httpbin.org 提供的 ip 端点。以下是使用 requests。获取公网IP的方法可能会因网络环境和地理位置而异,如果你在一个受限制的网络环境中,你可能需要使用不同的服务或API。

2024-05-17 17:51:40 720 1

原创 BOSS直聘定时投递岗位脚本~~

建立在已经爬取所需要的岗位信息之后,筛选出来我们需要投递的岗位的信息放到指定的目录之后。以下是关键代码,想要获取完整代码,关注公众号:“麻不辣青汤" 点击获取源码。

2024-05-17 16:05:30 329

原创 【BOSS直聘爬取系统功能介绍】

执行完函数“查看每个区存在多少页岗位(存放文件夹位置)”之后,在存放文件夹位置下会生成一个文件“对应页码表”,后续需要根据这个文件来确定不同区需要爬取的页码数,防止爬取重复数据。既然每个岗位只能爬取10页,我们可以采取一个岗位分10个地区,比如我需要爬取长沙市的xx岗位,直接爬取只能出现10页总共300个岗位,但是可以。确定好爬取需求之后,会在当前目下创建一个根据岗位和城市名的文件,后续爬取好的岗位信息都会保存在该文件内。,每个区假设都有10页,就可能爬取到80页数据。防止页面需要验证来中断爬取,采用。

2024-05-15 12:09:26 629

原创 最新Boss直聘爬虫系统(在跟~)

BOSS直聘爬虫经常会限制IP,我们采取控制浏览器的方法获取源码爬取例子:以爬取 杭州市 “BI“岗位为例需要源码的v+: marshal_wz。

2024-04-26 11:50:35 816

原创 获取boss直聘城市地区josn数据

获取boss直聘地区josn数据

2024-04-25 16:43:11 267

原创 Python爬虫的基本概念和工作原理

简单了解一下Python爬虫的基本概念和工作原理。Python爬虫是一种自动化抓取互联网信息的程序。它通过网络请求模拟用户操作,将获取到的网页数据解析并提取所需要的信息。爬虫可以帮助我们高效地获取海量数据,并进行相应的分析和处理。1、发送请求 2、解析网页 3、数据处理总结前言Python爬虫的基本工作流程如下:1、发送请求2、解析网页3、数据处理现在让我们来具体了解一下Python爬虫的基本技术点。

2024-04-19 15:32:50 356

原创 爬取2345天气数据

方法: 利用Selenium 库,用于模拟浏览器操作,获取每个页面的源码,毕竟,有源码不愁数据。

2024-04-19 15:16:06 843 1

原创 效率工具:企业微信机器人完成脚本工作-异常监控(sql篇)

背景:elon在公司需要人工查看某些数据是否异常,并发送到指定企业微信群中。

2024-04-18 13:51:28 416

原创 VBA:批量复制sheet内指定内容

【代码】VBA:批量复制sheet内指定内容。

2024-02-20 13:52:23 581

原创 BOSS直聘岗位python爬取2(完整代码+详细介绍)

引用上篇对boss直聘每个岗位的源代码获取了之后,对字段的爬取前言:https://blog.csdn.net/weixin_52001949/article/details/135452969如有问题可私信关注博主。

2024-01-10 14:32:57 2280 2

原创 BOSS直聘岗位python爬取思路1(完整代码+详细介绍)

- 爬取字段:详情链接、岗位名、岗位年限、岗位薪资范围、职位描述、岗位关键字、岗位地区、岗位地址- 爬取工具:Python- 所需第三方库:selenium,BeautifulSoup,json- !! 注意selenium必须要提前安装和浏览器版本一样的驱动器(本人在这步卡了好久,具体请看链接:)- 思路:(这样分段有利于中途报错不需要所有都重新跑) - 先利用selenium获取每个岗位的链接 - 再遍历页面的链接获取每个岗位招聘信息的源代码 - 再利用beautifulSoup对每个岗位

2024-01-09 14:53:47 7246 4

原创 数据仓库入门介绍框架(附带完整项目实战)

一、诞生背景- 企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致

2024-01-03 14:36:07 1211

原创 爬虫技巧1:6.6s内获取爬虫需要的cookie和header

转换工具网站:https://www.lddgo.net/convert/curl-to-code。(一定要关注博主,多学轻松,技巧不是偷懒,多学不懒)

2023-12-11 11:15:44 1077

原创 excel轻松实现一对多

1. 替换模板,更换数据2. 加载vba3. 执行程序

2023-12-05 12:12:24 586

原创 SQL留存率问题

留存率(retention_ rate)通常用来衡量用户或客户的忠诚度和粘性。-留存率指的是在特定时间段内,有多少人保持了对某个产品、服务、平台或应用程序的使用并继续付费或进行其他有价值的操作。-通常情况下,留存率会作为一个百分比表示,并根据不同的时间段进行计算。1.直接从数据出发数据。

2023-05-26 15:59:21 1374

原创 Jupyter Notebook主题皮肤库

jupyter美化主题 最详细设置 jupyterthemes

2023-05-15 16:06:32 958

转载 word选中所有表格

word选中所有表格

2023-03-16 12:59:59 1914 4

原创 sql 查询--计算用户会在第二天登录的平均概率

sql查询(小白之家)--计算用户会在第二天登录的平均概率

2023-03-12 15:59:49 284

原创 SQL篇- 最大连续登录天数

sql小白最懂,最大连续登录天数

2023-02-27 10:54:41 2068

原创 powerbi 实现 RFM用户模型

powerbi 实现RFM模型

2022-12-07 08:53:56 352

原创 利用pandas 读取pdf中的表格文件

利用pandas 读取pdf 中的指定表格文件实例pdf文件中的表格了解表格所在pdf具体页数(第四页)加载所需要的库pip install pdfplumberpip install pandas import pdfplumberimport pandas as pd with pdfplumber.open("文化软实力与中国对外抗疫援助_余伟斌.pdf") as pdf: page = pdf.pages[3] # 按照列表的规则,第四页 tab

2022-05-13 13:48:42 1617

原创 利用pandas.read_html()直接读取网页中的表格数据

利用pandas.read_html()直接读取网页中的表格数据read_html() 函数是最简单的爬虫,可以爬取静态网页表格数据。但只适合于爬取 table 表格型数据首先分析pandas.read_html() 函数的参数import pandas as pddf=pd.read_html()# 常用的参数io:url、html文本、本地文件等header:标题行flavor:解析器skiprows:跳过的行attrs:属性,例如:attrs = {'id':'table'}

2022-05-12 11:12:29 4566

原创 pandas导入excel文件内容不一致的问题

当excel文件里面含有多个表时,用pandas导入会出现生成的dateframe表不一样。错误import pandas as pddf=pd.read_xlsx('文件名.xlsx')整体代码pd.read_excel(path, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False,dtype=None, engine=None,

2022-05-01 15:10:31 1698 1

原创 dataframe数据处理(字符串截取)

dataframe数据处理(字符串截取)要求:获取该工资的范围的最高工资和最低工资 df.salary.apply(lambda x:x.split('-')[0])对salary 列 执行函数 每行都以‘-’为分割符选取前面字符df.salary.apply(lambda x:x.split('-')[1][:-1])对salary 列 执行函数 每行都以‘-’为分割符选取后面字符...

2022-04-16 11:50:13 7471

原创 利用python库 pandas完成数据分析(持续更新中~)

利用python库 pandas完成数据分析导读Pandas是一个强大的分析结构化数据的工具集,它的使用基础是Numpy(提供高性能的矩阵运算),用于数据挖掘和数据分析,同时也提供数据清洗功能。本文收集了Python数据分析库Pandas及相关工具的日常使用方法,备查,持续更新中。缩写说明df:任意的 Pandas DateFrame 对象s: 任意的Pandas Series对象注: 有些属性方法df和s都可以使用。推荐资源:pandas在线教程https://www.gai

2022-04-16 11:26:44 3633

原创 树状结构分析方法论 +零售商实例

方法论从数据中发现经营问题,且数据分析师需要主导分析内容,输出业务问题发现由于数据维度的丰富性,使用第一类分析需求思路往往会在第二布,如果每个维度都尝试下探 会非常耗时,这是可以从总体指标入手,逐层分解总体指标,形成下钻式树结构。分析思路如下:-----1. 梳理行业内经常谈及的指标-----2. 将指标拆解为另外两个指标的和或乘积(或同一指标不同维度),逐层下钻,直至无法分解-----3. 将指标按照拆解思路排放成树状结构,增加同比和环比值,通过观察变化比率快速定位问题。实例...

2022-04-08 08:40:48 907

原创 ecxce制作帕累托的详细绘制

利用数据透视表得到每个用户分类的计数项(计数项2得到折线图需要的百分比)将表复制出来, 降序计数 添加 占比(0%)选中数据,制作组合表刻度线的范围将占比线移到左下方将字段名改为 “占比”,将0%列入数据行里面...

2022-04-06 15:29:08 408

原创 excel 基于RFM模型、帕累托分析的用户画像项目实战

一、 项目名称:电商行业用户画像搭建二、 项目背景:某线上母婴平台发现最近一年各类营销活动的效果不佳,且总体销售额没有明显的增长。据了解,以往的营销活动面向所有用户,部分用户无论有无营销活动均稳定的消费,而有些用户很常时间未消费可能已转变为流失人群。三、 分析目的和价值平台逐渐意识到用户分类的重要性。实现用户分类后,可针对不同用户实施组合促销、会员卡充值、满减等营销活动。四、 分析要求以 2019 年 8 月 3 日为分析时点统计每个用户的 R 值、F 值、M 值运用平均值作为 RFM

2022-04-06 15:11:14 1367

原创 数据分析方法论之RFM模型详解

RFMRFM模型是衡量客户价值和客户创利能力的重要工具和手段;帮助企业判断哪些用户有异动,是否有流失的预兆,从而增加相应的运营措施。Recency:最近一次消费,统计用户最近一次消费时点和当前时点的时间差Frequency:消费频次,指定时间区间内统计用户的购买次数Money:消费金额,指定时间区间内统计用户的消费总金额。根据用户历史行为数据,结合业务理解,实现用户分类,助力用户的精准营销。实现步骤获取R、F、M三个维度下的原始数据。定义R、F、M的评估模型与分界值进行数据处理,获

2022-04-05 20:19:02 1909

原创 [牛客面试题 SQL16 零食类商品中复购率top3高的商品]

牛客面试题 SQL16 零食类商品中复购率top3高的商品问题:请统计零食类商品中复购率top3高的商品。定义:某商品 复购率=近90天购买它至少两次的人数/购买它的总人数。(近90天指包含最大日期(记为当天)在内的近90天)近90天 购买它两次的人数。 select t.product_id,uid,count(*) as 用户购买的次数 from tb_product_info t join tb_order_overall t1 join tb_order_detail t2

2022-03-28 23:36:33 717

原创 牛客sql面试题 SQL15 某店铺的各商品毛利率及店铺整体毛利率

牛客sql面试题 SQL15 某店铺的各商品毛利率及店铺整体毛利率问题:请计算2021年10月以来店铺901中商品 毛利率大于24.9的商品信息及店铺整体毛利率。商品毛利率=(1-进价/平均单件售价)*100%-店铺毛利率=(1-总进价成本/总销售收入)*100%思路,先计算店铺汇总 再纵向连接商品毛利率。1.店铺毛利率=(1-总进价成本/总销售收入)*100%。– 观察三表#店铺901,2021年10月以来...

2022-03-28 23:11:43 1470

原创 sql面试题 连续签到领金币(连续登录问题)

牛客面试题问题:计算每个用户2021年7月以来每月获得的金币数问题一:连续登录问题 select uid,date(in_time) as dt, row_number() over(partition by uid order by date(in_time)) 编号, date(in_time)-(row_number() over(partition by uid order by date(in_time))) dt2 from tb_user_log where

2022-03-26 21:51:28 1358

原创 sql用户留存率细致讲解

以牛客面试题为例SQL9 2021年11月每天新用户的次日留存率用户行为日志表tb_user_log问题:统计2021年11月每天新用户的次日留存率(保留2位小数)!!注:次日留存率位当天新增的用户数中第二天又活跃了的用户数占比如果in_time(进入时间)和out_time (离开时间) 跨天了,在两天里都记为该用户活跃过,结果按日期升序。DROP TABLE IF EXISTS tb_user_log;CREATE TABLE tb_user_log ( id INT

2022-03-23 22:39:45 1009

原创 开窗函数的使用

开窗函数开窗函数是满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行函数,有的函数随着记录不同,窗口大小都是固定的,这种属于静态窗口;有的函数则相反,不同的记录对应着不同的窗口,这种动态变化的窗口叫滑动窗口。开窗函数的本质还是聚合运算,只不过它更具有灵活性,他对数据的每一行,都使用与该行相关的行进行计算并返回计算结果开创函数名 ([字段名]) over ( [partition by <分组字段>] [order by <排序字段> [de

2022-03-22 22:48:59 2063

原创 牛客sql面试题个人分析思路:近一个月发布的视频中热度最高的top3视频

近一个月发布的视频中热度最高的top3视频描述现有用户-视频互动表tb_user_video_log短视频信息表tb_video_info问题:找出近一个月发布的视频中热度最高的top3视频。注:热度=(a视频完播率+b点赞数+c评论数+d转发数)*新鲜度;新鲜度=1/(最近无播放天数+1);当前配置的参数a,b,c,d分别为100、5、3、2。最近播放日期以end_time-结束观看时间为准,假设为T,则最近一个月按[T-29, T]闭区间统计。结果中热度保留为

2022-03-21 23:09:46 961

原创 三行代码实现python链接数据库操作

python链接数据操作欢迎使用Markdown编辑器欢迎使用Markdown编辑器本文分享将介绍如何在Python中使用Pandas库来实现MySql数据库的读写。首先使用pip命令安装相应模块pip install pymysqlpip install pandas函数 **create_engine()**用来初始化数据库连接'数据库类型+数据库驱动名称://用户名:口令@机器地址:端口号/数据库名'一、将数据导入数据库1.将数据(这里示例csv数据)导入DataFrame中

2021-12-30 16:51:35 905

BOSS直聘爬取代码最新在更~

该Python脚本是一个用于爬取BOSS直聘网站上岗位信息的工具。它具备以下主要功能: 1. **配置和初始化**:导入必要的库,设置浏览器选项,禁用图片加载,禁用GPU,设置窗口大小等,以优化爬虫性能。 2. **发送企业微信消息**:当遇到需要验证的情况时,脚本会自动发送消息到企业微信。 3. **等待元素出现**:定义了一个函数,用于等待页面上的特定元素出现。 4. **获取城市各区区号**:通过请求BOSS直聘API,获取不同城市各区的区号信息,并保存到CSV文件。 5. **查看每个区的岗位页数**:爬取每个区域的岗位列表页面,获取总页数,并保存到CSV文件。 6. **爬取岗位信息**:访问每个岗位的列表页面,爬取岗位名称、工资、位置、公司信息等,并保存到CSV文件。 7. **获取岗位职责**:对已爬取的岗位链接进行访问,爬取岗位职责描述,并更新到CSV文件。 8. **获取和使用Cookies**:自动获取BOSS直聘网站的Cookies,并保存到文件,用于之后的自动登录和数据爬取。 9. **自动投递简历**:读取包含岗位链接的CSV文件,自动访问链接

2024-05-21

boss直聘爬取代码(有问题联系作者)

boss直聘爬取代码__________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

2024-04-03

Pandas 从入门到精通

Pandas是一个强大的数据分析和操作工具,它为Python提供了高效的数据结构和数据分析功能。下面是一个从入门到精通Pandas的学习路径,您可以按照以下步骤逐渐提升您的Pandas技能: 1. 学习基本概念: - 了解Pandas的数据结构:Series和DataFrame。 - 学习如何创建、访问和操作Series和DataFrame对象。 - 掌握Pandas中的索引和标签操作。 2. 数据导入和导出: - 学习如何从不同的数据源(例如CSV文件、Excel文件、数据库)中导入数据到Pandas的DataFrame中。 - 掌握如何将DataFrame数据导出到不同的格式(例如CSV、Excel、数据库)。 3. 数据清洗和预处理: - 学习如何处理缺失值、异常值和重复数据。 - 掌握数据类型转换和重命名列名。 - 学习如何进行数据筛选、排序和分组。 4. 数据分析和统计: - 学习如何进行描述性统计分析,包括计算均值、中位数、标准差等统计指标。 - 掌握如何进行数据透视表和交叉表分析。

2024-01-03

power bi 孙兴华火力全开版 所有学习课件和笔记

资源来自b站up主-孙新华zz 非常适合新手入手power Bi商业智能分析

2022-05-29

详细介绍python作图工具 seaborn

导读:前期,分别对python数据分析三剑客(numpy、pandas、matplotlib)进行了逐一详细入门介绍,今天推出系列第4篇教程:seaborn。这是一个基于matplotlib进行高级封装的可视化库,相比之下,绘制图表更为集成化、绘图风格具有更高的定制性。 绘图接口更为集成,可通过少量参数设置实现大量封装绘图 多数图表具有统计学含义,例如分布、关系、统计、回归等 对Pandas和Numpy数据类型支持非常友好 风格设置更为多样,例如风格、绘图环境和颜色配置等 最后简要总结seaborn制作可视化图表的几个要点: 绝大多数绘图接口名字均为XXXXplot形式 绘图数据对象主要区分连续型的数值变量和离散型的分类数据 绘图接口中的传参类型以pandas.dataframe为主,当提供了dataframe对象作为data参数后,x、y以及hue即可用相应的列名作为参数,但也支持numpy的数组类型和list类型 绘图接口底层大多依赖一个相应的类来实现,但对外开放的只有3个类:PairGrid、JointGrid和FacetGrid 接口包括了常用的分布、关系、统计、回归类图表

2022-04-27

JavaEE开发环境的搭建(终稿).pptx

1.jdk的安装 2.tomcat的下载.安装.配置 3.eclipse的下载安装配置 4.第一个Java web 项目 5.MySQL,maven,git的安装与配置

2021-09-22

数据库实操.pdf

数据库实操

2021-09-14

数据库的安装.pdf

数据库的安装

2021-09-14

数据库的配置.pdf

数据库的配置

2021-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除