自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信号:RunsenLiu

不喜欢搞学术和技术,喜欢money更多点

  • 博客(36)
  • 资源 (171)
  • 问答 (12)
  • 收藏
  • 关注

原创 Centos7搭建Kubernetes集群

@Author:By RunsenKubernetesKubernetes 及其整个生态系统(工具、模块、插件等)均使用 Go 语言编写,从而构成一套面向 API、可高速运行的程序集合,这些程序文档精良、易于参与贡献或在其上构建应用程序。(百度百科)那么 Kubernetes有什么用?其实很简单,Docker是部署我们的项目的容器,可是一个容器部署不够,如果在多个Linux服务器中使用Doc...

2020-04-28 12:35:55 1257

原创 Python北京空气质量数据处理

北京空气质量数据处理这是我接单的一个单,看了数据源,马发现很有印象,马上就知道来源kaggle中国北京上海广州成都,沈阳的Pm2.5数据集,对应的链接:https://www.kaggle.com/uciml/pm25-data-for-five-chinese-cities,数据集去kaggle下载,在kaggle上就是一个时间序列的问题。他们老师的要求:将源码与生成的数据(rar或zip格...

2020-04-27 12:06:18 2301

原创 七、Python简单爬取学堂在线合作院校页面内容

这是一个大学生的爬虫作业,我是收钱干活的,比较简单,来过来分享一下。就是要爬取到合作院校的名称及该所院校在学堂在线开课的数量,将爬取到的数据保存到一个json文件中!例如:“{“清华大学”:308}”直接用xpath就可以了,保存为字典,然后转化成json就OK了。dict(zip(course,nums))将两个列表变成字典,这个需要知道。爬取代码如下。'''@Author: R...

2020-04-23 14:49:19 3271

原创 五十二、Python北京美团汉堡外卖数据分析实战

前言@Author:By Runsen今天肚子饿了,我突然想点一个外卖,最近迷上了香辣鸡腿堡,打开美团外卖竟然发现周围没有店家,有的店家离我非常远,气得我不行了,送过来要2个小时,说好的美团外卖,送啥都快。于是,我不得不跑去支付宝下的饿了么去下单,发现半小时就可以给我送到了,神速。吃上香辣鸡腿堡,顺便点了薯条和可乐,真香!突然间,做了一个小梦,梦到了负责北京的美团老板私信我,说北京各...

2020-04-23 14:41:28 2640 1

原创 八、爬虫解析利器 PyQuery 的使用

@Author: Runsen每个网页,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 作为区分,我们可以借助它们的结构和属性来提取信息。如果你用惯了xpath和bs4,学习Pyquery是一个不错的选择。pyquery 是 Python 的第三方库,我们可以借助于 pip3 来安装,安装命令如下:pip install pyquery下面,我以CSDN首页为例。...

2020-04-23 14:23:23 1113

原创 二十九、接了一单Python数据分析的私活,心痛

前言大家好,我是润森。在很早之前,2020-03-29接到一个非常简单的单子,是重本大学大学生的作业,就是有test1和test2.csv下图是test1的csv,数据比较多。下图是test2的csv,数据比较少,一共12条数据。他的要求是通过test1中的A列中有多个数据,使用A列中的F列减去对于的test2中的D列,再用A列中的G列减去对于的test2中的E列。y使用下面的计...

2020-04-18 18:39:10 5895 5

原创 四十一、完成scrapy爬取官方网站新房的数据

在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链家官方网站新房的数据(3-5页即可,太多可能被封禁ip),网址:https://bj.fang.lianjia.com/loupan/,将楼盘名称、价格、平米数等(可以拓展)数据保存到一个json文件中。

2020-04-17 19:27:55 2893 3

原创 股市永不过时的黄金铁律:零下金叉疯狂买,零上死叉立即卖

MACD和RSI技术分析指标在前面详细介绍了Talib,谈到期货交易软件中常用的技术分析指标,如MACD、RSI、KDJ、动量指标、布林带等等。(1)MACDMACD指标是所有技术指标里最经典的一个技术指标,正确运用这个指标,通过结合K线(日K线、周K线)、个股走势、量、大盘走势、利空利好消息等,基本上就可以达到较好地买卖效果。MACD有四大元素,分别是DIFF,DEA,红绿柱线和零轴线...

2020-04-15 10:31:06 1294

原创 Python爬虫加密

加密在开发爬虫的过程中,我们经常遇到的一种反爬措施是数据加密。常见的加密算法可以分为三类:对称加密算法,非对称加密算法和Hash算法(事实上不是加密算法而是摘要算法)一、对称加密1.定义采用单钥密码系统的加密方法,同一个密钥可以同时用作信息的加密和解密,这种加密方法称为对称加密,也称为单密钥加密。由于其速度快,对称性加密通常在消息发送方需要加密大量数据时使用。但是,加解密双方使用同样的密钥...

2020-04-09 10:15:48 1336

原创 三十、Pyspider爬虫框架总结,爬取Scrapy文档

安装好pyspider后,创建一个项目文件夹用来存放相关文件,进入文件夹后运行pyspider命令,默认情况下会运行一个web服务端监听5000端口,通过http://localhost:5000即可访问pyspider的web管理界面。

2020-04-09 10:14:33 1112

原创 js调试微博登录案例

js调试五、微博登录案例1.分析流程手动操作流程访问首页https://weibo.com输入用户名和密码点击登录如果有验证码,就输入验证码验证成功跳转到微博首页面请求流程分析过程根据上面的手动操作流程,我们要分析出网站的http请求逻辑。1.首页面请求分析首先,打开谷歌浏览器开发者调试工具,查看在请求首页面时,请求回的响应是否包含cookie,也即是看首页面的响应头中...

2020-04-09 10:13:20 1190 3

原创 五十五、手把手教你从零到一,完成淘宝数据分析案例

淘宝数据分析案例假设,老板是做服装的行业的。某一天,老板想上市自己T-shirt的产品,但在上市前需要知道,在我国主要的竞争对手在哪个省份以及T-shirt的主要定价属于什么区间。拿到任务的你,进行第一步数据采集。思考了下,我应该先把淘宝网上卖T-shirt的卖家的信息爬取一遍,于是开心的打开淘宝官方网站,搜索T恤。下面,你决定先明确爬取的目标的数据,决定爬取每个商品的标题,价格,位置和销...

2020-04-08 18:08:16 1567

原创 三十三、自从我会了Python中的PIL,发现了其实超级简单

PIL全称是Python Image Library,顾名思义,是用来做图像处理的。我们可以用PIL干嘛呢?第一,可以将两张图片合并在一起Image.blend(image1,image2,alpha)合成公式为:out=image1(1.0- alpha)+image2alphafrom PIL import Imageim1 = Image.open("1.jpg")im2 = ...

2020-04-08 11:08:24 1394

原创 我是Python小玩家,一行代码能做哪些炫酷的事情 (三十一)

python之禅一行代码启动一个Web服务python -m SimpleHTTPServer 8080python3 -m http.server 8080一行代码实现变量值互换a, b = 1, 2; a, b = b, a一行代码打印迷宫print(''.join(__import__('random').choice('\u2571\u2572') for i in r...

2020-04-08 10:46:18 1119

原创 手把手教你插入数学公式,妈妈再也不用担心我写不了论文了

LaTeX是专为学术写作开发的语言和编纂程序,拥有强大的package资源,这意味着用LaTeX写作可以避免Word带来的令人头疼的排版问题,而且世界上有很多人已经写好了针对各种写作格式的coding package,我们只需要套用这些package就行了。行间公式 (inline):用$...$将公式括起来。块间公式 (displayed),用$$...$$将公式括起来是无编号的形式...

2020-04-07 23:50:03 1640

原创 AHP层次分析法解决用户价值评估

前言@Author : Runsen现在互联网都有得到用户,那用户到底有没有价值需要评估。通过各种指标来给用户综合打分,每个用户最后会得到一个分值,分值越高,说明用户的价值越高。这是一个总的目标,一个用户可以创造的价值由两部分决定:创造价值的能力和创造价值的意愿,前者是能不能的问题、后者是愿不愿意的问题。定了两个主线以后再次进行目标拆解,根据业务经验分别找到那些能够判断用户创造价值的能力和意...

2020-04-07 23:40:42 1527

原创 Python在window平台打包工具pyinstaller (三十五)

Java 一次编译到处运行,Python没有这么好本事,但是也有一个pyinstaller可以打包exe,在window平台下运行pyinstaller安装pip install pyinstaller参数参数含 义-F只生成一个exe文件–distpath指定生成的exe存放的目录–workpath指定编译中临时文件存放的目录-i创建一个目录...

2020-04-07 12:03:42 1057

原创 二十二、 深入Python的进程和线程(上篇)

进程(Process)和线程(Thread)都是操作系统中的基本概念,它们之间有一些优劣和差异,那么在Python中如何使用进程和线程?

2020-04-07 11:12:00 1151

原创 Python中的itchat模块使用大全

Python中有一个itchat实现微信的分析和登录。itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。使用不到三十行的代码,你就可以完成一个能够处理有信息的微信机器人。当然,该api的使用远不止一个机器人,更多的功能等着你来发现。#实现微信消息的获取import [email protected]_register(itchat.content.TEXT)...

2020-04-06 11:11:55 7008 5

原创 65 | 邮件发送

在Python中,我们可以使用smtplib和email两个库来实现发送邮件的功能。smtplib库用于发送邮件,而email库用于构建邮件内容。

2020-04-06 10:49:15 1315

原创 Python读写docx文件(三十五)

Python读写docx文件Python读写word文档有现成的库可以处理pip install python-docx安装一下。https://python-docx.readthedocs.io/en/latest/学习官网: http://python-docx.readthedocs.org/en/latest/import docx# 新建,打开,保存文件。import ...

2020-04-06 10:40:06 998

原创 26 | logging模块

模块在Python中提供了一个灵活的框架用于发出日志信息。这个模块提供了许多功能,比如更改日志消息的输出格式,指定日志消息的级别等。这段代码将输出类似’2023-07-27 12:15:27 - WARNING - 这是 warning 级别的消息’的日志信息。这段代码将只输出级别为INFO及以上的日志消息。因此,'这是 debug 级别的消息’将不会被打印出来。这段代码将所有级别的日志消息都输出到’example.log’文件中。:请将日志信息同时输出到控制台和文件。:请捕获并记录一个运行时错误。

2020-04-06 10:31:42 1100

原创 27 | pickle、json 和 shelve

在Python中,pickle、json和shelve是用于数据序列化的常见模块。相比于pickle模块,json模块的优势在于其生成的 JSON 字符串是人可读的,并且可以被 Python 以外的语言(如 JavaScript)读取和写入。Pickle 模块是 Python 提供的用于序列化和反序列化的标准接口,它能够将 Python 对象转换为一种可以传输或存储的格式,同时还能够进行反向操作。注意,Pickle模块的序列化和反序列化过程可能存在安全风险,不应该处理来自不可信的或未经验证的源的数据。

2020-04-06 10:26:37 1097

原创 13 | 常见关键字

在上面的代码中,我们使用 assert 关键字检查变量 a 和 b 是否相等。在上面的代码中,我们使用 class 关键字定义了一个名为 Person 的类,它有两个属性 name 和 age,并且有一个方法 greet,用于打印出人的姓名和年龄。在上面的代码中,我们使用 def 关键字定义了一个名为 greet 的函数,它接受一个参数 name,并在屏幕上打印出 “Hello, name!在上面的代码中,我们使用 finally 关键字定义了一个必须执行的代码块,并打印出 “Done” 的消息。

2020-04-03 19:28:04 1348

原创 17 | 逻辑回归

逻辑回归是一种监督学习算法,用于解决二元分类问题。它的目标是预测一个二元变量的结果,例如预测一个人是否会购买某个产品,或者预测某个病人是否患有某种疾病。逻辑回归的输出是一个介于0和1之间的概率值,表示给定输入数据属于正类的概率。如果概率大于或等于一个预定义的阈值,则将该输入数据分类为正类,否则将其分类为负类。逻辑回归(Logistic Regression)是一种广泛用于二分类问题的回归模型,尽管它的名称里包含“回归”二字,但它实际上是用于分类的一种算法。原理。

2020-04-03 10:19:51 1076 1

原创 总结Python机器学习中的回归算法

下面我带大家整理下机器学习的回归算法基本回归方法(线性、决策树、SVM、KNN)和集成方法(随机森林,Adaboost和GBRT)下面是源码import numpy as npimport matplotlib.pyplot as pltdef get_data(): x1_train = np.linspace(0,100,50).reshape(-1,1) x2_...

2020-04-03 10:10:18 1209

原创 多元线性回归分析问题

什么是多元线性回归在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。**事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。**因此多元线性回归比一元线性回归的实用意义更大。y=β0+β1x1+β2x2+ … +βpxp+ε # 公式今天讲一个例子这里有个excel 文件数据,我们来研究...

2020-04-03 10:00:26 1591

原创 从简单的一元线性回归分析入门机器学习

什么是回归分析回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近...

2020-04-03 09:48:05 1038

原创 四十、Linux和ViM的使用

关于虚拟机的安装,首先安装VMware或者Vbox,然后去官方网站下载iso镜像,导入iso镜像文件,设置对应的网络配置和内存配置,对应其具体操作,百度搜索。

2020-04-03 09:32:33 1104

原创 一个简单的线性拟合问题,到底有多少种做法

一个简单的线性拟合问题,到底有多少种做法相信大家都做过线性拟合问题吧,其实就是给很多点,来求线性方程的斜率和截距。早在高中数学就有这类问题,我记得很清楚,如果出现在试卷中,一般出现在解答题的第二题左右,高中中的做法就是最小二乘法,代入公式,求斜率和截距,说句好听,就是送分题。在科学计算中,也是采用ols(普通最小二乘法)进行回归分析。OLS 全称ordinary least squares,是...

2020-04-02 15:49:25 3358

原创 Python用泰勒公式模拟函数

泰勒公式数学中,泰勒公式是一个用函数在某点的信息描述其附近取值的公式。如果函数足够平滑的话,在已知函数在某一点的各阶导数值的情况之下,泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的邻域中的值。泰勒公式还给出了这个多项式和实际的函数值之间的偏差。泰勒公式是将一个在x=x0处具有n阶导数的函数f(x)利用关于(x-x0)的n次多项式来逼近函数的方法。若函数f(x)在包含x0的某...

2020-04-02 10:16:15 2708

原创 十二、爬了CSDN,我发现了这些

最近,有点兴趣爬下自己在CSDN 的博客,并做出词云图来看下自己究竟写了什么。最近,有点兴趣爬下自己在CSDN 的博客,并做出词云图来看下自己究竟写了什么说起,就开干,下面是博客主页:https://blog.csdn.net/weixin_44510615环境操作系统:WindowsPython版本:3.7.2模块本文涉及到的Python第三方模块,共计五个:分词模块...

2020-04-01 19:05:09 1099 2

原创 节能原理 (能量平衡)

节能原理1Kg标准煤的发热量为29270kj/kg热平衡热平衡(thermal equilibrium ),指同外界接触的物体,其内部温度各处均匀且等于外界温度的状况。在热平衡时,物体各部分以及物体同外界之间都没有热量交换。在热工和化学中,如物体在同一时间内吸收和放出的热量恰好相抵消,也称该物体处于热平衡。焦炉热平衡焦炉热平衡 (heat balance of coke oven...

2020-04-01 16:39:05 1636

原创 10 | 元组(Tuple)序列

在 Python 中,元组和列表都是序列类型,但元组是不可变的,而列表是可变的。因为元组是不可变的,所以 Python 可以对元组进行优化,例如,将元组存储在内存中的固定位置,这可以更有效地利用缓存。此外,元组的不可变性使得它们可以用作字典的键或集合的元素,而列表则不能。Python 元组(Tuple)是一种不可变序列,它可以存储多个项目,这些项目可以是不同类型(包括整数、浮点数、列表,甚至其他元组)。由于元组是不可变的,所以你不能改变元组中的元素。和列表一样,你也可以使用切片操作从元组中获取元素的子集。

2020-04-01 11:48:03 1180

原创 8 | Python 的基本语法

Python 是一种易读性强、高效而强大的编程语言。以下是关于 Python 基本语法的教程。

2020-04-01 11:46:37 1736

原创 11 | 字典

哈希表使字典的主要操作(插入、查找和删除)在大多数情况下都能在常数时间内完成,这意味着操作的时间不会随着字典大小的增加而增加。Python 字典(Dictionary)是一个可变的、无序的数据集合,用于存储键值对。字典中的键必须是唯一的,而值则可以是任何类型的数据 - 数字,字符串,列表,甚至其他字典。在Python的字典中,我们还可以执行其他的一些操作,比如添加键值对、合并两个字典、获取所有的键或值,等等。以上的代码会分别打印出字典的所有键、所有值以及所有的键值对。要访问字典中的值,可以使用键作为索引。

2020-04-01 11:44:13 1727 1

基于YOLO5细胞检测实战.zip

在进行基于YOLOv5的细胞检测实战时,完成以下的事情: 1. **数据采集与标注**:详细描述如何采集细胞图像数据,并进行标注。说明采集设备、图像分辨率、标注工具以及标注过程中的质量控制措施。 2. **数据预处理**:解释在输入模型之前对数据进行的预处理步骤,例如图像尺寸的调整、归一化和数据增强方法的选择。强调预处理的重要性以及如何影响模型的性能。 3. **模型选择与调优**:描述为什么选择YOLOv5作为细胞检测的模型,并说明如何调整模型的超参数以适应特定的细胞检测任务。可以讨论模型的架构、损失函数选择以及训练策略。 4. **训练过程**:详细说明模型的训练过程,包括数据集的划分、训练参数的设置、学习率调度方法以及监控训练过程中的性能指标。可以提供训练代码片段或脚本。

2024-02-19

天池-新闻推荐 推荐系统

零基础入门推荐系统 - 新闻推荐 赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。通过这道赛题来引导大家了解推荐系统中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。

2024-02-19

27 - Titanic 乘客生存决策树预测

Titanic 乘客生存预测流程 数据获取 --> 数据探索 --> 数据清理 --> 特征选择 --> 决策树模型 --> 模型预测和评估 --> 决策树可视化

2024-02-19

SVM对文档进行分类:

## SVM对文档进行分类: `流程:` 文档输入 --> 对文档进行分词 --> 加载停用词 --> 计算单词权重 (准备阶段) --> 生成分类器 --> 分类器做预测 --> 计算正确率 (分类阶段)

2024-02-19

16 - Pytorch​​构建Logistic二分类模型

在逻辑回归中预测的目标变量不是连续的,而是离散的。可以应用逻辑回归的一个示例是电子邮件分类:标识为垃圾邮件或非垃圾邮件。图片分类、文字分类都属于这一类。

2024-02-03

11 - Tensorflow实现卷积神经网络

11 | Tensorflow实现卷积神经网络

2024-02-03

13 - 使用代理ip爬取安居客房源信息

这段Python爬虫代码旨在从安居客网站爬取房地产信息。其中使用了代理IP的技术,主要目的是应对反爬虫机制、提高隐私保护、伪装地理位置、避免频率限制和提升稳定性。

2024-01-14

手动爬取天天基金网基民评论与东方财富网股市行情的资讯,从基民评论、重仓股票、市场行情三个方面LDA模型进行分析

这是一个基金评论与股票市场的情感分析项目,目的是手动爬取天天基金网基民评论与东方财富网股市行情的资讯,从基民评论、重仓股票、市场行情三个方面出发,使用情感词典与LDA模型进行分析,从而做出是否值的购买基金的决策。带有标签clean的是清洗后的爬虫数据,没有带标签的是原始数据或者某个分析后的结果。具体的工作代码放在了“基于情感词典与LDA模型的基金文本研究.ipynb”中,使用的是python 的jupyter notebook。

2023-11-03

03.04 Requests豆瓣.ipynb

对豆瓣单个电影页面元数据进行获取 元数据结构:<br> 1. 导演 2. 编剧 3. 主演 4. 类型 5. 制片国家/地区 6. 语言 7. 上映日期 8. 片长 9. 又名 10. IMDb 11. 豆瓣评分 - 评分 - 评价人数 - 5星评价占比 - 4星评价占比 - 3星评价占比 - 2星评价占比 - 1星评价占比 12. 好于 13. 好于 ## Step 1 找到250部电影的页面 依次解析 具体的页面 爬取1292052...;爬取1292052成功 爬取1291546...;爬取1291546成功 爬取1292720...;爬取1292720成功 爬取1292722...;爬取1292722成功 爬取1295644...;爬取1295644成功 爬取1291561...;爬取1291561成功 爬取1292063...;爬取1292063成功 爬

2023-11-01

SpringBoot+Mybatius图书管理系统 语言:Java 开发工具:IntelliJIDEA-2019.3 JDK版

SpringBoot+Mybatis图书管理系统是一个用于管理图书信息的Web应用程序。它使用Java作为编程语言,IntelliJ IDEA作为开发工具,JDK 8作为Java开发环境,Maven用于项目管理,MySQL数据库用于存储数据,前端使用HTML、CSS、jQuery、Layui和Vue,后端采用Spring Boot、Mybatis以及TkMapper框架。 下面将描述一些主要功能和组件以帮助你更好地理解这个系统: **主要功能:** 1. **图书管理**:用户可以添加、编辑、删除图书信息,包括书名、作者、出版日期等。 2. **借阅管理**:用户可以借阅图书并设置还书日期,系统会自动跟踪图书的借阅状态。 3. **用户管理**:管理系统用户,包括添加、编辑、删除用户信息,以及分配权限等。 4. **搜索和过滤**:提供搜索功能,可以根据关键字搜索图书信息,并可以根据不同条件进行过滤。 5. **权限管理**:不同用户具有不同的权限,例如管理员和普通用户,管理员可以管理图书和用户,而普通用户只能借阅图书。

2023-10-30

通用的Java工具类,主要包括基础工具类(时间、正则表达式、字符串、随机数等等),excel解析生成、word解析生成、文件操作

通用的Java工具类,主要包括基础工具类(时间、正则表达式、字符串、随机数等等),excel解析生成、word解析 生成、文件操作

2023-10-22

基于Java的学生管理系统,旨在提供学生信息的管理和查询功能

这项目是一个基于Java的学生管理系统,旨在提供学生信息的管理和查询功能。 **1. 数据库连接和初始化:** - 项目使用Java数据库连接(JDBC)来建立与数据库的连接。 - 在系统初始化时,通过`DatabaseConnector`类创建了一个数据库连接,以便执行数据库操作。 **2. 添加学生信息:** - 系统提供了添加学生信息的功能。 - 用户可以输入学生的ID、姓名和年龄,然后系统将这些信息插入到数据库的`student`表中。 - 成功插入后,系统会显示学生已被添加的消息。 **3. 查找学生信息:** - 学生管理系统允许用户根据学生的ID来查找学生信息。 - 用户输入要查找的学生ID,系统执行SQL查询操作,如果找到匹配的学生,将显示学生的ID、姓名和年龄。 - 如果未找到匹配的学生,系统会显示未找到的消息。 **4. 更新学生信息:** - 系统允许用户根据学生ID更新学生信息。 - 用户输入学生ID,然后输入新的姓名和年龄,系统执行SQL更新操作,将学生信息更新为新提

2023-10-22

基于Python编程的RFM细分聚类案例

本文将深入探讨一个基于Python编程的RFM细分聚类案例。通过代码实现,我们将学习如何加载和预处理电商历史订单数据,计算RFM指标,使用KMeans算法进行聚类分析,以及如何将用户分为不同的价值层级。最终,我们将通过可视化展示来解释不同价值层级用户的分布情况,帮助企业更好地理解其客户群体,为未来的决策提供更多见解。

2023-08-21

65 - python增长模型案例

在一个具体的案例中,我们使用了一个关于用户行为的数据集,探讨了如何利用增长模型来优化业务决策。通过数据分析、可视化和机器学习建模,我们深入挖掘了用户的操作历史、设备类型、城市类型以及其他特征。我们通过构建预测模型,预测了用户是否会对不同类型的促销方式做出响应,从而实现了精准的目标用户选择。 在实际操作中,我们不仅关注转化率的提升,还需要考虑成本与效益的平衡。我们将重点放在那些有潜力的用户身上,通过合理的营销策略来提升他们的转化率,从而在有限的资源下实现业务增长。

2023-08-21

A/B测试 展示如何运用Python进行数据分析、可视化和统计显著性检验

探讨A/B测试的概念、原理以及其在实际业务中的应用。 通过一个案例,详细展示如何运用Python进行数据分析、可视化和统计显著性检验,以揭示不同页面版本在用户购买转化率方面的差异。通过对比新旧页面的转化率,我们将探讨如何从统计学的角度评估这些差异是否具有显著性。从而,读者将深入了解如何通过A/B测试来为业务决策提供有力的数据支持,进而优化用户体验和提升业务成果。

2023-08-21

63 - 留存分析在现代商业中的关键作用 python 案例

我们以一个案例为例,展示了如何通过数据驱动的方法识别影响留存率的因素。首先,我们载入了一个会员数据集,对数据进行了预处理,包括转换字段、处理缺失值等。然后,我们使用Kaplan-Meier生存分析方法绘制了整体的留存曲线,从中可以看出会员的留存率随着入会月数的增加逐渐下降,这提醒我们需要关注新会员的留存情况。 接着,我们对不同因素进行了分析,比如会费支付方式、会员卡类型以及性别对留存率的影响。通过绘制不同分类的Kaplan-Meier曲线,我们可以看到这些因素对留存率的影响情况。例如,不同的会费支付方式和会员卡类型对留存率产生了不同的影响,这提示我们可以针对不同的客户群体制定不同的留存策略。 接着,我们采用Cox比例风险模型来进行生存分析,这种方法可以同时考虑多个因素对留存的影响。通过打印模型的摘要信息,我们可以得到不同因素的系数,从而了解每个因素对留存的影响程度。此外,我们还绘制了系数和置信区间的图表,更直观地展示了各因素的影响情况。 最后,我们展示了如何使用逻辑回归模型对留存进行预测。通过构建特征集和标签集,我们将数据集拆分为训练集和测试集,然后使用逻辑回归模型进行拟合和预测

2023-08-21

62 - Python 漏斗分析案例

漏斗分析是一种重要的数据分析方法,用于跟踪和优化用户在某个过程中的转化率。无论是在线购物、注册流程还是应用下载,漏斗分析都能帮助您了解用户在不同阶段的行为,找出瓶颈,优化用户体验。

2023-08-20

61 - 归因渠道分析案例 python

归因分析(Attribution Analysis)是一种用于评估不同营销渠道推广效果的方法,它的主要目标是合理地将转化路径中的功劳分配给各个接触点,也就是不同的营销渠道。这帮助营销人员更准确地了解各个渠道对最终转化所产生的影响,从而更有效地分配资源和优化营销策略。

2023-08-20

60 - python 用户画像案例

python 用户画像案例. 用户画像是一种分析和描述目标受众特征的方法,可以帮助您更深入地了解您的受众群体,揭示他们的兴趣、需求和行为。通过用户画像,您可以更好地定制营销策略、产品设计以及提供更个性化的用户体验。

2023-08-19

59 - RFM模型实战案例 python

从上面结果,我们可以快速得到一些推断: 客户流失情况严峻,高消费唤回客户、流失客户占比超过50%,怎么样制定针对性唤回策略迫在眉睫。 重要价值客户占比仅2.97%,还有三个客户占比甚至不足2%,我们模型打分可能不够科学,可以进一步调整打分区间进行优化。 再结合金额进行分析: 高消费唤回客户人数占比28.87%,金额占比上升到了38.11%,这部分客户是消费的中流砥柱,他们为什么流失,应结合订单和购买行为数据进一步展开挖掘。 频次深耕客户金额占比紧随其后,这部分客户的特征是近期有消费、消费频次低、消费金额高,和高消费唤回客户仅有购买时间上的不同,如何避免这部分客户向高消费唤回客户的流转是我们要思考的主要命题。 流失客户人数占比26.28%,金额占比仅12.66%,这部分客户中有多少是褥羊毛用户,有多少是目标用户,对我们引流策略能够进行怎么样的指导和调整?

2023-08-19

代码实操:Python聚类分析

代码实操:Python聚类分析 SKLean中有专门的聚类库:cluster,其包含了很多的聚类算法。 本例将使用一份无标签的数据集做聚类分析,以得到不同类别的特征和分布状态等。 对于聚类模型结果的评估,主要考虑如下三个方面: 1. 对于没有任何聚类真实结果指标的,由于无法使用真实数据做对比,智能使用聚类距离指标做评估; 2. 对于有分类真实结果做对照的,则可以使用真实标签与预测标签的相似、重复、完整性等度量计算,但是需要注意的是,聚类结果的标签值与其真实类别的标签值没有关系,结果只关注数据点是否属于同一类; 3. 业务类的评估,包括不同类别间的特征是否有显著差异,类内部是否具有能代表类别的显著性特征。

2023-08-19

58 - 小红书产品体验报告

58 | 小红书产品体验报告

2023-08-19

57 - TAPTAP客户端分析

TAPTAP客户端分析

2023-08-19

56 - 国内游戏直播竞品分析

国内游戏直播竞品分析 PPT 加文档

2023-08-19

50 - 国产商业漫画分析

本文是关于当前国产商业漫画市场的小研究,分析所用数据都是从漫画网站上直接爬取的。这里我选择的数据来源有两个,一个是当前收录商业化国漫最多的快看漫画,另一个是使用用户最多、以日漫为主的动漫之家。 在这篇分析里,我想从作品和作者两个角度,看国漫当前的流行趋势以及读者偏好。分析大纲大致如下: 1. 从作品看 * 题材:当前流行的题材有哪些,这些题材里真正能获得大人气的作品比例有多少? * 趋势:从快看App 2014年上架至今,国漫作品数量还保持着高增长吗?抑或已经趋于平缓? * 对比日漫:国内读者对日漫的口味与国漫相比有何不同?国漫在哪些题材上还有发展潜力? 2. 从作者看 * 个人作者 vs 工作室:当前国漫创作哪种模式用得更多?比起早几年漫画工作室井喷式的发展,现在是否已经开始收敛?

2023-08-16

49 - python公司销售数据分析

公司销售数据分析报告 本数据是2012~2014年间一家生产体育类产品的全球销售订单数据,分别按时间、产品类别、销售国家统计产品销售情况,分析销售额和利润额统计各产品市场占有份额,为下一步生产计划提供有价值的建议。 数据大小:88475 行, 11 列 Retailer country 销售国家 Order method type 订单方式 Retailer type 销售方式 Product line 产品线 Product type 产品名称 Year 年 Quarter 季度 Revenue 销售额 Quantity 销售量 Gross margin 毛利润

2023-08-14

48 - python电子产品销售分析

python电子产品销售分析 # 一、数据信息 数据来源:电子产品销售分析.csv **该文件包含2020年4月至2020年11月从大型家用电器和电子产品在线商店购买的数据** 说明:数据量:564169 原始字段:12 ## 字段介绍: Unnamed: 行号 event_time:下单时间 order_id:订单编号 product_id:产品标号 category_id :类别编号 category_code :类别 brand :品牌 price :价格 user_id :用户编号 age :年龄 sex :性别 local:省份

2023-08-14

44 - 酒店预订及取消的数据分析

酒店预订及取消的数据分析 python

2023-08-14

抖音大V数据进行绘图与分析

抖音大V数据进行绘图与分析

2023-08-14

42 - python 航空公司客户价值分析

python 航空公司客户价值分析

2023-08-13

41 - 京东商家书籍评论数据分析

京东作为中国领先的电子商务平台,积累了大量商品评论数据,这些数据蕴含了丰富的信息。通过文本数据分析,我们可以了解用户对产品的态度、评价的关键词、消费者的需求等,从而有助于商家优化产品和服务,以及消费者作出更明智的购买决策。 本文将详细阐述如何获取京东商家评论数据,使用自然语言处理技术对评论文本进行分词、情感分析等处理,以及如何通过数据可视化工具呈现分析结果。我们将从数据的收集、预处理,到情感分析和关键词提取,逐步展示如何利用现代数据分析方法,从大规模的文本数据中提取有价值的信息。 在本文的后续内容中,我们将通过实际的案例,深入探讨如何利用Python编程语言和相应的数据分析库,对京东商家评论数据进行处理和分析。通过这个案例,读者将能够更好地了解如何利用文本数据分析方法,从而在商业决策、市场调研等方面做出更加准确和有力的决策。

2023-08-13

40 - NBA球员信息数据分析

本文将以NBA球员薪资数据并进行数据分析为例,展示如何获取网络上的数据资源,并通过数据处理和可视化方法揭示有关NBA球员薪资的信息。我们将使用提供的URL(www.espn.com/nba/salaries)来抓取NBA球员薪资数据,然后运用数据分析工具,对数据进行清洗、整理和计算,最终通过条形图的形式呈现薪资水平的分布和差异。

2023-08-13

38 - 浦发银行股票分析案例

本文将通过一个浦发银行股票分析案例,探讨如何从多个维度对股票进行分析,包括基本面、技术面和市场环境等因素。我们将深入挖掘浦发银行的财务数据、业务模式以及市场定位,以了解其内在价值和潜在风险。同时,我们还将考察技术面的指标,如价格走势、均线形态等,以揭示市场情绪和趋势。

2023-08-13

37 - 电影数据分析案例

电影的创作、制作、发行和市场表现受到诸多因素的影响,如电影类型、发行年份、制作成本、票房收入、观众评分等。为了更好地理解电影产业的动态变化和相关影响因素,数据分析在这一领域发挥了重要作用。通过对大量电影数据的挖掘和分析,我们可以揭示出电影市场的趋势、受众偏好以及不同因素之间的关联关系。

2023-08-13

36 - 银行贷款数据分析

本文将以银行贷款数据分析为主题,深入探讨如何运用数据科学的方法,揭示银行贷款领域的内在规律和趋势。通过对贷款数据的分析,我们能够洞察不同类型贷款的分布情况、贷款金额的变化趋势,以及借款人的特征和还款情况等关键信息。 通过运用Python编程语言及相关的数据分析工具和库,本文将指导读者完成数据预处理、探索性分析、可视化等环节。我们将从数据集的收集和清洗开始,逐步分析银行贷款数据的特点和变化,为读者提供深入了解银行贷款市场的机会。

2023-08-13

【数据分析实例】 2021年十万条厦门招聘数据分析

在这个数据分析实例中,我们将运用数据科学的方法,使用Python编程语言和相关库进行数据处理、分析和可视化。通过对大量的招聘数据进行挖掘,我们将揭示厦门市招聘市场的动态,探索不同行业的就业趋势,以及人才的薪资待遇等关键信息。通过这一深入的分析,我们可以为求职者提供就业市场的实际情况,为企业提供人才招聘的指导,同时也为决策者提供更准确的市场洞察力。

2023-08-13

34 - 某欧洲电商公司行为分析

收购完之后,公司第一步需要对这家公司的销售情况进行摸底,这个重任自然就落在了在数据分析部门任职的你身上。你需要从这家电商公司的原始订单数据中分析出公司的业务是在变好还是变差,公司哪些产品最受欢迎,以及主要的销售区域和有哪些优质的用户等信息,以提供给公司的战投部门做进一步的经营策略制定。

2023-08-13

33 - 美国总统数据分析 python

在这个数据分析项目中,作者利用Pandas等Python库对美国2020年7月22日至2020年8月20日期间的超过75万条捐赠数据进行了深入的探索和分析。通过这一分析,他们揭示了这段时间内美国选民对总统候选人的偏好和捐款情况。以下是对文章中的主要步骤和内容的进一步描述: 1. **数据集处理:** 作者首先加载候选人信息、候选人和委员会关系、个人捐赠数据等多个数据集。他们使用Pandas库创建DataFrame对象,并对数据集的列名进行了指定,以确保数据按照预期的格式加载。 2. **关联数据表:** 作者通过候选人和委员会关系表,将候选人信息与个人捐赠数据进行关联。通过候选人和委员会的标识(CMTE_ID和CAND_ID),他们将捐赠数据与候选人的相关信息连接起来,以便后续分析。 3. **数据探索和清洗:** 在关联后的数据中,作者进行了一系列的探索性数据分析。他们统计了各州的捐款总额,并使用Matplotlib创建了美国地图的热度图,将各州的捐款情况以不同颜色展示在地图上,使读者能够直观地了解捐款分布情况。 4. **候选人捐赠趋势分析:** 为了深入了解获得捐赠额最多

2023-08-13

32 - 全球新冠肺炎确诊病例趋势分析

python全球新冠肺炎确诊病例趋势分析

2023-08-13

31 - 独角兽企业数据分析

31 | 独角兽企业数据分析

2023-08-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除