自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信号:RunsenLiu

不喜欢搞学术和技术,喜欢money更多点

  • 博客(23)
  • 资源 (171)
  • 问答 (12)
  • 收藏
  • 关注

原创 R语言神经网络

library(nnet)Warning message:"package 'nnet' was built under R version 3.5.3"x1 <- round(runif(2000,1,2000))x2 <- round(runif(2000,1,2000))x11 <- scale(x1[1:1900])x12 <- scale(...

2019-07-31 18:39:56 1380

原创 R 语言聚类关联规则

a <- c(10,9,8)b<- c(4,3,2)c<- c(8,9,10)a 10 9 8# 余角相似度sum(a*b)/sqrt(sum(a^2)*sum(b^2))0.984682118265774sum(a*c)/sqrt(sum(a^2)*sum(c^2))0.983673469387755x<- rbind(a,b,...

2019-07-31 18:29:43 1330

原创 R语言的决策树

# 计算商a <- rep(0.5,2) #0.5重复两遍-sum(a*log2(a))1b <- rep(0.25,4)-sum(b*log2(b))2c <- rep(0.125,8)-sum(c*log2(c))3# r语言实现决策树library(rpart)iris.rp = rpart(data=iris,Species~.,...

2019-07-31 12:57:52 1637

原创 R语言实现描述性统计

# 01分布a<- runif(20)a 0.0534173720516264 0.0381318787112832 0.253885793266818 0.851638266118243 0.356620342005044 0.175922254333273 0.270358079113066 0.421792675741017 0.675487545551732...

2019-07-31 11:59:31 4327

原创 贪心科技机器学习训练营(十一)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities往期文章:K-means算法k - means 是无监督学习的一种,主要用于分类首先确定K值,就是类别数,我们想把数据分为几类。根据k值随机选取K个点,作为中心点,分别计算其余各个点到这K个点的距离。对于每一个非中心点,找到离它最近的那个中心点,...

2019-07-19 15:41:40 1423

原创 贪心科技机器学习训练营(十)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities使用决策树预测糖尿病 分类任务数据源: https://www.kaggle.com/uciml/pima-indians-diabetes-database#diabetes.csv注意: 需要使用如下命令安装额外两个包用于画图conda ins...

2019-07-19 00:37:50 1314

原创 贪心科技机器学习训练营(九)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities过去决策树文章决策树和随机森林(上)决策树和随机森林(下)决策树如何可视化随机森林算法随机森林准确率和分类器关系使用决策树和随机森林预测员工离职率我们的任务是帮助人事部门理解员工为何离职, 预测一个员工离职的可能性.数据来源...

2019-07-19 00:21:56 1445

原创 二元随机变量分布

对于概率统计最重要的二元随机变量分布,本人的遗忘率比较大,所以有空整理下二元随机变量分布,用来不时查阅伯努利分布伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)。如果随机变量X只取0和1两个值,并且相应的概率为:随机变量X服从参数为p的伯努利分布,若令q=1一...

2019-07-14 23:18:37 2597

原创 r语言的逻辑回归分类

iris 是r语言内置的数据集head(iris) # 与python的不同iris.head()Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies 5.1 3.5 1.4 0.2 setosa 4.9 3.0 1.4 0.2 setosa 4.7 3.2 1.3 0.2 se...

2019-07-14 17:53:45 2272

原创 三十二、R语言基本语法(下篇)

https://www.w3cschool.cn/r/连接字符串 - paste()函数…表示要组合的任意数量的自变量。sep表示参数之间的任何分隔符。它是可选的。collapse用于消除两个字符串之间的空格。 但不是一个字符串的两个字内的空间。a <- "Hello"b <- 'How'c <- "are you? "print(paste(a...

2019-07-14 16:19:16 1263

原创 了解SQL

什么SQLSQL是一门和数据库打交道的语言SQL(结构化查询语言)是用于访问和操作数据库中的数据的标准数据库编程语言。 SQL是关系数据库系统的标准语言。所有关系数据库管理系统(RDMS),如MySQL、MS Access、Oracle、Sybase、Informix、Postgres和SQL Server都使用SQL作为它们的标准数据库语言。 数据库管理系统(dbms)数据库管理系统...

2019-07-14 15:36:27 1153

原创 人不能没有梦想

人不能没有梦想什么是梦想曾经,我们也有儿时的理想;岁月蹉跎,我们也曾有豆蔻年华的追求;而今,我们依然少不了自己的坚持和努力。人生的意义,在于通过不断的努力和修炼,去实现自己的理想。虽然路途艰辛,但是通过我们一步步的努力,才能领略生命的精彩,创造自己的传奇!梦想是对未来的一种期望,在现在想未来的事,不切实际的梦想则是执念。梦想就是一种让你感到坚持就是幸福的东西,人生的目标,甚至其可以视为一...

2019-07-14 12:33:15 1146

原创 二十、深入Python迭代器和生成器

学习python的过程中,迭代器与生成器是绕不开的话题, 什么是迭代器和生成器呢?

2019-07-13 22:26:07 1211

原创 贪心科技机器学习训练营(八)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities这次是贝叶斯先回忆下是啥东西贝叶斯分类算法贝叶斯分类流程贝叶斯算法对文本进行分类实例SVM实现人脸识别深入理解SVMsvm的三个核函数SVM支持向量机(上)SVM支持向量机(下)回忆下了tfidf垃圾邮件分类之前做过文本分类...

2019-07-13 19:08:07 3448 14

原创 贪心科技机器学习训练营(七)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities以前文章:贝叶斯分类算法贝叶斯分类流程贝叶斯算法对文本进行分类实例SVM实现人脸识别深入理解SVMsvm的三个核函数SVM支持向量机(上)SVM支持向量机(下)%matplotlib inlineimport numpy as np...

2019-07-13 17:23:45 1565 2

原创 贪心科技机器学习训练营(五)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities以前文章机器学习中的逻辑回归【机器学习】银行贷款违约预测还有好多好文,欢迎关注我逻辑回归预测银行客户是否会开设定期存款账户逻辑回归要求预测值为 0 或者 1, 自变量特征值应该彼此独立。该数据集来自UCI机器学习库(http://archiv...

2019-07-13 11:08:06 1655

原创 贪心科技机器学习训练营(六)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities对于这个Titanic泰坦尼克号生存绝对有笔记Seaborn数据可视化通过Logistic Regression预测Titanic乘客是否能在事故中生还导入工具库和数据查看缺失数据2.1. 年龄2.2. 仓位2.3. 登船地点2.4. ...

2019-07-12 23:59:58 1597

原创 贪心科技机器学习训练营(四)

这次回归之前写过关于平安股票的,竟然没想到是同一个案例平安股票分析import numpy as np # 数学计算import pandas as pd # 数据处理, 读取 CSV 文件 (e.g. pd.read_csv)import matplotlib.pyplot as pltfrom datetime import datetime as dt# 你可以使用如下的方...

2019-07-12 22:25:08 1548

原创 贪心科技机器学习训练营(三)

先把来源写上来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activitiesknn回归作业二手车估计案例import pandas as pdimport matplotlibimport matplotlib.pyplot as pltimport numpy as npimport seaborn as sns...

2019-07-12 18:34:00 1931 1

原创 贪心科技机器学习训练营(二)

来源:贪心学院,https://www.zhihu.com/people/tan-xin-xue-yuan/activities写文章交作业这次训练营的讲的是knn我先找下文章回忆下KNN算法KNN实现“手写识别”GridSearchCV和交叉熵机器学习的回归算法sklearn模型的训练(上)近邻算法分类[机器学习认识聚类(KMeans算法)]这些都是我写的吗???怎么没啥...

2019-07-12 17:45:07 2065

原创 21 | 装饰器

在 Python 中,装饰器是一种函数或类,它可以接受一个函数作为输入,并返回一个新的函数作为输出。新的函数通常会扩展或修改原始函数的行为。装饰器的语法通常使用 @ 符号和函数名来定义。在上面的代码中,我们使用 @ 符号和 my_decorator 函数来装饰 my_function 函数。

2019-07-11 22:35:28 1340

原创 十九、Seaborn数据可视化

Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。# 条形图import seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline# 加载数据集泰坦尼克号titanic=sns.load_dataset('titanic')ti...

2019-07-07 22:34:03 1366

原创 71 | Python 网络爬虫案例 —— 爬取百度图片

robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。有形式的事物,我们看到的,是图画、照片、拓片等的统称。在一个json 的有30张图片,所以发起一个json的请求,我们可以爬去30张图片,但是还是不够。图片是通过ajax 方法来加载的,也就是当我下拉,图片会自动加载,是因为网站自动发起了请求,从图中可以看出,百度的图片是完全可以下载,说明了图片可以爬取。图片是在云服务器的数据库中的保存起来的。首先,明白图片是什么?

2019-07-03 10:18:41 3186

019 - backtrader回测布林带突破策略

布林带指标:通过 bt.indicators.BollingerBands 创建布林带指标,参数包括计算移动平均线的周期(period)和标准差倍数(devfactor)。 买入和卖出信号:当价格突破布林带的上轨时,策略生成买入信号;当价格跌破下轨时,策略生成卖出信号。 持仓管理:当持有多头头寸时,如果价格回落到布林带的中轨下方,则卖出平仓。对于空头头寸,价格回升至中轨上方时买入平仓。

2024-08-11

018 - backtrader回测反转策略

代码详解: RSI 指标:RSI 是相对强弱指数,用于衡量资产价格的超买和超卖状态。通常,当 RSI 超过70时,认为市场超买;当 RSI 低于30时,认为市场超卖。 买入信号:当 RSI 低于30,进入超卖区,策略生成买入信号,预期价格将反转上涨。 卖出信号:当 RSI 高于70,进入超买区,策略生成卖出信号,预期价格将反转下跌。 退出信号:当持仓时,如果 RSI 回到中性区间(50附近),则考虑平仓。

2024-08-11

017 - backtrader回测趋势跟随策略

趋势跟随策略是一种经典的交易策略,通过识别并跟随市场趋势来获取利润。尽管在震荡市场中可能表现不佳,但在明确的趋势市场中,该策略往往能带来可观的收益。成功的趋势跟随策略需要严格的纪律性、有效的风险管理措施,以及对市场趋势的敏锐识别能力。

2024-08-11

016 - backtrader回测波动率策略

交易盈亏点(Trades - Net Profit/Loss): 中间部分用红色和蓝色圆点表示每次交易的盈亏情况。蓝色圆点表示盈利交易,红色圆点表示亏损交易。 从图中可以看出,策略产生了相对较多的盈利交易点,同时也有一些亏损交易点。但整体来看,盈利的交易点多于亏损交易点。 总结: 起始资金:100,000元 最终资金:102,712元 策略表现:该波动率策略在回测期间实现了小幅盈利,资金增加了2,712元。图中显示,策略在市场波动性增加时能够有效捕捉到机会并产生一定的收益。然而,该策略的表现仍然受限于市场环境,尤其是在波动性较低或趋势不明显的市场中,策略可能表现不如预期。 这张图表提供了一个波动率策略的实际应用示例,展示了该策略如何利用市场波动性来进行交易,并最终对资金产生影响。

2024-08-11

015 - backtrader回测动量策略

动量指标(Momentum): 图表底部展示了动量指标的变化情况。动量指标基于一定的时间周期(此处为10天),反映了价格的变化趋势。 当动量指标为正时,价格趋势向上,策略产生买入信号;当动量指标为负时,价格趋势向下,策略产生卖出信号。 总结: 起始资金:100,000元 最终资金:101,831.91元 策略表现:回测结果显示,动量策略在此段时间内实现了小幅盈利,资金增加了约1,831.91元。尽管策略频繁买卖,最终的盈利结果表明该策略在这个特定时间段内有效。然而,动量策略的表现取决于市场的趋势性。在强趋势市场中,动量策略通常表现较好,但在震荡或反转市场中可能会面临更大的风险和挑战。

2024-08-11

014 - backtrader回测均值回归策略

1. **价格走势(主图)**: - 图表的主部分显示了标的资产的价格走势。价格走势曲线伴随着一个布林带(Bollinger Bands),其中蓝色实线代表20日简单移动平均线(SMA),蓝色虚线代表布林带的上下轨。 - 绿色的三角形表示策略在布林带下轨附近生成的买入信号,红色的倒三角形表示在布林带上轨附近生成的卖出信号。 2. **成交量(Volume)**: - 图表底部显示了对应时间段的成交量,以柱状图的形式展现。成交量的变化有助于了解市场活跃程度,特别是在触发买卖信号时。 3. **资金与资产价值变化(上方部分)**: - 上方部分显示了策略回测期间账户资金的变化情况。红色线条表示现金,蓝色线条表示总资产价值(包括未平仓的头寸)。起始资金为100,000元,最终资金为98,306.92元。 - 从图中可以看到资金曲线的波动,最终的资金略有减少,表明策略在整个回测期间总体上产生了亏损。 4. **交易盈亏点(Trades - Net Profit/Loss)**: - 中间部分用红色和蓝色圆点展示了每次交易的盈亏情况。蓝色圆点表示盈利交

2024-08-11

013 - backtrader回测沪深300指数简单移动平均线交叉策略

价格走势(主图): 图表的主部分显示了标的资产的价格走势。价格走势曲线伴随了两条简单移动平均线(SMA):蓝色线为30天的SMA,绿色线为10天的SMA。 当绿色的短期SMA上穿蓝色的长期SMA时,形成了买入信号(标注为绿色三角形),而当短期SMA下穿长期SMA时,形成了卖出信号(标注为红色倒三角形)。 成交量(Volume): 图表底部显示了对应时间段的成交量,表现为柱状图。成交量的大小可以帮助了解市场参与度和可能的价格动量。 资金与资产价值变化(上方部分): 图表的上方部分显示了初始资金(红线)和最终资金(蓝线)的变化情况。起始资金为100,000元,最终资金为101,865.98元。 这部分展示了随着策略执行过程中账户资金的波动。 交易盈亏点(Trades - Net Profit/Loss): 这一部分用红色和蓝色圆点展示了每次交易的盈亏情况。蓝色圆点表示盈利交易,红色圆点表示亏损交易。 可以看到,交易信号频繁出现,且盈亏点的分布较为平均。 总结: 起始资金:100,000元 最终资金:101,865.98元 策略表现:策略在回测期间实现了一定的盈利,但从图中可以看到策

2024-08-11

012 - akshare分析NYBOT棉花历史数据

展示了纽约期货交易所(NYBOT)棉花历史价格数据与两条简单移动平均线(SMA)的关系。 **图表描述:** 1. **价格走势**: - 蓝色曲线代表棉花的每日收盘价格,从2020年1月到2024年8月。 - 价格在2020年初经历了较低的水平,随后在2021年开始上涨,并在2022年达到高峰,之后有所回落。 2. **简单移动平均线(SMA)**: - 红色线表示50天的简单移动平均线(SMA50)。 - 绿色线表示200天的简单移动平均线(SMA200)。 - 可以看到,SMA50较快地反映了价格的短期变化,而SMA200则反映了价格的长期趋势。 3. **买入与卖出信号**: - 绿色三角形(向上)代表买入信号。 - 红色三角形(向下)代表卖出信号。 - 买入信号通常出现在SMA50向上穿过SMA200的位置(即黄金交叉),而卖出信号出现在SMA50向下穿过SMA200的位置(即死亡交叉)。 4. **时间轴与价格轴**: - X轴表示时间,日期从2020年1月到2024年8月。 - Y轴表示价格,从50左右

2024-08-11

011 - efinance分析豆一主连期货

展示了豆一(大豆期货主力合约)从早期到近期的价格历史走势,并结合了两条重要的技术分析指标——简单移动平均线(Simple Moving Average, SMA)进行分析。这些指标用于识别价格趋势并生成买卖信号。 价格走势 蓝色线条代表了豆一的历史收盘价格。可以看到,这条线条随着时间的推移呈现出明显的波动性,包括多个价格高峰和低谷。这种波动反映了市场对大豆的供需变化、全球经济环境以及其他相关因素的反应。 简单移动平均线(SMA) 红色线条(SMA50):这条线代表的是50天的简单移动平均线(即过去50天收盘价格的平均值)。SMA50是一种中期趋势指标,常用于识别价格的中期走势。由于它对较短时间内的价格变化更为敏感,因此通常比SMA200波动更大。 绿色线条(SMA200):这条线代表的是200天的简单移动平均线。作为一个长期趋势指标,SMA200被广泛用于识别长期的市场趋势。由于计算时间较长,它能够有效平滑价格波动,提供更稳定的趋势信号。 买卖信号 绿色三角形(买入信号):这些符号标注了一个重要的技术信号,即“金叉”。金叉是指短期移动平均线(在此为SMA50)向上突破长期移动平均

2024-08-11

010 - 东方财富帖子标题情绪分析

东方财富网股吧是一个投资者交流平台,用户在这里讨论股票、分享投资心得、发布市场预测。通过分析股吧中的帖子标题,可以了解市场情绪,对投资决策提供参考。本项目旨在通过爬取东方财富网股吧的帖子标题,进行情绪分析,并将结果可视化,帮助投资者更好地理解市场情绪的变化。 #### 项目目标 1. **数据收集**:爬取东方财富网股吧的帖子标题。 2. **情绪分析**:对爬取的帖子标题进行情绪分类,分为正面、负面和中性。 3. **数据可视化**:将情绪分析结果通过柱状图、折线图和饼图进行可视化展示。 #### 技术路线 1. **网页爬取**: - 使用 `requests` 库发送 HTTP 请求,获取东方财富网股吧的网页内容。 - 使用 `BeautifulSoup` 库解析网页内容,提取帖子标题。 2. **情绪分析**: - 使用 `TextBlob` 或 `NLTK` 等自然语言处理库对帖子标题进行情绪分析。 - 将情绪分为正面、负面和中性三类。 3. **数据可视化**: - 使用 `matplotlib` 和 `seaborn` 库生成柱状图、

2024-08-10

009 - 上证50ETF基金数据分析及预测

#### 项目目标 1. 获取并处理上证50ETF基金的历史数据。 2. 通过分析股票指标,探讨其与基金价格变化的关系。 3. 应用多种时间序列预测模型(如LSTM, GRU, 双向LSTM)对基金未来走势进行预测。 4. 对比不同模型的预测效果,选择最佳模型。

2024-08-10

008 - 基于RNN和LSTM的贵州茅台股票开盘价预测

本项目旨在通过使用Tushare下载贵州茅台的股票数据,并基于这些历史数据,使用TensorFlow 2.0实现循环神经网络(RNN)和长短期记忆网络(LSTM)来预测股票的开盘价。本项目提供了完整的数据获取、处理、模型构建和预测的流程。

2024-08-10

005 - 马科维茨投资组合理论实现

python基于tushare实现马科维茨投资组合理论实现

2024-08-10

002 - 常见的金融量化指标计算

Tushare 是一个用于获取中国市场数据的开源Python包。我们将使用 Tushare 下载股票数据并计算常见的指标。

2024-08-10

74- 前程无忧python岗位信息爬取和分析

74| 前程无忧python岗位信息爬取和分析

2024-08-09

73 - 基于Python的上海二手房数据爬取及分析

链家二手房数据分析(爬虫+jupyter+报告)

2024-07-24

本项目旨在通过对智联招聘网站上发布的数据分析岗位信息的分析和可视化,帮助应届毕业生和希望进入数据分析行业的专业人士更好地理解当前

技术栈 项目运用了Python的pandas库进行数据清洗和分析,通过pyecharts库创建了多种交互式图表,增强了数据的表现力和用户的交互体验。最终,使用Flask框架将分析结果通过Web页面形式呈现,使得数据分析结果更加直观且易于理解。 数据分析目标 地域分布:通过地图展示不同省份和城市的数据分析岗位数量,分析地区差异。 薪资和学历关系:通过环形图和柱状图探索不同学历要求对薪资范围的影响。 行业需求:分析数据分析需求最高的行业和公司规模,以及技能要求,帮助求职者针对性准备。 关键问题解答 哪些地区对数据分析专业人才的需求最大? 影响数据分析岗位薪资的主要因素有哪些? 求职数据分析岗位通常需要哪些技能和资质? 数据来源与处理 项目的原始数据来源于智联招聘网,涵盖了全国范围内的6263条数据分析岗位信息。在数据清洗过程中,我们对数据进行了去重、填充缺失值、异常值处理等,确保数据的准确性和分析的有效性。 项目成果 项目成功构建了一个包含多个交互式图表的Web应用,提供了一种直观、易于理解的方式来查看数据分析岗位的市场趋势和关键洞察。此外,该项目的完成不仅加深了我对数据分析行业的理解

2024-07-23

70 - 双十一美妆数据分析可视化

双十一,作为全球最大的购物狂欢节,提供了丰富的数据资源,特别是在美妆产品类别中。美妆品牌在这一天提供各种优惠和折扣,吸引了大量消费者。本项目旨在分析和可视化双十一期间淘宝美妆品类的销售数据,帮助消费者洞察不同品牌的折扣策略,并评估各品牌产品的性价比。 数据源 本项目使用的数据源为双十一期间的淘宝美妆销售数据,包括商品分类、品牌、价格、折扣率等信息。数据收集自淘宝平台的公开销售记录,整理成Excel表格进行详细分析。 分析目标 在售商品占比分析:识别双十一期间在售的美妆商品类别和其在市场上的占比。 品牌折扣率分析:比较不同美妆品牌的折扣率,找出提供最大折扣的品牌。 商品数量分布:分析参与双十一活动的各品牌商品数量,评估品牌活动的广泛程度。 折扣套路解析:揭示不同品牌的折扣策略,帮助消费者识别可能的营销套路,例如虚高的原价或者“买一赠一”等促销活动。 商品折扣率:深入分析商品的折扣深度,为消费者提供购买决策支持。 数据分析工具 项目主要使用以下工具进行数据分析和可视化: DataFrame:利用Pandas库构建和处理表格型数据,便于数据清洗、整理和分析。 Matplotlib、Ec

2024-07-23

71 - 去哪儿旅游数据分析

是关于旅游出行数据分析的,具体内容涵盖了对各省市景点的数据分析和可视化。下面是该笔记本的详细描述: 1. 数据概览 笔记本开始于对数据集的导入与基本处理,包括清洗和整理,确保数据质量。数据集涵盖了景点名称、星级、评分、介绍、所在地区、儿童旅客量、销售量及门票价格等信息。 2. 省份数据分析 接下来的分析按照省份进行,例如对海南、江苏和四川的景点数据进行了详细的分析。计算了各省的景点好评率、中评率、差评率,并通过公式进行了四舍五入处理以便更加直观。 3. 价格与评分分析 分析还涉及到根据不同价格区间和星级筛选景点,对数据进行排序,从而找到每个价格区间中销售量最高的景点。此外,还对门票价格进行升序排序,并筛选出评分高于4分的景点。 4. 可视化展示 最后,使用Pyecharts库,笔记本展示了一些基于液态球(Liquid)的动态图表,用于可视化四川等地景点的好评和差评比例。这种图表形式提供了一个直观且互动的方式来展示数据。

2024-07-23

本报告所选数据集下载自kaggle 数据集包含美国 2,392 名高中生的全面信息,详细介绍了他们的人口信息、学习习惯、父母参与

图2-1是以人种分类的GPA箱线图,可以看出,白种人(0)的成绩相对最低,而非裔美籍学生(1)和其他人种(3)的成绩相对更高 ,但各人种成绩分布基本相同,无显著差异。图2-2是以父母受教育程度为分类的GPA箱线图,数值越高代表父母受教育程度越高,从图中可以看出,学生GPA并未与父母受教育程度呈线正相关性,受教育程度为最高的那一批父母的孩子在GPA上的表现甚至是最差的。 图2-3为父母对孩子的支持程度与孩子为分类的GPA箱线图,从图中可以明显的看出,父母对孩子的支持程度与孩子的GPA呈显著正相关,父母对孩子支持程度越高,孩子的成绩越好。图2-4中更是明显的看出在GPA最高的那部分学生,父母的支持是必不可少的。而图2-5则是研究父母的受教育程度与父母对孩子的支持程度是否有关系,从图中可以看出,父母的受教育程度与对孩子的支持程度无显著的关系,受教育程度低的父母也可以给孩子足够的支持。 图2-6中,性别对GPA的影响也是微乎其微的,而请家教则对孩子的

2024-07-21

68 - 深圳链家二手房房源数据分析

本项目主要对链家二手房房源数据进行分析,通过数据可视化了解深圳的二手房源情况,对人们购房做出指导。 二、背景 随着经济的发展,北、上、广、深这四大都市迅速发展,在经济、政治等方面有突出的表现,而且工作机会多,生活质量较高,是大多数人所向往的地方。但是要在这些城市定居是一件不容易的事情,这样来说购买二手房是一个可以选择的方案,说到这我们一定会想了解这些地区的房源大概情况。所以本项目是对深圳链家二手房房源进行的分析,希望可以帮助部分人解决购房问题,从多维度出发分析,帮助买家拿定主意,实现合理的购房。

2024-07-21

67- 上海市互联网行业招聘数据集的构建与可视化分析

上海市互联网行业招聘数据集的构建与可视化分析 期末报告,可以作为期末论文

2024-07-21

基于YOLO5细胞检测实战.zip

在进行基于YOLOv5的细胞检测实战时,完成以下的事情: 1. **数据采集与标注**:详细描述如何采集细胞图像数据,并进行标注。说明采集设备、图像分辨率、标注工具以及标注过程中的质量控制措施。 2. **数据预处理**:解释在输入模型之前对数据进行的预处理步骤,例如图像尺寸的调整、归一化和数据增强方法的选择。强调预处理的重要性以及如何影响模型的性能。 3. **模型选择与调优**:描述为什么选择YOLOv5作为细胞检测的模型,并说明如何调整模型的超参数以适应特定的细胞检测任务。可以讨论模型的架构、损失函数选择以及训练策略。 4. **训练过程**:详细说明模型的训练过程,包括数据集的划分、训练参数的设置、学习率调度方法以及监控训练过程中的性能指标。可以提供训练代码片段或脚本。

2024-02-19

天池-新闻推荐 推荐系统

零基础入门推荐系统 - 新闻推荐 赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。通过这道赛题来引导大家了解推荐系统中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。

2024-02-19

27 - Titanic 乘客生存决策树预测

Titanic 乘客生存预测流程 数据获取 --> 数据探索 --> 数据清理 --> 特征选择 --> 决策树模型 --> 模型预测和评估 --> 决策树可视化

2024-02-19

SVM对文档进行分类:

## SVM对文档进行分类: `流程:` 文档输入 --> 对文档进行分词 --> 加载停用词 --> 计算单词权重 (准备阶段) --> 生成分类器 --> 分类器做预测 --> 计算正确率 (分类阶段)

2024-02-19

16 - Pytorch​​构建Logistic二分类模型

在逻辑回归中预测的目标变量不是连续的,而是离散的。可以应用逻辑回归的一个示例是电子邮件分类:标识为垃圾邮件或非垃圾邮件。图片分类、文字分类都属于这一类。

2024-02-03

11 - Tensorflow实现卷积神经网络

11 | Tensorflow实现卷积神经网络

2024-02-03

13 - 使用代理ip爬取安居客房源信息

这段Python爬虫代码旨在从安居客网站爬取房地产信息。其中使用了代理IP的技术,主要目的是应对反爬虫机制、提高隐私保护、伪装地理位置、避免频率限制和提升稳定性。

2024-01-14

手动爬取天天基金网基民评论与东方财富网股市行情的资讯,从基民评论、重仓股票、市场行情三个方面LDA模型进行分析

这是一个基金评论与股票市场的情感分析项目,目的是手动爬取天天基金网基民评论与东方财富网股市行情的资讯,从基民评论、重仓股票、市场行情三个方面出发,使用情感词典与LDA模型进行分析,从而做出是否值的购买基金的决策。带有标签clean的是清洗后的爬虫数据,没有带标签的是原始数据或者某个分析后的结果。具体的工作代码放在了“基于情感词典与LDA模型的基金文本研究.ipynb”中,使用的是python 的jupyter notebook。

2023-11-03

03.04 Requests豆瓣.ipynb

对豆瓣单个电影页面元数据进行获取 元数据结构:<br> 1. 导演 2. 编剧 3. 主演 4. 类型 5. 制片国家/地区 6. 语言 7. 上映日期 8. 片长 9. 又名 10. IMDb 11. 豆瓣评分 - 评分 - 评价人数 - 5星评价占比 - 4星评价占比 - 3星评价占比 - 2星评价占比 - 1星评价占比 12. 好于 13. 好于 ## Step 1 找到250部电影的页面 依次解析 具体的页面 爬取1292052...;爬取1292052成功 爬取1291546...;爬取1291546成功 爬取1292720...;爬取1292720成功 爬取1292722...;爬取1292722成功 爬取1295644...;爬取1295644成功 爬取1291561...;爬取1291561成功 爬取1292063...;爬取1292063成功 爬

2023-11-01

SpringBoot+Mybatius图书管理系统 语言:Java 开发工具:IntelliJIDEA-2019.3 JDK版

SpringBoot+Mybatis图书管理系统是一个用于管理图书信息的Web应用程序。它使用Java作为编程语言,IntelliJ IDEA作为开发工具,JDK 8作为Java开发环境,Maven用于项目管理,MySQL数据库用于存储数据,前端使用HTML、CSS、jQuery、Layui和Vue,后端采用Spring Boot、Mybatis以及TkMapper框架。 下面将描述一些主要功能和组件以帮助你更好地理解这个系统: **主要功能:** 1. **图书管理**:用户可以添加、编辑、删除图书信息,包括书名、作者、出版日期等。 2. **借阅管理**:用户可以借阅图书并设置还书日期,系统会自动跟踪图书的借阅状态。 3. **用户管理**:管理系统用户,包括添加、编辑、删除用户信息,以及分配权限等。 4. **搜索和过滤**:提供搜索功能,可以根据关键字搜索图书信息,并可以根据不同条件进行过滤。 5. **权限管理**:不同用户具有不同的权限,例如管理员和普通用户,管理员可以管理图书和用户,而普通用户只能借阅图书。

2023-10-30

通用的Java工具类,主要包括基础工具类(时间、正则表达式、字符串、随机数等等),excel解析生成、word解析生成、文件操作

通用的Java工具类,主要包括基础工具类(时间、正则表达式、字符串、随机数等等),excel解析生成、word解析 生成、文件操作

2023-10-22

基于Java的学生管理系统,旨在提供学生信息的管理和查询功能

这项目是一个基于Java的学生管理系统,旨在提供学生信息的管理和查询功能。 **1. 数据库连接和初始化:** - 项目使用Java数据库连接(JDBC)来建立与数据库的连接。 - 在系统初始化时,通过`DatabaseConnector`类创建了一个数据库连接,以便执行数据库操作。 **2. 添加学生信息:** - 系统提供了添加学生信息的功能。 - 用户可以输入学生的ID、姓名和年龄,然后系统将这些信息插入到数据库的`student`表中。 - 成功插入后,系统会显示学生已被添加的消息。 **3. 查找学生信息:** - 学生管理系统允许用户根据学生的ID来查找学生信息。 - 用户输入要查找的学生ID,系统执行SQL查询操作,如果找到匹配的学生,将显示学生的ID、姓名和年龄。 - 如果未找到匹配的学生,系统会显示未找到的消息。 **4. 更新学生信息:** - 系统允许用户根据学生ID更新学生信息。 - 用户输入学生ID,然后输入新的姓名和年龄,系统执行SQL更新操作,将学生信息更新为新提

2023-10-22

基于Python编程的RFM细分聚类案例

本文将深入探讨一个基于Python编程的RFM细分聚类案例。通过代码实现,我们将学习如何加载和预处理电商历史订单数据,计算RFM指标,使用KMeans算法进行聚类分析,以及如何将用户分为不同的价值层级。最终,我们将通过可视化展示来解释不同价值层级用户的分布情况,帮助企业更好地理解其客户群体,为未来的决策提供更多见解。

2023-08-21

65 - python增长模型案例

在一个具体的案例中,我们使用了一个关于用户行为的数据集,探讨了如何利用增长模型来优化业务决策。通过数据分析、可视化和机器学习建模,我们深入挖掘了用户的操作历史、设备类型、城市类型以及其他特征。我们通过构建预测模型,预测了用户是否会对不同类型的促销方式做出响应,从而实现了精准的目标用户选择。 在实际操作中,我们不仅关注转化率的提升,还需要考虑成本与效益的平衡。我们将重点放在那些有潜力的用户身上,通过合理的营销策略来提升他们的转化率,从而在有限的资源下实现业务增长。

2023-08-21

A/B测试 展示如何运用Python进行数据分析、可视化和统计显著性检验

探讨A/B测试的概念、原理以及其在实际业务中的应用。 通过一个案例,详细展示如何运用Python进行数据分析、可视化和统计显著性检验,以揭示不同页面版本在用户购买转化率方面的差异。通过对比新旧页面的转化率,我们将探讨如何从统计学的角度评估这些差异是否具有显著性。从而,读者将深入了解如何通过A/B测试来为业务决策提供有力的数据支持,进而优化用户体验和提升业务成果。

2023-08-21

63 - 留存分析在现代商业中的关键作用 python 案例

我们以一个案例为例,展示了如何通过数据驱动的方法识别影响留存率的因素。首先,我们载入了一个会员数据集,对数据进行了预处理,包括转换字段、处理缺失值等。然后,我们使用Kaplan-Meier生存分析方法绘制了整体的留存曲线,从中可以看出会员的留存率随着入会月数的增加逐渐下降,这提醒我们需要关注新会员的留存情况。 接着,我们对不同因素进行了分析,比如会费支付方式、会员卡类型以及性别对留存率的影响。通过绘制不同分类的Kaplan-Meier曲线,我们可以看到这些因素对留存率的影响情况。例如,不同的会费支付方式和会员卡类型对留存率产生了不同的影响,这提示我们可以针对不同的客户群体制定不同的留存策略。 接着,我们采用Cox比例风险模型来进行生存分析,这种方法可以同时考虑多个因素对留存的影响。通过打印模型的摘要信息,我们可以得到不同因素的系数,从而了解每个因素对留存的影响程度。此外,我们还绘制了系数和置信区间的图表,更直观地展示了各因素的影响情况。 最后,我们展示了如何使用逻辑回归模型对留存进行预测。通过构建特征集和标签集,我们将数据集拆分为训练集和测试集,然后使用逻辑回归模型进行拟合和预测

2023-08-21

62 - Python 漏斗分析案例

漏斗分析是一种重要的数据分析方法,用于跟踪和优化用户在某个过程中的转化率。无论是在线购物、注册流程还是应用下载,漏斗分析都能帮助您了解用户在不同阶段的行为,找出瓶颈,优化用户体验。

2023-08-20

61 - 归因渠道分析案例 python

归因分析(Attribution Analysis)是一种用于评估不同营销渠道推广效果的方法,它的主要目标是合理地将转化路径中的功劳分配给各个接触点,也就是不同的营销渠道。这帮助营销人员更准确地了解各个渠道对最终转化所产生的影响,从而更有效地分配资源和优化营销策略。

2023-08-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除