![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
【大数据分析】
文章平均质量分 68
数据分析与可视化,以Python语言为主
温欣2030
公众号:数据分析智库。通过公众号可以加我,知识付费有偿。
展开
-
【Python】上市公司数据进行经典OLS回归实操
主营业务利润占比(Coefficient: -0.027229, P-value: 1.294914e-25):主营业务利润占比的增加与因变量的减少呈负相关关系,且统计上显著。现金资产比率(Coefficient: 0.024404, P-value: 3.653465e-51):现金资产比率的增加与因变量的增加呈正相关关系,且统计上显著。管理费用率(Coefficient: -0.009757, P-value: 7.784131e-05):管理费用率的增加与因变量的减少呈负相关关系,且统计上显著。原创 2023-11-15 07:00:00 · 918 阅读 · 0 评论 -
【LLM_01】ChatGLM2-6B本地安装与部署(大语言模型)
ChatGLM2-6B是一个开源的、支持中英双语的对话语言模型,基于General Language Model (GLM)架构。自我认知:“介绍一下你的优点”提纲写作:“帮我写一个介绍ChatGLM的博客提纲”文案写作:“写10条热评文案”信息抽取:‘从上述信息中抽取人、时间、事件’垂直领域知识基于私有数据的问答。原创 2023-07-30 13:17:23 · 4759 阅读 · 2 评论 -
机器学习系列(6)_特征工程03碳排放小案例
文章目录一、归一化处理import numpy as npimport pandas as pdfrom scipy.cluster.vq import *import matplotlib.pyplot as pltfrom sklearn.manifold import TSNEfrom scipy.spatial.distance import cdistfrom matplotlib.ticker import MultipleLocatorfrom matplotlib impor原创 2022-04-21 19:18:42 · 4495 阅读 · 0 评论 -
Python 双色球数据整理
文章目录一、数据整理1、修改表头2、增加时间列3、分割获奖号码4、使用正则表达式获取汉字地区一、数据整理import seaborn as snsimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签原创 2022-04-16 16:00:19 · 871 阅读 · 3 评论 -
python 判断字符串当中是否包含字符(str.contain)
有一个ssqdatav2数据,要找到其中的深圳,并且替换成圳。因为收集到的数据出现了错误,本来只有省份简写的地方却出现了深圳。如何找到DF中包含深圳的数据?cond=ssqdatav2['first'].str.contains('深圳')ssqdatav2.loc[cond]此时就找到first当中包含深圳的数据。1、在first当中找到汉字# 为分解firstprize定义函数def fpp(x): if len(x)<=2: # 判断是否只有汉字,还是也有数字原创 2022-04-16 15:58:06 · 8080 阅读 · 0 评论 -
Python数据特征分析_02(相关系数,帕累托定律,周期性)
本篇博客主要以员工贡献度为例,分析不同菜品之间是否存在相关性。最典型的应用就是:啤酒和尿布销售之间的联系文章目录一、周期性分析二、贡献性分析三、相关性分析1、探究不同菜品之间的相关性2、探究不同学生之间的相关性一、周期性分析探索某个变量是否随着时间变化而呈现出某种周期性变化的趋势。时间尺度相对较长的周期性趋势有:年度周期性趋势,季节性周期性趋势,相对较短的有月度周期性趋势,周度周期性趋势,甚至更短的天,小时的周期性趋势。import pandas as pdimport matplotlib.py原创 2022-04-05 14:34:18 · 2774 阅读 · 0 评论 -
Python新冠疫情案例_02处理疫情数据中的异常以及丢失的数据
import seaborn as snsimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号fr原创 2022-04-05 12:49:57 · 1902 阅读 · 0 评论 -
Python数据特征分析_01(MOOC学习时长分析)
本篇博客使用到的数据如下:通过分析每个学生的学习时长来分析学生的学习稳定性。(共有115人,每个人记录了11次的学习数据)文章目录一、分布分析1、定量数据分布分析2、绘制频率图二、对比分析1、绝对数对比2、差值折线图3、相对数对比4、比例分析5、空间比较分析6、动态比较分析三、统计量分析一、分布分析1、定量数据分布分析定量数据分布分析:主要是求极差将Excel数据导入之后赋值给x,令x3为最后一周的数据:x3=x['20220403']# 01.求极差R=x3.max()-x3.mi原创 2022-04-05 09:39:24 · 745 阅读 · 1 评论 -
numpy中的converters和usecols用法
用Python打开Excel数据,读取时需要将”学号“和“ID"转换成字符,以便后续操作df = pd.read_excel(path, converters={'学号': str, 'ID': str})以下是我的经历来体会:我在从Excel读入python的数据时,发现读出的是空值:import pandas as pd df=pd.read_excel("D:/Python/05DataMineML/2022STU(1).xlsx")df但是分明是有数据的,大概率出现的原因是sh原创 2022-04-04 14:22:46 · 4671 阅读 · 0 评论 -
机器学习系列(1)_数据分析之Kaggle泰坦尼克之灾
本篇博客通过分析泰坦尼克号事故中幸存者与遇难者的名单,从而得出一些相关关系的判断,并且使用可视化的手段更加具体的展现。import seaborn as snsimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显原创 2022-04-03 15:07:59 · 4860 阅读 · 6 评论 -
Python datacompy 找出两个DataFrames不同的地方
x表:让x1和x2都是x的副本,则此时x1和x2相同。x1=x.copy()x2=x.copy()原创 2022-03-28 23:12:55 · 4719 阅读 · 0 评论 -
Python绘制世界疫情地图
世界疫情数据下载请点击》》:疫情数据下载最终效果:下载需要的python包:!pip install echarts-countries-pypkg!pip install echarts-china-provinces-pypkg!pip install echarts-countries-china-cities-pypkgimport seaborn as snsimport numpy as npimport pandas as pdimport matplotlib as原创 2022-03-28 19:12:26 · 25027 阅读 · 43 评论 -
Python新冠疫情案例_01合并Excel文件
文章目录一、单目录下面的数据合并二、使用函数进行数据合并三、处理港澳台数据一、单目录下面的数据合并将2020下的所有文件进行合并,成一个文件:import requestsimport jsonimport openpyxlimport datetimeimport datetime as dtimport timeimport pandas as pdimport csvfrom openpyxl import load_workbookfrom sqlalchemy impo原创 2022-03-19 13:32:56 · 1496 阅读 · 1 评论 -
Python matplotlib plotly
文章目录一、整理数据二、折线图三、散点图四、饼图五、柱形图六、点图(设置多个go对象)一、整理数据以300部电影作为数据源import pandas as pd cnboo=pd.read_excel("cnboNPPD1.xls")cnboo import seaborn as snsimport numpy as np import matplotlib as mplfrom matplotlib import pyplot as plt import pandas as pd原创 2022-03-15 23:16:22 · 2257 阅读 · 0 评论 -
Python词云
先来看看最终效果:注:做词云时如果使用中国地图,那必须确保中国的领土完整哦,千万不能缺少了边界线或者某些沿海省份之类的。文章目录一、数据整理一、数据整理以下的数据下载都是在我的gitee中的:字词数据下载:Excel数据字体下载:字体地图下载:中国地图调色盘颜色下载:玉门关的蓝色主要目的:根据项目名称分析其中词频高的数据来制作词云import pandas as pd skdfsorttjfilter =pd.read_csv("skdfsorttjfilter.csv",e原创 2022-03-13 09:23:12 · 1434 阅读 · 0 评论 -
Python matplotlib seaborn(学习笔记)
文章目录一、seaborn概述二、数据整理01 折线图02 柱形图03 直方图三、绘图01 设定调色盘02 柱状图03 技术图04 点图05 箱型图06 小提琴图一、seaborn概述Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。详情请查阅官网:seaborn二、数据整理import seaborn as snsimport numpy as np import matplotlib as原创 2022-03-13 08:59:07 · 1427 阅读 · 0 评论 -
Python matplotlib 多重图
文章目录Python中插入图片绘制子图绘制1*2的子图绘制2*2的子图绘制不规则子图绘制图中代码from matplotlib import pyplot as plt plt.style.use('fivethirtyeight')fig=plt.figure()ax=fig.add_subplot(1,1,1)plt.text(0.5,0.5,'Figure',ha='center',va='center',size=20,alpha=0.5)# 注:这里的0.5代表x,y轴上面特定的点坐标原创 2022-03-08 20:50:24 · 4497 阅读 · 0 评论 -
Python matplotlib 实时数据动画
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录01 实时数据可视化的准备01 实时数据可视化的准备原创 2022-03-08 18:43:54 · 1241 阅读 · 1 评论 -
Python matplotlib 散点图
注:关于本篇博客使用的数据 cnboo1.xlsx我放在我的码云,需要的请移步 :cnboo1.xlsx文章目录一、整理数据一、整理数据import pandas as pd cnbodf=pd.read_excel('cnboo1.xlsx')cnbodfsort=cnbodf.sort_values(by=['BO'],ascending=False)def mkpoints(x,y): return len(str(x))*(y/25)-3cnbodfsort['point原创 2022-03-07 21:06:34 · 2307 阅读 · 0 评论 -
Python matplotlib 堆叠图
注:本文的所有数据请移步—— 参考数据文章目录一、水平堆叠图二、波浪形堆叠图三、加上数据标签一、水平堆叠图堆叠图其实就是柱状图的一种特殊形式from matplotlib import pyplot as plt plt.style.use('seaborn')plt.figure(figsize=(15,9))plt.rcParams.update({'font.family': "Microsoft YaHei"})plt.title("中国票房2021TOP9") plt.bar(c原创 2022-03-06 20:20:57 · 8008 阅读 · 4 评论 -
Python matplotlib 饼图
文章目录一、整理数据二、创建饼图三、爆炸效果四、阴影效果五、为饼图加上百分比六、让饼图旋转不同的角度七、为饼图添加边缘线八、为饼图数据分组一、整理数据关于cnboo1.xlsx,我放在我的码云里,需要的朋友自行下载:cnboo1.xlsxfilms=['穿过寒冬拥抱你','反贪风暴5:最终章','李茂扮太子','误杀2','以年为单位的恋爱','黑客帝国:矩阵重启','雄狮少年','魔法满屋','汪汪队立大功大电影','爱情神话']regions=['中国','英国','澳大利亚','美国','美国原创 2022-03-06 19:12:08 · 1314 阅读 · 0 评论 -
Python matplotlib 折线图
文章目录一、matplotlib简介1.版本2.图表主题设置一、matplotlib简介官网: https://matplotlib.org参考资料:https://zhuanlan.zhihu.com/p/1092457791.版本# 01 matplotlib安装情况 import matplotlib matplotlib.__version__2.图表主题设置请点击:图表主题设置import numpy as np from matplotlib import pyplot原创 2022-03-05 19:50:21 · 1447 阅读 · 0 评论 -
python数据整理+突发断网解决方法(学习笔记)
这篇博客本来是接第一篇的(关于如何抓取数据下来),但由于CSDN现在不能发布关于爬虫的博客,所以我来写写抓取的数据如何整理吧。当我们抓取文件的时候,如果网络突然断开,这样不仅会中断抓取,而且还会让我们的数据全部丢失,那么此时我们就可以使用一种方法:即每隔20条数据自动创建一个Excel文件,就能减小风险。import pandas as pdimport urllibimport requestsfrom lxml import etreeimport urllib.request as re原创 2022-03-01 22:40:51 · 1005 阅读 · 0 评论 -
Python数据获取——图片数据提取
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档图片数据提取一、利用exifread提取图片的EXIF信息比如我随便从手机上传一张图片到我的电脑里,通过python可以获取这张照片的所有信息。如果是数码相机拍摄的照片,我们在属性里可以找到照片拍摄的时间,拍摄的经纬度,海拔高度。那么这些信息有什么作用呢?有很多功能…比如用户画像,客户信息标签设定等等,用户喜欢拍摄照片的季节,时间点,所使用的相机的参数指标可以反应出一个人的金钱状况,对于其拍摄的内容,我们可以通过AI的方式对照片的内容原创 2022-02-25 20:38:57 · 11778 阅读 · 0 评论