荒野老狮子
码龄5年
求更新 关注
提问 私信
  • 博客:80,573
    80,573
    总访问量
  • 49
    原创
  • 23
    粉丝
  • 50
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2020-08-19
博客简介:

weixin_50199986的博客

查看详细资料
个人成就
  • 获得107次点赞
  • 内容获得104次评论
  • 获得204次收藏
  • 代码片获得491次分享
创作历程
  • 2篇
    2022年
  • 17篇
    2021年
  • 30篇
    2020年
成就勋章
TA的专栏
  • python
    2篇
  • clickhouse
    1篇
  • superset
    1篇

TA关注的专栏 1

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

兴趣领域 设置
  • 人工智能
    数据分析
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“的解决办法

Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools"的解决办法
原创
发布博客 2022.10.09 ·
412 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ClickHouse之Join表引擎达到提高查询速度的目的

之所以使用join表,是因为对于大批量数据的关联查询速度会变慢,而join表将数据存储在内存上,提高了查询速度。我们可以在sql前面增加explain 查询sql的执行步骤发现joinGet步骤少于left join。推荐使用joinGet方法进行关联查询,提高了查询速度。不建议使用join进行关联查询,速度没有变化。...
原创
发布博客 2022.08.12 ·
1224 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

superset 操作 从代码获取开始

1. github 搜索superset看到点赞最多的那个就是了2. 克隆到本地3. 打开本地文件4. 创建环境conda create -n '沙箱名' python=3.85. 激活环境activate '沙箱名'6. 安装包pip install apache-superset7. 启动supersetsuperset run8. 发现需要账号密码登录,这是什么鬼9. 配置管理员账号superset fab create-admin然后全输入a
原创
发布博客 2021.09.10 ·
388 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

多任务

十六 多任务一 多任务介绍(1) 多任务概念所谓多任务就是同一时刻执行多件事情,就是多个任务同时执行。1 生活中的多任务手舞足蹈手脚并用眼观六路耳听八方2 计算机中的多任务现代计算机中都有很多软件,我们开启电脑后可以在电脑上同时运行多个软件,我们可以一边听着歌曲一边写代码等。但是我们认为的多个软件同时执行,真正也是同时执行吗?我们需要了解下计算机执行任务的原理。(2) 计算机多任务原理计算机中所有的任务都是CPU帮助我们是执行的,由于CPU执行代码都是顺序执行的,当计算机为单核C
原创
发布博客 2021.04.06 ·
589 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

经典案例 泰坦尼克号

import pandas as pdimport graphviz#1. 读取数据,获取特征值:data = pd.read_excel(r'tietan.xls')print(data)#2. pclass, age, sexfeature = data.loc[:, ['pclass','age','sex']]print(feature.info())#3. 填充空值: AGE: 找不到准确值:feature.fillna({'age':feature['age'].mea
原创
发布博客 2021.03.15 ·
223 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

词频统计

import matplotlib.pyplot as pltfrom wordcloud import WordCloud# 一、读文件# 1、读二值化图片:back_image = plt.imread(r'111.jpg')# 2、读取文本信息:with open('庆余年TXT全本电子书.txt', 'r', encoding='utf-8') as fp: f = fp.read()# 3、词云绘制:word_cloud=WordCloud( background
原创
发布博客 2021.03.15 ·
145 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

回归算法 经典案例 波士顿房价预测

回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析
原创
发布博客 2021.03.11 ·
6411 阅读 ·
4 点赞 ·
0 评论 ·
53 收藏

Python操作MySQL

一 用户管理用户在数据库操作系统中,是一个设计到数据安全的非常重要的数据库对象,在MySQL系统的数据库中root用户作为超级管理员用户,通常情况下不会给普通用户使用,所以掌握数据库管理系统中的用户管理和维护,是非常重要且必须的技能,对于用户的操作。(一)连接数据库在命令行执行命令 mysql --help 查看操作命令和帮助,会出现大量的操作选项,其中较为常用的选项如下:● -h:host 连接数据库的主机名称,通常我们使用 ip 地址进行确定● -P:Port 端口号,大写字符 P 指定连接
原创
发布博客 2021.03.04 ·
677 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

MySQL进阶2

一 视图1 问题对于复杂的查询,往往是有多个数据表进行关联查询而得到,如果数据库因为需求等原因发生了改变,为了保证查询出来的数据与之前相同,则需要在多个地方进行修改,维护起来非常麻烦解决办法:定义视图2 视图是什么通俗的讲,视图就是一条SELECT语句执行后返回的结果集。所以我们在创建视图的时候,主要的工作就落在创建这条SQL查询语句上。视图是对若干张基本表的引用,是一张虚拟表,查询语句执行的结果,不存储具体的数据(基本表数据发生了改变,视图也会跟着改变);作用:方便操作,特别是查询操作,减少
原创
发布博客 2021.03.04 ·
300 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

MySQL进阶

一 多表查询多表查询操作,是在项目开发时使用较多的查询操作,这里以两张表的操作方式示例,更多表的操作再次基础上拓展即可。(一)多表关系1 一对一案例:人和身份证号奥运会比赛中,国家队与国家一个国家只允许有一只国家队,一个国家队也只代表一个国家用户和个人资料方式1:通过修改表结构添加外键修改表结构: ALTER TABLE 当前表名 ADD CONSTRAINT FOREIGN KEY(当前表的主键) REFERENCES 被关联表名(其他表主键);方式1:通过修改表结构添加外键--
原创
发布博客 2021.03.03 ·
480 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

朴素贝叶斯算法 书评预测

import jiebaimport pandas as pd# 1.读文件:#data = pd.read_csv(r'C:\Users\ibm\Downloads\data.csv', engine='python')# print(data.info())# 2. 停用词:with open(r'C:\Users\ibm\Downloads\stopwords.txt', 'r', encoding='utf-8')as fp: stop_words = fp.readlin
原创
发布博客 2021.01.20 ·
225 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kmeans算法 航空数据分析

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata = pd.read_csv(r'air_data.csv', encoding='ansi', sep=',', engine='python')print(data.info())#一、数据清洗:# 1. 将票价为空值删掉:mask1 = data['SUM_YR_1'].isnull()mask2 = data['SUM_YR_2'].i
原创
发布博客 2021.01.19 ·
1333 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TGI指数分析

import pandas as pdimport numpy as npdata = pd.read_excel(r'C:\Users\ibm\Downloads\TGI指数案例数据.xlsx')print(data.shape)#2. 获取交易成功的数据量:mask = data['订单状态']=='交易成功'successful_deal_df = data.loc[mask, :]"""1. 计算用户平均支付金额:2. 基于用户支付金额,判断用户是属于低客单还是高客单:
原创
发布博客 2021.01.19 ·
1487 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

手写 KMeans算法并绘制动图

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport imageiodef Kmeans(center): #【【】,【】,【】】 #3. 第一聚类: for i in range(3): #计算每个点与三个类中心的距离: distance = np.sqrt(((x_train - center[i, :])**2).sum(axis=1))
原创
发布博客 2021.01.19 ·
1335 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

knn算法,最优k值求解

需求测试knn算法精度,并选出精度最高的k值文件如下:在test、和train文件夹里分别有如下文件,文件名_左侧是每个txt文件里1组成的数字,每个txt文件都是32行、32列共计1024个字符用train里面的文件进行训练,用test里面的文件进行测试读取文件中的字符,并保存至excelimport osimport numpy as npimport pandas as pdimport timedef transform_data(file_path): #1. 获取
原创
发布博客 2021.01.14 ·
4344 阅读 ·
4 点赞 ·
1 评论 ·
25 收藏

使用echarts绘图

import pandas as pdimport numpy as npfrom pyecharts import options as optsfrom pyecharts.charts import Barfrom pyecharts.charts import Piefrom pyecharts.charts import Geofrom pyecharts.globals import GeoTypefrom pyecharts.charts import Mapfrom pye
原创
发布博客 2021.01.11 ·
387 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

pandas 数据清洗

一、检测与处理缺失值的操作import numpy as npimport pandas as pddata=pd.read_excel(r'D:\study\teacher\第4阶段\day11 pandas\人事终表.xlsx').tail(10)print(data) Unnamed: 0 部门 姓名 应发数 发放时间 绩效 合计工资108 108 讲解员(6人) 张凤楚 3200.0 2020-07工资
原创
发布博客 2021.01.11 ·
370 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

pandas分组聚合、表格操作

一、聚合函数(1)通过numpy或者pandas中统计分析方法;(2)agg([np.sum,np.mean])或agg({‘columns’:np.sum,np.mean],‘columns2’:np.sum,np.mean]})(3)transform:转换只有一个参数functransform聚合方法:在pandas或者numpy中没有现成的函数可以使用,可以通过transform使用自定义的函数data=pd.read_excel(r'meal_order_detail.xlsx')
原创
发布博客 2021.01.04 ·
1823 阅读 ·
9 点赞 ·
14 评论 ·
11 收藏

pandas时间处理、分组聚合

import pandas as pdimport numpy as npdata=pd.read_excel(r'meal_order_detail.xlsx')print(data.shape)(2779, 19)print(data.columns)Index(['detail_id', 'order_id', 'dishes_id', 'logicprn_name', 'parent_class_name', 'dishes_name', 'itemis_add',
原创
发布博客 2021.01.04 ·
6699 阅读 ·
6 点赞 ·
2 评论 ·
20 收藏

pandas订单分析

1、哪些类别的商品比较畅销2、哪些商品比较畅销3、求不同门店的销售额占比4、哪段时间段是超市的客流高峰期?【选做】import pandas as pdimport numpy as npdata=pd.read_csv(r'order-14.3.csv',sep=',',encoding='gbk')# 查看数据信息data.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 3478 entries, 0 to
原创
发布博客 2020.12.31 ·
1010 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏
加载更多