Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“的解决办法 Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools"的解决办法
ClickHouse之Join表引擎达到提高查询速度的目的 之所以使用join表,是因为对于大批量数据的关联查询速度会变慢,而join表将数据存储在内存上,提高了查询速度。我们可以在sql前面增加explain 查询sql的执行步骤发现joinGet步骤少于left join。推荐使用joinGet方法进行关联查询,提高了查询速度。不建议使用join进行关联查询,速度没有变化。...
superset 操作 从代码获取开始 1. github 搜索superset看到点赞最多的那个就是了2. 克隆到本地3. 打开本地文件4. 创建环境conda create -n '沙箱名' python=3.85. 激活环境activate '沙箱名'6. 安装包pip install apache-superset7. 启动supersetsuperset run8. 发现需要账号密码登录,这是什么鬼9. 配置管理员账号superset fab create-admin然后全输入a
多任务 十六 多任务一 多任务介绍(1) 多任务概念所谓多任务就是同一时刻执行多件事情,就是多个任务同时执行。1 生活中的多任务手舞足蹈手脚并用眼观六路耳听八方2 计算机中的多任务现代计算机中都有很多软件,我们开启电脑后可以在电脑上同时运行多个软件,我们可以一边听着歌曲一边写代码等。但是我们认为的多个软件同时执行,真正也是同时执行吗?我们需要了解下计算机执行任务的原理。(2) 计算机多任务原理计算机中所有的任务都是CPU帮助我们是执行的,由于CPU执行代码都是顺序执行的,当计算机为单核C
经典案例 泰坦尼克号 import pandas as pdimport graphviz#1. 读取数据,获取特征值:data = pd.read_excel(r'tietan.xls')print(data)#2. pclass, age, sexfeature = data.loc[:, ['pclass','age','sex']]print(feature.info())#3. 填充空值: AGE: 找不到准确值:feature.fillna({'age':feature['age'].mea
词频统计 import matplotlib.pyplot as pltfrom wordcloud import WordCloud# 一、读文件# 1、读二值化图片:back_image = plt.imread(r'111.jpg')# 2、读取文本信息:with open('庆余年TXT全本电子书.txt', 'r', encoding='utf-8') as fp: f = fp.read()# 3、词云绘制:word_cloud=WordCloud( background
回归算法 经典案例 波士顿房价预测 回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析
Python操作MySQL 一 用户管理用户在数据库操作系统中,是一个设计到数据安全的非常重要的数据库对象,在MySQL系统的数据库中root用户作为超级管理员用户,通常情况下不会给普通用户使用,所以掌握数据库管理系统中的用户管理和维护,是非常重要且必须的技能,对于用户的操作。(一)连接数据库在命令行执行命令 mysql --help 查看操作命令和帮助,会出现大量的操作选项,其中较为常用的选项如下:● -h:host 连接数据库的主机名称,通常我们使用 ip 地址进行确定● -P:Port 端口号,大写字符 P 指定连接
MySQL进阶2 一 视图1 问题对于复杂的查询,往往是有多个数据表进行关联查询而得到,如果数据库因为需求等原因发生了改变,为了保证查询出来的数据与之前相同,则需要在多个地方进行修改,维护起来非常麻烦解决办法:定义视图2 视图是什么通俗的讲,视图就是一条SELECT语句执行后返回的结果集。所以我们在创建视图的时候,主要的工作就落在创建这条SQL查询语句上。视图是对若干张基本表的引用,是一张虚拟表,查询语句执行的结果,不存储具体的数据(基本表数据发生了改变,视图也会跟着改变);作用:方便操作,特别是查询操作,减少
MySQL进阶 一 多表查询多表查询操作,是在项目开发时使用较多的查询操作,这里以两张表的操作方式示例,更多表的操作再次基础上拓展即可。(一)多表关系1 一对一案例:人和身份证号奥运会比赛中,国家队与国家一个国家只允许有一只国家队,一个国家队也只代表一个国家用户和个人资料方式1:通过修改表结构添加外键修改表结构: ALTER TABLE 当前表名 ADD CONSTRAINT FOREIGN KEY(当前表的主键) REFERENCES 被关联表名(其他表主键);方式1:通过修改表结构添加外键--
朴素贝叶斯算法 书评预测 import jiebaimport pandas as pd# 1.读文件:#data = pd.read_csv(r'C:\Users\ibm\Downloads\data.csv', engine='python')# print(data.info())# 2. 停用词:with open(r'C:\Users\ibm\Downloads\stopwords.txt', 'r', encoding='utf-8')as fp: stop_words = fp.readlin
Kmeans算法 航空数据分析 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata = pd.read_csv(r'air_data.csv', encoding='ansi', sep=',', engine='python')print(data.info())#一、数据清洗:# 1. 将票价为空值删掉:mask1 = data['SUM_YR_1'].isnull()mask2 = data['SUM_YR_2'].i
TGI指数分析 import pandas as pdimport numpy as npdata = pd.read_excel(r'C:\Users\ibm\Downloads\TGI指数案例数据.xlsx')print(data.shape)#2. 获取交易成功的数据量:mask = data['订单状态']=='交易成功'successful_deal_df = data.loc[mask, :]"""1. 计算用户平均支付金额:2. 基于用户支付金额,判断用户是属于低客单还是高客单:
手写 KMeans算法并绘制动图 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport imageiodef Kmeans(center): #【【】,【】,【】】 #3. 第一聚类: for i in range(3): #计算每个点与三个类中心的距离: distance = np.sqrt(((x_train - center[i, :])**2).sum(axis=1))
knn算法,最优k值求解 需求测试knn算法精度,并选出精度最高的k值文件如下:在test、和train文件夹里分别有如下文件,文件名_左侧是每个txt文件里1组成的数字,每个txt文件都是32行、32列共计1024个字符用train里面的文件进行训练,用test里面的文件进行测试读取文件中的字符,并保存至excelimport osimport numpy as npimport pandas as pdimport timedef transform_data(file_path): #1. 获取
使用echarts绘图 import pandas as pdimport numpy as npfrom pyecharts import options as optsfrom pyecharts.charts import Barfrom pyecharts.charts import Piefrom pyecharts.charts import Geofrom pyecharts.globals import GeoTypefrom pyecharts.charts import Mapfrom pye
pandas 数据清洗 一、检测与处理缺失值的操作import numpy as npimport pandas as pddata=pd.read_excel(r'D:\study\teacher\第4阶段\day11 pandas\人事终表.xlsx').tail(10)print(data) Unnamed: 0 部门 姓名 应发数 发放时间 绩效 合计工资108 108 讲解员(6人) 张凤楚 3200.0 2020-07工资
pandas分组聚合、表格操作 一、聚合函数(1)通过numpy或者pandas中统计分析方法;(2)agg([np.sum,np.mean])或agg({‘columns’:np.sum,np.mean],‘columns2’:np.sum,np.mean]})(3)transform:转换只有一个参数functransform聚合方法:在pandas或者numpy中没有现成的函数可以使用,可以通过transform使用自定义的函数data=pd.read_excel(r'meal_order_detail.xlsx')
pandas时间处理、分组聚合 import pandas as pdimport numpy as npdata=pd.read_excel(r'meal_order_detail.xlsx')print(data.shape)(2779, 19)print(data.columns)Index(['detail_id', 'order_id', 'dishes_id', 'logicprn_name', 'parent_class_name', 'dishes_name', 'itemis_add',
pandas订单分析 1、哪些类别的商品比较畅销2、哪些商品比较畅销3、求不同门店的销售额占比4、哪段时间段是超市的客流高峰期?【选做】import pandas as pdimport numpy as npdata=pd.read_csv(r'order-14.3.csv',sep=',',encoding='gbk')# 查看数据信息data.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 3478 entries, 0 to