荒野老狮子-CSDN博客

原创该知道的都知道不知道的慢慢了解 MySQL数据库操作

一、数据库操作查看所有数据库show databases;创建数据库create database db_name charset=utf8;create database db_name character set utf8mb4;说明：CREATE：创建命令;DATABASE：数据库关键字;db_name：用户自定义数据库名称查看当前使用的数据库select database();使用/切换数据库use 数据库名;删除数据库drop

2020-12-14 19:54:49 1967 14

原创该知道的都知道，不知道的慢慢了解。redis数据库操作详解

一、简介：redis数据库是一个基于内存存储的数据库，所以，redis数据库的访问速度极快，因此，redis数据库可以做缓存系统，redis数据库一般用于做分布式的集群，可以提高网站的响应速度，redis数据库的数据存储是用key-value形式存储的。二、redis数据库优点：1．redis数据库开源免费的。2．redis数据库支持多种数据结构，比如：字符串、列表、哈希表、集合（有序集合和无序集合）。3．支持原子操作、支持事务。4．支持发布和订阅。5．支持数据过期功能。6．对数据有高可用性

2020-12-08 15:01:11 3689 8

原创该知道的都知道不知道的慢慢了解 MongoDB数据库操作详解

插入文档：db.集合名.insert({‘k’:‘v’})db.集合名.save({‘k’:‘v’})注1：如果想要插入多条数据，可以将多个对象放到一个数组中db.集合名.insert([{},{},{}])注2：如果插入数据的集合不存在，会先创建再插入 — 集合的隐式创建查询数据：db.集合名.find()10.查询当前数据库的状态：db.stats()11.拷贝数据，将一个数据库中的数据拷贝到另一个数据库中db.copyDatabase(‘数据库1’,‘数据库2’,‘地址..

2020-12-02 20:33:29 4728 12

原创该知道的都知道不知道的慢慢了解正则表达式符号大全

字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，‘n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “” 而 “(” 则匹配 “(”。^匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。$匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位...

2020-12-01 21:01:28 6326 8

原创 Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“的解决办法

Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools"的解决办法

2022-10-09 10:28:07 692

原创 ClickHouse之Join表引擎达到提高查询速度的目的

之所以使用join表，是因为对于大批量数据的关联查询速度会变慢，而join表将数据存储在内存上，提高了查询速度。我们可以在sql前面增加explain 查询sql的执行步骤发现joinGet步骤少于left join。推荐使用joinGet方法进行关联查询，提高了查询速度。不建议使用join进行关联查询，速度没有变化。...

2022-08-12 11:30:41 1377

原创 superset 操作从代码获取开始

1. github 搜索superset看到点赞最多的那个就是了2. 克隆到本地3. 打开本地文件4. 创建环境conda create -n '沙箱名' python=3.85. 激活环境activate '沙箱名'6. 安装包pip install apache-superset7. 启动supersetsuperset run8. 发现需要账号密码登录，这是什么鬼9. 配置管理员账号superset fab create-admin然后全输入a

2021-09-10 18:26:10 465

原创多任务

十六多任务一多任务介绍（1）多任务概念所谓多任务就是同一时刻执行多件事情，就是多个任务同时执行。1 生活中的多任务手舞足蹈手脚并用眼观六路耳听八方2 计算机中的多任务现代计算机中都有很多软件，我们开启电脑后可以在电脑上同时运行多个软件，我们可以一边听着歌曲一边写代码等。但是我们认为的多个软件同时执行，真正也是同时执行吗？我们需要了解下计算机执行任务的原理。（2）计算机多任务原理计算机中所有的任务都是CPU帮助我们是执行的，由于CPU执行代码都是顺序执行的，当计算机为单核C

2021-04-06 20:14:52 681

原创经典案例泰坦尼克号

import pandas as pdimport graphviz#1. 读取数据，获取特征值：data = pd.read_excel(r'tietan.xls')print(data)#2. pclass, age, sexfeature = data.loc[:, ['pclass','age','sex']]print(feature.info())#3. 填充空值： AGE: 找不到准确值：feature.fillna({'age':feature['age'].mea

2021-03-15 16:01:23 257

原创词频统计

import matplotlib.pyplot as pltfrom wordcloud import WordCloud# 一、读文件# 1、读二值化图片：back_image = plt.imread(r'111.jpg')# 2、读取文本信息：with open('庆余年TXT全本电子书.txt', 'r', encoding='utf-8') as fp: f = fp.read()# 3、词云绘制：word_cloud=WordCloud( background

2021-03-15 15:57:27 174

原创回归算法经典案例波士顿房价预测

回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种，其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测，针对的是数值型的样本，使用回归，可以在给定输入的时候预测出一个数值，这是对分类方法的提升，因为这样可以预测连续型数据而不仅仅是离散的类别标签。回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析

2021-03-11 21:32:06 6628

原创 Python操作MySQL

一用户管理用户在数据库操作系统中，是一个设计到数据安全的非常重要的数据库对象，在MySQL系统的数据库中root用户作为超级管理员用户，通常情况下不会给普通用户使用，所以掌握数据库管理系统中的用户管理和维护，是非常重要且必须的技能，对于用户的操作。（一）连接数据库在命令行执行命令 mysql --help 查看操作命令和帮助，会出现大量的操作选项，其中较为常用的选项如下：● -h：host 连接数据库的主机名称，通常我们使用 ip 地址进行确定● -P：Port 端口号，大写字符 P 指定连接

2021-03-04 15:07:17 745 1

原创 MySQL进阶2

一视图1 问题对于复杂的查询，往往是有多个数据表进行关联查询而得到，如果数据库因为需求等原因发生了改变，为了保证查询出来的数据与之前相同，则需要在多个地方进行修改，维护起来非常麻烦解决办法：定义视图2 视图是什么通俗的讲，视图就是一条SELECT语句执行后返回的结果集。所以我们在创建视图的时候，主要的工作就落在创建这条SQL查询语句上。视图是对若干张基本表的引用，是一张虚拟表，查询语句执行的结果，不存储具体的数据（基本表数据发生了改变，视图也会跟着改变）；作用：方便操作，特别是查询操作，减少

2021-03-04 14:36:44 358 1

原创 MySQL进阶

一多表查询多表查询操作，是在项目开发时使用较多的查询操作，这里以两张表的操作方式示例，更多表的操作再次基础上拓展即可。（一）多表关系1 一对一案例：人和身份证号奥运会比赛中，国家队与国家一个国家只允许有一只国家队，一个国家队也只代表一个国家用户和个人资料方式1：通过修改表结构添加外键修改表结构： ALTER TABLE 当前表名 ADD CONSTRAINT FOREIGN KEY(当前表的主键) REFERENCES 被关联表名(其他表主键);方式1：通过修改表结构添加外键--

2021-03-03 22:27:23 538 1

原创朴素贝叶斯算法书评预测

import jiebaimport pandas as pd# 1.读文件：#data = pd.read_csv(r'C:\Users\ibm\Downloads\data.csv', engine='python')# print(data.info())# 2. 停用词：with open(r'C:\Users\ibm\Downloads\stopwords.txt', 'r', encoding='utf-8')as fp: stop_words = fp.readlin

2021-01-20 16:41:06 264

原创 Kmeans算法航空数据分析

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata = pd.read_csv(r'air_data.csv', encoding='ansi', sep=',', engine='python')print(data.info())#一、数据清洗：# 1. 将票价为空值删掉：mask1 = data['SUM_YR_1'].isnull()mask2 = data['SUM_YR_2'].i

2021-01-19 19:21:03 1408

原创 TGI指数分析

import pandas as pdimport numpy as npdata = pd.read_excel(r'C:\Users\ibm\Downloads\TGI指数案例数据.xlsx')print(data.shape)#2. 获取交易成功的数据量：mask = data['订单状态']=='交易成功'successful_deal_df = data.loc[mask, :]"""1. 计算用户平均支付金额：2. 基于用户支付金额，判断用户是属于低客单还是高客单:

2021-01-19 19:18:03 1591

原创手写 KMeans算法并绘制动图

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport imageiodef Kmeans(center): #【【】，【】，【】】 #3. 第一聚类： for i in range(3): #计算每个点与三个类中心的距离： distance = np.sqrt(((x_train - center[i, :])**2).sum(axis=1))

2021-01-19 19:16:01 1409

原创 knn算法，最优k值求解

需求测试knn算法精度，并选出精度最高的k值文件如下：在test、和train文件夹里分别有如下文件，文件名_左侧是每个txt文件里1组成的数字，每个txt文件都是32行、32列共计1024个字符用train里面的文件进行训练，用test里面的文件进行测试读取文件中的字符，并保存至excelimport osimport numpy as npimport pandas as pdimport timedef transform_data(file_path): #1. 获取

2021-01-14 17:00:22 4437 1

原创使用echarts绘图

import pandas as pdimport numpy as npfrom pyecharts import options as optsfrom pyecharts.charts import Barfrom pyecharts.charts import Piefrom pyecharts.charts import Geofrom pyecharts.globals import GeoTypefrom pyecharts.charts import Mapfrom pye

2021-01-11 19:56:06 438 1

原创 pandas 数据清洗

一、检测与处理缺失值的操作import numpy as npimport pandas as pddata=pd.read_excel(r'D:\study\teacher\第4阶段\day11 pandas\人事终表.xlsx').tail(10)print(data) Unnamed: 0 部门姓名应发数发放时间绩效合计工资108 108 讲解员（6人）张凤楚 3200.0 2020-07工资

2021-01-11 19:47:53 451

原创 pandas分组聚合、表格操作

一、聚合函数（1）通过numpy或者pandas中统计分析方法；（2）agg([np.sum,np.mean])或agg({‘columns’:np.sum,np.mean],‘columns2’:np.sum,np.mean]})（3）transform：转换只有一个参数functransform聚合方法：在pandas或者numpy中没有现成的函数可以使用，可以通过transform使用自定义的函数data=pd.read_excel(r'meal_order_detail.xlsx')

2021-01-04 20:51:50 1906 14

原创 pandas时间处理、分组聚合

import pandas as pdimport numpy as npdata=pd.read_excel(r'meal_order_detail.xlsx')print(data.shape)(2779, 19)print(data.columns)Index(['detail_id', 'order_id', 'dishes_id', 'logicprn_name', 'parent_class_name', 'dishes_name', 'itemis_add',

2021-01-04 20:50:44 6899 2

原创 pandas订单分析

1、哪些类别的商品比较畅销2、哪些商品比较畅销3、求不同门店的销售额占比4、哪段时间段是超市的客流高峰期？【选做】import pandas as pdimport numpy as npdata=pd.read_csv(r'order-14.3.csv',sep=',',encoding='gbk')# 查看数据信息data.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 3478 entries, 0 to

2020-12-31 14:46:22 1058

原创 pandas操作

pandas1、表格数据的操作：【增删改查】2、实现多个表格的处理3、数据清洗操作：异常值、缺失值、重复值、数据标准化、数据转化的操作4、实现excel的特殊操作：生成透视表、交叉表5、完成统计分析import pandas as pdimport numpy as np一、构建dataframedataframe一定是二维的df=pd.DataFrame(data=[['ss',20,'男','0831'],['lx',18,'女','0830'],['lx',22,'女','083

2020-12-29 20:32:24 1305 14

原创 matplotlib绘图

一、绘图步骤import numpy as npimport matplotlib.pyplot as plt# 一、画布参数：# 1 修改字体plt.rcParams['font.sans-serif']='SimHei'# 2 修改符号显示：plt.rcParams['axes.unicode_minus']=False# 3 修改内部背景颜色(轴内颜色)：plt.rcParams['axes.facecolor']='#0D404D'# 4 更改轴的颜色plt.rcParams

2020-12-28 21:41:19 391 1

原创 python 数据分析 numpy 矩阵与数组基本运算

一、 numpy矩阵numpy:计算模块；主要有两种数据类型：数组、矩阵特点：运算块[]+[]import numpy as np1、numpy创建矩阵mat1=np.mat('1 2 3;2 3 4;1 2 3')mat1matrix([[1, 2, 3], [2, 3, 4], [1, 2, 3]])type(mat1)numpy.matrixmat2=np.mat('0 2;22 48;30 12')mat2matrix([[ 0,

2020-12-22 21:52:24 909

原创爬虫腾讯招聘-多线程

# 生产者消费者模式# 队列import threading,requestsfrom queue import Queueimport pymongo# 创建生产者类，作用：访问页面，获取数据class Productor(threading.Thread): # 定义初始化函数 def __init__(self,page_queue,data_queue): # 处理父类init threading.Thread.__init__(self

2020-12-18 19:53:41 183 1

原创爬虫破解滑块验证码春秋航空

from selenium import webdriver# 导入配置from selenium.webdriver.chrome.options import Optionsimport timefrom PIL import Image# 导入动作链from selenium.webdriver.common.action_chains import ActionChains# 定义计算移动距离的函数def get_difference(image1,image2): """

2020-12-17 15:19:00 550 1

原创爬虫破解滑块验证码豆瓣登录

# 需求：破解滑块验证码，完成登录from selenium import webdriverimport time# 导入动作链from selenium.webdriver.common.action_chains import ActionChains# 2. 调用浏览器driver = webdriver.Chrome(executable_path=r'D:\chrome\chromedriver.exe')# 最大化窗口driver.maximize_window()#

2020-12-16 21:43:57 1960 1

原创你想要的都在这里王者荣耀皮肤爬取

# 王者荣耀皮肤抓取# URL：https://pvp.qq.com/web201605/herolist.shtml# 需求：获取所有英雄的所有皮肤并下载到本地# 思路：# 1. 请求英雄列表页URL ---> 获取每一个英雄的URL# 2. 请求每个英雄的URL ---> 获取对应英雄的皮肤URL# 3. 请求每个英雄的皮肤URL ---> 保存import requestsfrom lxml import etree# 发起请求，接收响应# respons

2020-12-16 16:15:12 710

原创爬虫 scrapy框架简介

创建scrapy项目：scrapy startproject xxx创建爬虫文件：scrapy genspider 爬虫名爬虫名.com运行scrapy项目：scrapy crawl 爬虫名在创建完爬虫项目后，首先第一步，到settings.py中将ROBOTSTXT_OBEY = True改为Falsescrapy engine（引擎）：控制四大组件，负责四大组件之间的通讯、数据传递工作。scheduler（调度器）：负责接收引擎传递的url，按照一定的方式进行排列队列，当引擎需要时.

2020-12-09 20:59:27 242

原创爬虫 scrapy框架爬取360图片

创建项目三步scrapy startproject image360cd image360scrapy genspider image首先还是先把服从机器人协议改成Falsesettings.py# Obey robots.txt rulesROBOTSTXT_OBEY = False定义图片路由和名字items.pyimport scrapyclass Image360Item(scrapy.Item): # define the fields for your item

2020-12-09 20:39:11 666 1

原创爬虫scrapy框架爬取一药网

cmd 命令创建项目scrapy startproject yiyaowangcd yiyaowangscrapy genspider yaowang yaowang.com先进入settings.py文件将服从爬虫协议改成False，因为有些网站不盖爬取不了，因此都改了# Obey robots.txt rulesROBOTSTXT_OBEY = Falseitems.py# -*- coding: utf-8 -*-# Define here the models for you

2020-12-07 21:07:28 4423 11

原创爬虫scrapy框架 settings文件介绍

# -*- coding: utf-8 -*-# Scrapy settings for baidu project# For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:## https://doc.scrapy.org/en/latest/topi

2020-12-07 19:28:34 3356 8

原创 python连接MongoDB数据库

安装pymongopip install pymongo# 1. 导入pymongoimport pymongo# 2. 创建连接client = pymongo.MongoClient(host='127.0.0.1',port=27017)# 3. 方法# 3.1 查询所有数据库# database_names()# print(client.database_names())# print(client.list_database_names())# 3.2 查询所有集合

2020-12-02 20:38:28 2572 1

原创 python基础知识分支和循环

一顺序结构按照代码的顺序，从上到下依次执行。二选择（分支）结构适用场景：涉及选择问题时候就需要使用分支结构。1 单分支语句格式：if 条件: 条件成立时执行的代码（一行或多行）# 需求：是否吃过晚饭，吃过进班学习 # 需求：顾客购买桃子过程# 1询问桃价格， 2 确定购买重量 3 判定客户是否能购买成功2 双分支语句# 格式if 条件: 条件满足执行的代码 else: 条件不满足执行的代码 # 需求：是否吃过晚饭，吃过

2020-12-02 15:02:26 3172

原创 python的数据类型简单介绍

一、数据类型1 引入类型是什么？print("hello") # hello print(100) # 100# 描述买水果：买了2斤苹果，5.5斤桃fruit_name = "苹果"weight = 22 类型分类基本数据类型字符串（str）：表达一种名词，使用引号包围的对象fruit = '苹果'name = "zs"hobby = """睡觉"""a = "lisi' # 错误数值类型整型(int):数学中的整数。浮点型(float):数学

2020-12-02 15:02:03 228

原创 Flask OA项目的功能开发

Flask OA项目的功能开发首页全局的用户身份中间件添加全局模板变量# 添加全局变量@app.app_template_global("base") #如果是蓝图就需要加appdef getBase(): result = { "name": "未登录", "user_id": 0 } user_id = request.cookies.get("user_id") #登录之后cookie携带的用户id if user_i

2020-12-02 15:01:50 642

原创 Flask WTF

Flask WTF在以为的开发过程当中，我们可以实现数据的上传，获取，但是在数据提交的过程当中，没有进行任何的数据校验，并且对提交者身份，位置都没有校验，这样的表单存在很大的风险。WTF提交校验web校验分为两种：前端校验: 在页面上，使用js对提交的数据进行校验，由于可以通过浏览器的调试模式可以修改前端代码，而且可以不通过表单提交数据，所以有缺陷。 onsubmit = “return fun()” 后端校验:在数据提交到服务器，进行处理之前，进行逻辑校验，这样的校验也会加重服务器的压

2020-12-02 15:01:37 1954

空空如也

空空如也