- 博客(75)
- 收藏
- 关注
原创 大数据技术之shell
1.脚本格式脚本以#!/bin/bash开头(指定解析器)2.第一个Shell脚本:helloworld(2022/5/30 17:50-18:30)需求:创建一个Shell脚本,输出helloworld创建一个datas文件夹,用来存放后续的脚本创建一个helloworld脚本输入脚本内容(i:进行编辑;esc:取消编辑;wq:退出)脚本常用执行方式采用bash或sh+脚本的相对路径或绝对路径(不用赋予脚本+x权限)采用输入脚本的绝对路径或相对路径执行脚本(必须具有可执行权限+x)注意:第一种执行方法,本
2022-06-14 14:33:26 368 1
原创 大数据Hadoop3.X 第一、二章
大数据全套视频教程B站直达免费在线看:https://space.bilibili.com/302417610/channel/seriesdetail?sid=457614免费视频及资料下载地址:https://pan.baidu.com/s/18Feqa_63640xPB0fYJ8Ttg,提取码:9bnr学习路线及下载导航:http://www.atguigu.com/bigdata_video.shtml#bigdata第1章 大数据概论1.1 大数据概念大数据(BigData) :指.
2022-03-20 01:10:41 380 1
原创 Excel Vba范例
第1部分 单元格选择技巧与选区统计第1章 单元格与区域选择技巧实例1选择A列最后一个非空单元格Sub 选择A列最后一个非空单元格() Range("a1048576").End(xlUp).SelectEnd Sub讲解(1)Range():返回一个Range对象,它代表一个单元格或单元格区域。区域的大小由其参数决定。(2)Range(“a1048576”):Excel 2003升级至2007后,可用行数从65536行提升至1048576行,所以表示A列最大行数时使用Range(
2022-02-16 14:03:49 8858 1
原创 给产品经理讲技术
1Web前端技术AJAX技术的妙用AJAX是一项用于异步拉取数据并展示在当前页面的技术1、不用刷新网页2、本地网页从后台调取数据3、缓解用户等待的焦虑感网页没有刷新是指一个空网页渲染到屏幕上,单击网页中的一个链接后,又打开了一个新的网页。其实,这种只让部分页面刷新的技术叫作AJAX(汉语读音为“阿贾克斯”或“额寨克思”),它是“Asynchronous JavaScript And XML”的首字母缩写,翻译为“异步JavaScript和XML”。JavaScri
2021-12-31 10:22:23 2247 1
原创 利用python进行数据分析(5)
第十三章Python建模库介绍13.1 pandas与建模代码的结合特征工程是指从原生数据集中提取可用于模型上下文的有效信息的数据转换过程或分析。#pandas和其他分析库的结合点通常是NumPy数组。#要将DataFrame转换为NumPy数组,使用.values属性import pandas as pdimport numpy as npdata = pd.DataFrame({'x0':[1,2,3,4,5], 'x1':[0.01,-0.0
2021-12-30 11:39:20 7577 1
原创 利用python进行数据分析(4)
第十章数据聚合与分组操作使用一个或多个键(以函数、数组或DataFrame列名的形式)将pandas对象拆分为多块计算组汇总统计信息,如计数、平均值或标准偏差或用户定义的函数应用组内变换或其他操作,如标准化、线性回归、排位或子集选择计算数据透视表和交叉表执行分位数分析和其他统计组分析10.1 GroupBy机制import numpy as npimport pandas as pddf = pd.DataFrame({'data1':np.random.randn(5),
2021-12-29 14:11:45 1453 1
原创 利用python进行数据分析(绘图与可视化3)
第九章绘图与可视化%matplotlib notebook9.1 简明matplotlib API入门使用Jupyter notebook时有个细节需要注意,在每个单元格运行后,图表被重置,因此对于更复杂的图表,你必须将所有的绘图命令放在单个的notebook单元格中import matplotlib.pyplot as pltimport numpy as npdata = np.arange(10)dataarray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
2021-12-29 14:08:18 1742
原创 利用python进行数据分析(2)
第七章数据清洗与准备7.1 处理缺失值pandas对象的所有描述性统计信息默认情况下是排除缺失值的。对于数值型数据,pandas使用浮点值NaN(Not a Number来表示缺失值)。在pandas中,我们采用了R语言中的编程惯例,将缺失值成为NA,意思是not available(不可用)string_data = pd.Series(['aardvark','artichoke',np.nan,'avocado'])string_data0 aardvark1 ar
2021-12-29 13:45:28 1037
原创 利用python进行数据分析(1)
第一章 准备工作本书内容什么类型的数据表格型的数据多维数组(矩阵)由键位列关联的多张表数据(对于SQL用户来说就是主键或外键)均匀或非均匀的时间序列。为何利用Python进行数据分析Python作为胶水Python在科学计算方面的成功部分是因为它很容易整合C、C++和FORTRAN等语言的代码。大部分现代计算环境都拥有相似的存量程序集,这些程序集使用FORTRAN和C的库进行线性代数、调优、积分、快速傅里叶变换等算法运算解决“双语言”难题为何不使用Python重要的Pytho
2021-12-29 12:28:01 3795
原创 正则表达式常用匹配
最近工作中有时候会用到正则表达式,有点运营的小伙伴也有这个需求此文章将记录一下工作中常用的正则表达式,方便后续回顾目前主要使用python以及excel来解决正则表达式的问题提取字符串中的纯数字(\d+)需求:主要解决是将字符串中的数字提取出来,当然也可以设置提取数字的个数a = '{"imgUrl":"https:\\/\\/img.fril.jp\\/img\\/269431979\\/l\\/762132424.jpg?1571653222"}'import rere.find.
2021-11-30 17:38:19 192
原创 【每日SQL打卡】
【每日SQL打卡】DAY1|部门工资最高的员工【难度中等】Employee 表包含所有员工信息,每个员工有其对应的 Id, salary 和 department Id。±—±------±-------±-------------+| Id | Name | Salary | DepartmentId |±—±------±-------±-------------+| 1 | Joe | 70000 | 1 || 2 | Henry | 80000 |
2021-11-22 12:32:10 6864
原创 python发送邮件
前提:最近工作上需要每个月去跑十几张报表的数据,然后发送给对应的人然后我的领导说可以用python实现这个过程,表格直接发邮件就行,最近正好在学习python,这不是一个很好的学习机会虽然不会写长长的代码,但是我牛逼的同事写好的整个代码,我就根据他写的代码进行学习以及总结如果有需要的话,可以一起来学习啰~单纯发送QQ邮件工作大概率不会使用QQ邮箱,这里就先以QQ邮箱为例import smtplibfrom email.mime.text import MIMETextfrom em.
2021-11-19 18:43:43 1034
原创 从零开始学Python之matplotlib
从零开始学Python【1】–matplotlib(条形图)在本期内容中,我们先从条形图开始,条形图实际上是用来表示分组(或离散)变量的可视化,可以使用matplotlib模块中的bar(barh)函数完成条形图的绘制。一、简单垂直条形图(plt.bar)案例一:直辖市GDP水平中国的四个直辖市分别为北京市、上海市、天津市和重庆市,其2017年上半年的GDP分别为12406.8亿、13908.57亿、9386.87亿、9143.64亿。对于这样一组数据,我们该如何使用条形图来展示各自的GDP水
2021-11-16 15:20:52 2987
原创 pandas学习汇总(关于怎样处理数据与分析)
不知道有没有小伙伴跟我一样,之前也断断续续学习过python相关的知识,可是迟迟就是入不了门,开始是出现了问题,不知道怎么解决问题,动不动就是入门到放弃;后续是认认真真看视频,认认真真“复制”代码,可是还是没学懂,后续发现学习都还是一点一滴的来的,最开始就要从最最最简单的东西开始,从自己熟悉的东西入手,而不是看一些复杂的代码,从懂一行代码开始,再到后续慢慢学会看复杂的代码下面的内容基于《对比excel,轻松学习python数据分析》这本书以及《这十套练习,教你如何用Pandas做数据分析》这个练习做.
2021-11-11 12:13:17 1880 1
原创 我的第一本算法书之第五章安全算法
5-1 安全和算法互联网中不可或缺的安全技术通过互联网交换数据时,数据要经过各种各样的网络和设备才能传到对方那里。数据在传输过程中有可能会经过某些恶意用户的设备,从而导致内容被盗取。传输数据时的四个问题窃听假冒篡改事后否认解决这些问题的安全技术为了应对第一个问题“窃听”,我们会使用 “加密”技术为了应对第二个问题“假冒”,我们会使用“消息认证码”(下图左)或“数字签名”(下图右)技术。为了应对第三个问题“篡改”,我们同样会使用“消息认证码”或“数字签名”技术。其中“数字
2021-11-09 15:37:22 2126
原创 学习笔记之第十四章 典型数据分析案例(十四)
第14章 典型数据分析案例14.1 利用Python实现报表自动化14.1.1 为什么要进行报表自动化提高工作效率减少错误14.1.2 什么样的报表适合自动化使用频率:对于日报、周报、月报等常规的、使用频率较高的报表,有必要进行自动化,而偶尔使用的一些报表就没有必要进行自动化了开发时间:对报表进行自动化需要写相应的脚本去实现,有的自动化实现起来比较难,写脚本耗费的时间也可能比较长,这个时候就要衡量一下开发脚本所耗费的时间和人工做表所耗费的时间哪个短了。需求变更频率:需求变更频率就是指报
2021-11-01 14:35:28 4138 1
原创 学习笔记之第十三章 数据可视化(十三)
第13章 数据可视化13.1 数据可视化是什么13.2 数据可视化的基本流程13.2.1 整理数据数据可视化的基础还是数据,你要将数据图表化,首先要整理数据,明确要把哪些数据图表化。13.2.2 明确目的13.2.3 寻找合适的表现形式13.3 图表的基本组成元素画布:画布就是字面意思,你首先需要找到一块“布”,即绘图界面,然后在这块“布”上绘制图表。坐标系:画布是图表的最大概念,在一块画布上可以建立多个坐标系,坐标系又可以分为直角坐标系、球坐标系和极坐标系三种,其中直角坐标系最常用
2021-11-01 13:47:31 197
原创 学习笔记之第十二章 结果导出(十二)
第12章 结果导出12.1 导出为.xlsx文件在Python中将文件导出为.xlsx格式,用到的是df.to_excel()方法,接下来的几个小节具体讲解to_excel()方法。12.1.1 设置文件导出路径设置文件导出路径就是告诉Python要将这个文件导出到电脑的哪个文件夹里,且导出以后这个文件叫什么。通过调整参数excel_writer的值即可实现。df.to_excel(excel_writer = r"D:\PythonFlie\测试文档excel.xlsx")需要注意
2021-11-01 12:37:30 484
原创 学习笔记之第十一章 多表拼接(十一)
第11章 多表拼接11.1 表的横向拼接表的横向拼接就是在横向将两个表依据公共列拼接在一起。在Excel中实现横向拼接利用的是vlookup()函数,关于vlookup()函数这里就不展开了,相信大家应该都很熟悉。在 Python 中实现横向拼接利用的 merge()方法,接下来的几节主要围绕 merge()方法展开。11.1.1 连接表的类型连接表的类型关注的就是待连接的两个表都是什么类型,主要有3种情况:一对一、多对一、多对多。一对一df1 = pd.read_excel(r"D
2021-11-01 11:58:19 206
原创 学习笔记之第十章 数据分组/数据透视表(十)
第10章 数据分组/数据透视表10.1 数据分组数据分组就是根据一个或多个键(可以是函数、数组或df列名)将数据分成若干组,然后对分组后的数据分别进行汇总计算,并将汇总计算后的结果进行合并,被用作汇总计算的函数称为聚合函数。在Python中对数据分组利用的是groupby()方法,这个有点类似于sql中的groupby,在接下来的几个小节里面,我们会重点介绍Python中的groupby()方法。10.1.1 分组键是列名分组键是列名时直接将某一列或多列的列名传给groupby()方法,gr
2021-11-01 10:59:34 278
原创 学习笔记之第九章 时间序列(九)
第9章 时间序列9.1 获取当前时刻的时间获取当前时刻的时间就是获取此时此刻与时间相关的数据,除了具体的年、月、日、时、分、秒,还会单独看年、月、周、日等指标。9.1.1 返回当前时刻的日期和时间返回当前时刻的日期和时间在Excel和Python中都借助函数now()实现在Excel中直接在单元格里输入now()函数即可,在Python中则使用如下代码from datetime import datetimedatetime.now()输出结果datetime.datetim
2021-10-29 18:14:56 173 1
原创 学习笔记之第八章 数据运算(八)
第8章 数据运算8.1 算术运算算术运算就是基本的加减乘除,在Excel或Python中数值类型的任意两列可以直接进行加、减、乘、除运算,而且是对应元素进行加、减、乘、除运算,Excel 中的算术运算比较简单,这里就不展开了,下面主要介绍Python中的算术运算。...
2021-10-29 15:55:28 134
原创 学习笔记之第七章 数值操作(七)
第七章 数值操作(七)7.1 数值替换数值替换就是将数值A替换成B,可以用在异常值替换处理、缺失值填充处理中。主要有一对一替换、多对一替换、多对多替换三种替换方法。7.1.1 一对一替换...
2021-10-28 18:38:04 410
原创 python与正则表达式基础知识
字符相关匹配文中的指定关键字返回一个列表, 可用于计算字符串中某个字符出现的次数import retext = "你好hannah,你好hannah,请接受hannah的信息"data_list = re.findall("hannah", text)print (data_list)输出结果['hannah', 'hannah', 'hannah']或匹配, 匹配某些字符, 使用[], 等价于 | , 但是使用 [] 可以匹配范围[0-9][a-z]使用[^aix]反向匹配
2021-10-28 15:26:43 466
原创 学习笔记之第六章 数据选择(六)
第六章 数据选择(六)常规的数据选择主要有列选择、行选择、行列同时选择三种方式。6.1 列选择6.1.1 选择某一列/某几列
2021-10-28 10:51:34 127
原创 学习笔记之第5章 数据预处理(五)
第5章 数据预处理常见的不规整数据主要有缺失数据、重复数据、异常数据几种,在开始正式的数据分析之前,我们需要先把这些不太规整的数据处理掉。5.1 缺失值处理缺失值就是由某些原因导致部分数据为空,对于为空的这部分数据我们一般有两种处理方式,一种是删除,即把含有缺失值的数据删除;另一种是填充,即把缺失的那部分数据用某个值代替。...
2021-10-27 18:08:40 214
原创 我的第一本算法书之第四章图的搜索
4-1 什么是图图的搜索指的就是从图的某一顶点开始,通过边到达不同的顶点,最终找到目标顶点的过程。根据搜索的顺序不同,图的搜索算法可分为“广度优先搜索”和“深度优先搜索”这两种。...
2021-10-26 18:58:17 115
原创 我的第一本算法书之第三章数组的查找
3-1 线性查找线性查找是一种在数组中查找数据的算法(关于数组的详细讲解在1-3节)。与将在3-2节中讲解的二分查找不同,即便数据没有按顺序存储,也可以应用线性查找。线性查找的操作很简单,只要在数组中从头开始依次往下查找即可。虽然存储的数据类型没有限制,但为了便于理解,这里我们假设存储的是整数。线性查找需要从头开始不断地按顺序检查数据,因此在数据量大且目标数据靠后,或者目标数据不存在时,比较的次数就会更多,也更为耗时。若数据量为n,线性查找的时间复杂度便为O(n)。3-2 二分查找
2021-10-26 18:53:56 88
原创 我的第一本算法书之第二章排序
2-1 什么是排序将数字按从小到大的顺序排列2-2 冒泡排序冒泡排序就是重复“从序列右边开始比较相邻两个数字的大小,再根据结果交换两个数字的位置”这一操作的算法。在这个过程中,数字会像泡泡一样,慢慢从右往左“浮”到序列的顶端,所以这个算法才被称为“冒泡排序”。在冒泡排序中,第1轮需要比较n-1次,第2轮需要比较n-2次……第n-1轮需要比较1次。因此,总的比较次数为(n-1)+(n-2)+…+1≈n2/2。这个比较次数恒定为该数值,和输入数据的排列顺序无关。不过,交换数字的次数和输入数据的排
2021-10-26 17:44:33 94
原创 我的第一本算法书之第一章数据结构
1-1 什么是数据结构决定了数据的顺序和位置关系数据存储于内存时,决定了数据顺序和位置关系的便是“数据结构”。电话簿的数据结构例① 从上往下顺序添加例② 按姓名的拼音顺序排列两种方法的优缺点总的来说,数据按获取顺序排列的话,虽然添加数据非常简单,只需要把数据加在最后就可以了,但是在查询时较为麻烦;以拼音顺序来排列的话,虽然在查询上较为简单,但是添加数据时又会比较麻烦。虽说这两种方法各有各的优缺点,但具体选择哪种还是要取决于这个电话簿的用法。如果电话簿做好之后就不再添加新号码,那么
2021-10-25 16:47:52 260
原创 学习笔记之第4章 获取数据源(四)
第4章 获取数据源4.1 导入外部数据导入数据主要用到的是Pandas里的read_x()方法,x表示待导入文件的格式。4.1.1 导入.xlsx文件4.1.2 导入.csv文件4.1.3 导入.txt文件4.1.4 导入sql文件
2021-10-25 16:08:26 149
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人