自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 初识开窗函数

.开窗函数 1.聚合函数 : 多行数据 按照一定规则 进行聚合 为一行 sum avg max 。。。 理论上: 聚合后的行数 <= 聚合前的行数 [看维度选取 groupby 里面的字段] 2.需求: 既要显示 聚合前的数据 又要显示 聚合后的数据 ? eg: id name sal dt sal_all 1 zs 1000 2022-4 1000 2 ls 2000 2022-4 2000 3 ww 3000 2022-4 3000 1

2022-04-18 17:45:48 146

原创 初识shell

1.什么是shell ? 脚本语言 python 1.一个编程的语言 2.可以执行的文件 3.文件内容 linux命令组成的 1.shell语法入门 1.入门 1.文件 xxx.sh 结尾 2.第一行 #!/bin/bash 1.编写脚本 vim wc.sh 2.得有执行权限【不一定】 1.不给文件权限 sh xxx.sh [root@sygy10 shell]# sh ./wc.sh word count [root@sygy10 shell]# cat wc.sh #!

2022-04-18 17:36:44 78

原创 linux基本指令

基本命令: 1.mv + cp 1.mv 剪切 2.cp 复制 mv =》 文件个数 始终是1分 cp =》 文件个数 始终是2分 1.移动 [root@sygy10 bigdata]# mv 1.log ../1.log [root@sygy10 bigdata]# cp ~/1.log ./ 2.改名字 [root@sygy10 ~]# mv 1.log 1.log_blk [root@sygy10 ~]# cp 1.log_blk 1.log 标准写法: mv xx.log

2022-04-18 17:30:15 143

原创 初识matplotlib

标题matplotlib: 1.绘图 2.图表:属性 线条:颜色、样式、数据点 图表额外:轴标签(x,y)、图例、标题 3.有哪些图表: 折线图、柱状图、散点图、饼状图。。。 4 matpoltlib 编程模型: 1.Figure 画布 2.Axes 图表 部分代码展示 花sin图像 x = np.linspace(0, 2 * np.pi, 200) y = np.sin(x) fig, ax = plt.subplots() ax.plot(x, y)

2022-04-10 00:24:49 82

原创 初识pandas

pandas 1.Series 1.Series is a one-dimensional labeled array 【Series 就是一个 一维 标签数组】 2.capable of holding any data type 【integers, strings, floating point numbers, Python objects, etc.).】 【存各种数据类型】 3.The axis labels are collectively referred to as the index

2022-04-10 00:10:43 66

原创 numpy

numpy 1.创建一维数组: 1.数据类型转化 2.内置函数 np1_arr = np.array([1,2,3,4,5]) # np arr 数据类型 转换 print(np1_arr.dtype) print(np1_arr.itemsize) #调整元素的数据类型 np1_arr1 = np.array([1, 2, 3, 4, 5],dtype=np.int64) print(np1_arr1.dtype) print(np1_arr1

2022-04-09 23:46:59 535

原创 初识机器学习

机器学习: 1.概念 Simple and efficient tools for predictive data analysis 【预测数据分析结果】 用机器代替人做决策 数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas 2.机器学习里面的常用术语 : 1.数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽= 黑色 、根=弯曲 、 敲声 = 沉闷 =》 生的 色泽= 红色 、根=弯

2022-04-09 23:30:34 60

原创 初识scrap框架

1.爬虫的框架: scrap : An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way. 1.开源的爬虫框架 2.快速、简单、高效的方式 2.基本使用 1.创建一个项目 scrapy startproject test_scrapy 1.项目目录: 1.scrapy.cfg 【项目的配置文件

2022-04-02 11:28:16 690

原创 xpath爬虫二手房案例代码

import requests from lxml import etree if name == ‘main’: # ua 伪装 =》 模拟浏览器上网 headers = { “User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36’ } url = "https://dl.58.com/ershoufa

2022-04-02 11:23:13 1787

原创 初识python爬虫及bs4

题目: python爬虫 学习内容: ` 爬虫: 1.百度百科 2.自己理解: 通过代码、模拟浏览器上网 然后抓取数据的过程 数据解析 2.爬虫是否合法? 1.法律允许 2.有法律风险的 3.统一规定? 【法律界限】 robots.txt协议 4.爬虫的分类: 1.获取一整张页面 【通用爬虫】 2.获取一整张页面 部分数据 【聚焦爬虫】 3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】 5.爬虫的规则: 1.反爬策略: 门户网站 通过 技术手段 防止爬虫程序对页面爬取数据 2.反 反爬策略 爬虫程

2022-04-01 08:30:09 128

原创 python基本语法(2)

学习目标:python基本语法(2) 学习内容: 1.函数: 函数 =》方法 【区别不大】 scala 【有区别】 1.内置函数 【 常用类的api】 1.数学相关的 【math 包下的】 2.自定义函数 3.匿名函数【没有名字的函数】 1.内置函数 【 常用类的api】 print(abs(-10)) #绝对值 print(max(1, 2, 3, 4, 5)) print(min(1, 2, 3, 4)) print(sum([1, 2, 3])) import math print(math.

2022-03-30 15:42:33 51

原创 python基础语法(1)

学习目标:python基础语法(1) 学习内容: Python: 1.概述: 1.语言 2.开发起来简洁 =》 java 2.使用场景: 1.数据分析 =》 numpy 、pandas 2.web 开发 =》 用的不多 、 百度 3.游戏开发 =》 用的不多 4.AI (机器学习、深度学习) 5.爬虫 1.部署安装: 1.安装: 1.python 原生的安装包 www.python.org 2.anaconda 安装 =》 1.python 有的 2.有一些丰富的第三方库 ana

2022-03-30 15:40:20 278

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除