- 博客(12)
- 收藏
- 关注
原创 初识开窗函数
.开窗函数 1.聚合函数 : 多行数据 按照一定规则 进行聚合 为一行 sum avg max 。。。 理论上: 聚合后的行数 <= 聚合前的行数 [看维度选取 groupby 里面的字段] 2.需求: 既要显示 聚合前的数据 又要显示 聚合后的数据 ? eg: id name sal dt sal_all 1 zs 1000 2022-4 1000 2 ls 2000 2022-4 2000 3 ww 3000 2022-4 3000 1
2022-04-18 17:45:48 146
原创 初识shell
1.什么是shell ? 脚本语言 python 1.一个编程的语言 2.可以执行的文件 3.文件内容 linux命令组成的 1.shell语法入门 1.入门 1.文件 xxx.sh 结尾 2.第一行 #!/bin/bash 1.编写脚本 vim wc.sh 2.得有执行权限【不一定】 1.不给文件权限 sh xxx.sh [root@sygy10 shell]# sh ./wc.sh word count [root@sygy10 shell]# cat wc.sh #!
2022-04-18 17:36:44 78
原创 linux基本指令
基本命令: 1.mv + cp 1.mv 剪切 2.cp 复制 mv =》 文件个数 始终是1分 cp =》 文件个数 始终是2分 1.移动 [root@sygy10 bigdata]# mv 1.log ../1.log [root@sygy10 bigdata]# cp ~/1.log ./ 2.改名字 [root@sygy10 ~]# mv 1.log 1.log_blk [root@sygy10 ~]# cp 1.log_blk 1.log 标准写法: mv xx.log
2022-04-18 17:30:15 143
原创 初识matplotlib
标题matplotlib: 1.绘图 2.图表:属性 线条:颜色、样式、数据点 图表额外:轴标签(x,y)、图例、标题 3.有哪些图表: 折线图、柱状图、散点图、饼状图。。。 4 matpoltlib 编程模型: 1.Figure 画布 2.Axes 图表 部分代码展示 花sin图像 x = np.linspace(0, 2 * np.pi, 200) y = np.sin(x) fig, ax = plt.subplots() ax.plot(x, y)
2022-04-10 00:24:49 82
原创 初识pandas
pandas 1.Series 1.Series is a one-dimensional labeled array 【Series 就是一个 一维 标签数组】 2.capable of holding any data type 【integers, strings, floating point numbers, Python objects, etc.).】 【存各种数据类型】 3.The axis labels are collectively referred to as the index
2022-04-10 00:10:43 66
原创 numpy
numpy 1.创建一维数组: 1.数据类型转化 2.内置函数 np1_arr = np.array([1,2,3,4,5]) # np arr 数据类型 转换 print(np1_arr.dtype) print(np1_arr.itemsize) #调整元素的数据类型 np1_arr1 = np.array([1, 2, 3, 4, 5],dtype=np.int64) print(np1_arr1.dtype) print(np1_arr1
2022-04-09 23:46:59 535
原创 初识机器学习
机器学习: 1.概念 Simple and efficient tools for predictive data analysis 【预测数据分析结果】 用机器代替人做决策 数据集 =》 训练 =》 模型 2.Built on NumPy, SciPy, and matplotlib、pandas 2.机器学习里面的常用术语 : 1.数据集准备 色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的 色泽= 黑色 、根=弯曲 、 敲声 = 沉闷 =》 生的 色泽= 红色 、根=弯
2022-04-09 23:30:34 60
原创 初识scrap框架
1.爬虫的框架: scrap : An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way. 1.开源的爬虫框架 2.快速、简单、高效的方式 2.基本使用 1.创建一个项目 scrapy startproject test_scrapy 1.项目目录: 1.scrapy.cfg 【项目的配置文件
2022-04-02 11:28:16 690
原创 xpath爬虫二手房案例代码
import requests from lxml import etree if name == ‘main’: # ua 伪装 =》 模拟浏览器上网 headers = { “User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36’ } url = "https://dl.58.com/ershoufa
2022-04-02 11:23:13 1787
原创 初识python爬虫及bs4
题目: python爬虫 学习内容: ` 爬虫: 1.百度百科 2.自己理解: 通过代码、模拟浏览器上网 然后抓取数据的过程 数据解析 2.爬虫是否合法? 1.法律允许 2.有法律风险的 3.统一规定? 【法律界限】 robots.txt协议 4.爬虫的分类: 1.获取一整张页面 【通用爬虫】 2.获取一整张页面 部分数据 【聚焦爬虫】 3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】 5.爬虫的规则: 1.反爬策略: 门户网站 通过 技术手段 防止爬虫程序对页面爬取数据 2.反 反爬策略 爬虫程
2022-04-01 08:30:09 128
原创 python基本语法(2)
学习目标:python基本语法(2) 学习内容: 1.函数: 函数 =》方法 【区别不大】 scala 【有区别】 1.内置函数 【 常用类的api】 1.数学相关的 【math 包下的】 2.自定义函数 3.匿名函数【没有名字的函数】 1.内置函数 【 常用类的api】 print(abs(-10)) #绝对值 print(max(1, 2, 3, 4, 5)) print(min(1, 2, 3, 4)) print(sum([1, 2, 3])) import math print(math.
2022-03-30 15:42:33 51
原创 python基础语法(1)
学习目标:python基础语法(1) 学习内容: Python: 1.概述: 1.语言 2.开发起来简洁 =》 java 2.使用场景: 1.数据分析 =》 numpy 、pandas 2.web 开发 =》 用的不多 、 百度 3.游戏开发 =》 用的不多 4.AI (机器学习、深度学习) 5.爬虫 1.部署安装: 1.安装: 1.python 原生的安装包 www.python.org 2.anaconda 安装 =》 1.python 有的 2.有一些丰富的第三方库 ana
2022-03-30 15:40:20 278
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人