自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 爬虫四种统计图带码--------周东海

线型图import matplotlib.pyplot as mplimport numpy as np#定义数据ypoints=np.array([1,3,9,25,12,32,5,1])#数据插入到图表# mpl.plot(ypoints,'o:g')# mpl.plot(ypoints,marker='o',linestyle=':',color='g')mpl.plot(ypoints,marker='o',ls=':',c='r')mpl.plot(ypoints,mark

2022-05-08 19:43:02 118

原创 sql复习-------周东海

sql复习 3大数据类型 字符串 varchar char 日期 data time year 数值 int float double 增删查改 增:insert into user(name,gender) values ("zhangsan","nan") 删:delete from user w...

2022-05-08 19:30:49 749

原创 MapReduce-----周东海

Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。Map类import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.map

2022-05-08 19:06:22 673

原创 hadoop,mapper-------周东海

import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMap extends Mapper<LongWritable,Text, Te.

2022-05-01 19:45:23 85

原创 sql查询优化2.0------周东海

CREATE TABLE IF NOT EXISTS t(id INT,num INT DEFAULT 0,NAME VARCHAR(20));CREATE INDEX ix_num ON t(num);DELIMITER $CREATE PROCEDURE t()BEGIN#定义一个循环变量DECLARE i INT DEFAULT 0;DECLARE d INT DEFAULT 0;WHILE(i < 1000) DO BEGIN SELECT i; SET i =.

2022-05-01 19:37:56 305

原创 爬虫pandas,数据清洗-------周东海

import pandas as pdprint(pd.__version__)#定义字典mydataset = { 'sites' : ["Google","Runoob","WiKi"], 'number' : [1,2,3]}#将字典转换为dataframe,才能处理mydf=pd.DataFrame(mydataset)print(mydf)a = [1,2,3]mysr = pd.Series(a,name="aha")print(mysr)...

2022-05-01 19:36:44 1018

原创 idea操作hdfs-------周东海

1.先配置windows的环境变量2.创建工程3.导入lib配置包4.输入Java语句import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net

2022-04-24 20:59:07 2164

原创 numpy函数------周东海

import numpy as npa = np.dtype(np.int32)print(a)# 数据类型对象b = np.dtype(np.float32)# b = np.array([1, 2, 3])# b = np.dtype('i4')# 创建数组,指定数据类型c = np.array([1, 2, 3], dtype=b)print(c)# 定义数据类型dt = np.dtype([('age', np.int8)])# 用dt数据类型创建数组e = ...

2022-04-24 20:00:15 833

原创 SQL查询优化-------周东海

SQL查询的时候尽量避免查询是不进行计算2.避免丶情况 !=,<>, is null,is not null,in,not in;例如a语句SELECT COUNT(*) FROM emp WHERE age IN(SELECT age FROM emp WHERE id > 100);应该为b语句SELECT COUNT(*) FROM emp WHERE EXISTS(SELECT age FROM emp WHERE id > 100);使用in时不

2022-04-24 19:26:47 42

原创 Hadoop安装--------周东海

先开始就给防火墙关掉指令为:#查看防火墙状态 service iptables status #关闭防火墙 service iptables stop #关闭防火墙开机启动 chkconfig iptables off记得重启:reboot解压自己传的jdk指令为:tar -zxvf jdk压缩包还要更改配置文件vim /etc/profile #在文件最后添加 expor...

2022-04-10 18:50:29 65

原创 xpath ----周东海

XPath 是一门在 XML 文档中查找信息的语言。XPath 是 XSLT 中的主要元素。XQuery 和 XPointer 均构建于 XPath 表达式之上安装:在终端输入 pip install lxml基本使用:from lxml import etrees=""" <div> <ul> <li class="item-0"><a href="link1.html">f

2022-04-10 17:53:00 35

原创 范式---周东海

第一范式:每一列都要保持原子性,不能再次分割。此表不符合第一范式,不符合关系型数据库的基本要求,在关系型数据库中创建这个表的操作就不能成功。应改为:第二范式:属性必须完全依赖于主键,消除部分依赖。“第二范式(Second Normal Form,2nd NF)是指每个表必须有主关键字(Primary key),其他数据元素与主关键字一一对应。通常称这种关系为函数依赖(Functional dependence)关系,即表中其他数据元素都依赖于主关键字,或称该数据元素惟一地被主关键字所标识

2022-04-10 17:39:29 471

原创 Hadoop,权限认知,Linux自有指令,ssh服务

1.权限认知-rwxr--rw-.十个字段由左到右分别是:1(文件类型),2 - 4(文件所属者的权限),5 - 7(同组用户权限),8 - 10(其他人权限)r:可读 w:可写 x:可执行root root前面一个是文件所属,第二个是目前用户后面是时间和大小15:文件夹名字chmod 需要给谁的权限+什么权限 文件名chmod 777 文件名字chown : 更改文件所属用户#chown-R username文档路径2.Linux.

2022-04-03 15:18:44 2251

原创 Hbase数据库,视图,事务,存储过程,触发器------周东海

视图1.定义视图是指计算机数据库中的视图,是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。但是,视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表,并且在引用视图时动态生成。2.为什么用简单性。看到的就是需要的。视图不仅可以简化用户对数据的理解,也可以简化他们的操作。那些被经常使用的查询可以被定义为视图,从而使得用户不必为以后的操作每次指定全部的条件。安全性:通过视图用户只能查询和修改他...

2022-04-03 12:33:45 2690

原创 Python爬虫-----周东海

Scrapy安装与使用打开命令提示符下载安装Scrapy所必须的环境:优先下载python下载更新文件:python -m pip install --upgrade pip然后在下载这四个:pip install wheelpip install lxml pip install twisted...

2022-04-03 09:05:28 75

原创 Hadoop,shell脚本----周东海

1.shell是什么Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。2.shell脚本Shell 脚本(shell script),是一种为 shell 编写的脚本程序。业界所说的 shell 通常都是指 shell 脚本,但读者朋友要知道,shell 和 shell script 是两个不同的概念。由于习惯

2022-03-20 17:34:26 1652

原创 python爬虫案例-----周东海

开始前先确认自己需要爬取的网页和导包from urllib import requestimport re定义urlpage=100url='http://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page)from urllib import requestimport re#定义urlpage=100url='http://tieba.baidu.com/f?kw=%E6%AE%

2022-03-20 13:21:50 653

原创 MySQL索引----周东海

1.什么是索引?一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。2.为什么要有索引呢?索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高

2022-03-19 18:40:21 3228

原创 爬虫基础_周东海

爬虫:网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.爬虫基本程序 python3.7 print response.read()response 对象有一个 read 方法,可以返回获取到的网页内容。2.爬虫程序添加data、header,然后post请求...

2022-03-13 11:00:32 1376

原创 SQL基础语法_周东海

目录1.SQL建库建表语句1.建库:2.建表:2.SQL增删改查语法1.插入数据2.查找数据库3.删除表数据(delete)4.新增数据(insert)5.修改数据(update)3.SQL表关联查询1.内连连接查询2.左连接3.右连接4.全连接5.三表链接4.SQL子查询1.SQL建库建表语句1.建库:CRATE DATABASE IF NOT EXISTS 库名 DEAFAULT CHARSE...

2022-03-11 19:10:16 959

原创 linux指令_周东海

目录1.基础指令语法2.中级指令语法3.高级指令语法1.基础指令语法 1.ls指令 指令 #ls :列出当前目录的文件 #ls 路径 : 列出指定路径下的文件 #ls -i/la : -i : 表示列出详细详细的形式展出/-la : 表示路径下的所有文件(包含隐藏文件) ...

2022-03-11 14:04:59 652

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除