柒鸢-------周东海-CSDN博客

原创爬虫四种统计图带码--------周东海

线型图import matplotlib.pyplot as mplimport numpy as np#定义数据ypoints=np.array([1,3,9,25,12,32,5,1])#数据插入到图表# mpl.plot(ypoints,'o:g')# mpl.plot(ypoints,marker='o',linestyle=':',color='g')mpl.plot(ypoints,marker='o',ls=':',c='r')mpl.plot(ypoints,mark

2022-05-08 19:43:02 151

原创 sql复习-------周东海

sql复习 3大数据类型字符串 varchar char 日期 data time year 数值 int float double 增删查改增：insert into user(name,gender) values ("zhangsan","nan") 删:delete from user w...

2022-05-08 19:30:49 761

原创 MapReduce-----周东海

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。Map类import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.map

2022-05-08 19:06:22 707

原创 hadoop，mapper-------周东海

import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMap extends Mapper<LongWritable,Text, Te.

2022-05-01 19:45:23 90

原创 sql查询优化2.0------周东海

CREATE TABLE IF NOT EXISTS t(id INT,num INT DEFAULT 0,NAME VARCHAR(20));CREATE INDEX ix_num ON t(num);DELIMITER $CREATE PROCEDURE t()BEGIN#定义一个循环变量DECLARE i INT DEFAULT 0;DECLARE d INT DEFAULT 0;WHILE(i < 1000) DO BEGIN SELECT i; SET i =.

2022-05-01 19:37:56 332

原创爬虫pandas，数据清洗-------周东海

import pandas as pdprint(pd.__version__)#定义字典mydataset = { 'sites' : ["Google","Runoob","WiKi"], 'number' : [1,2,3]}#将字典转换为dataframe，才能处理mydf=pd.DataFrame(mydataset)print(mydf)a = [1,2,3]mysr = pd.Series(a,name="aha")print(mysr)...

2022-05-01 19:36:44 1049

原创 idea操作hdfs-------周东海

1.先配置windows的环境变量2.创建工程3.导入lib配置包4.输入Java语句import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net

2022-04-24 20:59:07 2199

原创 numpy函数------周东海

import numpy as npa = np.dtype(np.int32)print(a)# 数据类型对象b = np.dtype(np.float32)# b = np.array([1, 2, 3])# b = np.dtype('i4')# 创建数组，指定数据类型c = np.array([1, 2, 3], dtype=b)print(c)# 定义数据类型dt = np.dtype([('age', np.int8)])# 用dt数据类型创建数组e = ...

2022-04-24 20:00:15 869

原创 SQL查询优化-------周东海

SQL查询的时候尽量避免查询是不进行计算2.避免丶情况 !=,<>, is null,is not null,in,not in;例如a语句SELECT COUNT(*) FROM emp WHERE age IN(SELECT age FROM emp WHERE id > 100);应该为b语句SELECT COUNT(*) FROM emp WHERE EXISTS(SELECT age FROM emp WHERE id > 100);使用in时不

2022-04-24 19:26:47 50

原创 Hadoop安装--------周东海

先开始就给防火墙关掉指令为：#查看防火墙状态 service iptables status #关闭防火墙 service iptables stop #关闭防火墙开机启动 chkconfig iptables off记得重启:reboot解压自己传的jdk指令为：tar -zxvf jdk压缩包还要更改配置文件vim /etc/profile #在文件最后添加 expor...

2022-04-10 18:50:29 80

原创 xpath ----周东海

XPath 是一门在 XML 文档中查找信息的语言。XPath 是 XSLT 中的主要元素。XQuery 和 XPointer 均构建于 XPath 表达式之上安装：在终端输入 pip install lxml基本使用：from lxml import etrees=""" <div> <ul> <li class="item-0"><a href="link1.html">f

2022-04-10 17:53:00 48

原创范式---周东海

第一范式：每一列都要保持原子性，不能再次分割。此表不符合第一范式,不符合关系型数据库的基本要求，在关系型数据库中创建这个表的操作就不能成功。应改为:第二范式：属性必须完全依赖于主键，消除部分依赖。“第二范式(Second Normal Form,2nd NF)是指每个表必须有主关键字(Primary key),其他数据元素与主关键字一一对应。通常称这种关系为函数依赖(Functional dependence)关系，即表中其他数据元素都依赖于主关键字,或称该数据元素惟一地被主关键字所标识

2022-04-10 17:39:29 483

原创 Hadoop，权限认知，Linux自有指令，ssh服务

1.权限认知-rwxr--rw-.十个字段由左到右分别是:1（文件类型）,2 - 4（文件所属者的权限），5 - 7（同组用户权限），8 - 10（其他人权限)r:可读 w:可写 x:可执行root root前面一个是文件所属，第二个是目前用户后面是时间和大小15：文件夹名字chmod 需要给谁的权限+什么权限文件名chmod 777 文件名字chown : 更改文件所属用户#chown-R username文档路径2.Linux.

2022-04-03 15:18:44 2267

原创 Hbase数据库，视图，事务，存储过程，触发器------周东海

视图1.定义视图是指计算机数据库中的视图，是一个虚拟表，其内容由查询定义。同真实的表一样，视图包含一系列带有名称的列和行数据。但是，视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表，并且在引用视图时动态生成。2.为什么用简单性。看到的就是需要的。视图不仅可以简化用户对数据的理解,也可以简化他们的操作。那些被经常使用的查询可以被定义为视图,从而使得用户不必为以后的操作每次指定全部的条件。安全性：通过视图用户只能查询和修改他...

2022-04-03 12:33:45 2730

原创 Python爬虫-----周东海

Scrapy安装与使用打开命令提示符下载安装Scrapy所必须的环境：优先下载python下载更新文件：python -m pip install --upgrade pip然后在下载这四个：pip install wheelpip install lxml pip install twisted...

2022-04-03 09:05:28 82

原创 Hadoop,shell脚本----周东海

1.shell是什么Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。2.shell脚本Shell 脚本（shell script），是一种为 shell 编写的脚本程序。业界所说的 shell 通常都是指 shell 脚本，但读者朋友要知道，shell 和 shell script 是两个不同的概念。由于习惯

2022-03-20 17:34:26 1666

原创 python爬虫案例-----周东海

开始前先确认自己需要爬取的网页和导包from urllib import requestimport re定义urlpage=100url='http://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page)from urllib import requestimport re#定义urlpage=100url='http://tieba.baidu.com/f?kw=%E6%AE%

2022-03-20 13:21:50 663

原创 MySQL索引----周东海

1.什么是索引？一般的应用系统，读写比例在10:1左右，而且插入操作和一般的更新操作很少出现性能问题，在生产环境中，我们遇到最多的，也是最容易出问题的，还是一些复杂的查询操作，因此对查询语句的优化显然是重中之重。说起加速查询，就不得不提到索引了。2.为什么要有索引呢？索引在MySQL中也叫做“键”，是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键，尤其是当表中的数据量越来越大时，索引对于性能的影响愈发重要。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高

2022-03-19 18:40:21 3314

原创爬虫基础_周东海

爬虫:网络爬虫，又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.爬虫基本程序 python3.7 print response.read()response 对象有一个 read 方法，可以返回获取到的网页内容。2.爬虫程序添加data、header，然后post请求...

2022-03-13 11:00:32 1393

原创 SQL基础语法_周东海

目录1.SQL建库建表语句1.建库：2.建表:2.SQL增删改查语法1.插入数据2.查找数据库3.删除表数据（delete）4.新增数据（insert）5.修改数据（update）3.SQL表关联查询1.内连连接查询2.左连接3.右连接4.全连接5.三表链接4.SQL子查询1.SQL建库建表语句1.建库：CRATE DATABASE IF NOT EXISTS 库名 DEAFAULT CHARSE...

2022-03-11 19:10:16 1223

原创 linux指令_周东海

目录1.基础指令语法2.中级指令语法3.高级指令语法1.基础指令语法 1.ls指令指令 #ls ：列出当前目录的文件 #ls 路径 : 列出指定路径下的文件 #ls -i/la : -i : 表示列出详细详细的形式展出/-la : 表示路径下的所有文件（包含隐藏文件） ...

2022-03-11 14:04:59 731

weixin_57121160的博客