2018年07月_翱翔的江鸟

08月 07月 06月 05月

原创算法理论基础笔记

降维目标减少输入的数目剔除噪声数据提高已有算法的性能,减少计算开销1. PCA按照数据方差最大方向调整数据的主成分分析法2. SVD矩阵分解技术的一种,奇异值分解法1. 主成分分析法(PCA)旋转坐标轴第一个坐标轴是数据最大方差所在的方向第二个坐标轴与第一个坐标轴正交,方差次大重复旋转坐标轴,次数为数据中特征数量旋转次数越多,所得...

2018-07-25 16:45:38 1093

原创 SQL,HiveQL,Spark Shell总结

1. SQL创建表drop table if exists demo01;create table demo01(eno int(10),ename varchar(20));插入数据insert into demo01 values(1,"hello");增加字段alter table demo01 add loc varchar(20);...

2018-07-23 09:52:03 519

原创 Spark总结

1. Spark转为大规模数据处理设计的快速通用的计算引擎基于内存,开源,并行计算消除了mapreduce大量IO操作和仅支持批处理的缺陷通过RDD弹性分布式数据集,提供交互式查询功能基于scala面向函数语言编写,便于操作RDD可通过YARN管理分配资源,利用HDFS存储数据使用DAG有向无环图执行引擎,内存/磁盘计算速度均比MR快支持java,python,scala,R和...

2018-07-20 14:17:55 622

原创 Hadoop总结

0. Hadoop开源的分布式系统基础架构优点对大量数据进行分布式处理可靠, 假设硬件失效为常态, 针对失败节点进行重新分布处理高效, 并行处理提高处理速度可伸缩, 在横向扩展至上千个节点, 可处理PB级数据低成本, 项目开源,与同类产品比较成本低廉相关组件包括HDFSMapReduceYarnHiveHBaseZooKeeperSqoopFlu...

2018-07-20 11:23:44 3735

原创 Java Web基础知识

MVC Model View Controller，模型(model)－视图(view)－控制器(controller)用一种业务逻辑、数据、界面显示分离的方法组织代码，将业务逻辑聚集到一个部件里面，在改进和个性化定制界面及用户交互的同时，不需要重新编写业务逻辑模型层: 负责模块数据的处理,实际开发时又分为两层(业务和持久),实体类javabean也在模型层业务层se...

2018-07-19 10:41:40 406

原创 Java基本算法的实现代码

0. 一些简单的解释选择排序选择[1:-1]数组中的最小值,与索引0交换数值选择余下[2:-1]数组中的最小值,与索引1交换数值依次遍历余下部分的数组,直到交换所有数值冒泡排序只检查相邻两个元素的大小,按升序交换位置为避免最后阶段的无效比较,加入布尔值判断是否有数据进行了交换,无交换直接跳出循环结束排序为避免每次比较都要遍历全部数组,加入索引规定每次遍历的索引...

2018-07-18 15:14:56 2036

原创 Python连接mysql实现增删改查基本操作

使用模块pymysqlimport pymysql# connect(mysql数据库IP地址,用户名,密码,连接的数据库名)db = pymysql.connect('10.25.34.68','root','root','mydb')# cursor光标,创建一个用于写sql语句的对象cursor=db.cursor()# execute执行sql语句cursor.exec...

2018-07-13 12:59:15 1101

原创 Matplotlib.pyplot参数(条形图,直方图,饼图,散点图)

1. 条形图 bar()官方文档网址:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html#matplotlib.scatter.bar参数解释如下参数语法功能 x sequence of scalars 数据源 height scalar or sequenc...

2018-07-13 11:30:23 7554

原创 Web前端基础知识

1. 前端基础知识文件分类文件类型中文备注 SGML 标准通用标记语言 HTML和XML的前身 HTML 超本文标记语言 B/S(浏览器/服务器) XML 扩展标记语言加载数据/配置信息XML(扩展标记语言)装载有格式的数据信息,用于各个框架和技术的配置文件描述特点: 扩展名为.xml内容区...

2018-07-09 17:05:03 9261 1

原创 Java基础知识

1. 计算机基础知识1.计算机的硬件分成5大组成部件：运算器、控制器、存储器、输入设备和输出设备 2.计算机软件按照其功能划分为系统软件与应用软件计算机语言的分类:机器语言机器语言是直接用二进制代码指令表达的计算机语言,指令是用0和1组成的一串代码,它们有一定的位数,并分成若干段,各段的编码表示不同的含义汇编语言汇编语言是使用一些特殊的符号来代替机器语言的二进制码,计...

2018-07-09 15:38:33 347

原创 Spark SQL和Spark Streaming简介

1. Spark SQL用于处理结构化数据,提供SQL语句查询的API接口 SparkSQL数据类型DataFrames这种数据类型支持结构化的数据文件,Hive中的表,外部数据库和已存在的RDD该接口在Python, R, Java, Scala中都是可用的SparkSQL数据类型DataSetsSpark 1.6中添加的新接口不支持Python...

2018-07-09 13:57:48 2923

原创 Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV

1. 目标通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上爬虫和机器学习在Python中容易实现在Linux环境下编写Python没有pyCharm便利需要建立Python与HDFS的读写通道2. 实现安装Python模块pyhdfs版本:Python3.6, hadoop 2.9读文件代码如下from pyhdfs ...

2018-07-06 14:58:38 10418

原创算法基础知识之分类和聚类

《白话大数据与机器学习》笔记分类1. 朴素贝叶斯朴素贝叶斯提供了一种思维方式,即通过先验概率换算得到后验概率从而对决策分类的方法已知条件: 类条件概率密度参数表达式先验概率基础公式: 参数说明: 样本空间划分为D1~Di共i个部分P表示括号内事件发生的概率等式左边表示当事件x发生时Dj发生的概率应用公式: 参数说明: P(A),事件A的先验概率...

2018-07-06 11:22:04 944

原创 Spark在Windows下idea中本地调试及Jar方式集群运行

1. Windows本地调试依赖包版本(Maven下载),scope模式为complie<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><spark.version>2.2.0</spark.version><s...

2018-07-05 11:20:08 2343 1

原创 Spark简介和RDD基本命令

1.Spark概念和特点Spark是什么Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是开源的,基于内存计算的大数据并行计算框架由UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室) 开发拥有Hadoop MapReduce的优点, 同时避免读写HDFSSpark和Hadoop MR的关系Spark 启用了内存分布数...

2018-07-04 13:58:03 926

转载 Python垃圾回收机制(引用计数+标记清除+分代回收)

转载自https://blog.csdn.net/joeyon1985/article/details/41961827 python里也同java一样采用了垃圾收集机制，不过不一样的是，python采用的是引用计数机制为主，标记-清除和分代收集两种机制为辅的策略。1. 引用计数PyObjectpython里每一个东西都是对象，它们的核心就是一个结构体：PyObje...

2018-07-03 17:16:58 6081

原创 CentOS7环境下Spark集群的配置

1. 解压缩到/home/hadoop/spark-2.2.0scala-2.11.72. 配置环境变量/etc/profile为避免与hadoop默认启动命令同名,spark/sbin中的start-all.sh和stop-all.sh分别改为start-spark-all.sh和stop-spark-all.shscala写入binspark写入bin和sbin3...

2018-07-02 17:29:56 1128

hive所有jar文件

用于Hive和HBase的连接,通过hive操作hbase上的表解压缩后全部放入hive/lib下,需先删除原有jar

2018-06-25

mysql-connector-java-5.1.38.jar

jdbc连接mysql时会用到的jar文件,通过maven下载并打包成7z文件

2018-06-13

hadoop本身不支持windows平台,本文件用于在idea中用java代码连接远程hadoop时读取本地文件,以下是用法 1. 将hadoop文件从linux下载到windows硬盘中 2. 添加hadoop文件夹到环境变量:HADOOP_HOME ~\hadoop-2.7.6\sbin;~\hadoop-2.7.6\bin 3. 将本文件解压放到~\hadoop-2.7.6\bin 4. 将hadoop.dll放到C:\Windows\System32 5. 重启idea

2018-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

学习笔记