- 博客(80)
- 收藏
- 关注
原创 Anaconda作图不能正常显示中文的解决方法
1、在Anaconda中查看所有字体全名import matplotlibfont_list=sorted([f.name for f in matplotlib.font_manager.fontManager.ttflist])for i in font_list: print (i)2、加载程序字符库plt.rcParams['font.family'] = ['Arial Unicode MS'] #正常显示中文plt.rcParams['font.sans-serif
2021-07-27 18:12:43 1708
原创 Python资源整理
一、基础知识学习首推B站的学习视频,讲解细致全面,资料齐全:Python基础入门运算符和变量是基础操作,重点掌握:程序控制语句--循环、判断; 数据结构--列表、元组、字典、集合以及操作方法(修改、删除、遍历等方法); 函数的定义与使用; 面向对象的思想及编程方法; 文件的读取与写入;辅助阅读:廖雪峰的官方网站这个不用多说,超千亿人次访问阅读 Python菜鸟教程 中文文档教程二、Python常用库Pandas官网 Pandas社区教程 Numpy官网 API参考.
2021-03-26 15:32:29 155 2
原创 忘了是什么时候挖的坑了
5.1.1.列表用作堆栈列表方法使得列表作为堆栈非常容易,最后一个插入,最先取出(“后进先出”)。要添加一个元素到堆栈的顶端,使用append()。要从堆栈顶部取出一个元素,使用pop(),不用指定索引。例如>>>>>> stack = [3, 4, 5]>>> stack.append(6)>>> stack.append(7)>>> stack[3, 4, 5, 6, 7]>...
2021-03-26 13:55:12 186
原创 异常
>>> def divide(x, y):... try:... result = x / y... except ZeroDivisionError:... print("division by zero!")... else:... print("result is", result)... finally:... print("executing finally clau.
2021-03-19 10:46:30 94
原创 统计数据的区间分布情况
生成一个随机数据data=np.random.randint(1,1000,500)#生成500个1-1000内的整数数据incomeranges = pd.cut(data,25)#将数据分为25份#分份的区间可以自定义incomeranges = pd.cut(data,[0,100,300,500,700,1000])pd.value_counts(incomeranges)Out[10]: (700, 1000] 140(300, 500] 122(100
2021-01-29 17:32:00 2125
原创 Python小技巧
1、过滤序列元素。首先可以使用列表推导的方法,但是数据量大时比较占内存。values = ['1', '2', '-3', '-', '4', 'N/A', '5']def is_int(val): try: x = int(val) return True except ValueError: return Falseivals = list(filter(is_int, values))print(ivals)# Output
2021-01-21 23:20:08 132
原创 pandas读取Excel,使用列表推导式
import pandas as pddf1=pd.read_excel('C:/Users/Desktop/table1.xlsx',sheet_name='明细')list1=list(df1['数据列名'].values)list1df2=pd.read_excel('C:/Users/Desktop/核查.xlsx',sheet_name='明细')list2=list(df2['数据列名'].values)l=[]for x in list1: for y in
2021-01-19 10:52:55 386
原创 pandas速查手册
本文翻译自文章:Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas,建议先看两个网站。(1)官网:Python Data Analysis Library(2)十分钟入门Pandas:10 M
2021-01-07 20:12:10 137
原创 元组
创建:元组是一个固定长度,不可改变的Python序列对象。创建元组的最简单方式,是用逗号分隔一列值。转换:使用tuple可以将任意序列或迭代器转换成元组访问元素:用方括号[ ]访问元组中的元素。特点:元组中存储的对象可能是可变对象。一旦创建了元组,元组中的对象就不能修改了。但是如果元组中的某个对象是可变的,比如说列表,则可以在原位置进行修改。In [11]: tup[1].app...
2019-11-20 21:30:28 174
原创 使用Pythontutor学习Python
今天发现了一个神器,可以可视化代码在内存中的引用和执行过程,如下图:这对学Python序列内容的操作,如切片、引用等比较有帮助,用起来特别方便,所以在这里写个帖子推荐一下。正文开始:Pythontutor简介它是一款可以可视化代码的工具,支持Python、Java、C、C++、JavaScript、Ruby编程语言,帮助人们克服学习编程的障碍,进而了解程序运行的每一步会发生什么...
2019-11-17 22:25:44 5291 1
原创 Ipython notebook使用教程
1.网上使用教程:Ipython使用教程链接2.我安装的Anaconda,直接打开就行了然后会自动跳转到网页依次点1,2会打开编辑完程序,点击红框中的选项就会运行了。...
2019-11-17 12:03:36 281
原创 Python字符串方法总结
s=" 12345"方法名(函数名) 作用(描述) 举例 strip()函数 去除字符串头尾指定的字符,默认为空格或换行符 s.strip()==>"12345" ...
2019-11-16 20:29:35 137
原创 Python数据类型
Python的数据类型和其它高级编程语言一样,有整数、浮点数等,不同的是python还有其它数据类型,如集合列表等。基本数据类型: 类型 举例 整数 10、-8 浮点数 0.7、3.14 复数 3+4j ...
2019-11-12 22:30:04 173
原创 python学习练习
1.求三角形面积和周长a,b,c=(int(x) for x in input().split())if a+b>c and a+c>b and b+c>a: s=(a+b+c)/2 area=(s*(s-a)*(s-b)*(s-c))**0.5 perimeter=a+b+c print("area={:,.2f};perimet...
2019-11-11 19:25:59 729
原创 Spark学习
Spark是大数据处理中的一个非常重要的组件,一般使用Hadoop在底层作为分布式存储系统,上层使用Spark代替Hadoop原来的MapReduce此外还提供RDD编程、Spark SQL、流计算和机器学习。它功能齐全、计算速度快,可以使用Scala语言、python、Java进行编程,那么在本周学习了Spark的相关内容,目录如下:一、Spark的设计与运行原理Spark概述 Spa...
2019-10-13 14:03:01 154
原创 使用FileZilla软件向Ubuntu系统上传文件
需要向Linux系统中上传各个软件的压缩包,于是使用FileZilla软件连接上传,但是试了好几次FileZilla都显示:错误: Network error: Connection refused错误: 无法连接到服务器但是我也不知道什么原因,下门大学博客上说的是网络连接方式需要改为“桥接网卡”,但是修改过后并没有起效果,所以就上网找了找其它解决方法,后来才发现没有安装...
2019-08-28 20:31:48 908
原创 厦门大学林子雨老师大数据实验环境搭建索引
博客首页在Windows中使用VirtualBox安装UbuntuJava和SSH的安装配置Hadoop 2.7分布式集群环境搭建Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04Spark快速入门指南 – Spark安装与基础使用HBase的安装与运行Ubuntu安装hive,并配置mysql作为元数据库Ubuntu下Mong...
2019-08-26 22:05:39 4496
原创 分布式服务框架 Zookeeper — 管理分布式环境中的数据
目录Zookeeper 安装和配置详解单机模式集群模式数据模型如何使用 Zookeeper常用接口列表基本操作ZooKeeper 典型的应用场景统一命名服务(Name Service)配置管理(Configuration Management)集群管理(Group Membership)共享锁(Locks)队列管理结束语Zookeeper...
2019-08-24 18:50:32 132
原创 Redis学习
学习路线:1.Redis介绍---内存数据库、应用场景等;2.Linux环境安装;3.Redis数据类型:String、Hash、List、Set和ZSet(有序);4.高级命令;5.安全性;6.Redis主从复制;7.事务;8.持久化机制;9.发布与订阅模式;10.使用Java API操作Redis11.集群搭建与使用;12.Java操作Redis...
2019-08-23 22:35:10 102
原创 虚函数
目录一、虚函数实现多态的条件1.什么是虚函数?2.虚函数定义3.一些需要注意的点4.虚函数实现多态的条件二、类成员函数的指针与多态性5.何时需要虚函数?一、虚函数实现多态的条件1.什么是虚函数?被virtual关键字修饰的成员函数,就是虚函数。虚函数的作用就是实现多态性——以共同的方法,对不同的对象采取不同的策略。2.虚函数定义虚函数只能是类...
2019-07-03 23:48:05 268
原创 C++复数类实现运算符重载
目录:1.关于运算符重载2.运算符重载的方式:成员函数和友元函数3.只能用成员函数重载的运算符4.利用复数类实现运算符重载1.关于运算符重载运算符重载就是对现有的运算符重新定义,赋予其另一种功能,以实现不同的数据类型。其本质还是函数的重载,使用运算符重载可以使程序更清晰。运算符重载的关键字operator。C++绝大多数运算符都可以重载,不能重载的运算符有. :: ....
2019-07-03 00:24:15 5824
原创 HTTP协议分析
目录1.简介:2.HTTP请求:3.HTTP请求方法:4.HTTP响应:5.HTTP工作原理:1.简介:HTTP(HyperText Transfer Protocol)即超文本传输协议,是一种详细规定了浏览器和万维网服务器之间互相通信的规则,它是万维网交换信息的基础,它允许将HTML(超文本标记语言)文档从Web服务器传送到Web浏览器。什么是超文本(Hyper...
2019-06-18 21:14:38 170
原创 云计算相关知识
云计算:云计算网络:云计算服务器:云计算存储:高可用:共享存储上的虚拟机,可以使用故障迁移功能,通过配置一定的检测条件,发生故障时,触发虚拟机HA功能时期从其他主机上恢复运行集群资源调度:资源是虚拟机,调度是迁移虚拟机运行位置。通过设定CPU和内存的阈值,超过阈值会触发集群资源调度,将虚拟机迁移至CPU和内存利用率低的主机上,将负载过高的主机的利用率降到阈值以下...
2019-06-17 20:58:17 274
转载 八大排序算法详解(Java语言实现)
概述因为健忘,加上对各种排序算法理解不深刻,过段时间面对排序就蒙了。所以决定对我们常见的这几种排序算法进行统一总结,强行学习。首先罗列一下常见的十大排序算法:直接插入排序 希尔排序 简单选择排序 堆排序 冒泡排序 快速排序 归并排序 基数排序我们讨论的这八大排序算法的实现可以参考我的Github:SortAlgorithms,其中也包括了排序测试模块[Test.ja...
2019-06-16 15:17:37 358
原创 HashMap源码分析学习
Java为数据结构中的映射定义了一个接口java.util.Map,此接口主要有四个常用的实现类,分别是HashMap、Hashtable、LinkedHashMap和TreeMap,类继承关系如下图所示:下面针对各个实现类的特点做一些说明:(1)HashMap:它根据键的hashCode值存储数据,大多数情况下可以直接定位到它的值,因而具有很快的访问速度,但遍历顺序却是不确定...
2019-06-16 15:08:25 169
原创 Hive的常用HiveQL操作
一、Hive简介Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive是一个可以提供有效的、合理的且直观的组织和使用数据的模型,即使对于经验丰富的Java开发工程师来说,将这些常见的数据运算对应到底层的MapReduce Java API也...
2019-06-09 18:21:15 3019
原创 使用hadoop的MapReduce来实现WordCount
首先依次在终端输入命令sudo service ssh restart重启ssh服务。start-dfs.sh启动HDFS,start-yarn.sh启动yarn。然后输入jps命令查看进程输入vi article.data创建article.data并进入文件,按i键进行内容编辑模式,输入this is an example回车this is another exampl...
2019-06-07 18:09:31 493
原创 数据获取和存储综合-----进行kafka,flume,和hive的数据综合处理实验
依次输入命令开启ssh服务、开启mysql、启动hdfs、启动yarm、启动Zookeepr输入hive进入hive创建一张表,用来放数据:create table kafkatest(id int,name string,age int) clustered by(id) into 2 buckets stored as orc tblproperties('transacti...
2019-06-07 14:59:01 249
原创 Hive基础操作
输入命令sudo service ssh restart开启ssh服务接着开启mysql sudo service mysql start然后start-all.sh启动HDFS和YARN,输入cd /home/user/bigdata/apache-hive-2.3.4-bin/conf再输入vi hive-site.xml按i进行编辑将文件最后三条注释掉,即增加<!...
2019-06-07 14:31:23 166
原创 熟悉Hbase基本操作
首先打开终端,启动ssh服务sudo service ssh restart接着输入命令start-dfs.sh启动HDFS再使用命令zkServer.sh start启动Zookeeper输入命令start-hbase.sh开启Hbase服务,使用jps命令查看进程打开网页,网址输入http://localhost:16010可以查看HBase的情况。输入hba...
2019-06-07 14:16:24 442
原创 学习HDFS的基本操作
打开终端。输入命令sudo service ssh restart重启ssh服务输入start-dfs.sh启动HDFS,然后输入jps查看java进程打开网页,网址输入http://localhost:50070可以查看HDFS的情况。输入hadoop fs -ls /查看HDFS根目录下的文件输入命令创建一个test文件hadoop fs -mkdir /test...
2019-06-07 11:06:54 272
原创 HashMap 和 Hashtable 的区别
HashMap 和 Hashtable 的区别线程是否安全:HashMap 是非线程安全的,HashTable 是线程安全的;HashTable 内部的方法基本都经过synchronized修饰。(如果你要保证线程安全的话就使用 ConcurrentHashMap 吧!); 效率:因为线程安全的问题,HashMap 要比 HashTable 效率高一点。另外,HashTable 基本被...
2019-06-07 10:25:56 572
原创 使用sqoop工具将数据从mysql数据库导入到HDFS和Hbase
使用Sqoop进行数据导入配置ssh的免密登录终端输入:sudo service ssh restart重启ssh服务。终端输入:sudo service mysql start开启mysql。配置免密登陆:rm -rf ~/.ssh/再输入ssh-keygen敲三下回车输入ssh-copy-id user@localhost输入yes,需要输入passwor...
2019-06-07 00:49:41 1276
原创 大数据实践--使用kafka和flume组合进行日志采集
flume+Kafka日志采集实验打开终端,首先输入:sudo service ssh restart重启ssh服务。之后输入下述命令开启zookeeper服务:zkServer.sh start输入:cd /home/user/bigdata/apache-flume-1.9.0-bin进入flume目录,之后输入:bin/flume-ng agent --conf co...
2019-06-06 21:35:57 848
原创 设计模式-----单例模式
使用一个私有构造函数、一个私有静态变量以及一个公有静态函数来实现。私有构造函数保证了不能通过构造函数来创建对象实例,只能通过公有静态函数返回唯一的私有静态变量。Ⅰ 懒汉式-线程不安全以下实现中,私有静态变量 uniqueInstance 被延迟实例化,这样做的好处是,如果没有用到该类,那么就不会实例化 uniqueInstance,从而节约资源。这个实现在多线程环境下是不安全...
2019-06-06 11:06:19 91
原创 数据库事务的特性和事务隔离级别
数据库事务的特性和事务隔离级别一、事务的特性原子性:事务是最小的执行单位,不允许分割。事务的原子性确保动作要么全部完成,要么完全不起作用; 一致性:执行事务前后,数据保持一致,多个事务对同一个数据读取的结果是相同的; 隔离性:并发访问数据库时,一个用户的事务不被其他事务所干扰,各并发事务之间数据库是独立的; 持久性:一个事务被提交之后,它对数据库中数据的改变是持久的,即...
2019-06-06 09:21:21 198
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人