自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (12)
  • 收藏
  • 关注

原创 基于图像链接的批量下载

【代码】基于图像链接的批量下载。

2023-08-21 15:00:09 544

原创 Docker从入门到实践

Docker 是个伟大的项目,它彻底释放了虚拟化的威力,极大降低了云计算资源供应的成本,同时让应用的分发、测试、部署和分发都变得前所未有的高效和轻松!本书既适用于具备基础 Linux 知识的 Docker 初学者,也希望可供理解原理和实现的高级用户参考。同时,书中给出的实践案例,可供在进行实际部署时借鉴。前六章为基础内容,供用户理解 Docker 的基本概念和操作;7 ~ 9 章介绍一些高级操作;第 10 章给出典型的应用场景和实践案例;11 ~ 13 章介绍关于 Docker 实现的相关技术。14 ~ 1

2023-01-19 11:13:41 1950 1

原创 ScalaLearning从入门到神坑

Spark的设计目的之一就是使程序编写更快更容易,这也是Spark选择Scala的原因所在。总体而言,Scala具有以下突出的优点:- Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统;- Scala语法简洁,能提供优雅的API;- Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中。

2022-09-19 14:36:02 373

原创 自我搭建博客

•NightTeam HomePage:https://nightteam.cn/下面是两个站点的预览图:这个是个人搭建好的blog效果:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JLNN5vZg-1654161198310)(https://cdn.jsdelivr.net/gh/kungs8/blog_imgs/%E8%87%AA%E6%88%91%E6%90%AD%E5%BB%BA%E5%8D%9A%E5%AE%A2_imgs_02.png)]这里的主页就是用一个基

2022-06-02 17:14:39 304

原创 自学使用Github搭建图床存储blog图像

使用Github搭建图床 Author: yanpenggong       Email: yanpenggong@163.com Github: kungs8      CSDN: https://blog.csdn.net/yanpenggong 一、图床简介程序员应该都了解 Typora 是专注于编写 Markdown 格式的编辑软件,使用方便,支持多种格式导出。PicGo 是一款免费的图床管理应用,支持拖拽上传,剪切板上传等方式。你可以...

2022-04-19 17:16:20 1010

原创 Python动态进度条N种整理

Python动态进度条N种整理我们在规范代码的时候,经常需要查看代码运行的状态,往往需要进度条来观察任务进行到什么程度了,这里就汇总了几种动态的进度条以供参考。# -*- encoding: utf-8 -*-'''@Software: PyCharm@Project : Progressbar@Time : 2021-10-12 11:19@Author : yanpenggong@Contact : yanpenggong@163.com@Version :

2021-10-19 17:42:06 1155

原创 Spark性能优化指南

目录一、基础篇1. 开发调优1.1 调优概述1.2 避免创建重复的RDD1.3 尽可能复用同一个RDD1.4 对多次使用的RDD进行持久化1.5 尽量避免使用shuffle类算子1.6 使用map-side预聚合的shuffle操作1.7 使用高性能的算子1.8 广播大变量1.9 使用kryo优化序列化性能1.10 优化数据结构2. 资源调优2.1 调优概述2.2 Spark作业基本运行原理2.3 资源参数调优二、高级篇1. 数据倾斜1.1 调优概述1.2 数据倾斜发生时的现象1.3 数据倾斜发生的原理1.

2021-04-08 15:23:55 291

原创 pyspark写数据到 hbase2.* 的神坑解析

pyspark写数据到 hbase2.* 的神坑解析1. 问题阐述找不到方法: org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Putjava.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Put.add([B[B[B)Lorg/apache/hadoop/hbase/client/Put; at org.apach

2021-04-07 18:04:28 821 3

原创 运行tensorboard报错:ValueError: Duplicate plugins for name projector,解决方案

运行tensorboard报错:ValueError: Duplicate plugins for name projector,解决方案1. 问题2. 问题原因3. 解决办法3.1 运行下面这个脚本文件3.2 运行输出内容3.3 解决办法1. 问题终端调用tensorboard时报错如下:raise ValueError('Duplicate plugins for name %s' % plugin.plugin_name)ValueError: Duplicate plugins for n

2020-11-02 01:13:18 7170 3

原创 搭建自己的blog

由于 NightTeam 的域名是 nightteam.cn,所以这里官方博客使用了二级域名 blog.nightteam.cn,官方主页使用了根域名 nightteam.cn,现在两个站点都已经稳定运行在 GitHub Pages 上面了,大家如果感兴趣可以去看一下。•NightTeam HomePage:https://nightteam.cn/•NightTeam Blog: https...

2019-10-16 23:47:44 483

原创 第五章 支持向量机(SVM)

支持向量机(SVM)详解文章目录支持向量机(SVM)详解支持向量机线性SVM分类大间隔分类特征缩放的敏感度软间隔分类硬间隔对异常值的敏感度街道宽阔 vs 限制间隔违例(之间找到良好的平衡,即:软间隔分类)非线性SVM分类非线性SVM分类(卫星数据集)多项式核添加相似特征高斯RBF核函数计算复杂度SVM回归工作原理决策函数和预测训练目标二次规划对偶问题核化SVM损失函数hinge损失函数(max(...

2019-08-20 15:29:12 1035

原创 python爬取网页的视频

这里指定了一个视频的链接地址:http://f.us.sinaimg.cn/000bIRNylx07uBalSO1y0104120cNh4r0E050.mp4?label=mp4_hd&template=640x360.28.0&Expires=1561614590&ssig=KYl0nz%2BLey&KID=unistore,video# -*- codin...

2019-06-27 13:26:49 11777 2

原创 python将pandas数据转为spark的dataframe格式保存到hive中

使用python在调用集群跑数据之后,数据以pandas计算,输出的结果保存到hive数据库中,最老套的办法。(注意:这里的spark版本是1.6)步骤:from pyspark.sql import HiveContextfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import functionsconf =...

2019-06-04 17:31:21 5875 1

原创 python运行demo时,自动安装环境

将下面的代码放入demo中,输入use_module_list = [需要安装的包]实例:import sys, os#module_list = sys.modules.keys()use_module_list = ["pandas", "python-dateutil", "datetime","re"]for module in use_module_list: if ...

2019-05-23 09:26:33 631

原创 电脑内网外网同时访问-解决办法

当在遇到连内网的时候,不能连外网,电脑进行连接热点,需要的操作的步骤:查看内网的默认网关 ip,我这里的是10.62.110.1查看热点的网关 ip,我这里是192.168.43.1创建.txt文件,输入图片上的内容,保存,修改文件后缀名“.txt” 为 “.bat”右击以管理员身份运行配置成功*.bat文件内的实例:route add 10.0.0.0 mask 255.0....

2019-05-14 13:32:36 3171

原创 Linux安装pip和setuptools

一、说明linux自带的python版本是2.7.5,但是不自带pip命令,下面针对这问题进行配置二、安装步骤1、安装setup-tools和pip在https://pypi.python.org/pypi/setuptools下载安装包,可以复制下载链接使用wget命令下载。下载下来后,解压安装:wget https://pypi.python.org/packages/45/29...

2019-05-08 15:59:19 1578 1

原创 Scala 使用 IntelliJ IDEA编写Hello World

使用Intellij IDEA开发Scala,需要下载相对应的插件。开始一个简单的 Hello World 程序,具体的操作步骤:File->New->Project 选择Scala->IDEA点击 next 进入下一步,配置好之后点击 Finish 等待项目创建完成。创建成功的工程目录结构如下(jdk版本和scala版本都正确显示)【编写helloworld程...

2019-03-06 15:34:00 639

原创 win10的jupyter notebook使用pyspark2.3.2解决的报错问题

1、问题出现:py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.关于windows10下使用jupyter notebook时,对于pyspark版本只能取其spark2.3.2版本,具体简单demo如下:...

2019-02-11 15:34:04 1170

原创 Python:雷达图的实现

雷达图雷达图在数据挖掘项目中多用于企业分析或者价值分析的环节可视化。雷达图分析法是一种系统分析的有效方法,它是从项目中自身建立的多方面分析企业的经营成果。并将这些方面的有关数据用比率表示出来,填写到一张能表示各自比率关系的等比例图形上,再用彩笔连接各自比率的结点后,恰似一张雷达图表。从图上可以看出企业经营状况的全貌,一目了然地找出了企业经营上的优势和弱势。分析方法就各指标来看,当指标值处于标...

2018-12-19 12:26:10 29271 11

原创 语义的特征提取及简单词频展示(WordCloud)

对于语句分析,以及词云展示,具体代码如下:# coding=utf-8import jiebaimport numpyimport pandas as pdfrom wordcloud import WordCloudimport matplotlib.pyplot as plt# 将三个句子用jieba.cut处理content1 = jieba.lcut("今天很残酷,明天更...

2018-12-02 11:55:20 2428

原创 Tensorflow基础0:文件的读取与存储

文件读取流程学习目标目标说明TensorFlow文件读取的流程应用无有四种获取数据到TensorFlow程序的方法:tf.dataAPI:轻松构建复杂的输入管道。(优选方法,在新版本当中)QueueRunner:基于队列的输入管道从TensorFlow图形开头的文件中读取数据。Feeding:运行每一步时,Python代码提供数据。预加载数据:TensorFl...

2018-12-02 00:57:47 1089

原创 Tensorflow案例5:CNN算法-Mnist手写数字识别

学习目标目标应用tf.nn.conv2d实现卷积计算应用tf.nn.relu实现激活函数计算应用tf.nn.max_pool实现池化层的计算应用卷积神经网路实现图像分类识别应用CNN-Mnist手写数字识别1、网络设计我们自己定义一个卷积神经网络去做识别,这里定义的结构有些是通常大家都会采用的数量以及熟练整个网络计算流程。但是至于怎么定义结构是没办法确定的,也就是...

2018-12-02 00:38:02 665

原创 Tensorflow案例4:Mnist手写数字识别(线性神经网络)及其局限性

学习目标目标应用matmul实现全连接层的计算说明准确率的计算应用softmax_cross_entropy_with_logits实现softamx以及交叉熵损失计算说明全连接层在神经网络的作用应用全连接神经网络实现图像识别应用Mnist手写数字势识别1、 数据集介绍文件说明:train-images-idx3-ubyte.gz: training s...

2018-12-02 00:30:18 1021

原创 Tensorflow实例3: 验证码图片的识别训练,每张图片有4个字母

学习目标目标说明验证码识别的原理说明全连接层的输出设置说明输出结果的损失、准确率计算说明验证码标签值的数字转换应用tf.one_hot实现验证码目标值的one_hot编码处理应用应用神经网络识别验证码图片1、识别效果2、验证码识别实战处理原始数据方便特征值、目标值读取训练设计网络结构网络的输出处理训练模型并预测原理分析1、目标...

2018-12-02 00:08:31 8675 19

原创 Tensorflow实例2:将图像和标签数据(*.csv)转化成tfrecords文件,以便后续直接读取tfrecords文件进行图片验证码识别训练

由于多张图像和标签值不在一起,现在此方法是把captcha_dir = "../data/GenPics/"此路径下的图片与此路径下的.csv文件合并起来,通过writer = tf.python_io.TFRecordWriter(path="./data/captcha.tfrecords")将数据以tfrecords格式写入到本地中,为了以后进行验证码图片训练做好准备。具体操作步骤如下:...

2018-12-01 22:47:23 2794 5

原创 Tensorflow实例1:对人工数据集的K均值聚类

2.6.7 例1–对人工数据集的K均值聚类import tensorflow as tfimport numpy as npimport time import matplotlib.pyplot as pltimport matplotlibfrom sklearn.datasets.samples_generator import make_blobsfrom sklearn...

2018-11-23 12:04:31 1062

原创 pandas 0.23.4 :'pd.ewma'没有这个模块,改用`Series.ewm` 或 降低版本到 pandas 0.21.0

问题:在进行画出指数平滑移动平均线,遇到如下问题:# pd.ewma(com=None, span=one) # 指数平均线。com:数据;span:时间间隔AttributeError: module 'pandas' has no attribute 'ewma'解决办法:在pandas 0.23.4版本中,已经不存在这种方法,回退到之前版本pandas 0.21.0就一切完美...

2018-11-13 16:51:18 11316 1

原创 No module named 'matplotlib.finance'及name 'candlestick_ochl' is not defined强力解决办法

问题:尝试用python做个股票绘图软件,要用到 finance 库,在实现实现K线图绘制的时候,于是开始导入:from matplotlib.finance import candlestick_ochl...candlestick_ochl(axes, quotes, width=0.3, colorup="r", colordown="g")matplotlib 2.2.2 报错...

2018-11-08 02:19:21 12584 3

原创 数据结构(一):几种常见排序算法比较

排序0. 常见排序算法效率比较时间复杂度及稳定性比较排序方法平均方法最优复杂度最坏复杂度辅助空间稳定性冒泡排序O(n2n^2n2)O(n2n^2n2)O(n2n^2n2)O(1)稳定选择排序O(n2n^2n2)O(n2n^2n2)O(n2n^2n2)O(1)不稳定插入排序O(n2n^2n2)O(n2n^2n2)O(n2n^2n...

2018-11-06 00:42:22 1411

原创 SHELL自动化运维

SHELL自动化运维第1章 shell脚本1.1 shell 简介shell 的定义:1. 在计算机科学中,Shell就是一个命令解释器。2. shell是位于操作系统和应用程序之间,是他们二者最主要的接口,shell负责把应用程序的输入命令信息解释给操作系统,将操作系统指令处理后的结果解释给应用程序。**总结:**shell就是在操作系统和应用程序之间的一个命令翻译工具。1.2 ......

2018-11-05 20:09:07 6299 2

原创 python中调用matplotlib画图,各种中文标注乱码强力解决办法

关于python中调用matplotlib画图,中文标注乱码如下:解决办法:# 通用字体设置from matplotlib import font_manager# my_font = font_manager.FontProperties(fname="字体路径")my_font = font_manager.FontProperties(fname="

2018-11-02 11:33:31 5236

原创 Mac 在终端下使用 zcat 报错,改用`gunzip -c`

出现问题:Mac在使用zcat的时候,不能正常的读取压缩包的内容,情况如下:NgandeMBP:scripts kungs$ zcat /data/codes/django.tar.gz zcat: can't stat: /data/codes/django.tar.gz (/data/codes/django.tar.gz.Z): No such file or directory...

2018-11-01 20:09:04 1238

原创 nginx 在检查是否可启动出现问题(cannot open shared objectfile: No such file or directory)的解决

ngnix在检查是否可启动的时候,出现下面问题:(venv) root@instance-nl5v4j4n:/data/server/nginx#./sbin/nginx -t ./sbin/nginx:error while loading shared libraries: libpcre.so.1: cannot open shared objectfile: No such fi...

2018-11-01 11:43:43 2734

原创 MAC绕开pan限速下载的方法

工具准备:工具 链接: https://pan.baidu.com/s/1-j0pnm4aK154O2-fZIlo0Q 提取码: e1r5Aria2GUI主程序(Aria2GUI 1.3.8.dmg)chrome插件包(chrome.zip)安装操作:安装 Aria2GUI主程序(Aria2GUI 1.3.8.dmg)配置Chrome浏览器打开Chrome浏览器,点击偏好设置...

2018-10-28 22:57:12 7634 1

原创 本地与服务器之间的的相关操作

一、服务器与本地之间上传、下载文件1. 从服务器下载文件scp username@servername:/remote_path/filename ~/local_destination2. 上传本地文件到服务器scp ~/local_path/local_filename username@servername:/remote_path3. 从服务器下载整个目录scp -r us...

2018-10-23 23:39:42 191

原创 RedisCrawlSpider爬虫遇到 `明威把`不能转换为汉字的解决办法

问题阐述爬取网页时,正常情况下python3中能直接转化为utf-8,即所谓的汉字能够正常显示。所以即使网页中显示的是这种escape sequence,获取到之后能够显示正常,但是偶尔也不好使,不好使的情况下就会出现以下的charref状态:明威把解决方法In [1]: from html.parser import HT...

2018-10-22 21:34:55 477

原创 Mongodb的使用方法&与python的交互

一、Mongodb的介绍和安装1. nosql的介绍“NoSQL”⼀词最早于1998年被⽤于⼀个轻量级的关系数据库的名字随着web2.0的快速发展, NoSQL概念在2009年被提了出来NoSQL在2010年⻛⽣⽔起, 现在国内外众多⼤⼩⽹站, 如facebook、 google、 淘宝、 京东、 百度等, 都在使⽤nosql开发⾼性能的产品对于⼀名程序员来讲, 使⽤nosql已经成为...

2018-10-15 18:48:06 803

原创 使用gevent.monkey.patch_all() 协程池遇到阻塞,在任务中添加一个sleep()搞定~

关于使用gevent.monkey.patch_all()遇到阻塞解决办法:import gevent.monkeygevent.monkey.patch_all()在进行多线程时monkey会阻塞住线程的继续执行,需要对monkey.patch_all进行处理, 在实例中添加一个sleep()可以解决,这里时间可以设置一个非常小的数就可以了~class Example: ........

2018-10-11 10:58:42 4931

原创 Docker运行tracker,The path /var/fdfs/tracker is not shared from OS X and is not known to Docker

Docker装FastDFS,运行tracker,错误:The path /var/fdfs/tracker is not shared from OS X and is not known to Docker执行如下命令开启tracker 服务docker run -dti --network=host --name tracker -v /var/fdfs/tracker:/var/fdf...

2018-09-18 10:28:19 4331 2

原创 python用matplotlib作图的时候,中文标注无法正常显示,乱码为小方框的解决办法

关于python引用matplotlib作图的时候,中文标注无法正常显示,乱码为小方框 通常在作图的时候,没有设置字体以为是默认字体,但是这里会追踪不到字体的位置,运行下面的代码,出现的图会出现不能显示中文的异常from matplotlib import pyplot as pltimport randomx = range(0,120)y = [random.randint(20...

2018-09-16 22:01:37 24089 10

Scala快速从入门到神坑

一、 简介 二、 Scala安装 1. 在Windows操作系统中安装Scala 2. 在Linux操作系统中安装Scala 三、Scala 基础部分 3.1 声明值和变量 3.1.1 val变量 3.1.2 var 变量 3.2 级别数据类型和操作 3.2.1 级别数据类型 3.2.2 操作符 3.3 Range 3.4 打印语句 3.5 读写文件 3.5.1 写入文本文件 3.5.2 读取文本文件中的行 四、控制结构 4.1 if条件表达式 4.2 while循环 4.3 for循环 4.3.1 实例 4.3.2 for推导式 五、 数据结构 5.1 数组 5.2 列表(List) 5.3 元组(Tuple) 5.4 集(Set) 5.5 映射(Map) 5.6 迭代器(Iterator) 六、类(Class) 6.1 简单的类 6.2 给类增加字段和方法 6.3 创建对象 6.4 编译和执行 6.5 getter 和setter方法 6.6 辅助构造器 6.7 主构造器 七、对象(Object) 7.1 单例对象 ......

2022-09-19

R语言的实操教程,助力打造R生态

1. R环境安装 2. R 基本知识 2.1. R 基础语法 2.2. R 注释 2.3. R 基础运算 2.4. R 数据类型 2.5. R 判断语句 2.6. R 循环 2.7. R 函数 2.8. R 字符串 2.9. R 列表 2.10. R 矩阵 2.11. R 数组 2.12. R 因子 2.13. R 数据框 2.14. R 数据重塑 3. R 包 4. R 数据接口 4.1 R语言对接CSV文件 4.2 R语言对接Excel文件 4.3 R语言对接二进制文件 4.4 R语言对接XML文件 4.5 R语言对接JSON文件 4.6 R语言对接数据库 5. R 统计示例 5.1 平均值,中位数和模式 5.2 线性回归 5.3 多重回归 5.4 逻辑回归 5.5 标准分布 5.6 二项分布 5.7 泊松分布 5.8 协方差分析 5.9 时间序列分析 5.10 非线性最小二乘 Email:yanpenggong@163.com 目录 目录 R语言环教程 5.11 决策树 5.12 随机森林算法 5.13 生存分析 5.14 卡方检验 6. R 图表

2022-07-05

Redis教程-从入门到神坑

从最开始安装软件,到整个数据库的使用,无缝衔接

2022-05-26

自学使用Github搭建图床

通过使用Github搭建图床,存储blog图像,随时随地使用,便捷实用,随时下载,不担心到处找地方存储。

2022-04-19

Python:雷达图的实现 的 air_data

Python:雷达图的实现 的 air_data

2022-03-14

自学C++教程-入门到精通的初步者

一、C++ 环境设置 1. 文本编辑器 2. C++编译器 2.1 安装 GNU 的 C/C++ 编译器 2.2 使用 Visual Studio (Graphical Interface) 编译 3. g++ 应用说明 4. g++ 常用命令选项 二、基础教程 1. 基本语法 1.1 程序结构 1.2 编译 & 执行 C++ 程序 1.3 C++ 中的分号 & 语句块 1.4 C++ 标识符 1.5 C++ 关键字 1.6 三字符组 1.7 C++ 中的空格 2. 注释 3. 数据类型 3.1基本的内置类型 3.2 typedef 声明 3.3 枚举类型 4. 变量类型 4.1 C++ 中的变量定义 4.2 C++ 中的变量声明 4.3 C++ 中的左值(Lvalues)和右值(Rvalues) 5. 变量作用域 5.1 局部变量 5.2 全局变量 5.3 初始化局部变量和全局变量 6. 常量 6.1 整数常量 6.2 浮点常量 6.3 布尔常量 6.4 字符常量 6.5 字符串常量 6.6 定义常量 7.修饰符类型 8. 存储类 8.1 auto 存储类 8.2 register

2022-02-21

matplotlib示例.pdf

基于matplotlib官网汇总常用的 Python 的matplot 部分实例,基本操作手册。

2021-12-08

CDH6.3.2集成Flink1.12.2-parcel包(apache Flink-1.12.2-bin-scala_2.12.tgz)

源码编译制作的parcel包,linux+cdh6.3.2+scala2.12必然可用,内附文章的教程地址。

2021-04-15

original-spark-examples-2.4.3.jar.zip

源码编译制作的parcel包,亲测可用。 pyspark访问hbase2报错的解决方案,下载spark2.4.3的源码重新打包。

2021-04-07

Spark性能优化指南.pdf

Spark性能优化指南.pdf

2021-04-07

第五章 支持向量机(SVM).pdf

支持向量机(简称SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或非线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一,任何对机器学习感兴趣的人都应该在工具箱中配备一个。SVM特别适用于中小型复杂数据集的分类。

2019-08-20

SHELL自动化测试

shell自动化运维。shell是位于操作系统和应用程序之间,是他们二者最主要的接口,shell负责把应用程序的输入命令信息解释给操作系统,将操作系统指令处理后的结果解释给应用程序。

2018-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除