自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Miracle.Zhao的博客

You Reap What You Sow

  • 博客(329)
  • 资源 (6)
  • 论坛 (1)
  • 收藏
  • 关注

原创 python通过下载链接批量获取数据

我们在获得下载数据的请求,怎么根据请求地址直接保存成对应的文档。这里的下载请求是,把链接地址放在浏览器里是可以直接下载文件的,这样的地址哈把下载地址补充完整即可#引用 requests文件import requests#下载地址Download_addres=''#把下载地址发送给requests模块f=requests.get(Download_addres)#下载文件with open("12.xlsx","wb") as code: code.write(f.

2021-05-18 17:05:01 1

转载 TensorFlow之机器学习入门

TensorFlow 应用实例上面介绍了 TensorFlow 中的一些基本概念,下面我们通过一个小例子来了解一下怎么使用 TensorFlow 进行机器学习。建立模型(Model)如下为我们进行某项实验获得的一些实验数据:输入 输出 1 4.8 2 8.5 3 10.4 6 21 8 25.3 我们将这些数据放到一个二维图上可以看的更直观一些,如下,这些数据在图中表现为一些离散的点:我们需要根据现有的这些数据归纳出一个通用

2021-04-19 16:07:07 2587

转载 TensorFlow基础知识(一)

张量(Tensor)TensorFlow 内部的计算都是基于张量的,因此我们有必要先对张量有个认识。张量是在我们熟悉的标量、向量之上定义的,详细的定义比较复杂,我们可以先简单的将它理解为一个多维数组:3 # 这个 0 阶张量就是标量,shape=[][1., 2., 3.] # 这个 1 阶张量就是向量,shape=[3][[1., 2., 3.], [4., 5.

2021-04-19 15:50:13 2581

原创 Mysql中left join中where和on的区别

leftjoin中关于where和on条件的几个知识点:1.多表leftjoin是会生成一张临时表,并返回给用户2.where条件是针对最后生成的这张临时表进行过滤,过滤掉不符合where条件的记录,是真正的不符合就过滤掉。3.on条件是对leftjoin的右表进行条件过滤,但依然返回左表的所有行,右表中没有的补为NULL4.on条件中如果有对左表的限制条件,无论条件真假,依然返回左表的所有行,但是会影响右表的匹配值。也就是说on中左表的限制条件只影响右...

2021-04-11 21:07:56 3499

翻译 私域经营中KOT、KOL、KOC 理解

在私域经营的研究时,发现几个名词,KOL和KOC,现查找资料记录一下:一、 KOT、KOL、KOC 名词解释营销就是品牌将合适的信息通过合适的渠道传递给合适的用户。在营销的发展过程中,有以下三个阶段:(1)KOT第一阶段:以渠道为王,由权威渠道背书,用户信权威;以“渠道”为核心的阶段。(2)KOL(Key Opinion Leader 核心意见领袖)第二阶段:伴随社交时代的兴起,在品牌和用户之间,多了一类人:KOL,关键意见领袖——某个领域的专家。该阶段的品牌营销,是KOL背书,用户信的是专

2021-03-30 17:22:29 4653

翻译 初识区块链

01 区块链概念区块链可以借由密码学,串接并保护内容的串联交易记录(又称区块)。在区块链中,区块内容具有难以篡改的特性,每一个区块都包含了前一个区块的加密散列、相应时间戳记以及交易数据(通常用Hash树计算的散列值表示)。用区块链串接的分布式账本能让交易双方有效地记录交易,且可永久查验。02 区块链原理区块链技术可以认为是要解决互联网时代下的“拜占庭将军问题”,即在网络中的中心节点和信息传递通道都缺乏可信度的情况下,如何使网络中的各个节点达成共识。区块链技术在去中心化、各节点无须事先信任的情

2021-03-27 16:04:52 5042

原创 python操作图片批量保存成PDF文件

有个脚本需求:就是把一个一个图片获取下来,并把图片拼接成一个PDF文档。代码如下:#-*-coding:utf-8-*-"""CreatedonMonMar809:50:582021@author:zm"""importrequestsfromfpdfimportFPDFfromPILimportImageimportosimportreos.chdir('C:/Users/Administrator/Desktop/33/')...

2021-03-17 17:27:47 6418 2

原创 python中 FPDF error:Not a PNG file :‘1.png‘

使用FPDF操作图片转化成PDF的时候,运行出现这样的错误FPDF error:Not a PNG file :'1.png'出现这个错误的原因:是获取图片的时候 PNG和JPG格式定义错了我的图片之前是jpg格式,然后我改后缀名改成png,看起来你已经修改了,但实际上还是没有改,图片依然是jpg格式的,所以解决办法就比较简单了:1.确定目标图片的格式,是JPG还是PNG还是其他格式2.把FPDF中用到的格式改成和目标一致的图片格式即可。...

2021-03-17 17:20:54 6369

原创 python中列表中字符串按数字排列

列表字符串如下所示:aa=['1.png','10.png','2.png','3.png']很正常的情况下,会想让上述的aa变成aa=['1.png','2.png','3.png','10.png']该如何实现呢?先记录一下s = ['1.png','10.png','2.png','3.png']new = sorted(s,key = lambda i:int(re.match(r'(\d+)',i).group()))print new上述结果就是:['1.pn.

2021-03-17 17:15:55 6305

原创 java一次跳出多重循环

java在跳出循环的时候提供两种方式:break:结束当前循环,接着执行循环下面的代码continue:结束本次循环,继续下一次循环。但是在处理业务逻辑的时候,有可能要跳出多层循环,比如:for (int i = 0; i < 100; i++){ for (int j = 0; j < 10; j++) { System.out.println("双循环代码") //想在这里直接跳出双重循环??? .

2021-03-03 18:15:05 7498 3

原创 大白话详解Python中if __name__ == ‘__main__‘

该文章转自地址, 感觉特别好,转载收藏一下,以备及时查阅。1 if __name__ == '__main__'1.1 摘要通俗的理解__name__ == '__main__':假如你叫小明.py,在朋友眼中,你是小明(__name__ == '小明');在你自己眼中,你是你自己(__name__ == '__main__')。if __name__ == '__main__'的意思是:当.py文件被直接运行时,if __name__ == '__main__'之下的代码块将被运行;当..

2021-02-25 15:00:09 7548

原创 数据挖掘之关联规则(Apriori算法)

整理写一份比较易懂的Apriori算法:关联规则想必大家都是听说过 尿布和啤酒的故事;在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础

2021-02-18 17:34:01 7976

翻译 python去除PDF中印章

import sys, fitz, os, datetimeimport timefrom PIL import Imageimport numpy as npimport tabula'''fitz库是什么,它是pymupdf中的一个模块,操作PDF非常舒服,只需要pip安装即可:pip install pymupdf'''def pyMuPDF_fitz(pdfPath, imagePath, zoomNum):startTime_pdf2img = dat.

2021-02-05 11:02:45 7661 2

原创 python爬虫OpenSSL.SSL.Error: [(‘SSL routines‘, ‘ssl3_get_server_certificate‘, ‘certificate verify fail

今天在获取很久之前写的爬虫的时候传送门发现运行直接报错,除了网站更改以后的错误(网站加强了反爬措施),还报了另外一个错:SSLError: bad handshake: Error([('SSL routines', 'SSL3_GET_SERVER_CERTIFICATE', 'certificate verify failed')],)后来查询意思是 request证书过期:该问题的原因是:因为网址使用了https,所以经过代理时会报错。报错原因是:Python3之关闭SSL证书验证解.

2021-02-02 17:18:48 7443

原创 VSCode官网下载缓慢或下载失败的解决办法

最近需要重新使用vscode工具,需要重新下载这个工具,公司的网总是下载中断或者失败,究其原因大概是因为不是国内的服务器吧,在知乎上发现一个解决办法,现在整理下来,来帮助下载vscode受折磨的伙伴。首先在官网找到需要下载的文件,点击下载。在浏览器或者下载软件中就可以看到这么一个下载地址了,将其复制下来 这里没找到一个很好的复制方法,可以上下结合,只要最后保证下载连接的准确性和完整性即可。。然后将红框内的部分更换为如下内容:vscode.cdn.azure.cn<--------.

2021-01-06 12:19:49 37805 122

原创 HIVE中导入文件后数据量变多原因和去除换行符的解决办法

在使用excel导入文件进入hive的时候,一切顺利,但是导入后查询数据,发现数据量变多了,比如:一开始excel中的数据量是8000条,导入hive后,查询的数据变成10000多条,数据量在导入后变多了。于是查找原因首先从hive建的表开始查起,表的建表语句如下下所示:create table if not exists TMP_T1( T1 VARCHAR(100) comment 't1', T2 VARCHAR(100) comment 't2', T3 VARCHAR(100)

2020-12-27 15:34:19 7593

原创 HIVE中纵表转横表

最近在写hive脚本的时候,遇到一个问题就是,现在存在一个纵表(详细表),如下所示 table T1id bankname cardname 1 中国银行 金卡 2 中国银行 白金卡 3 建设银行 普卡 4 工商银行 金卡 5 建设银行 钻石卡 想把上面的纵表变为横表便于观看,如下所示:id bankname1 cardname1 bankname2 cardname2 .

2020-12-27 14:49:22 7620

原创 大白话讲解Spark中的RDD

资料中:Spark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。RDD的三个特性:分区,不可变,并行操作。• RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来 操作分布式数据集的抽象实现• RDD 是 Spark 最核心的东西,它表示已被分区,不可变的并能 够被并行操作的数据集合,不同的数据集格式对应不同的 RDD 实现RDD特点:• RDD 必须是可序列化的•

2020-11-15 16:37:28 7558

原创 hive中分区和分桶的一些简单理解

一、Hive分区。是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。常用的分区字段都是按照时间来区分。#创建分区表create table t1 (id int co...

2020-11-14 23:28:25 7549

原创 白话解释hive中Rank,Dense_Rank, Row_Number组内排序函数

SQL很熟悉的3个组内排序函数了。语法一样:ROW_NUMBER/RANK/DENSE_RANK() over (partion by col1... order by col2... desc/asc)看个例子:查询每个班级每门课程的排名情况:select class1, score, rank() over(partition by class1 order by score desc) rk1, dense_rank() over(partiti...

2020-11-14 17:29:04 7461

翻译 通俗易懂大数据生态

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能...

2020-11-11 13:09:23 7489 2

原创 MYSQL中获取上个月最后一天并把10位日期转化位8位日期格式

项目需要,需要把‘2020-10-31’转化成转化成20201031 ,也就是10位转8位。参考代码如下:select date_format(date_sub(date_sub(date_format(now(),'%Y%m%d'),interval extract(day from now()) day),interval 0 month),'%Y%m%d') as dd;...

2020-11-09 14:06:50 7611

转载 HIVE中ROW_NUMBER()函数的讲解

ROW_NUMBER()函数ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)1上述代码含义是首先根据COLUMN1进行结果集分组,结果集内部按照COLUMN2分组,输出结果是类似于双重分组的结果。select id,dept,salary,ROW_NUMBER() OVER(PARTITION BY dept ORDER BY salary)1执行结果为:id dept salary row_number1 a 10000

2020-10-25 17:34:27 7824

原创 HIVE中连接条件不能使用LIKE模糊匹配的解决办法

在使用hive的中需要多表关联的时候,想使用模糊匹配的like进行模糊匹配的时候,执行代码如下所示:SELECT * FROM TABLE1 ALEFT JOINTABLE2 BON A.XX LIKE CONCAT('%' , B.YY , '%')这段代码在DB2 中是可以顺利执行的,但是在hive就是会报错,原因就是hive中不能很好的处理非等值连接,但是hive中也提供了别的处理方式,来达到在连接时使用模糊匹配的效果。hive中提供了一个locate()的函数;locat

2020-10-25 17:27:43 8124

原创 HIVE中ParseException line 5:0 missing ALL at ‘select‘ near

在公司部署的hive环境中,按照DB2 的思维使用union all 来连接两个查询,并同时去重,但是使用UNION ALL之后就发现调度的时候出现ParseException line 5:0 missing ALL at 'select' near ''的错误!!后来查询了一下官方的文档,才发现Hive在1.2.0之前的版本只支持union all,在1.2.0之后的版本才支持union.官方的文档:官方文档才明白部署的版本过低了,但是为了解决当前的问题,只能另辟蹊径了。一般的使..

2020-10-25 17:13:46 7986 2

原创 如何看ROC,LIFT,PR,KS曲线

1.ROC曲线ROC(receiver operating characteristic)接受者操作特征,其显示的是分类器的真正率和假正率之间的关系ROC曲线有助于比较不同分类器的相对性能,当FPR小于0.36时M1浩宇M2,而大于0.36是M2较好。ROC曲线下面的面积为AUC(area under curve),其面积越大则分类的性能越好,理想的分类器auc=1。一般AUC>0.8分类器还可以。 图来自https://blog.csdn.net/taoyanqi8932/ar.

2020-09-10 15:14:44 7754

原创 Maven项目在编译的时候出现cannot find symbol的错误解决办法

在项目编译的时候出现cannot find symbol的错误,顾名思义就是找不到符号???下面应该是有一个 symbol:class XXXX 这样的一个形式看到这个其实 简单理解就是可能是依赖有问题,找不到某个依赖,如果确保这个依赖是已经有了,或者这个根本就没有别的依赖,我遇到的就是,提示告诉我reslutsetMetadata这个class没有,找不到这个类的符号,但是这个类是确定是不需要再依赖别的依赖类,所以采取的办法就是很粗暴了。简单粗暴地使用“Maven Update Project

2020-09-10 14:39:54 10821

原创 java中ResultSet使用next()取不到第一条数据的解决办法

在coding的时候,发现每次使用JDBC连接数据库的时候,使用resultset每次使用next()方法循环取出查询的数据的时候,发现每次用到第一条的数据的时候总是抛出异常,后来debug的时候,才发现每次都是第一条记录是取不到的。后来检查代码的时候,才发现呢,我在每次while(rs.next())的之前使用了if(rs.next())的方法,代码格式如下所示:if(!rs.next()) //结果集为空{ //执行某操作}while(rs.next()){

2020-08-16 12:04:41 8350 1

原创 java中把字符串转成可计算的算术表达式

最近有个需求,就是文件校验类的需求:1.业务部门会提前列出所有参与计算的校验公式,我们相当于根据这些校验公式来不断的取数校验。其中在我们把所有公式替换为对应的数值后,如何才能把这个带数值的字符串转化为一个可以得到计算结果的算术表达式呢?例如:校验公式是20A+21B=22C.经过数值替换后变成:20A是11,21B是12 ,22C是31,那么上述的校验公式就是11+12=31,显然11+12是等于23,所以上述的公式是不成立的。现在就是如何把11+12=31这个字符串表达式转成算是表达

2020-08-16 11:55:02 8451

原创 使用python获取中国证券投资基金业协会上数据

目标网址:http://www.amac.org.cn/这个网站上只有查询功能,但是业务想要上面的数据进行更有效的分析。所以记录一下。就拿私募基金这个相对比较难的,难点不在于数据难拿,难点在于 我们想要的数据要层层筛选,也就是说为了拿到一条完整的数据需要请求三次页面才能够拿到完整的数据,且,后一页的数据通过前一页面上的数据拿到后一页的请求地址,所以要发送三次请求。如下图所示:看看这个页面的请求:看到这个请求后,还是比较简单的。为一个算“反爬”措施的是 rand=XXX..

2020-07-12 16:44:06 8359 4

原创 java.lang、java.io、java.net、java.util解释整理

为应对近期单位认证:整理点Java知识首先整理Java常见的类库:1.Java.lang这个算是我们开发经常用到的基础类了,包含的类有object超类,8种类型的包装类,字符串类,线程类,异常类等如下所示:图来自:链接异常处理机制:ThrowableThrowableThrowable是 Java 语言中所有错误或异常的超类。Throwable包含两个子类: Error 和 Exception。它们通常用于指示发生了异常情况。Throwable包含了其线程创建时线程执行.

2020-06-26 00:25:44 7766

原创 java使用sql语句中使用like来传参数出现java.util.UnknownFormatConversionException:Conversion=

今天在修改一个很古老项目的时候,有一个需求就是要在sql查询里使用like来传递参数,进行模糊查询。如下所示: sql_Static_person = String.format( "select * from t_info where HD='%s' and (GG='%s' or GG is null) and BS<=1 and ZH='%s' and flag=0 and bz like %s ",aa(), bb(), cc(),dd());其实需求很简单,就

2020-06-23 10:56:30 7585

原创 MySQL和Java中关于时间日期汇总(持续更新)

最近在写SQL的时候,总是会遇到很多SQL相关的日期时间问题,汇总于此,便于查看。1.获取上个月最后一个工作日的日期2.获取当前日期往后推迟一个月3.获取当前日期select curdate();4.获取当月最后一天select last_day(curdate());5.获取本月的第一天select date_add(curdate(),interval -day(curdate())+1 day) ;6.获取下个月的第一天select date_add(cu..

2020-06-07 16:52:21 7459

原创 初识数据仓库

首先的疑问是什么是数据仓库?作为理工科出身多多少少都会了解数据库的概念,我也一样,了解的层面可能只是知道数据库是存储我们很多系统里用的数据的地方,可能也只是在这个层面了,对于数据仓库的也只是停留在听说的层面。为了了解什么是数据仓库,我可以简单的举个小例子。假设有一天,你收到你boss的任务,要求你在半天的时间内分析一个公司几个项目的业绩分析报表要求,你觉得很简单,因为操作已经在你脑子里...

2020-04-12 15:50:38 7506

原创 MySQL中通过SQL来获得所有当年年月的解决办法

我们在做项目的时候,很多时候我们只需要使用当前一年内的年月,而不用日期的具体的时间,目前很多提供的控件,可能要么可以直接获取年月日和具体的时间,要么就是直接获取年月日,那么很多时候不适合我们的需求,不过我们可以通过编程的方法来解决,比如我们通过程序的方式来截取时间,截到月份即可,也能符合我们的需求,但是今天想提供另外一个方法,直接通过SQL来获取日期的年月。通过下面的SQL代...

2020-04-06 17:20:05 7897

原创 java里使用jsonarray获取值判断null值无效的解决办法

项目需要使用的是net.sf.json.JSONArray的包,没有使用阿里巴巴的JSONArray oo =XXXXX;在需要oo.get()的方法来判断是不是null的时候,遇到了很大的坑,初始的想法就是:if(oo.get(0)==null){....}然后总是结果不是想要的,于是debug发现即使oo.get(0)的值null,程序也不走这个位置,所以这个位置应该不是...

2020-03-20 12:43:39 8589

原创 java调用db2存储过程出现 ERRORCODE=-4476, SQLSTATE=null错误的解决办法

需求:项目需要 使用java调取db2的存储过程,然后根据结果集得到一共返回多少条数据?跟大家一样 使用如下的办法:如上图的红框内:使用rs.last()返回到数据集的结尾,然后来得到这个记录数。然而在生产环境上进行同步的时候出现了ERRORCODE=-4476, SQLSTATE=null,翻遍全网没有同样的情况,蓦然回首发现还是获取数据量的时候出现了错误。把上图红色框内...

2020-03-10 17:04:27 8563

原创 mysql 中 使用truncate table XXXX 的时候出现 DROP command denied to user 'xxx' for table ' YYY的问题解决

最近在使用全量更新数据的时候想使用truncate table的时候,在测试环境没有任何问题,但是在生产线上环境出现了如下的错误:drop command denied to XXXX....的错误,一开始很是奇怪,明明自己使用的truncate 但是为什么会出现drop的错误呢?经过查找资料:【参考】http://dev.mysql.com/doc/refman/5.1/en/...

2020-03-10 15:16:46 12109

原创 爬虫post请求时候参数出现A JSONAray text must start with '[' at character 1 of ...时候解决办法

最近在拿数据的时候,获取数据很简单,就是一个post请求,出现如下的错误:一开始时候的获取是通过下面的方式拿数据的。但是这种方式总是出现A JSONAray text must start with '[' at character 1 of ...的错误,从这两个错误中,就很容易理解,它同时是我们再进行post请求的时候,参数里是[]是以这个形式传递的,但是我们在进行post请求...

2020-02-29 16:56:42 7583

原创 大白话讲解SQL注入

先看一副有趣的漫画这幅画就是sql注入的精华了。什么是SQL注入:SQL注入是一种非常常见的数据库攻击手段,SQL注入漏洞也是网络世界中最普遍的漏洞之一。大家也许都听过某某学长通过攻击学校数据库修改自己成绩的事情,这些学长们一般用的就是SQL注入方法。SQL注入其实就是恶意用户通过在表单中填写包含SQL关键字的数据来使数据库执行非常规代码的过程。简单来说,就是数据「越俎...

2020-02-04 20:18:32 7830

python 3 实现NIST二进制序列随机测试

NIST软件包太难用了,用python实现了,每个单独的py文件都是可以运行的,大家只需要把密钥改成自己的即可

2018-04-19

程序员浪漫之表白程序

自己可以简单的修改源码,换成你自己心爱人的名字,效果很炫。

2017-01-16

libsvm工具包

机器学习中SVM分类器中,我们常用的libsvm工具箱。有vc++直接使用。

2017-01-16

Android的API

Android开发所必须要用的,提高开发效率。

2017-01-16

javaEE的API

2017-01-16

JDK的API参考

2017-01-16

这孩子谁懂哈的留言板

发表于 2020-01-02 最后回复 2020-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除