- 博客(379)
- 资源 (8)
- 收藏
- 关注
原创 MYSQL8.0.26最新安装教程
1,打开官网进行下载地址:https://www.mysql.com/downloads/https://www.mysql.com/downloads/如下图所示:点击下载后是一个压缩包,解压一下,成文件夹2,安装教程(1)配置环境变量变量名:MYSQL_HOME变量值:E:\MySql\mysql-8.0.27-winx64\mysql-8.0.27-winx64 (地址要到bin的文件父文件)(2)生成data文件以管理员身份运行c...
2021-11-28 14:26:37 2785
原创 企业微信自动批量打标签脚本
通过脚本对企业微信进行批量打标签本脚本实现下面两个功能:1.通过个人账号批量打标签2.通过导入的外部联系人ID进行批量打标签注意:要及时更换XXXX,YYYYY,ZZZZZ的公司相关ID#coding=utf-8import requestsimport randomimport jsonimport csvimport codecsimport xlrdimport osfrom lxml import etreeimport urllib3#看了访问频
2021-11-22 19:15:38 4949
原创 python 常用命令集合
where python --查看python安装路径pip list --查看已安装的包pip show beautifulsoup4 --查看包安装路径
2021-09-27 19:09:59 2961
原创 python安装模块报错WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))
安装第三发模块的时候报如下错误:WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x1114a1160>: Failed to establish a ne
2021-08-27 10:39:52 6771 2
原创 使用SnowNLP对影评进行情感分析
1.准备数据集2.准备相关包from snownlp import SnowNLPimport codecsimport osimport matplotlib.pyplot as pltimport numpy as np3.代码对豆瓣电影《肖申克的救赎》评论进行情感分析。1.情感各分数段出现频率首先统计各情感分数段出现的评率并绘制对应的柱状图,代码如下# -*- coding: utf-8 -*-from snownlp import SnowNLPimpor
2021-07-04 20:21:44 9012 12
原创 使用Python绘制词云图(正常形状)
1.准备的包import jiebaimport sysimport matplotlib.pyplot as pltfrom wordcloud import WordCloud 缺少包直接pip 安装即可。2.数据集准备data.txt是一个电影的评论。3.代码# -*- coding: utf-8 -*-import jiebaimport sysimport matplotlib.pyplot as pltfrom wordcloud import W
2021-07-04 19:40:42 3818
原创 使用Python绘制词云图(自定义形状)
1.使用Python需要事先准备的包from wordcloud import WordCloudimport osfrom os import pathimport matplotlib.pyplot as pltimport jiebafrom imageio import imread2.准备一个词云图的背景图片就是想把词云图生成什么样子的背景,比如下图:3.代码如下from wordcloud import WordCloudimport osfrom os
2021-07-04 13:38:27 14704 2
原创 Scala中reduce用法
reduce将RDD中元素前两个传给输入函数,产生一个新的return值,将新产生的return值与RDD中下一个元素(即第三个元素)组成两个元素,再被传给输入函数,这样递归运作,直到最后只有一个值为止。*/val rdd07 = sc.parallelize(1 to 10)val sum = rdd07.reduce((x, y) => x + y)println("sum is " + sum)...
2021-06-20 17:48:39 4633
原创 Scala中的-> 与 <-以及=>和_的解释
<-只会出现在for循环里面->只会出现在k->v里面但是=>就较为复杂了,一般主要是在匿名函数中的使用
2021-06-20 17:00:51 4655
原创 java在项目中用浏览器打开指定的网页
有个需求就是打开一个固定网址package com.demo;import java.io.File;public class OpenPageDemo { public static void main(String[] args) { try { String url = "http://www.csdn.net/"; java.net.URI uri = java.net.URI.create(url); // 获取当前系统桌面扩展 j.
2021-05-28 15:12:19 5869
原创 java使用post调取接口
public static String sendSZPost(String url, String params, String secretKey) throws UnsupportedOperationException, IOException { byte[] requestBytes = params.getBytes("utf-8"); // 将参数转为二进制流 HttpClient httpClient = new HttpClient();// 客户端实例化 ..
2021-05-28 15:09:15 5908
原创 python通过下载链接批量获取数据
我们在获得下载数据的请求,怎么根据请求地址直接保存成对应的文档。这里的下载请求是,把链接地址放在浏览器里是可以直接下载文件的,这样的地址哈把下载地址补充完整即可#引用 requests文件import requests#下载地址Download_addres=''#把下载地址发送给requests模块f=requests.get(Download_addres)#下载文件with open("12.xlsx","wb") as code: code.write(f.
2021-05-18 17:05:01 7477
转载 TensorFlow之机器学习入门
TensorFlow 应用实例上面介绍了 TensorFlow 中的一些基本概念,下面我们通过一个小例子来了解一下怎么使用 TensorFlow 进行机器学习。建立模型(Model)如下为我们进行某项实验获得的一些实验数据:输入 输出 1 4.8 2 8.5 3 10.4 6 21 8 25.3 我们将这些数据放到一个二维图上可以看的更直观一些,如下,这些数据在图中表现为一些离散的点:我们需要根据现有的这些数据归纳出一个通用
2021-04-19 16:07:07 7954
转载 TensorFlow基础知识(一)
张量(Tensor)TensorFlow 内部的计算都是基于张量的,因此我们有必要先对张量有个认识。张量是在我们熟悉的标量、向量之上定义的,详细的定义比较复杂,我们可以先简单的将它理解为一个多维数组:3 # 这个 0 阶张量就是标量,shape=[][1., 2., 3.] # 这个 1 阶张量就是向量,shape=[3][[1., 2., 3.], [4., 5.
2021-04-19 15:50:13 8034
原创 Mysql中left join中where和on的区别
leftjoin中关于where和on条件的几个知识点:1.多表leftjoin是会生成一张临时表,并返回给用户2.where条件是针对最后生成的这张临时表进行过滤,过滤掉不符合where条件的记录,是真正的不符合就过滤掉。3.on条件是对leftjoin的右表进行条件过滤,但依然返回左表的所有行,右表中没有的补为NULL4.on条件中如果有对左表的限制条件,无论条件真假,依然返回左表的所有行,但是会影响右表的匹配值。也就是说on中左表的限制条件只影响右...
2021-04-11 21:07:56 9501
翻译 私域经营中KOT、KOL、KOC 理解
在私域经营的研究时,发现几个名词,KOL和KOC,现查找资料记录一下:一、 KOT、KOL、KOC 名词解释营销就是品牌将合适的信息通过合适的渠道传递给合适的用户。在营销的发展过程中,有以下三个阶段:(1)KOT第一阶段:以渠道为王,由权威渠道背书,用户信权威;以“渠道”为核心的阶段。(2)KOL(Key Opinion Leader 核心意见领袖)第二阶段:伴随社交时代的兴起,在品牌和用户之间,多了一类人:KOL,关键意见领袖——某个领域的专家。该阶段的品牌营销,是KOL背书,用户信的是专
2021-03-30 17:22:29 16304
翻译 初识区块链
01 区块链概念区块链可以借由密码学,串接并保护内容的串联交易记录(又称区块)。在区块链中,区块内容具有难以篡改的特性,每一个区块都包含了前一个区块的加密散列、相应时间戳记以及交易数据(通常用Hash树计算的散列值表示)。用区块链串接的分布式账本能让交易双方有效地记录交易,且可永久查验。02 区块链原理区块链技术可以认为是要解决互联网时代下的“拜占庭将军问题”,即在网络中的中心节点和信息传递通道都缺乏可信度的情况下,如何使网络中的各个节点达成共识。区块链技术在去中心化、各节点无须事先信任的情
2021-03-27 16:04:52 13311 1
原创 python操作图片批量保存成PDF文件
有个脚本需求:就是把一个一个图片获取下来,并把图片拼接成一个PDF文档。代码如下:#-*-coding:utf-8-*-"""CreatedonMonMar809:50:582021@author:zm"""importrequestsfromfpdfimportFPDFfromPILimportImageimportosimportreos.chdir('C:/Users/Administrator/Desktop/33/')...
2021-03-17 17:27:47 12503 3
原创 python中 FPDF error:Not a PNG file :‘1.png‘
使用FPDF操作图片转化成PDF的时候,运行出现这样的错误FPDF error:Not a PNG file :'1.png'出现这个错误的原因:是获取图片的时候 PNG和JPG格式定义错了我的图片之前是jpg格式,然后我改后缀名改成png,看起来你已经修改了,但实际上还是没有改,图片依然是jpg格式的,所以解决办法就比较简单了:1.确定目标图片的格式,是JPG还是PNG还是其他格式2.把FPDF中用到的格式改成和目标一致的图片格式即可。...
2021-03-17 17:20:54 13476 1
原创 python中列表中字符串按数字排列
列表字符串如下所示:aa=['1.png','10.png','2.png','3.png']很正常的情况下,会想让上述的aa变成aa=['1.png','2.png','3.png','10.png']该如何实现呢?先记录一下s = ['1.png','10.png','2.png','3.png']new = sorted(s,key = lambda i:int(re.match(r'(\d+)',i).group()))print new上述结果就是:['1.pn.
2021-03-17 17:15:55 12390
原创 java一次跳出多重循环
java在跳出循环的时候提供两种方式:break:结束当前循环,接着执行循环下面的代码continue:结束本次循环,继续下一次循环。但是在处理业务逻辑的时候,有可能要跳出多层循环,比如:for (int i = 0; i < 100; i++){ for (int j = 0; j < 10; j++) { System.out.println("双循环代码") //想在这里直接跳出双重循环??? .
2021-03-03 18:15:05 12946 3
原创 大白话详解Python中if __name__ == ‘__main__‘
该文章转自地址, 感觉特别好,转载收藏一下,以备及时查阅。1 if __name__ == '__main__'1.1 摘要通俗的理解__name__ == '__main__':假如你叫小明.py,在朋友眼中,你是小明(__name__ == '小明');在你自己眼中,你是你自己(__name__ == '__main__')。if __name__ == '__main__'的意思是:当.py文件被直接运行时,if __name__ == '__main__'之下的代码块将被运行;当..
2021-02-25 15:00:09 17795
原创 数据挖掘之关联规则(Apriori算法)
整理写一份比较易懂的Apriori算法:关联规则想必大家都是听说过 尿布和啤酒的故事;在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础
2021-02-18 17:34:01 23571
翻译 python去除PDF中印章
import sys, fitz, os, datetimeimport timefrom PIL import Imageimport numpy as npimport tabula'''fitz库是什么,它是pymupdf中的一个模块,操作PDF非常舒服,只需要pip安装即可:pip install pymupdf'''def pyMuPDF_fitz(pdfPath, imagePath, zoomNum):startTime_pdf2img = dat.
2021-02-05 11:02:45 14549 3
原创 python爬虫OpenSSL.SSL.Error: [(‘SSL routines‘, ‘ssl3_get_server_certificate‘, ‘certificate verify fail
今天在获取很久之前写的爬虫的时候传送门发现运行直接报错,除了网站更改以后的错误(网站加强了反爬措施),还报了另外一个错:SSLError: bad handshake: Error([('SSL routines', 'SSL3_GET_SERVER_CERTIFICATE', 'certificate verify failed')],)后来查询意思是 request证书过期:该问题的原因是:因为网址使用了https,所以经过代理时会报错。报错原因是:Python3之关闭SSL证书验证解.
2021-02-02 17:18:48 16199 1
原创 VSCode官网下载缓慢或下载失败的解决办法
最近需要重新使用vscode工具,需要重新下载这个工具,公司的网总是下载中断或者失败,究其原因大概是因为不是国内的服务器吧,在知乎上发现一个解决办法,现在整理下来,来帮助下载vscode受折磨的伙伴。首先在官网找到需要下载的文件,点击下载。在浏览器或者下载软件中就可以看到这么一个下载地址了,将其复制下来 这里没找到一个很好的复制方法,可以上下结合,只要最后保证下载连接的准确性和完整性即可。。然后将红框内的部分更换为如下内容:vscode.cdn.azure.cn<--------.
2021-01-06 12:19:49 101034 223
原创 HIVE中导入文件后数据量变多原因和去除换行符的解决办法
在使用excel导入文件进入hive的时候,一切顺利,但是导入后查询数据,发现数据量变多了,比如:一开始excel中的数据量是8000条,导入hive后,查询的数据变成10000多条,数据量在导入后变多了。于是查找原因首先从hive建的表开始查起,表的建表语句如下下所示:create table if not exists TMP_T1( T1 VARCHAR(100) comment 't1', T2 VARCHAR(100) comment 't2', T3 VARCHAR(100)
2020-12-27 15:34:19 15511
原创 HIVE中纵表转横表
最近在写hive脚本的时候,遇到一个问题就是,现在存在一个纵表(详细表),如下所示 table T1id bankname cardname 1 中国银行 金卡 2 中国银行 白金卡 3 建设银行 普卡 4 工商银行 金卡 5 建设银行 钻石卡 想把上面的纵表变为横表便于观看,如下所示:id bankname1 cardname1 bankname2 cardname2 .
2020-12-27 14:49:22 14057
原创 大白话讲解Spark中的RDD
资料中:Spark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。RDD的三个特性:分区,不可变,并行操作。• RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来 操作分布式数据集的抽象实现• RDD 是 Spark 最核心的东西,它表示已被分区,不可变的并能 够被并行操作的数据集合,不同的数据集格式对应不同的 RDD 实现RDD特点:• RDD 必须是可序列化的•
2020-11-15 16:37:28 13362 1
原创 hive中分区和分桶的一些简单理解
一、Hive分区。是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。常用的分区字段都是按照时间来区分。#创建分区表create table t1 (id int co...
2020-11-14 23:28:25 13734
原创 白话解释hive中Rank,Dense_Rank, Row_Number组内排序函数
SQL很熟悉的3个组内排序函数了。语法一样:ROW_NUMBER/RANK/DENSE_RANK() over (partion by col1... order by col2... desc/asc)看个例子:查询每个班级每门课程的排名情况:select class1, score, rank() over(partition by class1 order by score desc) rk1, dense_rank() over(partiti...
2020-11-14 17:29:04 13090
翻译 通俗易懂大数据生态
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能...
2020-11-11 13:09:23 13410 2
原创 MYSQL中获取上个月最后一天并把10位日期转化位8位日期格式
项目需要,需要把‘2020-10-31’转化成转化成20201031 ,也就是10位转8位。参考代码如下:select date_format(date_sub(date_sub(date_format(now(),'%Y%m%d'),interval extract(day from now()) day),interval 0 month),'%Y%m%d') as dd;...
2020-11-09 14:06:50 14030
转载 HIVE中ROW_NUMBER()函数的讲解
ROW_NUMBER()函数ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)1上述代码含义是首先根据COLUMN1进行结果集分组,结果集内部按照COLUMN2分组,输出结果是类似于双重分组的结果。select id,dept,salary,ROW_NUMBER() OVER(PARTITION BY dept ORDER BY salary)1执行结果为:id dept salary row_number1 a 10000
2020-10-25 17:34:27 14004
原创 HIVE中连接条件不能使用LIKE模糊匹配的解决办法
在使用hive的中需要多表关联的时候,想使用模糊匹配的like进行模糊匹配的时候,执行代码如下所示:SELECT * FROM TABLE1 ALEFT JOINTABLE2 BON A.XX LIKE CONCAT('%' , B.YY , '%')这段代码在DB2 中是可以顺利执行的,但是在hive就是会报错,原因就是hive中不能很好的处理非等值连接,但是hive中也提供了别的处理方式,来达到在连接时使用模糊匹配的效果。hive中提供了一个locate()的函数;locat
2020-10-25 17:27:43 18996 8
原创 HIVE中ParseException line 5:0 missing ALL at ‘select‘ near
在公司部署的hive环境中,按照DB2 的思维使用union all 来连接两个查询,并同时去重,但是使用UNION ALL之后就发现调度的时候出现ParseException line 5:0 missing ALL at 'select' near ''的错误!!后来查询了一下官方的文档,才发现Hive在1.2.0之前的版本只支持union all,在1.2.0之后的版本才支持union.官方的文档:官方文档才明白部署的版本过低了,但是为了解决当前的问题,只能另辟蹊径了。一般的使..
2020-10-25 17:13:46 14891 2
原创 如何看ROC,LIFT,PR,KS曲线
1.ROC曲线ROC(receiver operating characteristic)接受者操作特征,其显示的是分类器的真正率和假正率之间的关系ROC曲线有助于比较不同分类器的相对性能,当FPR小于0.36时M1浩宇M2,而大于0.36是M2较好。ROC曲线下面的面积为AUC(area under curve),其面积越大则分类的性能越好,理想的分类器auc=1。一般AUC>0.8分类器还可以。 图来自https://blog.csdn.net/taoyanqi8932/ar.
2020-09-10 15:14:44 15099
原创 Maven项目在编译的时候出现cannot find symbol的错误解决办法
在项目编译的时候出现cannot find symbol的错误,顾名思义就是找不到符号???下面应该是有一个 symbol:class XXXX 这样的一个形式看到这个其实 简单理解就是可能是依赖有问题,找不到某个依赖,如果确保这个依赖是已经有了,或者这个根本就没有别的依赖,我遇到的就是,提示告诉我reslutsetMetadata这个class没有,找不到这个类的符号,但是这个类是确定是不需要再依赖别的依赖类,所以采取的办法就是很粗暴了。简单粗暴地使用“Maven Update Project
2020-09-10 14:39:54 35737
原创 java中ResultSet使用next()取不到第一条数据的解决办法
在coding的时候,发现每次使用JDBC连接数据库的时候,使用resultset每次使用next()方法循环取出查询的数据的时候,发现每次用到第一条的数据的时候总是抛出异常,后来debug的时候,才发现每次都是第一条记录是取不到的。后来检查代码的时候,才发现呢,我在每次while(rs.next())的之前使用了if(rs.next())的方法,代码格式如下所示:if(!rs.next()) //结果集为空{ //执行某操作}while(rs.next()){
2020-08-16 12:04:41 16746 5
JDK的API参考
2017-01-16
javaEE的API
2017-01-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人