自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

周小董

万物互联,环环相扣。

  • 博客(1199)
  • 资源 (1)
  • 收藏
  • 关注

原创 [1236]hive数据倾斜原因及解决方案

1)通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。2)是不是map数越多越好?答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。3)是不是保证每个map处理接近128m的文件块,就高枕无忧了?

2023-10-27 19:30:00 173

原创 [1233]Python数据存储之h5py详解

h5py官方文档:https://docs.h5py.org/en/stable/build.htmlh5py是Python中用于读取和写入HDF5文件格式数据的软件包,HDF指的是层次型数据格式(HDF: Hierarchical Data Format),主要用于存储和管理大数据集和复杂数据对象的工具。h5py能够读写HDF5文件,并具有简单、自然和Pythonic的API。它支持Numpy数组、Python字符串等,并且能够保存Python对象的一些特定信息(如用户定义的元数据)。

2023-10-13 22:45:00 1807

转载 [1232]Python保存大型.mat数据文件报错超出IO限制

数据文件时,可能会遇到超出IO限制的操作报错。这是因为Python默认的IO限制是4GB,当我们要保存的文件大小超过4GB时,就会出现这个报错。在上面的示例中,我们使用h5py库将Python的IO限制修改为8GB。解决这个问题的方法是修改Python的IO限制。在Python中,我们可以使用scipy.io库来读取和保存。在上面的示例中,我们使用scipy.io库将数据保存到。在上面的示例中,我们使用scipy.io库将数据保存到。在上面的示例中,我们使用pip命令安装了h5py库。

2023-10-13 22:30:00 364

转载 [780]Python parsel库的使用

parsel 这个库可以对 HTML 和 XML 进行解析,并支持使用 XPath 和 CSS Selector 对内容进行提取和修改,同时它还融合了正则表达式提取的功能。功能灵活而又强大,同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。

2023-10-10 19:12:45 2851

原创 [1229]python模块之psutil详解

psutil是一个跨平台库能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要用来做系统监控,性能分析,进程管理。它实现了同等命令行工具提供的功能,如ps、top、lsof、netstat、ifconfig、who、df、kill、free、nice、ionice、iostat、iotop、uptime、pidof、tty、taskset、pmap等。目前支持32位和64位的Linux、Windows、OS X、FreeBSD和Sun Solaris等操作系统.

2023-09-20 22:15:00 1137

原创 [1228]Python prometheus-client使用方式

prometheus_client 提供了丰富的 API,可以用于定义和注册 metrics,并根据需要暴露这些 metrics 的接口。# 定义和注册 metricc = Counter('test_counter', '测试计数器')g = Gauge('test_gauge', '测试仪表盘')s = Summary('test_summary', '测试摘要')h = Histogram('test_histogram', '测试直方图', buckets=(1, 2, 3))

2023-09-20 22:00:00 2460

转载 [1227]在浏览器里面运行命令行ttyd

好了,以上就是 ttyd 的基本使用了,有了它,我们就可以轻松将某台机器上的终端转到 Web 上来执行了,还是非常方便有用的。来源:http://cuiqingcai.com/36048.html。

2023-09-20 21:15:00 498

转载 [1226]Fire库给Python脚本生成命令行

这里我们定义了一个 hello 方法,然后接收一个 name 参数,默认值是 World,接着输出了 Hello 加 name 这个字符串。所以说,综合来看,fire 可以为一个类命令行,每个命令都对应一个方法的名称,同时在后面添加额外的可选或必选参数,加到命令行参数的后面。这里定义了一个 scrape 方法,第一个参数接收 url,即爬取的网址,第二个参数接收 timeout,即指定超时时间。我们定义了一个 Python 的方法,方法接收一些参数,但是调用的时候想将这些参数用命令行暴露出来。

2023-09-20 21:00:00 55

转载 [1225]requests-cache使用介绍

它就是 requests-cache,是 requests 库的一个扩展包,利用它我们可以非常方便地实现请求的缓存,直接得到对应的爬取结果。下面我们来介绍下它的使用。。来源:http://cuiqingcai.com/36052.htmlRedisCacheMongoCacheFileCacheBaseCache。

2023-09-20 20:45:00 286

原创 [1224]Pandas常用的遍历方法

其中,iterrows方法返回一个迭代器,可以逐行遍历DataFrame,返回每一行数据的索引和值。总的来说,对于大型的 Pandas DataFrame,应该尽量避免使用循环遍历,而是使用 Pandas 内置的方法,如 apply() 和 applymap() 等。applymap() 方法可以应用一个函数到 DataFrame 中的每一个元素,返回一个新的 DataFrame。apply() 方法可以应用一个函数到 DataFrame 中的每一个元素,返回一个新的 DataFrame。

2023-09-11 21:36:13 3787

转载 [1223]Pandas遇到SQL,如何做关联查询(pandasql)

首先是表的横向连接,顾名思义,就是在原基础表,往下一空行复制粘贴新的数据,要求两张表的列标题都是一样的,才能正常连接,这里使用UNION ALL进行连接,表示将列标题相同的两张表连接起来,如果是使用UNION连接,两张中相同的两行只会保留一行连接。纵向连接是表格连接中使用最广泛的连接,纵向连接又可以分为内连接和外连接,内连接,连接表都匹配的记录才会出现在最终的结果集,并且连接顺序无关,这里内连接的第一种办法是使用WHERE语句,当两个表的ID相同时进行连接。构建第二张表,用于数据表的横向连接。

2023-09-11 21:35:30 546

原创 [1221]mysql中的field()排序函数

当字段值没有匹配到str1,str2或者str3的时候,按照正常排序;当匹配到这些的时候,会把没有匹配的值放到最前面,匹配到的放到后边,并且以写的顺序排序返回结果集。: 数据库有字段model,代表手机型号,值有很多,和更多型号;现在根据model字段排序,查询结果集中,’‘更多型号’’ 必须放最后。参考:https://blog.csdn.net/qq_42524288/article/details/113192543。sql中排序比较常见,我们常用的排序语句是这两个。,将其放到结果集最后返回。

2023-08-23 19:45:00 547

原创 [1220]hue数据导出

参考:https://www.cnblogs.com/hongfeng2019/p/11579504.html。4、选择每个人对应的文件夹,没有自己名称的可以创建一个。8、按照下面截图提示,就可以将文件下载到本地了。2、 执行完成后,点击下面导出。1、执行要下载的sql语句。6、右面是导出执行时的界面。7、选择已经执行的文件。

2023-08-11 20:15:00 407

原创 [1219]mysql自定义函数split_part、split_last

delimiter 自定义符号  -- 如果函数体只有一条语句, begin和end可以省略, 同时delimiter也可以省略create function 函数名(形参列表) returns 返回类型  -- 注意是retrunsbegin函数体    -- 函数内定义的变量如:set @x = 1;变量x为全局变量,在函数外面也可以使用return返回值end自定义符号delimiter;关键字delimiter的使用:delimiter是mysql分隔符。

2023-08-11 20:00:00 473

原创 [1218]hive之Map Join使用方法

MAPJION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。如上图中的流程,首先Task A在客户端本地执行,负责扫描小表b的数据,将其转换成一个HashTable的数据结构,并写入本地的文件中,之后将该文件加载到DistributeCache中。

2023-08-08 23:30:00 602

原创 [1217]org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exceeded

注意:因为在yarn container这种模式下,map/reduce task是运行在Container之中的,所以上面提到的mapreduce.map(reduce).memory.mb大小都大于mapreduce.map(reduce).java.opts值的大小。mapreduce.{map|reduce}.java.opts能够通过Xmx设置JVM最大的heap的使用,一般设置为0.75倍的memory.mb,因为需要为java code等预留些空间。参数的值自己可调,根据自己的需要设置就好。

2023-08-06 10:30:37 606 1

原创 [1216]git问题:Authentication failed解决办法

在拉取代码的时候报错,错误内容:remote: HTTP Basic: Access deniedfatal: Authentication failed for ‘http://xxx.git/’根据错误提示得知:没有权限,被拒绝访问。关于这个问题其实很简单,是因为博主之前的GitLab的密码策略到期后修改了账户的登录密码,而本地计算机系统中的访问凭证还未修改,只需要修改一下本地计算机的GitLab的访问策略即可。1、在本地计算机的中找Git凭据并修改控制面板>所有控制面板项>凭据管理器

2023-07-12 23:15:00 2784

原创 [1215]小米手机USB安装出现当前设备已被临时限制

小米系列手机 开发者版本 之 USB安装出现当前设备已被临时限制。

2023-07-12 23:00:00 3589

原创 [1214]基于Python实现视频去重

一款基于Python语言的视频去重复程序,它可以根据视频的特征参数,将重复的视频剔除,以减少视频的存储空间。最后,将每个视频的哈希值进行对比,如果哈希值相同,则表示视频内容相同,可以将其中一个视频剔除,以节省存储空间。参考:https://blog.csdn.net/weixin_44634704/article/details/128563576。3、最后,将每个视频的哈希值进行对比,如果哈希值相同,则表示视频内容相同,可以将其中一个视频剔除。同级目录下新建dup_video。

2023-07-05 23:15:00 1200

原创 [1213]基于Python实现图像去重

本文介绍了Python图像去重的三种方法,分别是哈希算法、局部敏感哈希算法和感知哈希算法。在实际的应用场景中,可以根据具体情况选择合适的方法来进行图像去重操作。

2023-07-05 23:00:00 1931

原创 [1212]Python GUI之PySimpleGUI

PySimpleGUI基于Tkinter,Remi、wxPython和PyQt。Remi将应用程序的界面转换为HTML以在Web浏览器中呈现”。PySimpleGUI不需要使用类来创建用户界面。使用PySimpleGUI创建GUI贼简单。官方文档:https://pysimplegui.readthedocs.io/en/latest/Gitee克隆:https://gitee.com/yumos/PySimpleGUI安装PySimpleGui# 使用pip命令安装即可(默认安装到全局)

2023-07-01 08:15:00 1748

原创 [1211]python imagehash库简单运用

散列函数(英语:Hash function)又称散列算法哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或 hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。

2023-07-01 08:00:00 1198

原创 [1210]在Python中如何将浮点数转换为base36

第一种方法代码精简,可以快速获取随机字符串。但是存在较多缺点,不建议在生产中使用。对于对字符集有特定要求的场景,可以使用第二种方法。

2023-06-21 22:15:00 260

原创 [1209]python实现SHA-256加密

参考:https://blog.csdn.net/weixin_35754676/article/details/128872199。如果你想在 Python 中使用 SHA-256 加密,可以使用 Python 的 hashlib 库。创建了一个 SHA-256 哈希对象,然后使用。方法对数据进行哈希计算,最后使用。上面的代码中,首先我们使用。

2023-06-21 22:00:00 755

原创 [1208]linux的权限系统知识点(drwxr-xr-x)

在Linux系统中使用 ll 命令可以看到文件的权限信息,如图:接下来主要解释一下这些权限的含义:可以看到总的十个字符:1、第一个字符表示文件类型:2、接下来的九个字符三个一组,分别表示文件拥有着,所属组群和其他人的读(r),写(w),执行(x)权限,如果没有权限则用 表示。Linux文件的基本权限分为9个,总共三组,分别为拥有者(owner),所属组群(group)和其他人(others),其中每组身份又拥有各自的读(read),写(write),执行(execute)权限。可以用数字和字母来分别表

2023-06-21 21:45:00 691

原创 [1207]ImportError:无法导入名称“ RandomizedLogisticRegression”

但作为回报,我得到以下错误:ImportError:无法导入名称“ RandomizedLogisticRegression”

2023-06-16 00:00:00 221

原创 [1206]解决ModuleNotFoundError: No module named ‘sklearn.externals.six‘报错问题

参考:https://blog.csdn.net/shanlijia/article/details/124489418。清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣(douban) http://pypi.douban.com/simple/降级scikit-learn 到版本0.22或更低版本。无需降级 scikit-learn。尝试使用国内镜像进行,例如。

2023-06-15 23:45:00 773

原创 [1205]成功解决ImportError: cannot import name ‘joblib‘

参考:https://blog.csdn.net/qq_41185868/article/details/108286109。函数是用在0.21及以前的版本中,在最新的版本中,该函数应被弃用。

2023-06-15 23:30:00 129

原创 [1204]Flink1.13详细教程

2、最新 Flink 1.13 部署(Session、Per-Job、Application、HA、YARN)快速入门、详细教程:https://blog.csdn.net/qq_38582455/article/details/124003968。8、最新 Flink 1.13 状态编程与容错机制(状态、状态后端、检查点、精确一次、端到端的状态一致性)快速入门、详细教程:https://blog.csdn.net/qq_38582455/article/details/123987663。

2023-06-15 19:12:41 87

转载 [1202]docker搭建隧道代理池

隧道代理是基于高性能主机构建的动态IP代理服务器;以设置固定代理,每次请求自动更换到不同IP (这里规则可以自己定);线路以高匿名、高便捷、多并发的优势,适用于个人/企业对代理稳定性和品质要求高的客户(主要看你代理池中的 IP 稳不稳定)。

2023-06-08 22:00:00 1923

原创 [1203]Redash安装部署

Redash是一款开源的BI工具,提供了基于web的数据库查询和数据可视化功能。说明: github上的setup.sh安装是基于ubuntu系统的环境选择官方支持的环境有 Ubuntu 16.04, AWS, Google Compute Cloud 和 Docker。

2023-06-08 22:00:00 1018 1

原创 [1200]yarn不是内部或外部命令,也不是可运行的程序

参考:https://blog.csdn.net/qq_44930379/article/details/117564665。第1步:找到你刚才安装的yarn 如:C:\soft\nvm\npm\node_modules\yarn\bin。,重新打开cmd,输入。1.全局安装yarn。2.使用yarn报错。

2023-06-08 21:00:00 500

原创 [1199]npm常用命令

npm将软件包安装到哪里:https://blog.csdn.net/ximaiyao1984/article/details/130230697。npm命令常用参数:https://blog.csdn.net/sinat_38737592/article/details/108908061。如何更新npm:https://blog.csdn.net/weixin_44222492/article/details/99637027。就是安装到当前命令行下的目录中,但不会记录在package.json中,

2023-05-30 22:50:00 2163

原创 [1198]ApkScan-PKID 查壳工具

1、壳的功能:壳最本质的功能就是实现加载器,壳是指在一个程序的外面再包裹上另外一段代码,保护里面的代码不被非法修改或反编译的程序。

2023-05-20 09:15:00 2186

原创 [1197]脱壳工具dumpDex、frida_dump、BlackDex

dumpDex: 一个开源的 Android 脱壳插件工具,需要xposed支持。可以用来脱掉当前市场上大部分的壳。(360加固、腾讯乐固、梆梆加固、百度加固均可脱壳)支持大多数xposed环境的手机,暂不支持模拟器github地址:https://github.com/WrBug/dumpDex,可以直接下载release的apk,也可以自行编译打包成apk安装到手机。

2023-05-20 09:00:00 761

原创 [1195]Xposed+FDex2 app脱壳

但是这种把java拿过来直接python调用的方法,不是任何时候都适用的,因为有时候,这段java代码可能是有很多的依赖的包,你运行的时候,就会缺少很多的包,这样就很麻烦,所以用python调用java的情况,这段代码最好不要有太多的依赖,有的app,接口调用的时候,有一个参数sign,要携带上请求接口才行,这个是变动的,你不知道,所以就不能调用通接口,可以通过重放来确定这个参数是不是动态的,下一步就是找到这个signature,然后看他怎么加密的,然后携带上这个signature,才可以请求这个api,

2023-05-19 20:30:00 1953 2

原创 [1196]Android逆向工具【反射大师】脱壳实战

脱壳只是第一步,后面还有修改、调试、回编译,工作量都很大,以上就是脱壳环境搭建与脱某60壳实战的主要内容。壳确实脱了,但是没有修复步骤,比如修改Apk中的xml、程序入口等操作。这主要是由于不同的壳,修复步骤不同。分析代码这个步骤,完全是考验你的 Java 基本功 + 耐心,二者缺一不可。不过不要退缩,我们只要遵循一些技巧,就可以大幅减少工作量。由于分析过程比较繁琐,这里就不结合具体代码了,只做一些理论总结:1、从目标 API 开始入手,跟踪执行流程。

2023-05-19 20:30:00 3293 2

原创 [1194]GitLab在web端合并分支

如图示:输入合并的 “title” 和 “Description” 描述,根据实际情况选择是否勾选 “Merge options” 删除被合并掉的源分支,点击下方按钮 “create merge request” 按钮,开始合并。在弹出的页面中,左边 “Source branch” 为写的新代码,右边 “Target branch” 为旧的代码,选择好点击Compare branches and continue。合并检查并处理完毕后,点击 “Merge” 按钮并根据实际情况选择后面选项,完成合并。

2023-05-13 21:38:21 1097

原创 [1193]ClickHouse写入常见问题: Too many parts (300)

Too many part 异常原因:当数据插入到 ClickHouse 表时,每一批插入都会生成对应 parts 文件,ClickHouse 后台会有合并小文件的操作。此外,在合并问题(例如,由于磁盘空间不足)的情况下,你会在与原始 300 相比晚一点发现该问题。1、写入 ClickHouse 的并发数调小,批处理的数据 batchSize 间隔调大,比如之前 200 并发调整到 50 并发,从之前一批 1w 条数据调整到 5w 条数据,从而减少 ClickHouse 文件的个数,避免超过。

2023-05-13 21:34:51 1019

原创 [1192]获取CDH集群告警并通过钉钉告出

参考:https://blog.csdn.net/weixin_40817778/article/details/119249820。钉钉群机器人特征字为:告警。

2023-05-05 20:03:37 220

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错 使用这个修改完成的Hbase类替换掉原来的Hbase类问题全部解决 主要是因为python版本兼容性带来的问题

2018-09-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除