周小董-CSDN博客

原创 [1236]hive数据倾斜原因及解决方案

1）通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小。2）是不是map数越多越好？答案是否定的。如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的map数是受限的。3）是不是保证每个map处理接近128m的文件块，就高枕无忧了？

2023-10-27 19:30:00 173

原创 [1233]Python数据存储之h5py详解

h5py官方文档：https://docs.h5py.org/en/stable/build.htmlh5py是Python中用于读取和写入HDF5文件格式数据的软件包，HDF指的是层次型数据格式（HDF: Hierarchical Data Format），主要用于存储和管理大数据集和复杂数据对象的工具。h5py能够读写HDF5文件，并具有简单、自然和Pythonic的API。它支持Numpy数组、Python字符串等，并且能够保存Python对象的一些特定信息（如用户定义的元数据）。

2023-10-13 22:45:00 1807

转载 [1232]Python保存大型.mat数据文件报错超出IO限制

数据文件时，可能会遇到超出IO限制的操作报错。这是因为Python默认的IO限制是4GB，当我们要保存的文件大小超过4GB时，就会出现这个报错。在上面的示例中，我们使用h5py库将Python的IO限制修改为8GB。解决这个问题的方法是修改Python的IO限制。在Python中，我们可以使用scipy.io库来读取和保存。在上面的示例中，我们使用scipy.io库将数据保存到。在上面的示例中，我们使用scipy.io库将数据保存到。在上面的示例中，我们使用pip命令安装了h5py库。

2023-10-13 22:30:00 364

转载 [780]Python parsel库的使用

parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。功能灵活而又强大，同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。

2023-10-10 19:12:45 2851

原创 [1229]python模块之psutil详解

psutil是一个跨平台库能够轻松实现获取系统运行的进程和系统利用率（包括CPU、内存、磁盘、网络等）信息。它主要用来做系统监控，性能分析，进程管理。它实现了同等命令行工具提供的功能，如ps、top、lsof、netstat、ifconfig、who、df、kill、free、nice、ionice、iostat、iotop、uptime、pidof、tty、taskset、pmap等。目前支持32位和64位的Linux、Windows、OS X、FreeBSD和Sun Solaris等操作系统.

2023-09-20 22:15:00 1137

原创 [1228]Python prometheus-client使用方式

prometheus_client 提供了丰富的 API，可以用于定义和注册 metrics，并根据需要暴露这些 metrics 的接口。# 定义和注册 metricc = Counter('test_counter', '测试计数器')g = Gauge('test_gauge', '测试仪表盘')s = Summary('test_summary', '测试摘要')h = Histogram('test_histogram', '测试直方图', buckets=(1, 2, 3))

2023-09-20 22:00:00 2460

转载 [1227]在浏览器里面运行命令行ttyd

好了，以上就是 ttyd 的基本使用了，有了它，我们就可以轻松将某台机器上的终端转到 Web 上来执行了，还是非常方便有用的。来源：http://cuiqingcai.com/36048.html。

2023-09-20 21:15:00 498

转载 [1226]Fire库给Python脚本生成命令行

这里我们定义了一个 hello 方法，然后接收一个 name 参数，默认值是 World，接着输出了 Hello 加 name 这个字符串。所以说，综合来看，fire 可以为一个类命令行，每个命令都对应一个方法的名称，同时在后面添加额外的可选或必选参数，加到命令行参数的后面。这里定义了一个 scrape 方法，第一个参数接收 url，即爬取的网址，第二个参数接收 timeout，即指定超时时间。我们定义了一个 Python 的方法，方法接收一些参数，但是调用的时候想将这些参数用命令行暴露出来。

2023-09-20 21:00:00 55

转载 [1225]requests-cache使用介绍

它就是 requests-cache，是 requests 库的一个扩展包，利用它我们可以非常方便地实现请求的缓存，直接得到对应的爬取结果。下面我们来介绍下它的使用。。来源：http://cuiqingcai.com/36052.htmlRedisCacheMongoCacheFileCacheBaseCache。

2023-09-20 20:45:00 286

原创 [1224]Pandas常用的遍历方法

其中，iterrows方法返回一个迭代器，可以逐行遍历DataFrame，返回每一行数据的索引和值。总的来说，对于大型的 Pandas DataFrame，应该尽量避免使用循环遍历，而是使用 Pandas 内置的方法，如 apply() 和 applymap() 等。applymap() 方法可以应用一个函数到 DataFrame 中的每一个元素，返回一个新的 DataFrame。apply() 方法可以应用一个函数到 DataFrame 中的每一个元素，返回一个新的 DataFrame。

2023-09-11 21:36:13 3787

转载 [1223]Pandas遇到SQL，如何做关联查询(pandasql)

首先是表的横向连接，顾名思义，就是在原基础表，往下一空行复制粘贴新的数据，要求两张表的列标题都是一样的，才能正常连接，这里使用UNION ALL进行连接，表示将列标题相同的两张表连接起来，如果是使用UNION连接，两张中相同的两行只会保留一行连接。纵向连接是表格连接中使用最广泛的连接，纵向连接又可以分为内连接和外连接，内连接，连接表都匹配的记录才会出现在最终的结果集，并且连接顺序无关，这里内连接的第一种办法是使用WHERE语句，当两个表的ID相同时进行连接。构建第二张表，用于数据表的横向连接。

2023-09-11 21:35:30 546

原创 [1221]mysql中的field()排序函数

当字段值没有匹配到str1，str2或者str3的时候，按照正常排序；当匹配到这些的时候，会把没有匹配的值放到最前面，匹配到的放到后边，并且以写的顺序排序返回结果集。：数据库有字段model，代表手机型号，值有很多，和更多型号；现在根据model字段排序，查询结果集中，’‘更多型号’’ 必须放最后。参考：https://blog.csdn.net/qq_42524288/article/details/113192543。sql中排序比较常见，我们常用的排序语句是这两个。，将其放到结果集最后返回。

2023-08-23 19:45:00 547

原创 [1220]hue数据导出

参考：https://www.cnblogs.com/hongfeng2019/p/11579504.html。4、选择每个人对应的文件夹,没有自己名称的可以创建一个。8、按照下面截图提示，就可以将文件下载到本地了。2、执行完成后，点击下面导出。1、执行要下载的sql语句。6、右面是导出执行时的界面。7、选择已经执行的文件。

2023-08-11 20:15:00 407

原创 [1219]mysql自定义函数split_part、split_last

delimiter 自定义符号　　-- 如果函数体只有一条语句, begin和end可以省略, 同时delimiter也可以省略create function 函数名(形参列表) returns 返回类型　　-- 注意是retrunsbegin函数体　　　　-- 函数内定义的变量如：set @x = 1;变量x为全局变量，在函数外面也可以使用return返回值end自定义符号delimiter;关键字delimiter的使用：delimiter是mysql分隔符。

2023-08-11 20:00:00 473

原创 [1218]hive之Map Join使用方法

MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。

2023-08-08 23:30:00 602

原创 [1217]org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exceeded

注意：因为在yarn container这种模式下，map/reduce task是运行在Container之中的，所以上面提到的mapreduce.map(reduce).memory.mb大小都大于mapreduce.map(reduce).java.opts值的大小。mapreduce.{map|reduce}.java.opts能够通过Xmx设置JVM最大的heap的使用，一般设置为0.75倍的memory.mb，因为需要为java code等预留些空间。参数的值自己可调，根据自己的需要设置就好。

2023-08-06 10:30:37 606 1

原创 [1216]git问题：Authentication failed解决办法

在拉取代码的时候报错，错误内容：remote: HTTP Basic: Access deniedfatal: Authentication failed for ‘http://xxx.git/’根据错误提示得知：没有权限，被拒绝访问。关于这个问题其实很简单，是因为博主之前的GitLab的密码策略到期后修改了账户的登录密码，而本地计算机系统中的访问凭证还未修改，只需要修改一下本地计算机的GitLab的访问策略即可。1、在本地计算机的中找Git凭据并修改控制面板>所有控制面板项>凭据管理器

2023-07-12 23:15:00 2784

原创 [1215]小米手机USB安装出现当前设备已被临时限制

小米系列手机开发者版本之 USB安装出现当前设备已被临时限制。

2023-07-12 23:00:00 3589

原创 [1214]基于Python实现视频去重

一款基于Python语言的视频去重复程序，它可以根据视频的特征参数，将重复的视频剔除，以减少视频的存储空间。最后，将每个视频的哈希值进行对比，如果哈希值相同，则表示视频内容相同，可以将其中一个视频剔除，以节省存储空间。参考：https://blog.csdn.net/weixin_44634704/article/details/128563576。3、最后，将每个视频的哈希值进行对比，如果哈希值相同，则表示视频内容相同，可以将其中一个视频剔除。同级目录下新建dup_video。

2023-07-05 23:15:00 1200

原创 [1213]基于Python实现图像去重

本文介绍了Python图像去重的三种方法，分别是哈希算法、局部敏感哈希算法和感知哈希算法。在实际的应用场景中，可以根据具体情况选择合适的方法来进行图像去重操作。

2023-07-05 23:00:00 1931

原创 [1212]Python GUI之PySimpleGUI

PySimpleGUI基于Tkinter，Remi、wxPython和PyQt。Remi将应用程序的界面转换为HTML以在Web浏览器中呈现”。PySimpleGUI不需要使用类来创建用户界面。使用PySimpleGUI创建GUI贼简单。官方文档：https://pysimplegui.readthedocs.io/en/latest/Gitee克隆：https://gitee.com/yumos/PySimpleGUI安装PySimpleGui# 使用pip命令安装即可(默认安装到全局）

2023-07-01 08:15:00 1748

原创 [1211]python imagehash库简单运用

散列函数（英语：Hash function）又称散列算法哈希函数，是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据压缩成摘要，使得数据量变小，将数据的格式固定下来。该函数将数据打乱混合，重新创建一个叫做散列值（hash values，hash codes，hash sums，或 hashes）的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。

2023-07-01 08:00:00 1198

原创 [1210]在Python中如何将浮点数转换为base36

第一种方法代码精简，可以快速获取随机字符串。但是存在较多缺点，不建议在生产中使用。对于对字符集有特定要求的场景，可以使用第二种方法。

2023-06-21 22:15:00 260

原创 [1209]python实现SHA-256加密

参考：https://blog.csdn.net/weixin_35754676/article/details/128872199。如果你想在 Python 中使用 SHA-256 加密，可以使用 Python 的 hashlib 库。创建了一个 SHA-256 哈希对象，然后使用。方法对数据进行哈希计算，最后使用。上面的代码中，首先我们使用。

2023-06-21 22:00:00 755

原创 [1208]linux的权限系统知识点（drwxr-xr-x）

在Linux系统中使用 ll 命令可以看到文件的权限信息，如图：接下来主要解释一下这些权限的含义：可以看到总的十个字符：1、第一个字符表示文件类型：2、接下来的九个字符三个一组，分别表示文件拥有着，所属组群和其他人的读（r），写（w），执行（x）权限，如果没有权限则用表示。Linux文件的基本权限分为9个，总共三组，分别为拥有者（owner），所属组群（group）和其他人（others），其中每组身份又拥有各自的读（read），写（write），执行（execute）权限。可以用数字和字母来分别表

2023-06-21 21:45:00 691

原创 [1207]ImportError：无法导入名称“ RandomizedLogisticRegression”

但作为回报，我得到以下错误：ImportError：无法导入名称“ RandomizedLogisticRegression”

2023-06-16 00:00:00 221

原创 [1206]解决ModuleNotFoundError: No module named ‘sklearn.externals.six‘报错问题

参考：https://blog.csdn.net/shanlijia/article/details/124489418。清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣(douban) http://pypi.douban.com/simple/降级scikit-learn 到版本0.22或更低版本。无需降级 scikit-learn。尝试使用国内镜像进行，例如。

2023-06-15 23:45:00 773

原创 [1205]成功解决ImportError: cannot import name ‘joblib‘

参考：https://blog.csdn.net/qq_41185868/article/details/108286109。函数是用在0.21及以前的版本中，在最新的版本中，该函数应被弃用。

2023-06-15 23:30:00 129

原创 [1204]Flink1.13详细教程

2、最新 Flink 1.13 部署（Session、Per-Job、Application、HA、YARN）快速入门、详细教程：https://blog.csdn.net/qq_38582455/article/details/124003968。8、最新 Flink 1.13 状态编程与容错机制（状态、状态后端、检查点、精确一次、端到端的状态一致性）快速入门、详细教程：https://blog.csdn.net/qq_38582455/article/details/123987663。

2023-06-15 19:12:41 87

转载 [1202]docker搭建隧道代理池

隧道代理是基于高性能主机构建的动态IP代理服务器；以设置固定代理，每次请求自动更换到不同IP (这里规则可以自己定)；线路以高匿名、高便捷、多并发的优势，适用于个人/企业对代理稳定性和品质要求高的客户（主要看你代理池中的 IP 稳不稳定）。

2023-06-08 22:00:00 1923

原创 [1203]Redash安装部署

Redash是一款开源的BI工具，提供了基于web的数据库查询和数据可视化功能。说明： github上的setup.sh安装是基于ubuntu系统的环境选择官方支持的环境有 Ubuntu 16.04, AWS, Google Compute Cloud 和 Docker。

2023-06-08 22:00:00 1018 1

原创 [1200]yarn不是内部或外部命令，也不是可运行的程序

参考：https://blog.csdn.net/qq_44930379/article/details/117564665。第1步：找到你刚才安装的yarn 如:C:\soft\nvm\npm\node_modules\yarn\bin。，重新打开cmd，输入。1.全局安装yarn。2.使用yarn报错。

2023-06-08 21:00:00 500

原创 [1199]npm常用命令

npm将软件包安装到哪里：https://blog.csdn.net/ximaiyao1984/article/details/130230697。npm命令常用参数：https://blog.csdn.net/sinat_38737592/article/details/108908061。如何更新npm：https://blog.csdn.net/weixin_44222492/article/details/99637027。就是安装到当前命令行下的目录中，但不会记录在package.json中，

2023-05-30 22:50:00 2163

原创 [1198]ApkScan-PKID 查壳工具

1、壳的功能：壳最本质的功能就是实现加载器，壳是指在一个程序的外面再包裹上另外一段代码，保护里面的代码不被非法修改或反编译的程序。

2023-05-20 09:15:00 2186

原创 [1197]脱壳工具dumpDex、frida_dump、BlackDex

dumpDex：一个开源的 Android 脱壳插件工具，需要xposed支持。可以用来脱掉当前市场上大部分的壳。（360加固、腾讯乐固、梆梆加固、百度加固均可脱壳）支持大多数xposed环境的手机，暂不支持模拟器github地址：https://github.com/WrBug/dumpDex，可以直接下载release的apk，也可以自行编译打包成apk安装到手机。

2023-05-20 09:00:00 761

原创 [1195]Xposed+FDex2 app脱壳

但是这种把java拿过来直接python调用的方法，不是任何时候都适用的，因为有时候，这段java代码可能是有很多的依赖的包，你运行的时候，就会缺少很多的包，这样就很麻烦，所以用python调用java的情况，这段代码最好不要有太多的依赖，有的app，接口调用的时候，有一个参数sign，要携带上请求接口才行，这个是变动的，你不知道，所以就不能调用通接口，可以通过重放来确定这个参数是不是动态的，下一步就是找到这个signature，然后看他怎么加密的，然后携带上这个signature，才可以请求这个api，

2023-05-19 20:30:00 1953 2

原创 [1196]Android逆向工具【反射大师】脱壳实战

脱壳只是第一步，后面还有修改、调试、回编译，工作量都很大，以上就是脱壳环境搭建与脱某60壳实战的主要内容。壳确实脱了，但是没有修复步骤，比如修改Apk中的xml、程序入口等操作。这主要是由于不同的壳，修复步骤不同。分析代码这个步骤，完全是考验你的 Java 基本功 + 耐心，二者缺一不可。不过不要退缩，我们只要遵循一些技巧，就可以大幅减少工作量。由于分析过程比较繁琐，这里就不结合具体代码了，只做一些理论总结：1、从目标 API 开始入手，跟踪执行流程。

2023-05-19 20:30:00 3293 2

原创 [1194]GitLab在web端合并分支

如图示：输入合并的 “title” 和 “Description” 描述，根据实际情况选择是否勾选 “Merge options” 删除被合并掉的源分支，点击下方按钮 “create merge request” 按钮，开始合并。在弹出的页面中，左边 “Source branch” 为写的新代码，右边 “Target branch” 为旧的代码，选择好点击Compare branches and continue。合并检查并处理完毕后，点击 “Merge” 按钮并根据实际情况选择后面选项，完成合并。

2023-05-13 21:38:21 1097

原创 [1193]ClickHouse写入常见问题: Too many parts (300)

Too many part 异常原因：当数据插入到 ClickHouse 表时，每一批插入都会生成对应 parts 文件，ClickHouse 后台会有合并小文件的操作。此外，在合并问题(例如，由于磁盘空间不足)的情况下，你会在与原始 300 相比晚一点发现该问题。1、写入 ClickHouse 的并发数调小，批处理的数据 batchSize 间隔调大，比如之前 200 并发调整到 50 并发，从之前一批 1w 条数据调整到 5w 条数据，从而减少 ClickHouse 文件的个数，避免超过。

2023-05-13 21:34:51 1019

原创 [1192]获取CDH集群告警并通过钉钉告出

参考：https://blog.csdn.net/weixin_40817778/article/details/119249820。钉钉群机器人特征字为：告警。

2023-05-05 20:03:37 220

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错

python如何给字典的value设置默认值

python内置函数，lower()、upper()实现的原理是什么