自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

周小董

万物互联,环环相扣。

  • 博客(1167)
  • 资源 (1)
  • 收藏
  • 关注

原创 [685]coder的自娱自乐

好看的皮囊千篇一律,有趣的灵魂只有我一个。啄木鸟:哒哒哒哒哒哒哒哒。树:我没病,你别啄了。啄木鸟:没病走两步。树:滚。男孩骑着高头大马来到了悬崖边,回头对着心爱的女孩说:“我最后问你一句,你到底嫁不嫁给我?如果你不嫁给我,我活着也没什么意思,我就从这个山崖跳下去。” 女孩被感动了,对着男孩大喊一声:“嫁!” 马从山崖冲了下去……我对象很好 · · · · · · · · · · · 对马也很好,对狗也很好,对猫也很好,对动物都很好。我爱动物程序员最讨厌的四件事:写注释、.

2020-09-24 23:14:42 497 2

原创 [730]1024程序员趣图

1024程序猿日1024程序猿节简介1024徽标听说程序猿压力没有那么大28岁程序猿接受采访天下第一锅—程序猿@背锅侠,这个锅我不背对方不想跟您说话并向您扔了一个bug需求是这样的,马上上线程序猿对联码出未来,未来已来还记得害你加班改bug吗,没错,害你加班的bug就是我写的听说程序猿有时会通宵加班,所以有了猿宵节(元宵节),哈哈哈送大家一张无bug...

2019-10-24 13:46:31 1102

原创 [1244]Git 2.40版本图文安装教程

Git将使用Windows的默认控制台窗口(“cmd.exe”),该窗口可以与Win32控制台程序(如交互式Python或node.js)一起使用,但默认的回滚非常有限,需要配置为使用unicode 字体以正确显示非ASCII字符,并且在Windows 10之前,其窗口不能自由调整大小,并且只允许矩形文本选择。这个页面是设置新存储库中初始分支的名称,默认是“master”,如果想修改分支名称,点击第二个选项,在“main”的位置修改即可,这里我选择默认的名称,点击“Next”进入下一个界面。

2023-12-09 14:56:05 18

原创 [1243]win11右键显示更多选项怎么关闭

注册表编辑器是Windows系统内置的一个功能非常强的实用程序,我们可以通过它来查看和更改系统注册表程序设置,也能帮助我们轻松解决Win11右键显示更多选项怎么关问题,另外请注意,修改注册表编辑器存在一些风险,请仔细阅读以下流程并逐步操作,或者也可以提前对系统备份,以防意外情况发生。参考:https://baijiahao.baidu.com/s?步骤5、双击右侧面板中的(默认),然后将其数值数据设置为空白,单击“确定”即可。步骤4、再次右键单击刚刚新建的项,然后选择“新建”》“项”,并将其命名为。

2023-12-09 14:54:46 19

转载 [1242]win11如何更改WinRAR文件默认打开方式

电脑重装系统之后,下载了WinRAR,但是每次打开.rar文件之后都要提示选择打开方式。按上述方法设置完成之后,再点击 .rar文件便可以直接用WinRAR打开了。选中WinRAR压缩文件管理器,再点击设置默认值。1、打开设置->应用->默认应用。2、在搜索框中搜索.rar。

2023-12-09 14:53:31 17

原创 [1240]SwitchHosts安装使用

Hosts 相关的小工具着实不少,大家需求最多的肯定是 hosts 切换工具了。是一款可以方便你管理和一键切换多个 hosts 方案的免费开源工具,跨平台支持 Windows、macOS 和 Linux 系统。免费、开源、支持三大操作系统系统托盘快速「一键切换」不同的 hosts 方案支持 hosts 文件语法高亮,可以方便用户更直观地阅读和修改 Hosts 内容;编辑 hosts 时,可以点击行号可以对行进行快速注释或取消注释支持远程hosts。

2023-12-08 21:37:52 14

原创 [1239]hive求解中位数

中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

2023-11-25 15:14:42 80

原创 [1236]hive数据倾斜原因及解决方案

1)通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。2)是不是map数越多越好?答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。3)是不是保证每个map处理接近128m的文件块,就高枕无忧了?

2023-10-27 19:30:00 149

原创 [1233]Python数据存储之h5py详解

h5py官方文档:https://docs.h5py.org/en/stable/build.htmlh5py是Python中用于读取和写入HDF5文件格式数据的软件包,HDF指的是层次型数据格式(HDF: Hierarchical Data Format),主要用于存储和管理大数据集和复杂数据对象的工具。h5py能够读写HDF5文件,并具有简单、自然和Pythonic的API。它支持Numpy数组、Python字符串等,并且能够保存Python对象的一些特定信息(如用户定义的元数据)。

2023-10-13 22:45:00 534

转载 [1232]Python保存大型.mat数据文件报错超出IO限制

数据文件时,可能会遇到超出IO限制的操作报错。这是因为Python默认的IO限制是4GB,当我们要保存的文件大小超过4GB时,就会出现这个报错。在上面的示例中,我们使用h5py库将Python的IO限制修改为8GB。解决这个问题的方法是修改Python的IO限制。在Python中,我们可以使用scipy.io库来读取和保存。在上面的示例中,我们使用scipy.io库将数据保存到。在上面的示例中,我们使用scipy.io库将数据保存到。在上面的示例中,我们使用pip命令安装了h5py库。

2023-10-13 22:30:00 185

转载 [780]Python parsel库的使用

parsel 这个库可以对 HTML 和 XML 进行解析,并支持使用 XPath 和 CSS Selector 对内容进行提取和修改,同时它还融合了正则表达式提取的功能。功能灵活而又强大,同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。

2023-10-10 19:12:45 2395

原创 [1229]python模块之psutil详解

psutil是一个跨平台库能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要用来做系统监控,性能分析,进程管理。它实现了同等命令行工具提供的功能,如ps、top、lsof、netstat、ifconfig、who、df、kill、free、nice、ionice、iostat、iotop、uptime、pidof、tty、taskset、pmap等。目前支持32位和64位的Linux、Windows、OS X、FreeBSD和Sun Solaris等操作系统.

2023-09-20 22:15:00 284

原创 [1228]Python prometheus-client使用方式

prometheus_client 提供了丰富的 API,可以用于定义和注册 metrics,并根据需要暴露这些 metrics 的接口。# 定义和注册 metricc = Counter('test_counter', '测试计数器')g = Gauge('test_gauge', '测试仪表盘')s = Summary('test_summary', '测试摘要')h = Histogram('test_histogram', '测试直方图', buckets=(1, 2, 3))

2023-09-20 22:00:00 562

转载 [1227]在浏览器里面运行命令行ttyd

好了,以上就是 ttyd 的基本使用了,有了它,我们就可以轻松将某台机器上的终端转到 Web 上来执行了,还是非常方便有用的。来源:http://cuiqingcai.com/36048.html。

2023-09-20 21:15:00 159

转载 [1226]Fire库给Python脚本生成命令行

这里我们定义了一个 hello 方法,然后接收一个 name 参数,默认值是 World,接着输出了 Hello 加 name 这个字符串。所以说,综合来看,fire 可以为一个类命令行,每个命令都对应一个方法的名称,同时在后面添加额外的可选或必选参数,加到命令行参数的后面。这里定义了一个 scrape 方法,第一个参数接收 url,即爬取的网址,第二个参数接收 timeout,即指定超时时间。我们定义了一个 Python 的方法,方法接收一些参数,但是调用的时候想将这些参数用命令行暴露出来。

2023-09-20 21:00:00 32

转载 [1225]requests-cache使用介绍

它就是 requests-cache,是 requests 库的一个扩展包,利用它我们可以非常方便地实现请求的缓存,直接得到对应的爬取结果。下面我们来介绍下它的使用。。来源:http://cuiqingcai.com/36052.htmlRedisCacheMongoCacheFileCacheBaseCache。

2023-09-20 20:45:00 72

原创 [1224]Pandas常用的遍历方法

其中,iterrows方法返回一个迭代器,可以逐行遍历DataFrame,返回每一行数据的索引和值。总的来说,对于大型的 Pandas DataFrame,应该尽量避免使用循环遍历,而是使用 Pandas 内置的方法,如 apply() 和 applymap() 等。applymap() 方法可以应用一个函数到 DataFrame 中的每一个元素,返回一个新的 DataFrame。apply() 方法可以应用一个函数到 DataFrame 中的每一个元素,返回一个新的 DataFrame。

2023-09-11 21:36:13 1180

转载 [1223]Pandas遇到SQL,如何做关联查询(pandasql)

首先是表的横向连接,顾名思义,就是在原基础表,往下一空行复制粘贴新的数据,要求两张表的列标题都是一样的,才能正常连接,这里使用UNION ALL进行连接,表示将列标题相同的两张表连接起来,如果是使用UNION连接,两张中相同的两行只会保留一行连接。纵向连接是表格连接中使用最广泛的连接,纵向连接又可以分为内连接和外连接,内连接,连接表都匹配的记录才会出现在最终的结果集,并且连接顺序无关,这里内连接的第一种办法是使用WHERE语句,当两个表的ID相同时进行连接。构建第二张表,用于数据表的横向连接。

2023-09-11 21:35:30 146

原创 [1221]mysql中的field()排序函数

当字段值没有匹配到str1,str2或者str3的时候,按照正常排序;当匹配到这些的时候,会把没有匹配的值放到最前面,匹配到的放到后边,并且以写的顺序排序返回结果集。: 数据库有字段model,代表手机型号,值有很多,和更多型号;现在根据model字段排序,查询结果集中,’‘更多型号’’ 必须放最后。参考:https://blog.csdn.net/qq_42524288/article/details/113192543。sql中排序比较常见,我们常用的排序语句是这两个。,将其放到结果集最后返回。

2023-08-23 19:45:00 178

原创 [1220]hue数据导出

参考:https://www.cnblogs.com/hongfeng2019/p/11579504.html。4、选择每个人对应的文件夹,没有自己名称的可以创建一个。8、按照下面截图提示,就可以将文件下载到本地了。2、 执行完成后,点击下面导出。1、执行要下载的sql语句。6、右面是导出执行时的界面。7、选择已经执行的文件。

2023-08-11 20:15:00 219

原创 [1219]mysql自定义函数split_part、split_last

delimiter 自定义符号  -- 如果函数体只有一条语句, begin和end可以省略, 同时delimiter也可以省略create function 函数名(形参列表) returns 返回类型  -- 注意是retrunsbegin函数体    -- 函数内定义的变量如:set @x = 1;变量x为全局变量,在函数外面也可以使用return返回值end自定义符号delimiter;关键字delimiter的使用:delimiter是mysql分隔符。

2023-08-11 20:00:00 209

原创 [1218]hive之Map Join使用方法

MAPJION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。如上图中的流程,首先Task A在客户端本地执行,负责扫描小表b的数据,将其转换成一个HashTable的数据结构,并写入本地的文件中,之后将该文件加载到DistributeCache中。

2023-08-08 23:30:00 175

原创 [1217]org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exceeded

注意:因为在yarn container这种模式下,map/reduce task是运行在Container之中的,所以上面提到的mapreduce.map(reduce).memory.mb大小都大于mapreduce.map(reduce).java.opts值的大小。mapreduce.{map|reduce}.java.opts能够通过Xmx设置JVM最大的heap的使用,一般设置为0.75倍的memory.mb,因为需要为java code等预留些空间。参数的值自己可调,根据自己的需要设置就好。

2023-08-06 10:30:37 235 1

原创 [1216]git问题:Authentication failed解决办法

在拉取代码的时候报错,错误内容:remote: HTTP Basic: Access deniedfatal: Authentication failed for ‘http://xxx.git/’根据错误提示得知:没有权限,被拒绝访问。关于这个问题其实很简单,是因为博主之前的GitLab的密码策略到期后修改了账户的登录密码,而本地计算机系统中的访问凭证还未修改,只需要修改一下本地计算机的GitLab的访问策略即可。1、在本地计算机的中找Git凭据并修改控制面板>所有控制面板项>凭据管理器

2023-07-12 23:15:00 1482

原创 [1215]小米手机USB安装出现当前设备已被临时限制

小米系列手机 开发者版本 之 USB安装出现当前设备已被临时限制。

2023-07-12 23:00:00 1515

原创 [1214]基于Python实现视频去重

一款基于Python语言的视频去重复程序,它可以根据视频的特征参数,将重复的视频剔除,以减少视频的存储空间。最后,将每个视频的哈希值进行对比,如果哈希值相同,则表示视频内容相同,可以将其中一个视频剔除,以节省存储空间。参考:https://blog.csdn.net/weixin_44634704/article/details/128563576。3、最后,将每个视频的哈希值进行对比,如果哈希值相同,则表示视频内容相同,可以将其中一个视频剔除。同级目录下新建dup_video。

2023-07-05 23:15:00 605

原创 [1213]基于Python实现图像去重

本文介绍了Python图像去重的三种方法,分别是哈希算法、局部敏感哈希算法和感知哈希算法。在实际的应用场景中,可以根据具体情况选择合适的方法来进行图像去重操作。

2023-07-05 23:00:00 760

原创 [1212]Python GUI之PySimpleGUI

PySimpleGUI基于Tkinter,Remi、wxPython和PyQt。Remi将应用程序的界面转换为HTML以在Web浏览器中呈现”。PySimpleGUI不需要使用类来创建用户界面。使用PySimpleGUI创建GUI贼简单。官方文档:https://pysimplegui.readthedocs.io/en/latest/Gitee克隆:https://gitee.com/yumos/PySimpleGUI安装PySimpleGui# 使用pip命令安装即可(默认安装到全局)

2023-07-01 08:15:00 499

原创 [1211]python imagehash库简单运用

散列函数(英语:Hash function)又称散列算法哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或 hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。

2023-07-01 08:00:00 653

原创 [1210]在Python中如何将浮点数转换为base36

第一种方法代码精简,可以快速获取随机字符串。但是存在较多缺点,不建议在生产中使用。对于对字符集有特定要求的场景,可以使用第二种方法。

2023-06-21 22:15:00 176

原创 [1209]python实现SHA-256加密

参考:https://blog.csdn.net/weixin_35754676/article/details/128872199。如果你想在 Python 中使用 SHA-256 加密,可以使用 Python 的 hashlib 库。创建了一个 SHA-256 哈希对象,然后使用。方法对数据进行哈希计算,最后使用。上面的代码中,首先我们使用。

2023-06-21 22:00:00 543

原创 [1208]linux的权限系统知识点(drwxr-xr-x)

在Linux系统中使用 ll 命令可以看到文件的权限信息,如图:接下来主要解释一下这些权限的含义:可以看到总的十个字符:1、第一个字符表示文件类型:2、接下来的九个字符三个一组,分别表示文件拥有着,所属组群和其他人的读(r),写(w),执行(x)权限,如果没有权限则用 表示。Linux文件的基本权限分为9个,总共三组,分别为拥有者(owner),所属组群(group)和其他人(others),其中每组身份又拥有各自的读(read),写(write),执行(execute)权限。可以用数字和字母来分别表

2023-06-21 21:45:00 451

原创 [1207]ImportError:无法导入名称“ RandomizedLogisticRegression”

但作为回报,我得到以下错误:ImportError:无法导入名称“ RandomizedLogisticRegression”

2023-06-16 00:00:00 152

原创 [1206]解决ModuleNotFoundError: No module named ‘sklearn.externals.six‘报错问题

参考:https://blog.csdn.net/shanlijia/article/details/124489418。清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣(douban) http://pypi.douban.com/simple/降级scikit-learn 到版本0.22或更低版本。无需降级 scikit-learn。尝试使用国内镜像进行,例如。

2023-06-15 23:45:00 474

原创 [1205]成功解决ImportError: cannot import name ‘joblib‘

参考:https://blog.csdn.net/qq_41185868/article/details/108286109。函数是用在0.21及以前的版本中,在最新的版本中,该函数应被弃用。

2023-06-15 23:30:00 92

原创 [1204]Flink1.13详细教程

2、最新 Flink 1.13 部署(Session、Per-Job、Application、HA、YARN)快速入门、详细教程:https://blog.csdn.net/qq_38582455/article/details/124003968。8、最新 Flink 1.13 状态编程与容错机制(状态、状态后端、检查点、精确一次、端到端的状态一致性)快速入门、详细教程:https://blog.csdn.net/qq_38582455/article/details/123987663。

2023-06-15 19:12:41 18

转载 [1202]docker搭建隧道代理池

隧道代理是基于高性能主机构建的动态IP代理服务器;以设置固定代理,每次请求自动更换到不同IP (这里规则可以自己定);线路以高匿名、高便捷、多并发的优势,适用于个人/企业对代理稳定性和品质要求高的客户(主要看你代理池中的 IP 稳不稳定)。

2023-06-08 22:00:00 482

原创 [1203]Redash安装部署

Redash是一款开源的BI工具,提供了基于web的数据库查询和数据可视化功能。说明: github上的setup.sh安装是基于ubuntu系统的环境选择官方支持的环境有 Ubuntu 16.04, AWS, Google Compute Cloud 和 Docker。

2023-06-08 22:00:00 590 1

原创 [1200]yarn不是内部或外部命令,也不是可运行的程序

参考:https://blog.csdn.net/qq_44930379/article/details/117564665。第1步:找到你刚才安装的yarn 如:C:\soft\nvm\npm\node_modules\yarn\bin。,重新打开cmd,输入。1.全局安装yarn。2.使用yarn报错。

2023-06-08 21:00:00 291

原创 [1199]npm常用命令

npm将软件包安装到哪里:https://blog.csdn.net/ximaiyao1984/article/details/130230697。npm命令常用参数:https://blog.csdn.net/sinat_38737592/article/details/108908061。如何更新npm:https://blog.csdn.net/weixin_44222492/article/details/99637027。就是安装到当前命令行下的目录中,但不会记录在package.json中,

2023-05-30 22:50:00 643

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错 使用这个修改完成的Hbase类替换掉原来的Hbase类问题全部解决 主要是因为python版本兼容性带来的问题

2018-09-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除