自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白兔de窝

心平气和,不起执念。

  • 博客(754)
  • 资源 (1)
  • 论坛 (6)
  • 收藏
  • 关注

原创 【Python】常见数据处理代码

计时 import timeT0 = time.time()T1 = time.time()print("Run time %s min, %s h" % ((T1 - T0) / 60, (T1 - T0) / 3600)) 实时日志打印 定义一个类:class Logger(object): def __init__(self, log_path="default.log"): import sys self.terminal = ..

2021-04-03 19:28:03 140

原创 【WPS】常见WPS数据处理技巧

WPS表格按相同内容出现数量多少进行降序排序? 比如第一列有五百个地名,想按照出现相同地名次数的多少从大到小排序,比如济南(59),青岛(49),烟台(39)解决:假如你有100行数据,增加一个辅助列比如F列,在F2输入公式=COUNTIF(A$2:A$101,A2),公式下拉自动填充到表未尾,再把整个表格按F列进行降序排列就可以了。WPS表格按列填充公式在首行输入公式,再选中填充区域,列填充快捷键是CTRL+D ;行填充快捷键是CTRL+R...

2021-04-03 18:00:32 421

原创 【Linux】常见Linux shell数据处理命令

Linux sort 按多列去重复 文件按逗号分隔,根据第一列、第二列去重复:awk -F',' '!i[$1$2]++' all_data.csv >> all_data.csv文件按单行去重复,只打印指定列:cat all_data.csv | sort | uniq -c | awk '{print $2}' >> all_data_uniq.csv ...

2021-04-03 16:49:51 149

原创 【论文写作】英文错误集锦

【语法错误】检查全文的et al—— et al 后面有个点。检查全文的as—— as后面是跟从句,不能只跟一个名词:as the sacrifice of most peaks(X)【搭配不当】形容solution space 一般用complicated而不是hard:the hard solution space(X)新的、讨巧的说法,不一定严密。先保证不出错,再斟酌词句。在deadline之前提前半周-一周把事情做完。...

2020-11-02 21:18:50 235

原创 【收藏夹2020-2021】

《千与千寻》背后暗藏的寓意你真的明白吗?在一个无国界( borderless)的时代,无立足之地的人是最受人鄙视的。立足之地就是过去,就是历史。 在我看来,没有历史的人和忘记了过去的民族,只能如蜉蝣一般消失,或者像一只鸡一样只知埋头生蛋,直到自己被吃掉。《 异境中的千寻——这部电影的主旨》—— 宫崎骏 1999年11月6日“曾经发生的事情不可能忘记,只是想不起来而已”,这是钱婆婆对千寻说的话。https://www.sohu.com/a/321946610_100205824...

2020-09-16 21:35:53 443

原创 报错:WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after con

报错内容:WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError(SSLEOFError(8, 'EOF occurred in violation of protocol (_ssl.c:749)'),)': /pypi/simple/dataclasses/WARNING: Retrying (Retry

2021-11-02 17:13:00 38

原创 【大数据】BitMap的实现

需求:假设有一个4G的Id数据,和一个800M的Id数据,要互相遍历,时间开销很大。解决:采用比特图,能成功将4G数据压缩到1-5k左右。内存问题:如果一条数据的存放地址用32 比特(bit)来表示 ,等于4 字节(byte)内存;那么一亿条数据,要占用一亿个地址,等于占用4亿字节的内存,等于381MB (1MB=1024KB=1024*1024B)。——可接受如果一条数据的存放地址用64 比特(bit)来表示 ,等于8字节内存;那么一亿条数据,要占用762MB内存。Redis限制问题:Redi

2021-10-31 13:40:51 721

翻译 【Python】AttributeError: Can‘t get attribute ‘Vocab‘ on <module ‘gensim.models.word2vec‘ from

pip install --upgrade gensim==3.8.3

2021-10-19 10:25:52 126

原创 【已解决】ExcelAPInet-Addln.xll的文件格式和扩展名不匹配,文件可能已损坏或不安全,除非您信任其来源,否则请勿打开。是否仍要打开?

一、每次打开Excel弹出报错提示:ExcelAPInet-Addln.xll的文件格式和扩展名不匹配,文件可能已损坏或不安全,除非您信任其来源,否则请勿打开。是否仍要打开?解决方案(亲测可行):打开Excel表格-》文件-》选项-》加载项-》转到-》取消所有加载项前面的勾-》确定一些技巧:(1)设置Office Excel为xlsx默认打开方式(2)...

2021-10-13 10:58:23 114

转载 【Python】 Pandas 遍历DataFrame的正确姿势 速度提升一万倍

原文:https://zhuanlan.zhihu.com/p/97269320最近做科研时经常需要遍历整个DataFrame,进行各种列操作,例如把某列的值全部转成pd.Timestamp格式或者将某两列的值进行element-wise运算之类的。大数据的数据量随便都是百万条起跳,如果只用for循环慢慢撸,不仅浪费时间也没效率。在一番Google和摸索后我找到了遍历DataFrame的至少8种方式,其中最快的和最慢的可以相差12000倍!本文以相加和相乘两种操作为例,测试8种方法的运行速度,并附上示范

2021-09-26 11:29:13 28

原创 好看的ppt背景

1. 聚类系数上图:非常炫酷的背景 + 透明遮罩 + 很亮的白色文字上图:深色背景 + 很亮的白色字体当标题 + 黑色遮罩白色文字介绍2. 最短路径上图:黑板做背景3. 网络直径

2021-09-06 12:00:42 28

原创 【Python】去除所有中英文标点

string.punctuation支持导入所有英文标点:!"#$%&’()*+,-./:;<=>?@[]^_`{|}~zhon.hanzi.punctuation支持导入所有中文标点:"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、 、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·!?。。import refrom string import punctuation as punctuation_en from

2021-08-21 17:25:05 78

原创 【经验】惨痛的教训之数据库操作失误

不管是不是你引起的以后尽量不要动线上数据库一没经验,二又不懂,三还直接线上操作。这不自己作死么。在公司你平常做得再好一次线上事故绩效就是扣没了,在别的地方也一样道理。你本地装一个mysql,线上数据库每天定时备份,你同步下来导入到本地的mysql里面爱怎么折腾数据怎么折腾,对线上毫无影响。就算你线上直接查询,sql语句没写好可能导致锁表影响到服务的。在本地最安全了。...

2021-08-13 10:19:10 53

翻译 【社交网络】映射主题网络:从两极分化的人群到社区集群(二)

建议直接阅读原文:https://www.pewresearch.org/internet/2014/02/20/mapping-twitter-topic-networks-from-polarized-crowds-to-community-clusters/以下是翻译:方法:使用 NodeXL 网络映射社交媒体格局1. 如何绘制 Twitter 社交媒体网络地图图片说明:1框:NodeXL 将网络分成多个组 (G1、G2、……),位于不同的框中,并由每个组中用户的推文中使用的顶部主

2021-08-04 12:02:09 48

翻译 【社交网络分析】映射主题网络:从两极分化的人群到社区集群(一)

建议直接阅读原文:https://www.pewresearch.org/internet/2014/02/20/mapping-twitter-topic-networks-from-polarized-crowds-to-community-clusters/以下是翻译:在对数千张 Twitter 地图进行分析后,我们发现了六种不同类型的网络人群。1. Twitter 对话中的两极分化人群两极分化的人群:两极分化的讨论以两个大而密集的群体为特征,它们之间几乎没有联系。正在讨论的话题往往是高度

2021-08-04 11:53:05 81

原创 【可视化】使用basemap 把数据放到地图上

把数据放到地图上:使用basemap plt.figure( figsize=(20,10), facecolor='k')m = Basemap(projection='mill',resolution=None,llcrnrlat=-90,urcrnrlat=90,llcrnrlon=-180,urcrnrlon=180)m.etopo()xpt,ypt = m(np.array(tweets['place_lon']),np.array(tweets['place_lat']))l...

2021-08-04 11:41:13 116

原创 【Python】约定函数的输入输出类型

输入类型约定用冒号:element: string输出类型约定用箭头:-> bool案例:def func(element: str) -> bool: # 约定输入类型为int,输出类型为bool print(element) return bool(element)print(func('abc'))Python常见数据类型:数字类型:int、float字符串类型:str、unicode布尔型:bool其他:list、dict、tupl.

2021-08-03 07:27:53 122

转载 【Pandas】Pandas处理Csv和Excel数据详解

作者:Zarten知乎专栏:python数据分析与挖掘深入详解知乎ID:Zarten简介: 互联网一线工作者,尊重原创并欢迎评论留言指出不足之处,也希望多些关注和点赞是给作者最好的鼓励 !概述通过pandas处理数据时,数据从何而来呢?基本都是从外部获取的,如纯文本文件、excel、数据库、网页等,所以从外部导入数据的重要性不言而喻。这篇文章将介绍导入csv和excel文件为Pandas的DataFrame对象。导入CSV文件csv文件类型实际是文本文件,由于文本文件没有固定的格式.

2021-07-31 16:55:24 39

原创 【绘图】Origin关闭加速模式(speed mode)

打开一幅图,双击图中的点或线,打开“Plot details”对话框:依次点击Layer --> Size/Speed;取消”Speed Mode, Skip Points if needed“下两个对话框中的对号;点击apply,完成!

2021-07-30 07:37:59 2076

翻译 【Python】构建关键词共现矩阵完整版

有个网友写了一个帖子叫做:python构建关键词共现矩阵,里面构造了完整的代码框架,可测试,有两个版本(numpy版和list版可用)。优点是完整可测试,缺点是速度较慢。后来有网友改进了这个代码:python构建关键词共现矩阵速度优化,里面对代码进行了优化,优点是能把几个小时能优化到3分钟,缺点是只贴出一部分代码。我综合了这两个人的代码,构造出一个终版可用的版本。优点有:无需导入原始依赖的reader函数、速度快、可运行、去除了空关键词。代码如下:# -*- coding: utf-8

2021-07-15 19:26:33 655 3

原创 【Python】能打印日志的语法装饰器

定义一个打印日志的代码:def log(func): def wrapper(*args, **kwargs): now_time = str(time.strftime('%Y-%m-%d %X', time.localtime())) print('%s %s called' % (now_time, func.__name__)) print('Comments:%s' % func.__doc__) print('%s r

2021-07-15 12:02:21 39

原创 【上网】微信能上网,谷歌浏览器上不了网,怎么解决?

1. 打开设置2. 打开“隐私和安全性”,点击“高级”,找到“打开您计算机的代理设置”3. 找到“手动设置代理”,关闭“使用代理服务器”的按钮,重启浏览器即可成功上网。

2021-07-08 11:19:38 1255 1

转载 【PS】photoshop怎么添加层遮罩?

层遮罩其实就是:剪贴蒙版。蒙版就是把上层的彩纸贴到下层的底板上,下层底板是什么形状,剪贴出来的效果就是什么形状的。方法如下:1、打开PS,新建一个空白文档,输入一些文字。2、在文字图层上面新建一个图层,填充一种颜色或者拉一个渐变,随意,只要让新建的图层里面有东西能够覆盖文字层就可以了。3、将鼠标移动到新建图层和文字层之间,按住alt键,可以发现鼠标变形了(有一个向下的箭头),点击鼠标,创建剪贴蒙版。文字层出来了。4、文字的颜色变化了,变成了一种有点眼熟的颜色——其实就是刚才拉的渐变色。5、.

2021-06-30 10:52:16 280

原创 【技术】怎么将PPT中的白底图片,白色部分变透明?

第一步:双击图片,点击菜单栏“格式”标签,点击下面的“颜色”按钮。第二步:选择颜色按钮下的“设置透明色”,点击要设置的色块,即可设置为透明。

2021-06-29 21:32:20 411

原创 【github】Git LFS上传大文件到github

GitHub Desktop 包含用于管理大文件的 Git Large File Storage,即GLT FS。Git LFS 可让您将文件推送到超出 100 MB 正常限制的 GitHub。所以,要将仓库中的文件类型与 Git LFS 相关联,请输入git lfs track,后跟要自动上传到 Git LFS 的文件扩展名即可。例如,要关联.zip文件,请输入以下命令:$ git lfs track "*.zip"> Adding path *.zip...

2021-06-28 20:15:33 103

转载 【Github】Git安装教程(Windows) 以及连接Github

## 测试边界条件,特别是创建文件夹例如, # 创建数据文件夹 root = "./data" if not os.path.exists(root): os.mkdir(root) print('成功创建data文件夹,数据存放在此!')要亲自把原来的文件夹删掉,测试创建语法是否正确!...

2021-06-28 19:18:27 49

原创 【技术】Windows连接Linux主机,解决MobaXterm不时地自我断开的问题

问题出在MobaXterm自身的设置里,打开Settings-> Configuration ->SSH,勾选SSH keepalive

2021-06-01 18:02:44 117

原创 【Python】ReportLab生成pdf

如何表示空格:用‘\0‘来表示空格reportlab实现横线style:

2021-05-31 16:36:08 65

转载 【数据处理】正则匹配指定字符传后面的字符

方法1: 匹配,捕获(存储)正则表达式:(?<=(href=")).{1,200}(?=(">)) 解释:(?<=(href=")) 表示匹配以(href=")开头的字符串,并且捕获(存储)到分组中 (?=(">))表示匹配以(">)结尾的字符串,并且捕获(存储)到分组中...

2021-05-29 20:44:58 165

原创 【数据处理】正则表达式中的括号

1. 小括号() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串。(abc)?,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现

2021-05-29 19:40:30 89

转载 【数据挖掘】http请求头中Referer的含义和作用

Referer是HTTP请求header的一部分,当浏览器(或者模拟浏览器行为)向web服务器发送请求的时候,头信息里有包含Referer。比如我在www.google.com里有一个www.baidu.com链接,那么点击这个www.baidu.com,它的header信息里就有:Referer=http://www.google.com由此可以看出来吧。它就是表示一个来源。看下图的一个请求的Referer信息。这里有一个小问题要说明下。Re...

2021-05-22 11:31:34 101

原创 【Linux】复杂的sort -k 按列排序命令,有坑!!

原理 【案例1】要求按第1列的第二、三个字符,按数字、逆序排序sort -k 1.2, 1.3nr这个语法格式可以被其中的逗号(“,”)分为两大部分,Start部分和End部分。先给你灌输一个思想,那就是“如果不设定End部分,那么就认为End被设定为行尾”。这个概念很重要。前后两部分的点号(“. ”)用来分割指定列、指定字符-k选项的具体语法格式,如下:[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ ..

2021-05-14 21:04:12 137

原创 【数据挖掘】采集人员信息的技巧

1. 找个企业或机构,点开人员列表页,用后羿采集器批量采集全部人员数据。有时候不同详情页格式不一样,建议只用一个字段,存放全部内容。2. 将导出的xlsx转化为csv3. 用notepad++打开csv,开始批量替换,例如(1)英文逗号 正则替换为 中文逗号(2)\r\n 正则替换为 \r\r(3)\n ...

2021-04-21 16:58:06 101

原创 【数据处理】Notepad++正则替换,替换内容的正则表达式怎么写

案例说明原始数据为csv文件小明 点击: 6508 次 男想要的效果:小明, 点击: 6508 次,男解决步骤:第一步,用正则表达式识别出 “ 点击: 6508 次 "。打开notepad++,打开【搜索】->【替换】,勾选【正则表达式】,然后在【查找目标】输入:(\s*)点击:(\s*)(\d+)(\s*)次(\s*)第二步:正则替换为 “,点击: 6508...

2021-04-21 14:02:29 128

转载 【转载】双重身份:2017JCR既是SCI又是SSCI的期刊名单

转自:http://blog.sciencenet.cn/blog-651374-1061883.html2017发布-JCR-IF已经悄然过去了一个星期,如果对于标题的内容仍然感兴趣的话,不妨驻足一探,您感兴趣的期刊是否在列?博文Scopus和JCR的比较:2017最新发布期刊影响因子数据浅析说明了期刊总排名会出现肿大,并提出了可能的原因。本文直接奉上那些在20170614发布的JCR总排名中占据两个位置——既是SCI又是SSCI 的633种期刊名单,如下。Serials No. ..

2021-04-19 07:51:36 323

原创 【可视化】使用PS将图片从白底换成其他底色时,如何保留头发边缘的发丝

【知识点】借助剪切图层蒙版,可以在不擦除头发形状的同时,去掉白边。剪切图层蒙版的原理是”下形状,上颜色“,使用处于下方图层的形状来限制上方图层的显示状态,达到一种剪贴画的效果。------------------------------------------------------------------------------------------------第一步:打开图片,在原图基础上新建 一个透明图层;第二步:点击透明图层,按Ctrl+Alt+G,或者点选【图层】-&gt

2021-04-10 23:01:02 581

转载 【Linux】在Windows 10环境下安装适用于 Linux 的子系统 (WSL安装指南)

安装适用于 Linux 的 Windows 子系统 (WSL) 时有两个选项: 简化安装(预览版):wsl --install 要使用wsl --install简化安装命令,你需要加入Windows 预览体验计划并安装 Windows 10 的预览版(OS 版本 20262 或更高版本),但不需要执行手动安装步骤。只需使用管理员权限打开命令窗口并运行wsl --install,重启后即可使用 WSL。 手动安装:按照下列 6 个步骤进行操作。 下面列出了 WSL 的...

2021-04-04 15:33:59 529

原创 【技术】Word文档毕业论文技巧:如何编辑页眉和页脚

1.怎样在Word页眉中添加章节标题?(1)确保你的文章有标题索引(2)选择【插入】->【页眉和页脚】,或者双击页眉区域。(3)点击“插入”—“文档部件”—“域”。(4)插入标题名:在打开的窗口中,选择StyleRef,在“样式名”中选择“标题1”,点击“确定”,可插入章节标题。(5)把光标放在标题前,按照步骤(4)重新进入StyleRef-标题1,勾选【域选项】里的”插入段落编号“,可插入章节编号。参考:https://jingyan.baidu.com/a.

2021-03-24 17:46:41 393

原创 【Python】关于Caused by SSLError Max retries exceeded with url 的错误

可能的问题和解决方法如下:1.http连接太多没有关闭导致的解决方法1:关闭多余链接import requestsrequests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数s = requests.session()s.keep_alive = False # 关闭多余连接s.get(url) # 你需要的网址解决办法2:增加重连次数requests.adapters.DEFAULT_RETRIES = 52.访问次数频繁,被禁..

2021-03-17 23:07:04 1774

转载 【技术】python 爬虫一招解决SSl 报错SSLError

摘要用python写爬虫的时候没我们经常遇到https认证的网站,采用常用模块requests模块,我们一般在请求中将verify设置成假,免证书验证,但是这些都是理想状态,https请求很容易报错,一旦报错就难以解决。举个列子编写一个简单的列子,我们的目标对象是一个https的网站,它的编码是gb2312,按照常用手法,我们设置免验证的方法,按照我们正常的逻辑,肯定是能成功,但是这里却不符合逻辑简单爬虫案例下面开始运行代码:异常报错报错的信息,无非是ssl的各种报错,我这里是

2021-03-17 22:22:30 528

社交网络分析教程:使用 NodeXL 分析和绘制社交网络

Mapping Twitter Topic Networks-From Polarized Crowds to Community Clusters.pdf

2021-08-04

求教python高手:一个简单的问题,lstrip函数切割错误

发表于 2015-08-08 最后回复 2020-04-16

python 如何定义动态二维数组

发表于 2015-08-17 最后回复 2020-01-13

python-matplotlib画图:如何将一个数以【指数形式】展现出来

发表于 2015-12-03 最后回复 2019-03-18

CSDN将我的一篇置顶博文搞丢了

发表于 2017-10-17 最后回复 2018-09-03

博客栏目中的类别名,希望允许冒号、竖杠、中文括号的存在

发表于 2017-12-13 最后回复 2017-12-13

vector定义二维数组之后,在子容器添加元素的方法——即扩充列元素。

发表于 2016-03-16 最后回复 2016-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除