自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白兔de窝

心平气和,不起执念。

  • 博客(759)
  • 资源 (1)
  • 收藏
  • 关注

原创 【Python】常见数据处理代码

计时 import timeT0 = time.time()T1 = time.time()print("Run time %s min, %s h" % ((T1 - T0) / 60, (T1 - T0) / 3600)) 实时日志打印 定义一个类:class Logger(object): def __init__(self, log_path="default.log"): import sys self.terminal = ..

2021-04-03 19:28:03 361

原创 【WPS】常见WPS数据处理技巧

WPS表格按相同内容出现数量多少进行降序排序? 比如第一列有五百个地名,想按照出现相同地名次数的多少从大到小排序,比如济南(59),青岛(49),烟台(39)解决:假如你有100行数据,增加一个辅助列比如F列,在F2输入公式=COUNTIF(A$2:A$101,A2),公式下拉自动填充到表未尾,再把整个表格按F列进行降序排列就可以了。WPS表格按列填充公式在首行输入公式,再选中填充区域,列填充快捷键是CTRL+D ;行填充快捷键是CTRL+R...

2021-04-03 18:00:32 1119

原创 【Linux】常见Linux shell数据处理命令

Linux sort 按多列去重复 文件按逗号分隔,根据第一列、第二列去重复:awk -F',' '!i[$1$2]++' all_data.csv >> all_data.csv文件按单行去重复,只打印指定列:cat all_data.csv | sort | uniq -c | awk '{print $2}' >> all_data_uniq.csv ...

2021-04-03 16:49:51 276

原创 【论文写作】英文错误集锦

【语法错误】检查全文的et al—— et al 后面有个点。检查全文的as—— as后面是跟从句,不能只跟一个名词:as the sacrifice of most peaks(X)【搭配不当】形容solution space 一般用complicated而不是hard:the hard solution space(X)新的、讨巧的说法,不一定严密。先保证不出错,再斟酌词句。在deadline之前提前半周-一周把事情做完。...

2020-11-02 21:18:50 359

原创 【论文写作】英文论文句子的流水记录

解决迁移问题:addressing the effects of migration in parallel evolutionary algorithms.排除简单并联:Finally, from a technological perspective, we also do not consider distributed optimization that makes use of geographically dispersed computers and allows using gri...

2020-10-12 23:29:39 282

原创 【学术】英文词汇和句型结构收集

【词汇篇】误差率:error rate, which is 1 minus the accuracydynamic,动力,动态adj. 动态的;动力的;动力学的;有活力的n. 动态;动力dynamics,动力学,力学The branch of mechanics concerned with the forces that change or produce the ...

2019-11-17 22:00:31 953

原创 优秀工程师系列:选择与努力

作者语:每个人都是一株凤尾草,艰难地在夹缝中寻找他们的水源.当大猿搬出那个强大R语言包时,我有不好的预感。果然,经过十几分钟的调试,它兴高采烈地过来告诉我,运行成功了。尽管这个开源包在理论上可以取代我之前一个月所做的工作与更之前愚公所做的工作,我依然心存侥幸,希望它别急着下结论。我跟它讲,当我找到手里这个源码时,也是一样的心情,可是仍需要时间来验证。但同时意识到,这已经是垂死挣扎,...

2016-05-13 22:09:39 2411 1

原创 优秀工程师系列:品质与效率

请教了大猿一个问题,当时它戴着耳机在看书,再一次被我打断。工程是在愚公带领下完工的,那时大小猿们都还没来。后来我接手做这个小工具时,愚公其实是准备好了java源码。然而我java水平有限,为节约时间,坚持用python。愚公不悦:“用java你可以直接调用我们模型的接口,传递参数就行了,用python你还得自己读写文件很费劲的。" 但是作为领头猿,它还是尊重了我的选择。抛过来两个文档,各自几百页,用鸟语写成。当时的我是拒绝的。

2016-05-10 21:36:46 2940

转载 【Python】在python中使用xlrd和xlwt读写Excel

您看到的问题(no module named 'pystan')是因为最新的pystan(> = 3.0)进行了不向后兼容的更改,包括它现在具有不同的导入名称。见#1856。您需要安装 pystan 2.19.1.1 才能正常工作,然后重新安装 fbprophet。pip remove fbprophetpip install pystan==2.19.1.1pip install fbprophet......

2022-06-14 14:54:11 345 1

转载 【前端】25款不得不说的html5+css3动画效果

这25款动画效果分别使用了html5 svg、css3 transform、css3 transition、css3 animation等制作而成。1、9种梦幻般的html5+css3 tooltip鼠标提示插件效果这个tooltip鼠标提示插件将带您离开黄底黑字的html tooltip原始时代。该插件共9种效果,使用html5 svg和css3 transform属性完成。该tooltip带图片带动画,效果一流。>> 查看演示2、19种基于css3的超华丽模态窗口效果这是一款集19种模态窗口效果于一体的

2022-06-03 15:26:32 926

原创 【收藏夹2022】

输入法英文都是大写字母的解决方案:按Ctrl+Shift+K

2022-02-20 10:54:28 163

转载 【Excel】如何使用RegexString正则表达式

问题链接:How to use Regular Expressions (Regex) in Microsoft Excel both in-cell and loops - Stack OverflowRegular expressionsare used for Pattern Matching.To use in Excel follow these steps:Step 1: Add VBA reference to "Microsoft VBScript Regular Ex...

2021-12-22 13:07:44 1673

原创 【技术】删除右键菜单中“使用 Skype 共享“

第一步:win+R打开注册表第二步:搜索栏输入:计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Classes\PackagedCom\Package\Microsoft.SkypeApp_15.64.80.0_x86__kzf8qxf38zg5c\Class\{776DBC8D-7347-478C-8D71-791E12EF49D8}第三步:双击DLLPath,在Skype\SkypeContext.dll前面加个横杠:...

2021-12-07 01:09:58 2328

原创 报错:WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after con

报错内容:WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError(SSLEOFError(8, 'EOF occurred in violation of protocol (_ssl.c:749)'),)': /pypi/simple/dataclasses/WARNING: Retrying (Retry

2021-11-02 17:13:00 9557

原创 【大数据】BitMap的实现

需求:假设有一个4G的Id数据,和一个800M的Id数据,要互相遍历,时间开销很大。解决:采用比特图,能成功将4G数据压缩到1-5k左右。内存问题:如果一条数据的存放地址用32 比特(bit)来表示 ,等于4 字节(byte)内存;那么一亿条数据,要占用一亿个地址,等于占用4亿字节的内存,等于381MB (1MB=1024KB=1024*1024B)。——可接受如果一条数据的存放地址用64 比特(bit)来表示 ,等于8字节内存;那么一亿条数据,要占用762MB内存。Redis限制问题:Redi

2021-10-31 13:40:51 892

翻译 【Python】AttributeError: Can‘t get attribute ‘Vocab‘ on <module ‘gensim.models.word2vec‘ from

pip install --upgrade gensim==3.8.3

2021-10-19 10:25:52 1487

原创 【已解决】ExcelAPInet-Addln.xll的文件格式和扩展名不匹配,文件可能已损坏或不安全,除非您信任其来源,否则请勿打开。是否仍要打开?

一、每次打开Excel弹出报错提示:ExcelAPInet-Addln.xll的文件格式和扩展名不匹配,文件可能已损坏或不安全,除非您信任其来源,否则请勿打开。是否仍要打开?解决方案(亲测可行):打开Excel表格-》文件-》选项-》加载项-》转到-》取消所有加载项前面的勾-》确定一些技巧:(1)设置Office Excel为xlsx默认打开方式(2)...

2021-10-13 10:58:23 1079

转载 【Python】 Pandas 遍历DataFrame的正确姿势 速度提升一万倍

原文:https://zhuanlan.zhihu.com/p/97269320最近做科研时经常需要遍历整个DataFrame,进行各种列操作,例如把某列的值全部转成pd.Timestamp格式或者将某两列的值进行element-wise运算之类的。大数据的数据量随便都是百万条起跳,如果只用for循环慢慢撸,不仅浪费时间也没效率。在一番Google和摸索后我找到了遍历DataFrame的至少8种方式,其中最快的和最慢的可以相差12000倍!本文以相加和相乘两种操作为例,测试8种方法的运行速度,并附上示范

2021-09-26 11:29:13 1138

原创 好看的ppt背景

1. 聚类系数上图:非常炫酷的背景 + 透明遮罩 + 很亮的白色文字上图:深色背景 + 很亮的白色字体当标题 + 黑色遮罩白色文字介绍2. 最短路径上图:黑板做背景3. 网络直径

2021-09-06 12:00:42 124

原创 【Python】去除所有中英文标点

string.punctuation支持导入所有英文标点:!"#$%&’()*+,-./:;<=>?@[]^_`{|}~zhon.hanzi.punctuation支持导入所有中文标点:"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、 、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·!?。。import refrom string import punctuation as punctuation_en from

2021-08-21 17:25:05 704

原创 【经验】惨痛的教训之数据库操作失误

不管是不是你引起的以后尽量不要动线上数据库一没经验,二又不懂,三还直接线上操作。这不自己作死么。在公司你平常做得再好一次线上事故绩效就是扣没了,在别的地方也一样道理。你本地装一个mysql,线上数据库每天定时备份,你同步下来导入到本地的mysql里面爱怎么折腾数据怎么折腾,对线上毫无影响。就算你线上直接查询,sql语句没写好可能导致锁表影响到服务的。在本地最安全了。...

2021-08-13 10:19:10 184

翻译 【社交网络】映射主题网络:从两极分化的人群到社区集群(二)

建议直接阅读原文:https://www.pewresearch.org/internet/2014/02/20/mapping-twitter-topic-networks-from-polarized-crowds-to-community-clusters/以下是翻译:方法:使用 NodeXL 网络映射社交媒体格局1. 如何绘制 Twitter 社交媒体网络地图图片说明:1框:NodeXL 将网络分成多个组 (G1、G2、……),位于不同的框中,并由每个组中用户的推文中使用的顶部主

2021-08-04 12:02:09 244

翻译 【社交网络分析】映射主题网络:从两极分化的人群到社区集群(一)

建议直接阅读原文:https://www.pewresearch.org/internet/2014/02/20/mapping-twitter-topic-networks-from-polarized-crowds-to-community-clusters/以下是翻译:在对数千张 Twitter 地图进行分析后,我们发现了六种不同类型的网络人群。1. Twitter 对话中的两极分化人群两极分化的人群:两极分化的讨论以两个大而密集的群体为特征,它们之间几乎没有联系。正在讨论的话题往往是高度

2021-08-04 11:53:05 355

原创 【可视化】使用basemap 把数据放到地图上

把数据放到地图上:使用basemap plt.figure( figsize=(20,10), facecolor='k')m = Basemap(projection='mill',resolution=None,llcrnrlat=-90,urcrnrlat=90,llcrnrlon=-180,urcrnrlon=180)m.etopo()xpt,ypt = m(np.array(tweets['place_lon']),np.array(tweets['place_lat']))l...

2021-08-04 11:41:13 446

原创 【Python】约定函数的输入输出类型

输入类型约定用冒号:element: string输出类型约定用箭头:-> bool案例:def func(element: str) -> bool: # 约定输入类型为int,输出类型为bool print(element) return bool(element)print(func('abc'))Python常见数据类型:数字类型:int、float字符串类型:str、unicode布尔型:bool其他:list、dict、tupl.

2021-08-03 07:27:53 1146

转载 【Pandas】Pandas处理Csv和Excel数据详解

作者:Zarten知乎专栏:python数据分析与挖掘深入详解知乎ID:Zarten简介: 互联网一线工作者,尊重原创并欢迎评论留言指出不足之处,也希望多些关注和点赞是给作者最好的鼓励 !概述通过pandas处理数据时,数据从何而来呢?基本都是从外部获取的,如纯文本文件、excel、数据库、网页等,所以从外部导入数据的重要性不言而喻。这篇文章将介绍导入csv和excel文件为Pandas的DataFrame对象。导入CSV文件csv文件类型实际是文本文件,由于文本文件没有固定的格式.

2021-07-31 16:55:24 488

原创 【绘图】Origin关闭加速模式(speed mode)

打开一幅图,双击图中的点或线,打开“Plot details”对话框:依次点击Layer --> Size/Speed;取消”Speed Mode, Skip Points if needed“下两个对话框中的对号;点击apply,完成!

2021-07-30 07:37:59 12770

翻译 【Python】构建关键词共现矩阵完整版

有个网友写了一个帖子叫做:python构建关键词共现矩阵,里面构造了完整的代码框架,可测试,有两个版本(numpy版和list版可用)。优点是完整可测试,缺点是速度较慢。后来有网友改进了这个代码:python构建关键词共现矩阵速度优化,里面对代码进行了优化,优点是能把几个小时能优化到3分钟,缺点是只贴出一部分代码。我综合了这两个人的代码,构造出一个终版可用的版本。优点有:无需导入原始依赖的reader函数、速度快、可运行、去除了空关键词。代码如下:# -*- coding: utf-8

2021-07-15 19:26:33 4385 6

原创 【Python】能打印日志的语法装饰器

定义一个打印日志的代码:def log(func): def wrapper(*args, **kwargs): now_time = str(time.strftime('%Y-%m-%d %X', time.localtime())) print('%s %s called' % (now_time, func.__name__)) print('Comments:%s' % func.__doc__) print('%s r

2021-07-15 12:02:21 207

原创 【上网】微信能上网,谷歌浏览器上不了网,怎么解决?

1. 打开设置2. 打开“隐私和安全性”,点击“高级”,找到“打开您计算机的代理设置”3. 找到“手动设置代理”,关闭“使用代理服务器”的按钮,重启浏览器即可成功上网。

2021-07-08 11:19:38 10636 1

转载 【PS】photoshop怎么添加层遮罩?

层遮罩其实就是:剪贴蒙版。蒙版就是把上层的彩纸贴到下层的底板上,下层底板是什么形状,剪贴出来的效果就是什么形状的。方法如下:1、打开PS,新建一个空白文档,输入一些文字。2、在文字图层上面新建一个图层,填充一种颜色或者拉一个渐变,随意,只要让新建的图层里面有东西能够覆盖文字层就可以了。3、将鼠标移动到新建图层和文字层之间,按住alt键,可以发现鼠标变形了(有一个向下的箭头),点击鼠标,创建剪贴蒙版。文字层出来了。4、文字的颜色变化了,变成了一种有点眼熟的颜色——其实就是刚才拉的渐变色。5、.

2021-06-30 10:52:16 3360

原创 【技术】怎么将PPT中的白底图片,白色部分变透明?

第一步:双击图片,点击菜单栏“格式”标签,点击下面的“颜色”按钮。第二步:选择颜色按钮下的“设置透明色”,点击要设置的色块,即可设置为透明。

2021-06-29 21:32:20 5247

原创 【github】Git LFS上传大文件到github

GitHub Desktop 包含用于管理大文件的 Git Large File Storage,即GLT FS。Git LFS 可让您将文件推送到超出 100 MB 正常限制的 GitHub。所以,要将仓库中的文件类型与 Git LFS 相关联,请输入git lfs track,后跟要自动上传到 Git LFS 的文件扩展名即可。例如,要关联.zip文件,请输入以下命令:$ git lfs track "*.zip"> Adding path *.zip...

2021-06-28 20:15:33 359

转载 【Github】Git安装教程(Windows) 以及连接Github

## 测试边界条件,特别是创建文件夹例如, # 创建数据文件夹 root = "./data" if not os.path.exists(root): os.mkdir(root) print('成功创建data文件夹,数据存放在此!')要亲自把原来的文件夹删掉,测试创建语法是否正确!...

2021-06-28 19:18:27 398

原创 【技术】Windows连接Linux主机,解决MobaXterm不时地自我断开的问题

问题出在MobaXterm自身的设置里,打开Settings-> Configuration ->SSH,勾选SSH keepalive

2021-06-01 18:02:44 593

原创 【Python】ReportLab生成pdf

如何表示空格:用‘\0‘来表示空格reportlab实现横线style:

2021-05-31 16:36:08 167

转载 【数据处理】正则匹配指定字符传后面的字符

方法1: 匹配,捕获(存储)正则表达式:(?<=(href=")).{1,200}(?=(">)) 解释:(?<=(href=")) 表示匹配以(href=")开头的字符串,并且捕获(存储)到分组中 (?=(">))表示匹配以(">)结尾的字符串,并且捕获(存储)到分组中...

2021-05-29 20:44:58 4524

原创 【数据处理】正则表达式中的括号

1. 小括号() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串。(abc)?,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现

2021-05-29 19:40:30 840

转载 【数据挖掘】http请求头中Referer的含义和作用

Referer是HTTP请求header的一部分,当浏览器(或者模拟浏览器行为)向web服务器发送请求的时候,头信息里有包含Referer。比如我在www.google.com里有一个www.baidu.com链接,那么点击这个www.baidu.com,它的header信息里就有:Referer=http://www.google.com由此可以看出来吧。它就是表示一个来源。看下图的一个请求的Referer信息。这里有一个小问题要说明下。Re...

2021-05-22 11:31:34 298

原创 【Linux】复杂的sort -k 按列排序命令,有坑!!

原理 【案例1】要求按第1列的第二、三个字符,按数字、逆序排序sort -k 1.2, 1.3nr这个语法格式可以被其中的逗号(“,”)分为两大部分,Start部分和End部分。先给你灌输一个思想,那就是“如果不设定End部分,那么就认为End被设定为行尾”。这个概念很重要。前后两部分的点号(“. ”)用来分割指定列、指定字符-k选项的具体语法格式,如下:[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ ..

2021-05-14 21:04:12 992

社交网络分析教程:使用 NodeXL 分析和绘制社交网络

Mapping Twitter Topic Networks-From Polarized Crowds to Community Clusters.pdf

2021-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除