数据挖掘
文章平均质量分 60
记录数据收集、清洗、分析方法
兔子爱读书
不忘初心,记录成长
展开
-
【Excel】如何使用RegexString正则表达式
问题链接:How to use Regular Expressions (Regex) in Microsoft Excel both in-cell and loops - Stack OverflowRegular expressionsare used for Pattern Matching.To use in Excel follow these steps:Step 1: Add VBA reference to "Microsoft VBScript Regular Ex...转载 2021-12-22 13:07:44 · 3275 阅读 · 0 评论 -
【大数据】BitMap的实现
需求:假设有一个4G的Id数据,和一个800M的Id数据,要互相遍历,时间开销很大。解决:采用比特图,能成功将4G数据压缩到1-5k左右。内存问题:如果一条数据的存放地址用32 比特(bit)来表示 ,等于4 字节(byte)内存;那么一亿条数据,要占用一亿个地址,等于占用4亿字节的内存,等于381MB (1MB=1024KB=1024*1024B)。——可接受如果一条数据的存放地址用64 比特(bit)来表示 ,等于8字节内存;那么一亿条数据,要占用762MB内存。Redis限制问题:Redi原创 2021-10-31 13:40:51 · 1145 阅读 · 0 评论 -
【Python】去除所有中英文标点
string.punctuation支持导入所有英文标点:!"#$%&’()*+,-./:;<=>?@[]^_`{|}~zhon.hanzi.punctuation支持导入所有中文标点:"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、 、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·!?。。import refrom string import punctuation as punctuation_en from原创 2021-08-21 17:25:05 · 1328 阅读 · 0 评论 -
【经验】惨痛的教训之数据库操作失误
不管是不是你引起的以后尽量不要动线上数据库一没经验,二又不懂,三还直接线上操作。这不自己作死么。在公司你平常做得再好一次线上事故绩效就是扣没了,在别的地方也一样道理。你本地装一个mysql,线上数据库每天定时备份,你同步下来导入到本地的mysql里面爱怎么折腾数据怎么折腾,对线上毫无影响。就算你线上直接查询,sql语句没写好可能导致锁表影响到服务的。在本地最安全了。...原创 2021-08-13 10:19:10 · 471 阅读 · 0 评论 -
【社交网络】映射主题网络:从两极分化的人群到社区集群(二)
建议直接阅读原文:https://www.pewresearch.org/internet/2014/02/20/mapping-twitter-topic-networks-from-polarized-crowds-to-community-clusters/以下是翻译:方法:使用 NodeXL 网络映射社交媒体格局1. 如何绘制 Twitter 社交媒体网络地图图片说明:1框:NodeXL 将网络分成多个组 (G1、G2、……),位于不同的框中,并由每个组中用户的推文中使用的顶部主翻译 2021-08-04 12:02:09 · 651 阅读 · 0 评论 -
【社交网络分析】映射主题网络:从两极分化的人群到社区集群(一)
建议直接阅读原文:https://www.pewresearch.org/internet/2014/02/20/mapping-twitter-topic-networks-from-polarized-crowds-to-community-clusters/以下是翻译:在对数千张 Twitter 地图进行分析后,我们发现了六种不同类型的网络人群。1. Twitter 对话中的两极分化人群两极分化的人群:两极分化的讨论以两个大而密集的群体为特征,它们之间几乎没有联系。正在讨论的话题往往是高度翻译 2021-08-04 11:53:05 · 699 阅读 · 0 评论 -
【技术】Windows连接Linux主机,解决MobaXterm不时地自我断开的问题
问题出在MobaXterm自身的设置里,打开Settings-> Configuration ->SSH,勾选SSH keepalive原创 2021-06-01 18:02:44 · 1721 阅读 · 0 评论 -
【数据处理】正则匹配指定字符传后面的字符
方法1: 匹配,捕获(存储)正则表达式:(?<=(href=")).{1,200}(?=(">)) 解释:(?<=(href=")) 表示匹配以(href=")开头的字符串,并且捕获(存储)到分组中 (?=(">))表示匹配以(">)结尾的字符串,并且捕获(存储)到分组中...转载 2021-05-29 20:44:58 · 12682 阅读 · 0 评论 -
【数据处理】正则表达式中的括号
1. 小括号() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串。(abc)?,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现原创 2021-05-29 19:40:30 · 2470 阅读 · 0 评论 -
【数据挖掘】http请求头中Referer的含义和作用
Referer是HTTP请求header的一部分,当浏览器(或者模拟浏览器行为)向web服务器发送请求的时候,头信息里有包含Referer。比如我在www.google.com里有一个www.baidu.com链接,那么点击这个www.baidu.com,它的header信息里就有:Referer=http://www.google.com由此可以看出来吧。它就是表示一个来源。看下图的一个请求的Referer信息。这里有一个小问题要说明下。Re...转载 2021-05-22 11:31:34 · 626 阅读 · 0 评论 -
【Linux】复杂的sort -k 按列排序命令,有坑!!
原理 【案例1】要求按第1列的第二、三个字符,按数字、逆序排序sort -k 1.2, 1.3nr这个语法格式可以被其中的逗号(“,”)分为两大部分,Start部分和End部分。先给你灌输一个思想,那就是“如果不设定End部分,那么就认为End被设定为行尾”。这个概念很重要。前后两部分的点号(“. ”)用来分割指定列、指定字符-k选项的具体语法格式,如下:[ FStart [ .CStart ] ] [ Modifier ] [ , [ FEnd [ .CEnd ] ][ ..原创 2021-05-14 21:04:12 · 4038 阅读 · 0 评论 -
【数据挖掘】采集人员信息的技巧
1. 找个企业或机构,点开人员列表页,用后羿采集器批量采集全部人员数据。有时候不同详情页格式不一样,建议只用一个字段,存放全部内容。2. 将导出的xlsx转化为csv3. 用notepad++打开csv,开始批量替换,例如(1)英文逗号 正则替换为 中文逗号(2)\r\n 正则替换为 \r\r(3)\n ...原创 2021-04-21 16:58:06 · 620 阅读 · 0 评论 -
【数据处理】Notepad++正则替换,替换内容的正则表达式怎么写
案例说明原始数据为csv文件小明 点击: 6508 次 男想要的效果:小明, 点击: 6508 次,男解决步骤:第一步,用正则表达式识别出 “ 点击: 6508 次 "。打开notepad++,打开【搜索】->【替换】,勾选【正则表达式】,然后在【查找目标】输入:(\s*)点击:(\s*)(\d+)(\s*)次(\s*)第二步:正则替换为 “,点击: 6508...原创 2021-04-21 14:02:29 · 1814 阅读 · 0 评论 -
【Linux】在Windows 10环境下安装适用于 Linux 的子系统 (WSL安装指南)
安装适用于 Linux 的 Windows 子系统 (WSL) 时有两个选项: 简化安装(预览版):wsl --install 要使用wsl --install简化安装命令,你需要加入Windows 预览体验计划并安装 Windows 10 的预览版(OS 版本 20262 或更高版本),但不需要执行手动安装步骤。只需使用管理员权限打开命令窗口并运行wsl --install,重启后即可使用 WSL。 手动安装:按照下列 6 个步骤进行操作。 下面列出了 WSL 的...转载 2021-04-04 15:33:59 · 2660 阅读 · 0 评论 -
【Linux】常见Linux shell数据处理命令
Linux sort 按多列去重复 文件按逗号分隔,根据第一列、第二列去重复:awk -F',' '!i[$1$2]++' all_data.csv >> all_data.csv文件按单行去重复,只打印指定列:cat all_data.csv | sort | uniq -c | awk '{print $2}' >> all_data_uniq.csv ...原创 2021-04-03 16:49:51 · 560 阅读 · 0 评论 -
【WPS】常见WPS数据处理技巧
WPS表格按相同内容出现数量多少进行降序排序? 比如第一列有五百个地名,想按照出现相同地名次数的多少从大到小排序,比如济南(59),青岛(49),烟台(39)解决:假如你有100行数据,增加一个辅助列比如F列,在F2输入公式=COUNTIF(A$2:A$101,A2),公式下拉自动填充到表未尾,再把整个表格按F列进行降序排列就可以了。WPS表格按列填充公式在首行输入公式,再选中填充区域,列填充快捷键是CTRL+D ;行填充快捷键是CTRL+R...原创 2021-04-03 18:00:32 · 1759 阅读 · 0 评论 -
【Python】关于Caused by SSLError Max retries exceeded with url 的错误
可能的问题和解决方法如下:1.http连接太多没有关闭导致的解决方法1:关闭多余链接import requestsrequests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数s = requests.session()s.keep_alive = False # 关闭多余连接s.get(url) # 你需要的网址解决办法2:增加重连次数requests.adapters.DEFAULT_RETRIES = 52.访问次数频繁,被禁..原创 2021-03-17 23:07:04 · 8897 阅读 · 0 评论 -
【技术】python 爬虫一招解决SSl 报错SSLError
摘要用python写爬虫的时候没我们经常遇到https认证的网站,采用常用模块requests模块,我们一般在请求中将verify设置成假,免证书验证,但是这些都是理想状态,https请求很容易报错,一旦报错就难以解决。举个列子编写一个简单的列子,我们的目标对象是一个https的网站,它的编码是gb2312,按照常用手法,我们设置免验证的方法,按照我们正常的逻辑,肯定是能成功,但是这里却不符合逻辑简单爬虫案例下面开始运行代码:异常报错报错的信息,无非是ssl的各种报错,我这里是转载 2021-03-17 22:22:30 · 6912 阅读 · 1 评论 -
【学术】计算传播学:自然语言处理技术的应用情况和前景
社会传播学的研究方法可为实证和阐释两大类别:实证性方法假设事实真相是确定且唯一的,可通过量化分析或测试推导出因果关系。阐释性方法则立足于多重事实与真相的假设,侧重于研究语言、文本等交互信息自身的意义和价值。想象阐释性和实证性方法分别处于地球的两极,七大流派就填充于两极之间的空白地带,分别为:社会心理学派、控制论学派、修辞学派、符号学派、社会文化学派、批判学派、现象学派。排序越靠前的流派,越多地采用实证性研究方法,反之则表示阐释性研究方法在该理论中占上风。倾向实证性的学派与NLP的联系更加紧.翻译 2020-10-09 22:06:49 · 1450 阅读 · 0 评论 -
《深入浅出数据分析》读后详解
《深入浅出数据分析》为数据挖掘入门级教材,通篇以一个化妆品公司Acme为典型案例,分析了从数据分析到决策的全过程。本篇为读后总结,加入自己的练习回答,同时贴出书中答案,供对比。原创 2015-07-29 19:52:24 · 5055 阅读 · 0 评论 -
【bash】快速切分数据文件
第一步:在Windows下安装git,通过开始菜单打开git bash第二步:切换路径。切换方式和cmd有区别,表现为以斜杠开头、作为分隔符,根目录后没有冒号。如: cd /d/第三步:使用split切分文件,可自动切分并命名。下面是按行切分:split -l 1000000 test.txttest.txt...原创 2020-08-20 21:56:17 · 875 阅读 · 0 评论 -
【数据处理】为什么CSV文件用WPS打开总是比原始文件少若干行
处理一个csv文件,每次用文本编辑器打开,是某行。换成WPS打开总少几百行。人工定位了一下异常的数据,锁定在这里:2020/07/03 00:43:24,SikorskyFlights,"Linsk Minyk“ Sikorsky2020/07/03 00:43:26,wendy_marchese,Wendy Marchese2020/07/03 00:43:26,Smartkr13564931,smart_Krish2020/07/03 00:43:26,ChiTsz1,ChiTsz1,原创 2020-07-30 18:23:07 · 2553 阅读 · 0 评论 -
【数据处理】UltraEdit处理超大文件的扩容方法
UltraEdit原始设置是限制51200大小的文件,有时候进行文件排序很容易超出限制,就会报出缓存错误,导致信息丢失。扩容步骤:高级-》配置-》设置-》临时文件-》上述的阈值-》多加一个0或者两个0...原创 2020-08-14 10:11:38 · 3715 阅读 · 0 评论