![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
跟宝宝一起学习
ywangjiyl
这个作者很懒,什么都没留下…
展开
-
精确搜索
为了备份一下,以免又忘记了:指定站内搜索:在搜索栏敲入搜索技巧 site:zhihu.com指定文件类型搜索:搜索栏敲入UI规范 filetype:PDF星号模糊搜索:例如 三上*亚排除关键词:使搜索出来的结果不带有自己排除掉的关键词,使用减号来让搜索结果不包含减号后面的词。例如:搜索 -引擎关键词完全匹配:给你的关键词加上双引号""标题中搜索intitle:表示搜索结果的标题都必须含有intitle:后的查询词,帮助排除无关网页并行搜索|:表示搜索结果中包含词语A和B中的任意一个,不必同时原创 2020-11-06 15:03:02 · 449 阅读 · 0 评论 -
利用Flask开发一个简单的资讯网站
该网站可以展示文章列表,以及每个文章里的详细内容$ wget http://labfile.oss.aliyuncs.com/courses/923/week2/helloshiyanlou.json$ wget http://labfile.oss.aliyuncs.com/courses/923/week2/helloworld.json这两个 json 文件是我们的资讯网站将使用的两篇文章数据。内部的格式为 json,包含下面的数据项:title: 文章名称(字符串)created_tim原创 2020-08-26 18:02:47 · 843 阅读 · 0 评论 -
Python3 处理 Nginx 日志
wget http://labfile.oss.aliyuncs.com/courses/1013/week3/nginx.log日志文件格式nginx.log 日志文件由数千条日志数据组成,下面抽取一条真实数据对其构成进行介绍。180.76.15.157 - - [09/Jan/2017:07:44:03 +0800] "GET /s?path=/sbin/lilo&project=linux-3.18.6 HTTP/1.1" 502 181 "-" "Mozilla/5.0 (comp.原创 2020-07-28 20:34:13 · 458 阅读 · 0 评论 -
Python3 处理 Nginx 日志
进行下面的操作下载本次挑战使用的示例日志文件:$ cd /home/shiyanlou/Code$ wget http://labfile.oss.aliyuncs.com/courses/1013/week3/nginx.log日志文件格式nginx.log 日志文件由数千条日志数据组成,下面抽取一条真实数据对其构成进行介绍。180.76.15.157 - - [09/Jan/2017:07:44:03 +0800] "GET /s?path=/sbin/lilo&project=li原创 2020-07-24 20:31:02 · 221 阅读 · 0 评论 -
Python3 实现端口扫描器
使用 Python 编写一个端口扫描脚本,并可以通过添加参数的方式使其能实现对指定服务器地址,及指定端口/范围实现扫描。完成扫描后打印端口为开启状态的列表。例如,当我们实现对 ip 为 220.181.57.216 的地址进行扫描时,程序执行过程如下:$ python3 scan.py --host 220.181.57.216Parameter Error$ python3 scan.py --host 220.181.57.216 --port 8080 open$ python3 scan原创 2020-07-18 16:36:45 · 691 阅读 · 0 评论 -
Python3 处理 Excel 文件
Excel 文件是十分常见的文件类型,学会使用 Python3 去处理和分析 Excel 文件能从一定程度上提升工作效率。本挑战中,我们将尝试使用能够处理 Excel 的第三方 Python 库,对实验楼的课程数据文件进行整理。首先,你需要下载课程数据文件$ wget http://labfile.oss.aliyuncs.com/courses/1013/week3/courses.xlsx挑战内容包括两个:将 students 表和 time 表中的内容,依据课程名称合并到同一张表格中,取名为原创 2020-07-13 19:54:44 · 242 阅读 · 0 评论 -
使用模块优化工资计算器
建立在多进程的基础之上,使用模块进行优化介绍优化上一个挑战中完成的计算器,完善下述需求:使用 getopt 模块处理命令行参数使用 Python3 中的 configparser 模块读取配置文件使用 datetime模块写入工资单生成时间计算器执行中包含下面的参数:-h 或 --help,打印当前计算器的使用方法,内容为:Usage: calculator.py -C cityname -c configfile -d userdata -o resultdata-C 城市原创 2020-07-13 18:41:42 · 271 阅读 · 0 评论 -
多进程工资计算器
介绍优化上一个挑战中的计算器,支持使用多进程的方式对员工工资数据进行处理,以应对文件数据量很大的情况下,提高计算效率。程序的执行过程如下,注意配置文件和输入的员工数据文件需要你自己创建并填入数据,可以参考上述的内容示例:$ ./calculator.py -c test.cfg -d user.csv -o gongzi.csv执行成功不需要输出信息到屏幕,执行失败或有异常出现则将错误信息输出到屏幕。需要注意的是必须包含下列的处理方式:启动三个进程,使用进程 1 读取员工工资数据,使用进程 2原创 2020-07-08 18:26:44 · 200 阅读 · 0 评论 -
挑战:工资计算器读写数据文件
重新实现上一个挑战中的计算器,可以支持从配置文件中读取社保的税率,并读取员工工资数据 CSV 文件,同时将输出信息写入员工工资单 CSV 文件中。计算器执行中包含下面的三个参数:-c 社保比例配置文件:由于各地的社保比例稍有不同,需要为每个城市提供一个单独的社保比例的配置,本挑战假定不考虑各地社保差异,仅提供一份通用配置。-d 员工工资数据文件(CSV 格式): 指定员工工资数据文件,文件中包含两列内容,分别为员工工号和工资金额。-o 员工工资单数据文件(CSV 格式): 输出内容,将员工缴纳的社保原创 2020-07-04 18:00:39 · 416 阅读 · 0 评论 -
第一周挑战2:税后工资计算器
重新实现上一个挑战中的个税计算器,可以计算并处理多人的工资并打印税后工资。项目需求改变:输出税后工资计算过程需要扣除社会保险费用支持多人同时计算工资打印税后工资列表个税计算公式:应纳税所得额 = 工资金额 - 各项社会保险费 - 专项扣除 - 起征点(5000元)纳税 = 应纳税所得额 × 税率 - 速算扣除数其中各项社会保险费我们在本程序中需要计算,计算公式由于各地不一样,我们此处使用国内某一城市的计算比例,占工资金额的比例如下:养老保险:8%医疗保险:2%失业保险:0.5%工伤原创 2020-06-30 12:03:29 · 693 阅读 · 0 评论 -
第一周挑战:实现个税计算器
在Windows下的自带Ubuntu缺少很多包,无法直接下载pip3 ,下载也很麻烦,所以前期写代码用Windows自带的Ubuntu吧,后期就新建个虚拟机,再用MobaXterm很方便开发了一个个税计算器,输入工资后,打印应缴纳的个税。个税计算公式:应纳税所得额 = 工资金额 - 各项社会保险费 - 专项扣除 - 起征点(5000元)纳税 = 应纳税所得额 × 税率 - 速算扣除数其中各项社会保险费和专项扣除我们在本程序中设置为 0 即可,不用考虑。需要注意,程序执行的参数只有一个,并且参数为原创 2020-06-28 12:05:27 · 380 阅读 · 0 评论 -
KNN(上):如何根据打斗和接吻次数来划分电影类型?
KNN(上):如何根据打斗和接吻次数来划分电影类型?想对电影的类型进行分类,统计了电影中打斗次数、接吻次数,还有其他的指标可以被统计到希望当有一部新电影的时候自动分类它的类型,把打斗次数看成X轴,接吻次数看成Y轴,然后在二维的的坐标轴上,对这几部电影进行标记,对于未知电影A,坐标为(x,y),需要看下离电影A最近的都有哪些电影,大多属于哪个分类,那么电影A就属于哪个分类,实际,还需要确定一个K...原创 2020-04-10 09:01:17 · 1367 阅读 · 0 评论 -
SVM(下):如何进行乳腺癌检测?
SVM(下):如何进行乳腺癌检测?如何在sklearn中使用SVM在Python的sklearn工具包中有SVM算法,首先引用工具包from sklearn import svmSVM可以做回归可以做分类器,当用SVM做回归的时候,使用SVR,当做分类器的时候,用的是SVC,SVC是个线性分类器,用于处理线性可分的数据,只能使用线性核函数,SVM就是通过核函数将样本从原始空间映射到一个更...原创 2020-03-27 10:23:51 · 1044 阅读 · 1 评论 -
SVM(上):如何用一根棍子将蓝红两色球分开?
SVM(上):如何用一根棍子将蓝红两色球分开?SVM,叫做支持向量机,是最常见的一种分类方法,SVM是有监督的学习模型。有监督的学习模型是指我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类,无监督学习就是数据没有被打上分类标签,可能因为不具备先验的知识或者成本很高,需要机器代替我们完成这个工作,比如将数据进行聚类,方便人工对每个类进行分析,SVM作为有监督的学习模型,可以帮我...原创 2020-03-27 09:06:29 · 440 阅读 · 0 评论 -
朴素贝叶斯分类(下):如何对文档进行分类?
朴素贝叶斯分类(下):如何对文档进行分类?朴素贝叶斯分类最适合的场景是文本分类、情感分析和垃圾邮件识别,其中情感分析和垃圾邮件识别都是通过文本来进行判断,三个场景基本都是文本分类,所以朴素贝叶斯常用于自然语言处理NLP的工具使用朴素贝叶斯做文档分类:sklearn机器学习包sklearn提供了3个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯根据特征变量的不...原创 2020-03-27 09:06:00 · 479 阅读 · 0 评论 -
朴素贝叶斯分类(上):如何让机器判断男女?
朴素贝叶斯分类(上):如何让机器判断男女?当你不能准确预知一个事物本质的时候,可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在贝叶斯原理贝叶斯解决一个叫“逆向概率”尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。在现实生活中,我们很难知道事情的全貌,贝叶斯从实际场景出发,提出来一个问题:我们事先不知道袋子里面黑球和白球的比例,而是通过...原创 2020-03-24 09:55:38 · 1562 阅读 · 0 评论 -
决策树(下):泰坦尼克乘客生存预测
决策树(下):泰坦尼克乘客生存预测决策树分类的应用场景有很多,比如在金融行业用决策树做贷款风险评估,医疗行业用决策树生成辅助诊断,用sklearn工具解决泰坦尼克乘客生存预测:sklearn中的决策树模型sklearn中自带的决策树分类器DecisionTreeClassifierclf = DecisionTreeClassifier(criterion='entropy')在构建D...原创 2020-03-24 09:29:50 · 705 阅读 · 0 评论 -
决策树(中):CART,一颗是回归树,另一颗是分类树
决策树(中):CART,一颗是回归树,另一颗是分类树基于信息度量的不同方式,把决策树分为ID3算法、C4.5算法和CART算法,CART算法叫做分类回归树,ID3和C4.5算法可以生成二叉树或多叉树,而CART只支持二叉树,既可以作分类树,又可以作回归树什么是分类树?什么是回归树?能看到不同职业的人,年龄也不同,学习时长也不同,如果构造一颗决策树,想要基于数据判断这个人职业身份,就属于分类...原创 2020-03-24 09:27:49 · 394 阅读 · 0 评论 -
决策树(上):要不要去打篮球?决策树来告诉你
决策树(上):要不要去打篮球?决策树来告诉你生活中,会遇到各种选择,都是基于以往的经验来做判断的,如果把判断背后的逻辑整理成一张结构图,发现是一个树状图,即决策树决策树的工作原理把我们以前的经验总结出来,如果准备了一个打篮球的训练集,如果要出门打篮球,会根据“天气”“湿度”“温度”“刮风”几个条件来判断,最后得到结果“去打篮球?还是不去”天气-> 温度? -> 打篮球...原创 2020-03-23 10:14:59 · 2294 阅读 · 0 评论 -
数据集成:这些大号一共20亿粉丝?
数据集成和数据变换数据集成就是将多个数据源合并存放在一个数据存储中数据集成的两种架构:ELT & ETLETL就是Extract 、Transform 、Load的缩写,包括数据抽取、转换、加载三个过程,是进行数据挖掘工作之前的准备过程Extract 数据抽取是将数据从已有的数据源中提取出来Transform转换是对原始数据进行处理,例如将表1和表2进行链接形成一张新表,如果是三...原创 2020-03-23 10:14:04 · 127 阅读 · 0 评论 -
数据可视化:掌握数据领域的万金油技能
数据可视化&Python数据可视化数据可视化的视图都有哪些?文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、等这些视图使用的目的是分布(Distribution) 时间相关(change over time) 局部/整体(part to whole) 偏差(Deviation) 相关性(Correlation) 排名(Ranking) 量级(Magni...原创 2020-03-23 10:13:29 · 342 阅读 · 0 评论 -
必知必会的30个代码实现
必知必会的30个代码实现< https://github.com/iostalks/Algorithms >关于数组和链表的几个必知必会的代码实现数组:实现一个支持动态扩容的数组实现一个大小固定的有序数组,支持动态增删改操作实现两个有序数组合并为一个有序数组链表:实现单链表、循环链表、双向链表、支持增删操作实现单链表反转实现两个有序的链表合并为一个有序链表实...原创 2020-03-23 10:10:56 · 237 阅读 · 0 评论 -
测试算法阶段学习成果
测试算法阶段学习成果针对入门的趣味书《大话数据结构》《算法图解》针对Python的是《数据结构与算法:Python语言描述》清华 邓俊辉 《数据结构(C++语言版) 第三版》面试必刷的宝典《剑指offer》《编程珠玑》《编程之美》殿堂级经典书《计算机程序设计艺术》代码GITHUB地址为:< https://github.com/wangzheng0822/algo &...原创 2020-03-23 10:10:26 · 210 阅读 · 0 评论 -
算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?
算法实战(五):如何用学过的数据结构和算法实现一个短网址系统?短网址服务是如果我们在微博里发布一条带网址的信息,微博会把里面的网址转化为一个更短的网址,只需要访问这个短网址,相当于访问原始的网址,尽管长度不一样,都可以跳转原始网址:https://github.com/wangzheng0822/ratelimiter4j短网址:http://t.cn/EtR9QEG短网址服务整体介绍...原创 2020-03-16 16:46:39 · 218 阅读 · 0 评论 -
算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法
算法实战(四):剖析微服务接口鉴权限流背后的数据结构和算法微服务就是把复杂的大应用解耦拆分成几个小应用,大应用拆分成微服务之后服务之间的调用关系更复杂,服务治理就成了微服务的一个技术重点服务治理就是管理微服务,保证平台整体正常,平稳运行鉴权背景介绍有一个微服务叫用户服务,提供很多用户相关的接口,比如获取用户信息、注册、登录等,给公司内部的其他应用使用,但并不是所有应用,都可以访问这个用户服...原创 2020-03-16 16:41:51 · 165 阅读 · 0 评论 -
算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法
算法实战(三):剖析高性能队列Disruptor背后的数据结构和算法Disruptor是一种内存消息队列,是线程之间用于消息传递的队列Disruptor是如何做到高性能的?其底层依赖了哪些数据结构?基于循环队列的“生产者-消费者模型”在这个生产者-消费者模型中,生产者生产数据,将数据放到一个中心存储容器中,之后消费者从中心存储容器中取出数据消费里面存储数据的中心存储容器是用什么数据结构来...原创 2020-03-16 16:41:35 · 172 阅读 · 0 评论 -
算法实战(二):剖析搜索引擎背后的经典数据结构和算法
算法实战(二):剖析搜索引擎背后的经典数据结构和算法如何在一台机器上(这台机器的内存是8GB,硬盘是100+GB)通过少量的代码实现一个小型搜索引擎,搜索引擎分为四个部分:搜集、分析、索引、查询。搜集即利用爬虫爬取网页,分析负责网页内容抽取、分词,构建临时索引,计算PageRank值几个工作,索引负责通过分析阶段得到的临时索引,构建倒排索引,查询负责相应用户的请求,根据倒排索引获取相关网页,计算...原创 2020-03-16 10:32:46 · 368 阅读 · 0 评论 -
算法实战(一):剖析Redis常用数据类型对应的数据结构
算法实战(一):剖析Redis常用数据类型对应的数据结构数据库Redis中的常用数据类型,底层都是哪种数据结构实现的?Redis数据库介绍Redis是一种键值(Key-Value)数据库,非关系型数据库,相对于关系型数据库比如MySQL,MySQL表的结构比较复杂,包含很多字段,可以通过SQL语句,实现非常复杂度查询需求,Redis中只包含“键”“值”两部分,且只能通过键来查询值,所以Red...原创 2020-03-16 10:32:29 · 157 阅读 · 0 评论 -
并行算法:如何利用并行处理提高算法的执行效率
并行算法:如何利用并行处理提高算法的执行效率算法的目的就是为了提高代码执行的效率,当算法无法继续优化的情况下,该如何进一步提高执行效率?如何借助并行计算的处理思想对算法进行改造?并行排序给大小为8GB的数据进行排序,且我们的内存可以一次性容纳这么多数据,对于排序来讲,最常用的就是时间复杂度为O(nlogn)的三种排序算法:归并排序、快速排序、堆排序,从算法层面无法继续优化了,而利用并行的处理...原创 2020-03-16 10:20:43 · 1314 阅读 · 0 评论 -
索引:如何在海量数据中快速查找某个数据?
索引:如何在海量数据中快速查找某个数据?MySQL底层依赖的是B+树这样的数据结构,类似Redis这样的Key-Value数据库中的索引是怎么实现的呢?底层依赖的是什么数据结构呢?为什么需要索引如何节省存储空间、如何提高数据增删改查的执行效率,就成了设计的重点,重要的就是索引,相当于数据的目录,通过目录,可以快速定位相关知识点的页数索引的需求定义对于系统设计需求,从功能性需求和非功能性需...原创 2020-03-16 10:19:46 · 285 阅读 · 0 评论 -
B+树:MySQL数据库索引是如何实现的?
B+树:MySQL数据库索引是如何实现的?软件开发工程师为了加速数据库存储系统的查找速度,对表中数据创建索引,数据库索引如何实现?底层用的是什么数据结构和算法?算法解析1 解决问题的前提是定义清楚问题定义清楚问题就是通过对一些模糊的需求进行假设来限定要解决的问题的范围假设要解决的问题只包含两个常用的需求根据某个值查找数据,比如select * from user where id=1...原创 2020-03-10 11:25:39 · 142 阅读 · 0 评论 -
概率统计:如何利用朴素贝叶斯算法过滤垃圾短信?
概率统计:如何利用朴素贝叶斯算法过滤垃圾短信?算法解析1. 基于黑名单的过滤器可以维护一个骚扰电话号码和垃圾短信发送号码的黑名单,黑名单的搜集可以来自公开网站上下载,或者360电话拦截。如果黑名单的电话号码很多呢,如果有500W个需要存储,把位图大小设置成10倍数据大小,即5000万个二进制位(5000万bits)<7MB。还可以吧黑名单存储在服务器端上,把过滤和拦截的核心工作交给服务...原创 2020-03-10 11:25:11 · 443 阅读 · 0 评论 -
向量空间:如何实现一个简单的音乐推荐系统?
向量空间:如何实现一个简单的音乐推荐系统?不仅可以选歌听,还可以根据你的听歌的口味偏好,推荐你可能喜欢的歌曲算法解析找到跟你口味偏好类似的用户,把他们爱听的歌曲推荐给你找出跟你喜爱的歌曲特征相似的歌曲,把这些歌曲推荐给你1.基于相似用户做推荐把听类似歌曲的人看做口味相似的用户,跟谁共同喜爱的歌曲多,就说跟谁口味相似。只需要遍历所有用户,对比每个用户跟你共同喜爱的歌曲个数,并设置一个...原创 2020-03-10 11:24:05 · 277 阅读 · 0 评论 -
数据科学家80%时间都花费在清洗任务上?
数据科学家80%时间都花费在清洗任务上?将数据清洗规则总结为4个关键点:“完全合一”完整性:单条数据是否存在空值,统计的字段是否完善。全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。合法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符...原创 2020-03-10 11:23:08 · 409 阅读 · 0 评论 -
Python爬虫:如何自动化下载王祖贤海报?
Python爬虫:如何自动化下载王祖贤海报?爬虫的流程如何编写爬虫来抓取数据?爬虫实际上使用浏览器访问的方式模拟了访问网站的过程,整个过程有三个阶段:打开网页、提取数据和保存数据在Python中,这三个阶段都有对应的工具可以使用“打开网页”步骤中,可以使用Requests访问页面,得到服务器返回给我们的数据,包括HTML页面以及JSON数据"提取数据"中,用到了两个工具,针对HTML页面...原创 2020-03-09 19:09:23 · 238 阅读 · 0 评论 -
数据采集:如何自动化采集数据
数据采集:如何自动化采集数据一个数据的走势,是由多个维度影响的,收集到尽可能多的数据维度,同时保证数据的质量,才能得到高质量的数据挖掘结构数据源分四类:开放数据源(政府、企业、高校)、爬虫抓取(网页、APP)、日志采集(前端采集、后端脚本)、传感器(图像、测速、热敏)如何使用开放数据源开放数据源可以从两个维度来考虑,一个是单位的维度,比如政府、企业、高校;一个是行业维度,比如交通、金融、能...原创 2020-03-08 21:00:59 · 2517 阅读 · 0 评论 -
用户画像:标签化就是数据的抽象能力
用户画像:标签化就是数据的抽象能力用户画像的准则将企业的用户画像做白描,告诉这些用户“都是谁”“从哪来”“要去哪”一个卖羊肉串的公司想让你分析下用户数据,先建模,用户画像建模是个系统工程,要解决三个问题,1.用户从哪来,统一标记用户ID,方便以后进行跟踪,了解客户从哪来,为了聚餐还是吃宵夜,2.用户都是谁,对用户进行标签化,3.到哪去,将用户画像与我们业务相关联,提升转化率首先,设计唯一标...原创 2020-03-08 20:59:51 · 448 阅读 · 0 评论 -
位图:如何实现网页爬虫中的URL去重功能
位图:如何实现网页爬虫中的URL去重功能?爬虫的工作原理是通过解析已经爬取页面中的网页链接,然后再爬取这些链接对应的网页,而同一个网页链接可能被包含在多个页面中,会导致爬虫在爬取的过程中重复爬取相同的网页,如何避免重复的爬取?记录已经爬取的网页链接URL,在爬取新的网页之前,拿它的链接,在 已经爬取的网页链接列表中搜索。如何记录已经爬取的网页链接?需要用什么数据结构?算法解析需要处理的对象...原创 2020-03-08 11:40:39 · 235 阅读 · 0 评论 -
Python科学计算:Pandas
Python科学计算:PandasPandas提供的数据结构DataFrame与json的锲合度很高,转换很方便Series和DataFrame两个核心数据结构,分别代表一维的序列和二维的表结构,基于这两个数据结构,Pandas可以对数据进行导入等等数据结构:Series 和 DataFrameSeries是个定长的字典序列,在存储的时候,相当于两个ndarray,这也是和字典结构最大的...原创 2020-03-07 18:55:24 · 233 阅读 · 0 评论 -
Python科学计算:用numpy快速处理数据
Python科学计算:用numpy快速处理数据非常重要的第三方库NumPy是Python数据分析的基础标准的Python中,用列表list保存数组的数值,由于列表中的元素可以是任意的对象,所以list保存的是对象的指针Python的列表list就是数组,保存一个简单的数组[0,1,2],需要有3个指针和3个整数对象,对python不经济还浪费内存和计算时间除了使用numpy,需要一些技巧...原创 2020-03-07 18:54:42 · 600 阅读 · 0 评论