自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 如何联系Github作者

Github联系作者直接在repository提issue查看作者简介git log直接在repository提issue直接在红框处留言提问题查看作者简介直接看作者的profile,很遗憾这个作者木有留下他的emailgit log接下来就放大招了首先要确保电脑上有git,windows具体下载地址https://git-scm.com/download/win以windows为例,打开git bash,输入# 这里的地址改成你要联系作者的仓库地址git clone https:/

2021-03-06 22:41:27 25016 22

原创 在Windows上安装Hadoop和Hive

在Windows上安装Hadoop3.1.3和Hive3.1.2准备资源JDK安装MySQL安装Hadoop的安装Hive的安装测试Hive  最近需要使用大数据平台,装了1天的hadoop和hive,终于装好了,不得不说网上的攻略千奇百怪,需要结合各种攻略才能完成安装(悲催),因此写下这边文章来汇总下如何在windows系统中安装hadoop和hive,希望对各位有帮助。准备资源1.JDK8:Hadoop和Hive都是依赖于JAVA开发出来的,JDK的安装是必不可少的,需要注意的是(重点)高版本的J

2021-02-21 12:46:36 2122 8

原创 解决Pyinstaller打包numpy和pandas库文件过大问题

解决Pyinstaller压缩numpy和pandas库文件过大问题文件包类型和网上的方法Windows下docker的安装在docker下实现打包    今天是2021年的第一天,先祝各位小伙伴现年快乐哈。最近因为做了一个项目,需要打包文件,文件中包含了numpy和pandas库,结果打包出来几百行的代码居然要900m,人都傻了,翻遍了全网找解决方法都搞不定,最后经过大佬的指点,在docker下解决了打包文件过大的问题,最终打包30m,因此记录下流程,希望对各位遇到同样的问题能有帮助。文件包类型和网上

2021-01-01 23:58:36 8850 14

原创 在本地Windows系统访问实验室服务器并基于Docker使用Jupyter Notebook

在本地Windows系统访问实验室服务器并基于Docker使用Jupyter Notebook1、本地连接实验室服务器2、创建Docker Image和Container3、在Docker下使用Jupyter Notebook       在进行一些科研任务、数据竞赛时,需要实验室服务器的支持,为了让对服务器操作不熟悉的童鞋尽快熟悉,本文介绍了在本地Windows系统访问实验室服务器并基于Docker使用Jupyter Notebook,避免新童鞋少走一些弯路。1

2020-09-16 17:45:31 1264

原创 彻底解决“你的时钟快了”问题

彻底解决“你的时钟快了”问题最近在查询国外的网站使用,使用qq浏览器一直显示“你的时钟快了”,而使用chrome也会出现连接不安全问题,通过网上的方法更改电脑的时钟也不行,界面显示如下经过了不断地探索和查询,原来这是由于浏览器的证书过期引起的问题,那么解决方法就是更新下internet证书就行了:1、下载证书,提取码vl5l2、对本地的“网络”右键进入“属性”,进入internet选项3、点击“证书”,点击“导入”4、选择文件时,选择Microsort系列证书存储,导入sst证书,就搞定了

2022-01-30 15:59:56 34033 23

原创 解决加载torch模型时出现CUDA out of memory

解决加载torch模型时出现CUDA out of memory正常来说出现“CUDA out fo memory”是CUDA内存不够出现的bug。事情是这样滴,我训练完一个模型之后,加载的时候并没有把模型加载到gpu,但是还是报错,代码如下:from transformers import BertForSequenceClassification, AdamWpretrained = 'bert-base-chinese'model = BertForSequenceClassificat

2021-09-18 12:21:54 15902 6

转载 解决 matplotlib 无法显示中文

永久解决 matplotlib 图例中文方块错误问题查看当前环境的字体路径解决方法删除缓存原文链接:https://learnku.com/articles/41886这里对原文做了点修改,因为原文还是有点小问题的问题当打印图例的时候,图可以正常显示,但中文会显示方块。比如 title。然后会有个小报错:报错描述:/Users/username/anaconda3/lib/python3.6/site-packages/matplotlib/font_manager.py:1331: Use

2021-04-04 21:11:54 524 1

原创 Jupyter怎么切换conda环境

Jupyter切换不同的conda环境最近需要重新创建conda虚拟环境,想着在jupyter内实现自由切换,搜索了网上的资源说用conda install nb_conda,而且还要每个环境下都要安装jupyter,略显麻烦,在我之前写过的文章中有介绍怎么实现,我自己都忘了我写过这个…现在单独拿出来,希望对各位有帮助。先假设在anaconda的base下已经安装好了jupyter如果没有那就输入conda install jupyter notebook然后先创建自己的环境conda cre

2021-04-04 20:28:29 778 2

原创 Python爬取中国大学

Python爬取中国前30名大学最近在学习爬虫,学习任务中有一个爬取中国前30名的大学,按着教程来爬一直有bug,网上的代码没找到一个能用的…自己探索出来一个供大家学习一下(ps:排名30以后的大学是需要抓包才能爬到么?希望有大佬指点一下)import requestsimport pandas as pdfrom bs4 import BeautifulSoupimport bs4# 爬取中国前一百名的大学# 获取htmldef get_html(url): headers =

2021-03-17 15:27:19 217 2

原创 Jupyter Notebook打开md文件和.py文件一直显示editing状态

解决Jupyter Notebook打开md文件和.py文件一直显示editing状态解决方法:1、使用chrome浏览器:我之前使用qq浏览器会出现这种问题2、更新浏览器

2021-03-14 22:16:32 410

原创 Jupyter上无法保存md文件,报错:Unexpected error while saving file xxx/README.md display_priority.j2

Jupyter上无法保存md文件,报错:Unexpected error while saving file xxx/README.md display_priority.j2重装了系统之后,安装了jupyter notebook无法保存.md文件,报了:Unexpected error while saving file xxx/README.md display_priority.j2的错误,在google上找了一堆解决方案都没解决,搜索Unexpected error while saving fi

2021-03-06 17:12:10 1795 6

原创 Task5:高维异常检测

Task5:高维异常检测1、引言2、Feature Bagging3、Isolation Forests4、总结5、练习1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子

2021-01-24 11:51:18 112

原创 Task4:基于相似度的方法

Task4:基于相似度的方法1、概述2、基于距离的度量2.1 基于单元的方法(加快运算)2.2 基于索引的方法3、基于密度的度量3.1 k-距离(k-distance(p)):3.2 k-邻域(k-distance neighborhood):3.3 可达距离(reachability distance):3.4 局部可达密度(local reachability density):3.5 局部异常因子:4、练习1、概述  “异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和

2021-01-21 23:47:17 109

原创 Task3:线性模型

Task3:线性模型1、引言2、数据可视化3、线性回归3.1 基于自变量与因变量的线性回归3.1.1 最小二乘法3.1.2 梯度下降法3.2 基于异常检测的线性回归4、主成分分析4.1 原理推导4.2 归一化问题5、回归分析的局限性6、总结7、资料8、练习1、引言  真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。  一类相关性分析试图通过其他变量预测单独的属性值,另一类方法

2021-01-18 17:38:41 169

原创 Task2:异常检测之基于统计学的方法

Task2:异常检测之基于统计学的方法1、概述2、参数方法3、非参数方法4、HBOS5、总结6、练习1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检

2021-01-15 23:53:41 131

原创 Task1:异常检测介绍

Task1:异常检测介绍1、什么是异常检测1.1 异常的类别1.2 异常检测任务分类1.3 异常检测场景2、异常检测常用方法2.1 传统方法2.1.1 基于统计学的方法2.1.2 线性模型2.1.3 基于相似度的方法2.2 集成方法2.3 机器学习3、异常检测常用开源库4、练习1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常

2021-01-12 23:28:51 129

原创 Task06:综合练习

Task06:综合练习练习一: 各部门工资最高的员工(难度:中等)练习二: 换座位(难度:中等)练习三: 分数排名(难度:中等)练习四:连续出现的数字(难度:中等)练习五:树节点 (难度:中等)练习六:至少有五名直接下属的经理 (难度:中等)练习七: 分数排名 (难度:中等)练习八:查询回答率最高的问题 (难度:中等)练习九:各部门前3高工资的员工(难度:中等)练习十:平面上最近距离 (难度: 困难)练习十一:行程和用户(难度:困难)练习一: 各部门工资最高的员工(难度:中等)创建Employee 表,

2020-12-19 18:11:46 179 1

原创 Task05:SQL高级处理

Task05:SQL高级处理学习内容练习题学习内容学习内容练习题5.1请说出针对本章中使用的 product(商品)表执行如下 SELECT 语句所能得到的结果。SELECT product_id ,product_name ,sale_price ,MAX(sale_price) OVER (ORDER BY product_id) AS Current_max_price FROM product5.2继续使用product表,计算出按

2020-12-19 17:53:32 140 2

原创 Task04:集合运算

Task04:集合运算学习内容练习题学习内容学习内容练习题练习题:分别使用 UNION 或者 OR 谓词,找出毛利率不足 30%或毛利率未知的商品.or:select product_name from productwhere sale_price / purchase_price is nullor sale_price < 1.3 * purchase_price;union:select product_name from productwhere sale_pric

2020-12-19 17:42:39 133 2

原创 Task03:复杂一点的查询

Task03:复杂一点的查询学习内容练习题练习题-第一部分练习题-第二部分学习内容学习内容练习题练习题-第一部分3.1创建出满足下述三个条件的视图(视图名称为 ViewPractice5_1)。使用 product(商品)表作为参照表,假设表中包含初始状态的 8 行数据。条件 1:销售单价大于等于 1000 日元。条件 2:登记日期是 2009 年 9 月 20 日。条件 3:包含商品名称、销售单价和登记日期三列。对该视图执行 SELECT 语句的结果如下所示。create view

2020-12-18 12:36:48 157

原创 Task02:基础查询与排序

Task02:基础查询与排序学习内容练习题练习题-第一部分练习题-第二部分学习内容学习内容练习题练习题-第一部分2.1编写一条SQL语句,从product(商品)表中选取出“登记日期(regist在2009年4月28日之后”的商品,查询结果要包含product name和regist_date两列。select product_name, regist_date from product where regist_date > "2009-04-28";2.2请说出对produc

2020-12-16 11:34:35 163

原创 Task00/01:数据库环境搭建及初步了解

数据库环境搭建及初步了解Task00:绪论 - 环境搭建Task01:初识数据库练习题Task00:绪论 - 环境搭建如何安装mysql8.0Task01:初识数据库练习题1.1编写一条 CREATE TABLE 语句,用来创建一个包含表 1-A 中所列各项的表 Addressbook (地址簿),并为 regist_no (注册编号)列设置主键约束表1-A 表 Addressbook (地址簿)中的列create table Addressbook( regist_no int not

2020-12-12 22:47:17 161

原创 K-Means和Fuzzy C-Means聚类算法原理以及python代码实现

K-Means和Fuzzy C-Means聚类算法原理以及python代码实现1.K-Means聚类1、原理2、python实现2.Fuzzy C-Means聚类1、原理2、python实现1.K-Means聚类1、原理K-Means算法原理      网上有很多关于K-Means算法的原理,当然通过阅读《统计学习方法》也可以知道K-Means聚类的原理,我这个比较懒,在这里就不打出详细的原理了,具体的可以参考上面的链接,写的很详细。  &nbsp

2020-11-15 17:41:34 1256 2

原创 9、文件与系统文件

文件与系统文件练习题练习题1、打开中文字符的文档时,会出现乱码,Python自带的打开文件是否可以指定文字编码?还是只能用相关函数?linux使用’utf-8’编码方式,window使用’GBK’编码方式。平台编码(UTF-8)与window平台(GBK)不一样。可以使用open(encoding=xx)进行转码2、编写程序查找最长的单词输入文档: res/test.txt题目说明:""" Input file test.txt Output file ['g

2020-08-01 10:54:37 167

原创 8、模快与datetime模快

这里写目录标题模快练习题datetime模快模快练习题1、怎么查出通过 from xx import xx导⼊的可以直接调⽤的⽅法?使用help函数查看里面的FUNCTIONS2、了解Collection模块,编写程序以查询给定列表中最常见的元素。题目说明:输入:language = [‘PHP’, ‘PHP’, ‘Python’, ‘PHP’, ‘Python’, ‘JS’, ‘Python’, ‘Python’,‘PHP’, ‘Python’]输出:Python"""Input

2020-07-31 17:15:07 151

原创 7、类、对象与魔法方法

类、对象与魔法方法类与对象练习题魔法方法类与对象练习题1、以下类定义中哪些是类属性,哪些是实例属性?class Test(object): class_attr = 100 # 类属性 def __init__(self): self.sl_attr = 100 # 实例属性 def func(self): print('类对象.类属性的值:', Test.class_attr) # 调用类属性 print('self

2020-07-30 23:09:22 132

原创 6、函数与Lambda表达式

函数与Lambda表达式练习题练习题怎么给函数编写⽂档?怎么给函数参数和返回值注解?闭包中,怎么对数字、字符串、元组等不可变元素更新。分别根据每一行的首元素和尾元素大小对二维列表 a = [[6, 5], [3, 7], [2, 8]] 排序。(利用lambda表达式)利用python解决汉诺塔问题?有a、b、c三根柱子,在a柱子上从下往上按照大小顺序摞着64片圆盘,把圆盘从下面开始按大小顺序重新摆放在c柱子上,尝试用函数来模拟解决的过程。(提示:将问题简化为已经成功地将a柱上面的63个

2020-07-29 16:10:43 157

原创 5、字典、集合和序列

字典、集合和序列字典1、字典基本操作2、字典中的value集合序列字典1、字典基本操作字典内容如下:dic = { 'python': 95, 'java': 99, 'c': 100 }用程序解答下面的题目字典的长度是多少请修改’java’ 这个key对应的value值为98删除 c 这个key增加一个key-value对,key值为 php, value是90获取所有的key值,存储在列表里获取所有的value值,存储在列表里判断 javasc

2020-07-28 11:13:45 122

原创 4、列表、元组、字符串

列表1、列表操作练习2、修改列表3、leetcode 852题 山脉数组的峰顶索引1、列表操作练习列表lst 内容如下lst = [2, 5, 6, 7, 8, 9, 2, 9, 9]请写程序完成下列操作:在列表的末尾增加元素15在列表的中间位置插入元素20将列表[2, 5, 6]合并到lst中移除列表中索引为3的元素翻转列表里的所有元素对列表里的元素进行排序,从小到大一次,从大到小一次lst = [2, 5, 6, 7, 8, 9, 2, 9, 9]# 1、lst.appe

2020-07-24 16:36:02 115

原创 3、异常处理

异常处理猜数字游戏猜数字游戏题目描述:电脑产生一个零到100之间的随机数字,然后让用户来猜,如果用户猜的数字比这个数字大,提示太大,否则提示太小,当用户正好猜中电脑会提示,“恭喜你猜到了这个数是…”。在用户每次猜测之前程序会输出用户是第几次猜测,如果用户输入的根本不是一个数字,程序会告诉用户"输入无效"。(尝试使用try catch异常处理结构对输入情况进行处理)获取随机数采用random模块。import randommystery = random.randint(1, 100)cou

2020-07-23 23:01:44 90

原创 2、条件语句和循环语句

条件语句和循环语句1、编写一个Python程序来查找那些既可以被7整除又可以被5整除的数字,介于1500和2700之间。2、龟兔赛跑游戏1、编写一个Python程序来查找那些既可以被7整除又可以被5整除的数字,介于1500和2700之间。lst = []for i in range(1500, 2701): if i % 7 == 0 and i % 5 == 0: lst.append(i)2、龟兔赛跑游戏def turtle_rabbit(v1, v2, t, s,

2020-07-23 20:51:26 59

原创 1、变量、运算符与数据类型和位运算符

1、变量、运算符与数据类型练习题练习题1. 怎样对python中的代码进行注释?使用#号作为一行注释,或者是使用’’’ ‘’’ 或者 “”" “”"进行区间注释2. python有哪些运算符,这些运算符的优先级是怎样的?算数运算符、比较运算符、逻辑运算符、位运算符、三元运算符等等该表出处3. python 中 is, is not 与 ==, != 的区别是什么?is 和 not is 是用来判断两个变量的内存地址,而==和!=是用来判断变量的值。比较的两个变量,指向的都是地址

2020-07-20 16:06:05 210

原创 Pandas 教程(下)综合练习

Pandas 教程(下)综合练习一、端午节的淘宝粽子交易二、墨尔本每日最低温度三、2016 年 8 月上海市摩拜单车骑行记录一、端午节的淘宝粽子交易(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。df_1 = pd.read_csv('../data/端午粽子数据.csv')df_1.head()# 结果可以看出有很多脏数据df_1.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 4403

2020-07-01 17:08:00 382

原创 Task9 时序数据

Task9 时序数据问题练习问题【问题一】 如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度?pd.date_range().append()【问题二】 如何批量增加TimeStamp的精度?【问题三】 对于超出处理时间的时间点,是否真的完全没有处理方法?【问题四】 给定一组非连续的日期,怎么快速找出位于其最大日期和最小日期之间,且没有出现在该组日期中的日期?练习【练习一】 现有一份关于某超市牛奶销售额的时间序列数据,请完成下列问题:(a)销售额出现最大值的是星期

2020-06-28 23:32:30 163

原创 Task8 分类数据

Task8 分类数据问题练习问题【问题一】 如何使用union_categoricals方法?它的作用是什么?使用union_categoricals需要保证两个categories必须是相同的dtype。作用是把两个union_categoricals连接在一起【问题二】 利用concat方法将两个序列纵向拼接,它的结果一定是分类变量吗?什么情况下不是?不一定s = pd.Series(["a", "d", "c", "a"]).astype('category')s1 = pd.S

2020-06-27 15:12:17 176

原创 Task7 文本数据

Task7 文本数据1.问题2. 练习1.问题【问题一】 str对象方法和df/Series对象方法有什么区别?str对象方法主要是针对类型为string的对象【问题二】 给出一列string类型,如何判断单元格是否是数值型数据?使用str.isnumetric()方法【问题三】 rsplit方法的作用是什么?它在什么场合下适用?rsplit() 方法通过指定分隔符对字符串进行分割并返回一个列表,默认分隔符为所有空字符,包括空格、换行(\n)、制表符(\t)等。类似于 split()

2020-06-26 16:59:27 229

原创 Pandas Task6 缺失数据

Pandas Task6 缺失数据1. 问题2. 练习1. 问题【问题一】 如何删除缺失值占比超过25%的列?# 构建一个DataFramedf = pd.DataFrame({'a':[1, 2, 3, 4], 'b':[5, 6, np.nan, 8], 'c':[9, np.nan, np.nan, 10], 'd':[11, np.nan, np.nan, np.nan]})# 其中df为输入的DataFrame, n为百分比def drop_nan(df, n): list_d

2020-06-23 21:13:36 165

原创 Pandas Task6 综合测试

Pandas Task6 综合测试一、2002 年-2018 年上海机动车拍照拍卖二、2007 年-2019 年俄罗斯机场货运航班运载量三、新冠肺炎在美国的传播一、2002 年-2018 年上海机动车拍照拍卖问题(1) 哪一次拍卖的中标率首次小于 5%?load_path = '../data/'df_car = pd.read_csv(load_path+'2002年-2018年上海机...

2020-05-01 23:28:59 224

原创 Task5 SVM

Task5 SVM支持向量机(Support Vector Machine,即SVM)是一种典型的二分类模型,与传统的分类器不同,SVM分类器在实现经验风险最小化的基础上,还要求置信范围尽可能小,也就是说最终目的是寻找结构风险最小化。通俗的来说,SVM二分类本质就是通过在特征空间内寻找间距最大的超平面将数据划分为两类,以实现区分。SVM于1964年提出,该算法能够有效处理非线性问题,泛化能力强,...

2020-05-01 11:39:37 278

原创 Pandas Task5 合并

Pandas Task5 合并五、问题与练习问题【问题一】 请思考什么是append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。append:主要用于添加行assign:主要用于添加列cobmine和update都是用于表的填充函数,可以根据某种规则填充¶concat:主要用于两个DataFrame的行...

2020-04-30 23:24:30 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除