自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Coursera课程Big Data Integration and Processing-Final Project Spark答案

Final Project是利用Spark读取tweet文档,并做相应的分析。这个题目我前后共花费了两周的时间,在spark里艰难探索,最后发现其实并没有想象的那么难。所以还是打算把答案分享出来,供在此题中艰难探索的同志们参考一下。# Import and create a new SQLContext from pyspark.sql import SQLContextsc=SparkContext.getOrCreate()sqlContext = SQLContext(sc)第一个坑,在C

2020-11-03 10:55:48 312

原创 Excel VBA自动生成本年度节假日及补假

利用了百度的opendata API接口,接口链接如下:https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?query=2019&resource_id=6018再去解析JSONfile,就可以获取节假日了。代码如下:Function GetJson()Dim httpDim aa As Stringapi = "https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?

2020-08-25 12:04:58 2898 2

原创 pyinstaller精简打包python项目完整流程,含常见问题解决方案

最近写了一个python爬虫小项目,想打包成一个exe文件,放在其他电脑上使用。但是没想到一个20B的py文件打包过程却十分艰辛。先后经历了打包失败无法运行,打包成功但是运行十分缓慢,打包了一大堆不需要的包,导致打包文件达到了500MB等。最后终于通过了一系列面向CSDN的编程,将最后的打包文件缩减到90MB,也算是有些收获。整个打包流程比较长,因为从环境配置开始就得做准备,这样才能确保最后打包出来的文件只包含我们需要的库,而不需要其他冗余的。一、安装配置虚拟环境virtualenv之前我所有的Pyt

2020-07-31 16:46:56 3054 2

原创 配置Anaconda环境变量时出问题,导致Sudo等功能无法正常使用的解决方案

参考stack overflow的解决方案:https://stackoverflow.com/questions/41936046/messed-up-path-environment-variable-in-ubuntu-16-04export PATH="$PATH:/usr/bin"echo $PATH这时候如果输入conda --version,会显示找不到命令,说明我们依然还未把anaconda的环境配置清楚。因此需要再做以下步骤export PATH=~/anaconda3/bi

2020-07-13 11:08:06 602

原创 SQL 报告系统状态的连续日期

题目:https://leetcode-cn.com/problems/report-contiguous-dates/系统 每天 运行一个任务。每个任务都独立于先前的任务。任务的状态可以是失败或是成功。编写一个 SQL 查询 2019-01-01 到 2019-12-31 期间任务连续同状态 period_state 的起止日期(start_date 和 end_date)。即如果任务失败了,就是失败状态的起止日期,如果任务成功了,就是成功状态的起止日期。最后结果按照起始日期 start_date

2020-06-29 11:12:55 528

原创 查询员工的累计薪水(困难)

Employee 表保存了一年内的薪水信息。请你编写 SQL 语句,对于每个员工,查询他除最近一个月(即最大月)之外,剩下每个月的近三个月的累计薪水(不足三个月也要计算)。结果请按 Id 升序,然后按 Month 降序显示。| Id | Month | Salary ||----|-------|--------|| 1 | 1 | 20 || 2 | 1 | 20 || 1 | 2 | 30 || 2 | 2 | 30

2020-06-16 10:14:07 453

原创 SQL求员工薪水中位数(困难)

Leetcode上的题目,记录一下。原题连接:https://leetcode-cn.com/problems/median-employee-salary/+-----+------------+--------+|Id | Company | Salary |+-----+------------+--------+|1 | A | 2341 ||2 | A | 341 ||3 | A | 15

2020-06-16 10:12:00 991

原创 【机器学习笔记】决策树: ID3/C4.5/CART算法异同

https://www.biaodianfu.com/decision-tree.html

2020-05-19 15:10:03 1102

原创 【机器学习笔记】xgboost陈天奇PPT逐页翻译详解

xgboost是机器学习目前使用最广、效率最高的工具。之前大概了解过xgboost的原理,说实话并没有真正的理解,甚至连它和Lightgbm的优势劣势在哪里都不知道。因此这次我打算来仔细研读陈天奇大神的Xgboost PPT,逐条翻译并加备注,这样也能帮助自己更好的理解这个算法。原PPT链接:https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf一、监督学习的几点关键概念xi属于实数空间,表示第i个训练集模型:常见的即为线性模型,包

2020-05-13 15:47:02 5442 4

原创 Python数独算法

最近突然对数独感兴趣,玩了好几天。慢慢摸索出了一些解题规律,就想着能不能用代码自动化实现。趁五一放假试着写了点代码,效果还行,至少不比网上一些教程里慢太多,因此就放到这里跟大家分享一下。由于本人也是Python新手,很多语句可能不够简洁,还望见谅。完整代码可见github链接:https://github.com/linking9230/sudoku.git一、数独输入我准备了两套数独题目...

2020-05-05 17:16:02 2398

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除