执酌-CSDN博客

原创 2022科大讯飞飞机航班延误率预测挑战赛前10方案分享

科大讯飞飞机航班延误率预测

2023-01-17 23:58:29 1090 5

原创 Task3 Python基础进阶：从函数到高级魔法方法（2）魔法方法篇

魔法方法魔法方法总是被双下划线包围，例如__init__。魔法方法是面向对象的 Python 的一切，如果你不知道魔法方法，说明你还没能意识到面向对象的 Python 的强大。魔法方法的“魔力”体现在它们总能够在适当的时候被自动调用。魔法方法的第一个参数应为cls（类方法）或者self（实例方法）。cls：代表一个类的名称self：代表一个实例对象的名称基本的魔法方法__init__(self[, ...]) 构造器，当一个实例被创建的时候调用的初始化方法【例子】class R

2021-11-11 15:52:42 121

原创 Task2 Python基础练习：数据结构大汇总

Task2 Python基础练习：数据结构大汇总

2021-11-09 08:26:21 138

原创 Task3 Python基础进阶：从函数到高级魔法方法（1）函数篇

Python基础进阶：从函数到高级魔法方法（3天）函数函数以def关键词开头，后接函数名和圆括号()。函数执行的代码以冒号起始，并且缩进。return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回None。...

2021-11-08 09:58:23 148

原创 Task 1 Python基础复习：从变量到异常处理

Task 1 Python基础复习：从变量到异常处理从变量到循环1.python中pop()函数的用法pop() 函数用于移除列表中的一个元素（默认最后一个元素），并且返回该元素的值。语法：list.pop(obj=list[-1]) //默认为 index=-1，删除最后一个列表值。obj – 可选参数，要移除列表元素的对象。该方法返回从列表中移除的元素对象。set_1 = {"欢迎", "学习","Python"}print(set_1.pop())#学习sentence

2021-11-07 17:00:43 296

转载西瓜书笔记：模型选择与评估(2)

西瓜书笔记：模型选择与评估(2)实战：使用hyperopt对Lightgbm进行自动调参定义参数空间使用hyperopt自带的函数定义参数空间，但是因为其randint()方法产生的数组范围是从0开始的，所以我额外定义了一个数据转换方法，对原始参数空间进行一次转换from hyperopt import fmin, tpe, hp, partial# 自定义hyperopt的参数空间space = {"max_depth": hp.randint("max_depth", 15),

2021-11-04 10:03:02 118

原创 Task04 综合训练

Task04 综合训练(牛客网：较难）1.获取当前薪水第二多的员工的emp_no以及其对应的薪水salaryselect e.emp_no emp_no, s.salary salary, e.last_name last_name, e.first_name first_namefrom employees e inner join salaries s on e.emp_no = s.emp_no and s.to_date='9999-01-01'where s.salary = (s

2021-11-01 14:57:34 82

原创 Task03 SQL基础(2)

Task03 SQL基础(2)SQL学习笔记-Task03Task03 SQL基础(2)窗口函数窗口函数概念及基本的使用方法¶窗口函数种类聚合函数在窗口函数上的使用窗口函数的的应用 - 计算移动平均窗口函数适用范围和注意事项ROLLUP - 计算合计及小计窗口函数窗口函数概念及基本的使用方法¶<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序用列名>) []中的内容可以省略。

2021-11-01 11:49:55 201

原创 Task01：初识数据库与SQL

SQL学习笔记——Task01初识数据库与SQL数据库与SQL简介数据库中存储的表结构类似于excel中的行和列，在数据库中，行称为记录，它相当于一条记录，列称为字段，它代表了表中存储的数据项目。行和列交汇的地方称为单元格，一个单元格中只能输入一条记录。SQL是为操作数据库而开发的语言。国际标准化组织（ISO）为 SQL 制定了相应的标准，以此为基准的SQL 称为标准 SQL（相关信息请参考专栏——标准 SQL 和特定的 SQL）。完全基于标准 SQL 的 RDBMS 很少，通常需要根据不同的 R

2021-10-29 13:31:25 257

原创 Task02 SQL基础

Task02 SQL基础（1）上题目练练手（来自牛客网）：1.分页查询employees表，每5行一页，返回第2页的数据SELECT *FROM employeesLIMIT 5,5;LIMIT 语句结构： LIMIT X,YX：从第几条记录开始返回（第一条记录序号为0，默认为0）Y ：返回几条记录2.使用join查询方式找出没有分类的电影id以及名称select film_id,title from filmwhere film_id not in (select f.film_

2021-10-29 13:22:29 136

原创西瓜书笔记：模型选择与评估（1）

西瓜书笔记：模型选择与评估（1）1.经验误差vs 泛化误差经验误差：在训练集上的误差–对应训练集上的误差泛化误差：在未来样本上的误差-对应测试集数据验证集–用来训练模型的超参数（模型本身是有参数的，但在训练的过程中有些参数是训练不到的）2.混淆矩阵得到的评价指标Recall、Precision、Accracy、F1、Auc（用一张图可以清楚展示他们的区别）PS：AUC就是ROC曲线下的面积3.偏差和方差Bias（偏差）:期望值和实际值的差值Variance（方差）4.整览西瓜书后，方知

2021-09-04 16:27:30 117

原创天池赛学术前沿趋势分析Task1 论文数据统计

数据集介绍数据集的格式如下：id：arXiv ID，可用于访问论文；submitter：论文提交者；authors：论文作者；title：论文标题；comments：论文页数和图表等其他信息；journal-ref：论文发表的期刊的信息；doi：数字对象标识符，https://www.doi.org；report-no：报告编号；categories：论文在 arXiv 系统的所属类别或标签；license：文章的许可证；abstract：论文摘要；versions：论文版本；a

2021-01-12 00:21:24 486 1

原创天池新闻推荐入门赛之【排序模型+模型融合】Task05

排序模型通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是：① LGB的排序模型② LGB的分类模型③ 深度学习的分类模型DI

2020-12-06 22:43:39 202

原创天池新闻推荐入门赛之【特征工程】Task04

新闻推荐的流程：首先，我们要明白：特征工程是什么？其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用为什么要特征工程？因为数据和特征决定了机器学习的上限，而模型和算法只能逼近这个上限而已。特征越好，模型灵活性越强——可以选择更多的算法来训练模型特征越好，模型效果越出色——特征决定了模型性能的上限特征越好，模型就可以越简单——简单模型不容易过拟合，且训练预测的速度更快将制作特征和标签，转成监督学习问题我们先捋一下基于原始的给定数据，有哪些特征可以直接利用

2020-12-03 22:50:54 125

原创天池新闻推荐入门赛之【多路召回】Task03

这次代码比较难，时间比较紧。先跑通代码，后面再结合录播内容补上。多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上

2020-11-30 21:37:45 245

原创天池新闻推荐入门赛之【数据分析】Task02

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档天池新闻推荐入门赛之【数据分析】Task02数据分析数据分析值应熟悉整个数据集的基本信息，包括每个文件中的数据、特定文件中每个字段的实际意义以及数据集中特性之间的相关性。推荐场景的主要特征是用户的基本属性、文章的基本属性以及用户与文章之间的交互作用具有一定的分布性。这是支持召回策略的选择和特征工程。提示：以下是本篇文章正文内容，下面案例可供参考导包%matplotlib inlineimport pandas as pdi

2020-11-27 18:03:13 202

原创天池新闻推荐入门赛之【赛题理解+Baseline】

天池新闻推荐入门赛之【赛题理解+Baseline】Task01赛题理解①赛题说明：该赛题为推荐系统类，参赛者需要根据用户历史浏览和点击新闻文章的数据信息，预测用户未来的点击行为，即用户最后一次点击的新闻文章。②大概实现思路：分类用户是否点击某篇文章+预测出某个用户最后一次对于某一篇文章会进行点击的概率，进行排序，概率最大的那篇文章为用户最后一次可能点击的新闻文章。③数据说明：该比赛提供的数据集包括30万用户，近300万次点击，共36万多篇不同的新闻文章。三个数据集划分为一个训练集，一个测试集A

2020-11-25 01:16:41 553

执酌的博客