数据竞赛
文章平均质量分 66
前行follow
learning sharing and discussing.
展开
-
AI4Code Detailed EDA
AI4Code Detailed EDA介绍这次竞赛的目标是理解在python notebooks中code块和markdown块之间的关系。在这次竞赛中,我们需要在给定正确的cell块顺序情况下,重建markdown顺序,证明哪些自然语言(markdown块)依赖于哪些code块。导库import osimport jsonimport wordcloud import numpy as npimport pandas as pdimport plotly.express as px原创 2022-05-29 09:30:00 · 354 阅读 · 0 评论 -
AI4Code Pytorch DistilBert Baseline(Kaggle竞赛)
AI4Code Pytorch DistilBert Baseline导库import jsonfrom pathlib import Pathimport numpy as npimport pandas as pdfrom scipy import sparsefrom tqdm import tqdmpd.options.display.width = 180pd.options.display.max_colwidth = 120BERT_PATH = "../input/原创 2022-05-28 09:30:00 · 318 阅读 · 0 评论 -
【pandas API】pandas.DataFrame.from_dict
方法描述:类方法 DataFrame.from_dict(data, orient=‘columns’, dtype=None, columns=None)[source]从字典构建DataFrame从字典中通过列或者索引来构建DataFrame参数列表:参数名:类型data:dictOf the form {field : array-like} or {field : dict}.orient:{‘columns’, ‘index’, ‘tight’}, default ‘col原创 2022-05-25 15:40:17 · 650 阅读 · 0 评论 -
一次Kaggle竞赛全过程记录
一次Kaggle竞赛学习全过程记录竞赛地址:https://www.kaggle.com/competitions/AI4Code/overview个人认为在工程方面,学习一个东西的方法就是去使用它。第一步(寻找方法)咱们去学习那些已经投票最多、可以正常运行的代码。第二步(解读源码)阅读别人源码,逐句阅读,加上自己的注释。(以这个notebook为例)Setupimport jsonfrom pathlib import Path # 导入文件路径库import numpy as原创 2022-05-24 16:00:01 · 581 阅读 · 0 评论 -
表格数据如何做数据预处理
表格数据如何做数据预处理处理缺失值数据处理数值无量纲化定义:在机器学习算法实践中,我们往往有着将不同规格的数据转换到统一规格(例如:将数据归一化),或不同分布的数据转换到某个特定分布的需求(例如:深度学习中的Batch_Norm、Layer_Norm等),这种需求统称为数据无量纲化。优点:在梯度和矩阵为核心的算法中,例如逻辑回归(求梯度)、神经网络(求梯度)、支持向量机(矩阵计算),无量纲化会加快求解速度;在距离类模型中,例如K近邻、K-means中,无量纲化可以帮我们提升模型精读,避免某一个原创 2022-04-12 14:53:05 · 1013 阅读 · 0 评论 -
解决样本不平衡的办法
解决样本不平衡的办法通过对少数类样本进行重采样(Synthetic Minority Oversampling Technique or SMOTE)先从少数类中随机选择一个样本a然后利用K-nn选择a附近的k个,再从k个中随机选择一个样本b在样本空间中,连接a和b,形成一条样本空间中的线最后,在线上随机挑选一个样本在训练时候,少数类的样本增加权重,或者增大梯度?...原创 2021-12-08 18:56:51 · 2019 阅读 · 0 评论