自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小数志

欢迎关注同名微信公众号:小数志!

  • 博客(136)
  • 资源 (2)
  • 收藏
  • 关注

原创 明天,开启职场新篇章!

明天,2024年9月19日,将正式开启我的职场新篇章,这会是个人来到杭州之后的第三次新人入职,虽不至忐忑如初,但仍有思绪万千!大概在6月份的时候,考虑到已经在H公司工作了3年有余,在冷静思考之后还是决定尝试一下新的机会:既是了解一下当下就业市场现状,也给自己重新审视职业规划导入一些真实外部反馈。幸运的是,在投递了A公司的几个岗位后,然后竟一路幸运的通关了5轮面试,并快速拿下Offer,前前后后仅约...

2024-09-18 18:52:05 46

原创 【AI读论文】自动数据处理和特征工程综述

论文标题:Automated data processing and feature engineering for deep learning and big data applications: a survey作者:Alhassan Mumuniand Fuseini Mumuni摘要:本篇综述论文探讨了自动化数据处理和特征工程在深度学习和大数据应用中的重要性和进展。随着大数据时代的到来,...

2024-04-01 11:00:48 930

原创 AGI时代,LLM可以在AutoML哪些环节进行增强?

当下大模型技术发展如火如荼,颇有改变各行业和各领域的架势。那么对于AutoML来讲,LLM对其有哪些助力?对于这个问题,我们来问一问kimi chat,看看它怎么回答?大型语言模型(LLM)可以在AutoML(自动化机器学习)的多个技术环节中进行增强,提供更高效、更智能的数据处理和模型构建能力。以下是LLM可以在AutoML中增强的几个关键环节:数据预处理与特征工程:LLM可以辅助文本数据的预处理...

2024-03-31 22:56:44 582

原创 【AI读论文】CAAFE:基于大模型的自动特征工程

Title:Large Language Models for Automated Data Science:Introducing CAAFE for Context-Aware AutomatedFeature EngineeringPaper: https://arxiv.org/pdf/2305.03403.pdfGitHub: https://github.com/automl/CA...

2023-12-04 11:00:37 1374

原创 【AI读论文】大模型时代:AutoML的机遇、挑战与风险

Title:AutoML in the Age of Large Language Models: Current Challenges, Future Oportunities and RisksPaper:https://arxiv.org/pdf/2306.08107I. 概要本文主要阐述了在大模型时代,自动化机器学习(AutoML)与大型语言模型(LLMs)之间的潜在关系、挑战、机遇和风险...

2023-12-03 21:44:49 1121

原创 【AI读论文】AutoML的8年回顾:分类、综述与趋势

论文标题:Eight years of AutoML: categorisation, review and trends论文链接:https://link.springer.com/article/10.1007/s10115-023-01935-1本文主要围绕自动机器学习(AutoML)展开了系统性的文献综述,总结了该领域的主要观点和发现。以下是对每个章节的主要观点的归纳总结:摘要AutoML...

2023-11-20 11:00:40 536

原创 如何定义算法工程师的“六边形”能力?

在体育界,会有很多“六边形战士”,堪称是综合能力全面上佳的存在,例如足球界的古利特、乒乓球界的马龙等。那么在算法工程师岗位,该如何定义六边形能力呢?个人认为的六个能力维度当包括:技术视野、理论深度、算法创新能力、业务认知、工程编码和沟通协同,以此为prompt,来问下chatgpt如何作答……Prompt:请从如下6个维度定义一名算法工程师的能力体系:技术视野、理论深度、算法创新、业务认知、工程编...

2023-11-19 22:07:51 195

原创 AI读论文:AutoML中的技术

本文是AI读论文的第1篇,就从一篇介绍AutoML中关键技术的论文开始吧。论文标题:Techniquesfor Automated Machine Learning论文链接:https://arxiv.org/pdf/1907.08908.pdf01引言AutoML的目标是自动确定高性能的机器学习解决方案,以减轻数据科学家的负担,并使领域专家能够使用现成的机器学习解决方案,而无需丰富的经验。传...

2023-11-18 11:00:22 143

原创 AutoML:一站式资源整合

AutoML,自动化机器学习(Automated Machine Learning),是在传统机器学习或深度学习模型开发过程中,使部分或多个环节、甚至全流程实现自动化的一种技术。个人在工作中曾长期跟进该方向的技术研究与应用,对AutoML的技术体系也算有整体性的了解。前期,也稍微整理和简单发表过几篇AutoML相关的推文,包括AutoML简介、AutoFE工具、HPO工具以及AutoML简单实战等...

2023-11-04 20:55:22 129

原创 ChatGPT这么火,我们能怎么办?

今天打开百度,看到这样一条热搜高居榜二:B站UP主发起停更潮,然后点进去了解一看,大体是因为最近AI创作太火,对高质量原创形成了巨大冲击!记得之前看过一位UP主的分享,说B站UP主的年收入大体约等于粉丝体量!B站UP主本来是非常具有吸引力的新星职业,但如今在以ChatGPT为代表的AIGC能力面前,竟遭受如此降维打击,想来也不禁感慨。毫无疑问,ChatGPT注定会成为AI发展史上的一个关键里程碑,...

2023-04-03 12:01:18 6906

原创 且用且珍惜:Pandas中的这些函数/属性将被deprecated

导读Pandas对于日常数据分析和处理来说是最常用的工具(没有之一),笔者之前也总结分享了很多相关用法和技巧。与之不同,今天本文来介绍几个已经在函数文档中列入"deprecated"的函数/属性,可能在不久的未来版本中这些用法将正式与我们告别,以此权当留念。deprecated:英文原义有不赞成和反对的意思,在编码文件中常用于标记某方法已不提倡使用和即将废弃,虽然暂时可用...

2022-03-22 12:00:00 2364

原创 一名数据分析师到算法工程师的转岗经历

导读了解小编的读者应该知道,我在从事了一段数据分析师的工作之后,目前岗位的title已经换成了算法工程师。虽然两个岗位存在很大交集和共通之处,但无论是工作思维还是所需技术栈方面,也都存在很...

2022-03-21 12:00:00 5619

原创 PyTorch学习系列教程:Tensor如何实现自动求导

。导读今天本文继续PyTorch学习系列。虽然前几篇推文阅读效果不是很好(大体可能与本系列推文是新开的一个方向有关),但自己选择的路也要坚持走下去啊!前篇推文介绍了搭建一个深度学习模型的基...

2022-03-14 12:00:00 2413

原创 PyTorch学习系列教程:构建一个深度学习模型需要哪几步?

导读继续PyTorch学习系列。前篇介绍了PyTorch中最为基础也最为核心的数据结构——Tensor,有了这些基本概念即可开始深度学习实践了。本篇围绕这一话题,本着提纲挈领删繁就简的原则...

2022-03-07 12:00:00 5670

原创 PyTorch学习系列教程:何为Tensor?

导读本文继续PyTorch学习系列教程,来介绍在深度学习中最为基础也最为关键的数据结构——Tensor。一方面,Tensor之于PyTorch就好比是array之于Numpy或者DataF...

2022-02-28 12:00:00 8718

原创 最近,又发现了Pandas中三个好用的函数

导读笔者早先学习Python以及数据分析相关知识时,对Pandas投入了很多精力,自认掌握的还算扎实,期间也总结分享了很多Pandas相关技巧和心得(点击上方“Pandas”标签可以查看系...

2022-02-22 12:00:00 899

原创 Pytorch学习系列教程:入门简介

导读新的一年还是要肝起来啊,这个公众号节前节后沉寂了快两个月了,许久没更新原创推文,自己感觉不能再这样堕落下去了。所以最近一直在思考写些什么推文:既要符合当下工作所需,倒逼成长;也要于广大...

2022-02-14 12:00:00 1128

原创 Python中的时序分析工具包推荐(2)

导读在前期推文Python中的时序分析工具包推荐(1)中介绍了时序分析的三个工具包,分别侧重于时序特征工程、基于sklearn的时序建模和更为高级的时序建模工具。今天,本篇再来介绍4个时序...

2022-01-03 18:24:05 1532

原创 Python中的时序分析工具包推荐(1)

导读时间序列分析是一类经典问题,常见的场景需求包括时序预测、时序分裂、时序聚类、异常检测等。作为一名算法工程师,当调包遇上时间序列,有哪些好用的工具包呢?本篇首先介绍3个:tsfresh、...

2021-12-27 11:45:00 1778

原创 时序预测的三种方式:统计学模型、机器学习、循环神经网络

导读时序预测是一类经典的问题,在学术界和工业界都有着广泛的研究和应用。甚至说,世间万物加上时间维度后都可抽象为时间序列问题,例如股票价格、天气变化等等。关于时序预测问题的相关理论也极为广泛...

2021-12-20 12:00:00 2934 1

原创 最近,深入研究了一下数据挖掘竞赛神器——XGBoost的算法原理和模型数据结构...

导读从事数据挖掘相关工作的人肯定都知道XGBoost算法,这个曾经闪耀于数据挖掘竞赛的一代神器,是2016年由陈天齐大神所提出来的经典算法。本质上来讲,XGBoost算作是对GBDT算法的...

2021-12-06 12:00:00 1359

原创 数据科学:Sklearn中的决策树,底层是如何设计和存储的?

导读前期在做一些机器学习的预研工作,对一篇迁移随机森林的论文进行了算法复现,其中需要对sklearn中的决策树进行继承和扩展API,这就要求理解决策树的底层是如何设计和实现的。本文围绕这一...

2021-11-30 12:00:00 354

原创 数据科学系列:plotly可视化入门介绍

导读在入道数据岗位之初,曾系列写过多个数据科学工具包的入门教程,包括Numpy、Pandas、Matplotlib、Seaborn、Sklearn等,这些也构成了自己当初的核心工具栈。在这...

2021-11-22 12:00:00 5938

原创 一文介绍机器学习中的三种特征选择方法

导读机器学习中的一个经典理论是:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。也正因如此,特征工程在机器学习流程中占有着重要地位。广义的特征工程一般可分为三个环节:特征提取...

2021-09-04 12:00:00 868

原创 一张图介绍机器学习中的集成学习算法

导读机器学习在当下早已成为一项热门的技术,在众多机器学习算法中,除去深度学习和强化学习等最新发展方向,若是谈及经典机器学习算法,那么集成学习算法无论是在效果上还是热度上都是当之无愧的焦点。...

2021-08-30 12:00:00 320

原创 一名数据分析师的机器学习历程

导读笔者的上一个角色是一名数据分析师,期间重点把数据分析岗必备的技能都刷了一遍,包括ESP基础套餐(Excel + SQL + Python)、Python数分三剑客(Numpy + Pa...

2021-08-29 12:00:00 342

原创 Numpy中的广播机制,你确定正确理解了吗?

导读Numpy是Python中的一个基础的数据分析工具包,其提供了大量常用的数值计算功能,当然这些数值计算函数大多依赖于其核心的数据结构:ndarray,也就是N维数组。而关于这个ndar...

2021-08-22 12:00:00 472

原创 还在苦恼特征工程?不妨试试这个库

导读从事机器学习相关岗位的同学都知道这样一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。在数据确定的情况下,那么特征工程就成了唯一可供发挥的关键步骤。广义来讲,特征工...

2021-08-08 12:00:00 170

原创 还在当调参侠?推荐这三个超参优化库【含示例代码】

导读在传统的算法建模过程中,影响算法性能的一个重要环节、也可能是最为耗时和无趣的一项工作就是算法的调参,即超参数优化(Hyper-parameter Optimization,HPO),因...

2021-08-01 15:47:08 898

原创 Python用了这么久,居然没注意到这个骚操作函数

导读Python语言近年来的火热程度自不必说,这一方面得益于其庞大的第三方库的加持,使得其堪称万金油般的存在;另一方面也在于其简洁的语法和易用的函数。是的,Python语法之简洁和函数之丰...

2021-07-25 12:00:00 88

原创 一文介绍Pandas中的9种数据访问方式

导读Pandas之于日常数据分析工作的重要地位不言而喻,而灵活的数据访问则是其中的一个重要环节。本文旨在讲清Pandas中的9种数据访问方式,包括范围读取和条件查询等。Pandas中的核心...

2021-07-15 12:00:00 1309

原创 自动化机器学习(AutoML)入门简介

导读近期在学习研究一些关于自动化机器学习方面的论文,本文作为该系列的第一篇文章,就AutoML的一些基本概念和现状进行简单分享,权当抱砖引玉。图片源自《Taking Human out o...

2021-07-13 12:00:00 3040

原创 【综述】机器学习中的12类算法

导读最近在研究一些机器学习方面的论文,翻到了一篇较早的机器学习综述(2017年),虽然不是最新的研究现状,但考虑到经典机器学习算法其实发展并不像深度学习那么迅猛,所以其论述还是很有参考性。...

2021-07-11 12:00:00 291

原创 Pandas用了这么久,有觉得哪里不好的地方吗?

导读作为一名数据分析师,自己对Pandas有过系统的学习和应用实践,对其大部分功能甚至骚操作也称得上有所研究,前期也写过太多的Pandas应用技巧相关的文章。那么在赞美之余,有没有一些觉得...

2021-06-27 22:22:37 334

原创 详解Pandas读取csv文件时2个有趣的参数设置

导读Pandas可能是广大Python数据分析师最为常用的库了,其提供了从数据读取、数据预处理到数据分析以及数据可视化的全流程操作。其中,在数据读取阶段,应用pd.read_csv读取cs...

2021-06-24 12:00:00 584 1

原创 SQL用了两年多,我最常用的2个小技巧

导读SQL是所有数据从业者必须打牢的基本功之一,扎实的SQL查询和适当的调优技巧是检验SQL能力的两大重要准则。个人曾经专门花费过好多时间用于提升SQL能力,期间也刷了大量的SQL题目,在...

2021-06-18 20:57:19 120

原创 SQL中的行转列和列转行

导读SQL是IT行业很多岗位都要求具备的一项能力,对于数据岗位而言更是如此,甚至说扎实的SQL基础也往往是入职这些岗位的必备技能。而在SQL面试中,一道出镜频率很高的题目就是行转列和列转行...

2021-06-12 12:00:00 865

原创 Pandas中实现聚合统计,有几种方法?

导读Pandas是当前Python数据分析中最为重要的工具,其提供了功能强大且灵活多样的API,可以满足使用者在数据分析和处理中的多种选择和实现方式。今天本文以Pandas中实现分组计数这...

2021-06-06 12:00:00 1238

原创 SQL、Pandas和Spark:如何实现数据透视表?

导读数据透视表是一个很重要的数据统计操作,最有代表性的当属在Excel中实现(甚至说提及Excel,个人认为其最有用的当属三类:好用的数学函数、便捷的图表制作以及强大的数据透视表功能)。所...

2021-05-22 18:00:00 313

原创 使用Jupyter近2年,我离不开这6组快捷键

导读Jupyter一直是个人非常喜爱的coding环境,也着实适用于简单的数据分析和探索。前期分享了个人使用Jupyter的3个实用技巧,今天本文就再来总结6组常用快捷键,其使用频率之高和...

2021-05-09 12:00:00 292

示例 - 超市.xls

Tableau经典示例教学源文件《示例 - 超市.xls》,对于入门学习、研讨交流都有着十分友好的价值。

2019-12-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除