自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李梦瑶的博客

技术打卡

  • 博客(28)
  • 收藏
  • 关注

原创 数据挖掘建模流程和所需代码库汇总

建模流程图网上看到的图片,直接引用哈~建模流程表格接触到的常用内容,不太全面,补不补充看心情哈~

2020-06-16 11:28:18 418

原创 分类模型效果评估指标-混淆矩阵、recall、precision、auc、roc、ks、psi等

分类模型评估指标,下面是二分类的示例(多分类时,把其中一类列为正样本,其他归为负样本进行统计即可)

2024-02-01 15:35:25 917

原创 pandas-profiling一键生成探索性数据分析报告

pandas-profiling

2023-09-14 17:07:05 219

原创 统计专业技术资格考试(初级)_内容大纲(一)_统计学基础知识

更新速度按照看书进度……

2023-06-16 21:08:24 117

原创 python自动化办公(4)_邮件自动收发

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-12-20 15:49:08 908

原创 数据产品实战进阶学习笔记

《数据产品实战进阶》知识点记录总结,仅供参考~文章目录一、基础知识1.1.数据产品定义1.2.数据产品组成1.3.数据产品分类1.4.数据产品衡量1.5.数据产品经理的分类1.6.数据产品经理的能力模型1.7.数据产品经理的应聘、招聘二、通用知识2.1.数据产品经理应具备的数据分析能力2.2.数据产品经理应具备的产品规划能力三、数据管理四、策略产品一、基础知识1.1.数据产品定义数据产品是一种降低用户使用数据的门槛,并发挥或提高数据价值的产品类型,与之对应的有用户产品和商家产品等。负责涉及、维护和优

2021-10-13 21:57:52 673

原创 python公开的数据源集成库GoPUP

一、GoPUP简介进行数据分析,获取公共数据时,通常要通过爬虫或者相关数据接口进行获取。GoPUP项目进行了公共数据采集,主要有指数数据、宏观经济数据、新经济数据、微博KOL数据、信息数据、生活数据、疫情数据等。GoPUP 支持Python 3.7+,旨在使获取数据尽可能方便,主要用于学术研究目的。GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。

2021-08-12 17:57:34 1569 1

原创 推荐系统常用的Python库

安装surprise,通过pip install scikit-surprise,会报错,需要先下载安装Visual Studio。仔细看安装程序最后提示,出现”Microsoft Visual C++ 14.0 required”并附有相应的网址,然而直接打开网址找到C++

2021-08-12 16:44:56 676

原创 python_selenium网页自动处理

一、安装与配置官方文档:https://selenium-python.readthedocs.io/index.htmlhttps://seleniumhq.github.io/selenium/docs/api/py/api.html安装步骤(Wins环境下):1、安装seleniumpip install selenium2、安装webdriver各大浏览器webdriver地址可参见:https://docs.seleniumhq.org/download/浏览器webd

2021-07-14 18:05:32 591

原创 hive不常但用且会考的用法_行列转换、排序、聚合

文章目录一、行转列和列转行1、行转列2、列转行二、排序1、row_number()2、rank()3、dense_rank()三、累积聚合函数1、sum()/max()/min()2、cume_dist()四、连续登陆和互粉问题一、行转列和列转行Hive行转列用到的函数:concat(str1,str2,…) --字段或字符串拼接concat_ws(sep, str1,str2) --以分隔符拼接每个字符串collect_set(col) --将某字段的值进行去重汇总,产生数组array类型字

2021-03-11 17:38:06 963 1

原创 python自动化办公(3)_ppt自动化处理

一、ppt基本操作ppt自动化流程如下:二、 实例演示

2021-01-07 20:44:50 529

原创 日常工作中沉淀的数据分析思路

文章目录分析思路:1、内外部原因2、指标分解3、通过时间、渠道、产品、客群四个层面分析分析方法:1、细分分析2、对比分析3、漏斗分析4、同期群分析/行为轨迹5、相关分析6、假设检验\ABtest7、建模分析分析思路:网上会有很多分析方法,例如最常听的5W2H分析法:What(用户要什么?)Why(为什么要?)Where(从哪儿得到?)When(我们什么时候做?)Who(对谁做?)How much(给多少?)How(怎么做?)这些基本是前期需求分析的时候需要通过沟通、调研、收集等的方式获得。但作为开发人

2020-12-09 19:16:01 1870

原创 python爬虫《丹麦女孩》的影评并分析

文章目录一、爬虫过程二、实践案例_爬虫豆瓣《丹麦女孩》的影评2.1、发送请求&获取数据2.2、解析、提取并保存数据三、数据分析3.1、评分分布3.2、词云图一、爬虫过程本文只是基础爬虫实践,涉及到的爬虫过程如下:1.发送请求(requests模块,GET和POST两种方式)2.获取响应数据(服务器返回)3.解析提取数据(BeautifulSoup查找或者re正则)4.保存数据本文中将会使用以下两个模块,首先对这两个模块简单了解以下:request:requests是python

2020-12-08 16:17:07 550

原创 可解释性机器学习_Feature Importance、Permutation Importance、SHAP

本文讲的都是建模后的可解释性方法。建模之前可解释性方法或者使用本身具备可解释性的模型都不在本文范围内~哪些特征在模型看到是最重要的?关于某一条记录的预测,每一个特征是如何影响到最终的预测结果的?从大量的记录整体来考虑,每一个特征如何影响模型的预测的?为什么这些解释信息是有价值的调试模型用指导工程师做特征工程指导数据采集的方向指导人们做决策建立模型和人之间的信任本文主要讲三种方法:特征重要性(Feature Importance)Permutation ImportanceSHAP

2020-11-24 16:09:50 22833 10

原创 pyspark学习笔记(1)_安装和简单逻辑回归分类示例

1.下载的Spark直接解压完成安装,下载地址:http://spark.apache.org/downloads.htmlWindows。 用户如果把Spark 安装到带有空格的路径下,可能会遇到一些问题。所以需要把Spark 安装到不带空格的路径下,比如C:\spark 这样的目录中。2.Spark由于是使用Scala语言编写,因此需要安装对应版本的JDK包才能正常使用。JDK同样安装到不带空格的路径下。3.Spark启动时需要根据HADOOP_HOME找到winutils.exe,因此需要下载对.

2020-11-18 15:52:06 763

原创 python通过xpinyin和pypinyin进行汉字转拼音

python中调用pypinyin包,完成汉字转拼音

2020-11-02 11:07:19 2757

原创 python自动化办公(2)_word自动化处理

上章写了excel的处理,本文是word的自动化操作~一、word基本操作word自动化流程如下:1.1 常用语句使用的库:docx二、 实例演示根据应聘数据,自动生成相对应的聘用信。结合Email,就可实现自动生成各自的聘用信,并自动发送给相应人员。快速有准确,老板再也不用担心发错应聘信了。以下是需要生成的聘用信模板,需要把XXX,yyyy等地换成相应人员信息,生成对应新的聘用信。下面上代码import docxfrom docx import Documentdoc = do

2020-09-30 11:04:19 1245

原创 python自动化办公(4)_图片分类保存

工作中遇到这样一种情况:提取的客户影像数据(jpg格式的图片),需要下发给相应网点,即在哪个网点办理的业务影像就把相应图片发给这个网点负责人。即下图展示,当时是几个G的图片,分给90多家支行,手工是不可能手工分的,只能靠python自动分类了。import os,tarfile,sys,zipefileimport shutilfrom pathlib2 import Pathimport pandas as pd root = r'C:\Users\lmy\Desktop\2020091

2020-09-25 15:57:53 377

原创 网络挖掘初探索(3)_NEO4J图算法

一、常用的算法相似度计算社区划分:louvain算法二、代码演示// 紧度中心性(Closeness centrality)MATCH (p:Person_) WITH collect(p) AS charactersCALL apoc.algo.closeness([朋友], characters, 'BOTH') YIELD node, scoreRETURN node.name AS name, score ORDER BY score DESC// 社区算法CALL apoc.a

2020-09-15 11:20:25 2169 1

原创 机器学习常用分类算法_python实践(分类这一篇就够了)

这篇文章不涉及原理,直接上代码运行。结合之前的文章《数据挖掘建模流程和所需工具汇总》效果更佳ノ~YO(^U^)一、导入所需的包建模主要工作就是调包调参,你懂的(●’◡’●)from __future__ import print_function #把下一个新版本的特性导入到当前版本import statsmodels.api as sm #statsmodels统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断import pandas as pd, numpy as np #p

2020-09-11 20:19:27 1224 2

原创 网络挖掘初探索(2)_NEO4J图可视化

一、简介对网络挖掘概念有初步认识,话不多说,就是干,下载了neo4j(开源单机图数据库),下载、教程啥的上官网啥都有。neo4j就是一种使用“图”表示数据结构及查询的数据库,通常包括节点(Nodes)、边(Edges)和属性(Properties)。官网:https://neo4j.com/教程:http://neo4j.com.cn/public/cypher/default.htmlhttps://www.w3cschool.cn/neo4j/二、实例展示我的部分工作圈和朋友圈CR

2020-08-28 15:16:21 1438

原创 python自动化办公(1)_excel自动化处理

19年8月份给业务部门做过python自动化培训(excel、word、email、ppt、微信等操作),现把实际会用到的操作代码pou出来~~希望能解决部分日常工作中重复繁琐的工作内容哈。我只是代码的搬运工,更多内容大家还是求助度娘把(o)/~一、python自动化办公常涉及模块excelwordpptemail/WeChat二、EXCEL基本操作Make Excel Fly!excel自动化流程如下:2.1 常用语句excel处理的库有很多,xlrd、xlwt、xlswri

2020-08-27 20:07:03 770

原创 python-xlwings操作_删除指定的行

python中处理excel的库很多,例如:xlrd、xlwt、xlswriter、xlwings。openpyxl、pandas等。但运用中发现pandas、xlwt等库读取excel数据操作后保存的文件,数据类型变了(基本都是常规),为了保持数据类型或者说文件格式不变,采用xlwings进行相关操作。Xlrd:xlrd支持.xls、.xlsx Excel文件的读,并不支持.xls、.xlsx 文件的写。Xlwt:xlwt仅支持.xls文件的写。 Xlsxwriter:xlswriter支持.xl

2020-08-21 10:14:50 7564 16

原创 网络挖掘初探索(1)_基本概念和相关内容

网络挖掘初探索,根据看的资料整理的鸭还在持续更新中……总是会听到一些网络挖掘、知识图谱、复杂网络等等概念,想要捋清楚这些究竟是个啥,根据看的的各种资料汇总的一些基本概念。旨为搞清楚他们是啥,以及他们之间的关系。非专业小白,自己个瞎看看就好。概念什么是图?图是一种常见的数据结构,用于表示对象及其之间的关系。其中,对象又称节点(node)或顶点(vertex),关系用边(edge)来描述。在数学上一般用 G=(V,E,A,X) 来表示,其中 V={v1,v2……,vn} 是节点集合,E=e_ij 表示

2020-07-23 19:25:14 537

原创 Python-OpenCV创建人脸识别器

1、打开摄像头进行人脸识别#导入相关库import numpy as npimport cv2 #要加载脸检测相关的pre-trained分类器,级联检测器detector = cv2.CascadeClassifier(r'C:\Users\lmy\AppData\Local\Packages\Microsoft.MicrosoftEdge_8wekyb3d8bbwe\TempSta...

2020-07-14 20:29:45 1356 2

原创 python学习笔记_B站:【老男孩】30天零基础学python

这里写自定义目录标题学习笔记代码day1-5day6-10day11-15day16-20day21-25day26-30学习笔记代码你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。day1-5略过……day6-10撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:Ctrl/Command + B斜体:Ctrl/Command + I

2020-07-14 19:23:58 226

原创 python制作个性二维码

通过MyQR库制作二维码生成动态二维码from MyQR import myqrimport osos.chdir('C:\\Users\\lmy\\Pictures\\Saved Pictures') #切换到图片所在的目录myqr.run(words='https://blog.csdn.net/weixin_44803791', version=1, #控制边长,1-40取值 level='H', #纠错级别,H为最高,默认。L\M\Q\H

2020-06-03 15:41:44 323

原创 python证件照抠图和换底色

1、去除背景from removebg import RemoveBgimport osos.chdir('C:\\Users\\lmy\\Pictures') #更换目录rmbg = RemoveBg("xaQGTCPi6bym8W8qj2EPSUY3","error.log") #引号内是你获取的API,需要自己去注册https://www.remove.bg/file_pat...

2020-06-03 14:50:01 1031

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除