努力成为数据分析大牛
yibo17071
希望成为数据分析的大牛
展开
-
数据治理读书笔记-体系篇-数据战略
数据战略不仅是企业领导的“一把手”工程,更是各级领导的重点工程,各级领导应对数据战略规划项目高度重视,进而确保项目能够顺利推行。原创 2023-03-02 22:10:36 · 178 阅读 · 0 评论 -
数据治理读书笔记-体系篇-数据管控
数据管控是一套以数据治理相关组织和人员为核心的,涵盖企业数据治理制度、流程、考核等各个方面的执行保障机制,其本质是通过建立高质量的人才队伍和严明的制度体系来确保数据战略被正确落实。原创 2023-03-01 22:23:04 · 176 阅读 · 0 评论 -
数据治理读书笔记-体系篇
工业企业数据治理体系以数据管控为核心,通过数据管控统领数据治理的10大职能领域,包括数据战略、数据架构、主数据管理、元数据管理、时序数据管理、数据指标管理、数据质量管理、数据安全管理、数据交换与服务、数据开发与共享。原创 2023-02-28 22:28:31 · 122 阅读 · 0 评论 -
数据分析一些自己觉得很不错的思路
愿自己不断的学习,不断的成长 一直觉得自己在数据分析思路和角度方面还是有存量的,能忽悠一部分人,但是今天听了公司王博(王亚明)的思路,还是觉得很佩服。什么问题呢? 经典的市场和研发的矛盾,市场觉得研发的机型不够不能满足市场需求,研发觉得市场部为了卖出商品乱承诺,导致客户不满意,流失客户。王博的解题思路将商机进行聚类,层次聚类,这样每个层级不同类个数,相当于要研发的产品类型,然后去评估不同种类的投入产出比,来决定研发商品的类型。这个聚类过于简单了,细节方面没有考虑商机中各个因素的权限原创 2020-08-20 16:40:26 · 214 阅读 · 0 评论 -
pycharm使用anaconda环境的遇到问题的一些记录
最近换了工作,领完新电脑就需要装环境啦!1. anaconda和miniconda任选一种,装起来,我比较喜欢anaconda,但是这个占空间好像蛮大的。2. anaconda装完(勾选Add path to your environment一定要将conda环境添加到系统变量中,否则在pycharm中使用时会报错)之后整两个环境,我一般都是python2.7和python3.7各来一个,...原创 2019-09-06 15:07:56 · 1465 阅读 · 0 评论 -
背包问题简单实现
跟同事聊,他面试的时候被问到背包问题,问我知道这个问题嘛,我说知道,但是说来惭愧,之前看过动态规划的东西,后面又全忘记了,所以又去学习了下背包问题的解题思路。看了几篇博文,发现有一篇写的不错,所以先列上https://www.jianshu.com/p/a66d5ce49df5参照这篇博文,将其java代码改成python代码,记录下import numpy as ...原创 2019-07-11 16:02:24 · 182 阅读 · 1 评论 -
AUC详解
本着尊重原作者(或者转载者)的目的,先把引用链接发上来https://blog.csdn.net/Stephen_shijun/article/details/83059863这篇文章前面讲的很好,重点提到了样本不均衡的情况,但是后面介绍AUC的时候不够详细https://blog.csdn.net/lieyingkub99/article/details/81266664这篇则是讲解...原创 2019-05-10 16:21:17 · 2336 阅读 · 0 评论 -
python中scipy包中的linkage进行层次聚类
from scipy.cluster.hierarchy import dendrogram, linkage,fclusterfrom matplotlib import pyplot as pltX = [[i] for i in [2, 8, 0, 4, 1, 9, 9, 0]]#method是指计算类间距离的方法,比较常用的有3种: #single:最近邻,把类与类间距离最近的作...原创 2019-03-01 18:14:32 · 12398 阅读 · 2 评论 -
linux命令(shell脚本)直接连接redis
最近遇到一个过滤问题,需要取redis中的数据,平常都是用python脚本来读取,然后存到文件中,shell脚本再调用,后面想想都是语言,linux命令肯定可以直接连接redis,所以搜罗了下,在此记录下先进入命令行redis-cli -h XXXX -p 6379 -a XXXXget key第二种方式可以直接放入shell脚本redis-cli -h XXXX -p 6379 -a...原创 2018-12-06 14:40:39 · 16369 阅读 · 0 评论 -
极大似然估计的一些学习整理
尊重原创,尊重每个人的成果,所以把参考的博文放在首位:这篇博文讲的很肤浅但是很通透 :https://blog.csdn.net/u011058765/article/details/51435502这篇博文讲的很到位,很深刻,本文的大部分也是摘自此博文:https://blog.csdn.net/zengxiantao1994/article/details/72787849极大似然...原创 2018-08-20 18:44:39 · 15356 阅读 · 1 评论 -
用户长短期兴趣模型-多因素模型探索
最近在做资讯推荐,发觉是个很有意思的课题,尽管在人事上有些不愉快,但是总体来讲,这个课题是我喜欢的,也是我第一次实践。我希望能在这次的实践中从真实的点击效果数据中寻求对算法对推荐更深层次的理解。 尽管算法这块并没有太多创新的东西,但是还是将所做的事情记录下。 第一步:聚焦用户的短期兴趣(用户短期兴趣模型) 短期兴趣模型大体的思路是滑动时间窗,但是我发...原创 2018-06-20 20:11:38 · 4293 阅读 · 1 评论 -
词向量与Embeding解析
最近在关注词向量,一直以为它是将语料训练之后的输出结果,看了苏大神的文章(https://kexue.fm/archives/4122)才知道它只是个参数而已!而Embedding层就是以one hot为输入、中间层节点为词向量维数的全连接层!而这个全连接层的参数,就是一个“词向量表”!onehot还是很强大的:one hot型的矩阵相乘,就像是相当于查表,于是它直接用查表作为操作,而...原创 2018-05-21 19:01:52 · 1416 阅读 · 0 评论 -
word2vec 以及keras的lstm
最近学习了word2vec 以及keras的lstm,理解并修改了大神的代码,深入学习了下,同时开通了github,以后代码的搬运还是在专业工具上吧,csdn博客代码的书写太不方便了,github地址:https://github.com/shengmingruxue/ToaduptoSwan/blob/master/README.md算法的学习像无底洞一样,感觉自己每天都惴惴不安,同时还得考虑要...原创 2018-05-19 20:44:48 · 3882 阅读 · 2 评论 -
Python 文本挖掘:使用gensim进行文本相似度计算
在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和特性,角度更客观。那么Python 里面有计算文本相似度的程序包吗,恭喜你,不仅有,而且很好很强大。这是从52nlp大神的博客里面发现的,其实具体的处理流程和程序和他的基本一致,转载 2017-09-01 17:43:59 · 4337 阅读 · 0 评论