小笼包xiaolongbao
码龄6年
关注
提问 私信
  • 博客:18,026
    18,026
    总访问量
  • 14
    原创
  • 1,180,311
    排名
  • 1
    粉丝
  • 0
    铁粉

个人简介:想从事数据分析,甚至梦想数据挖掘的浙大理科生

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-12-02
博客简介:

weixin_43919639的博客

查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得0次评论
  • 获得34次收藏
创作历程
  • 14篇
    2020年
  • 2篇
    2019年
  • 2篇
    2018年
成就勋章
TA的专栏
  • 分布式存储和计算
    2篇
  • 概率与统计
    2篇
  • 数据可视化
  • 数据库
  • 机器学习
    2篇
  • Python学习
    7篇
  • Python爬虫
  • Python 基本库的使用
    5篇
  • Python可视化
    1篇
  • 数据结构与算法
    4篇
兴趣领域 设置
  • 大数据
    hivesparketl
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

185人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

搭建Hadoop集群

Hadoop环境搭建安装VMware Workstation安装的版本是workstation pro v15.5.1软件资源:https://www.nocmd.com/740.html下载Ubuntu镜像文件,在虚拟机中安装首先了解一下Vmware虚拟机下三种网络模式配置,可以参考文档《VMware虚拟机三种联网模式》,大致就是:首先进入界面会发现多出了两个虚拟网卡,有三种模式:...
原创
发布博客 2020.02.15 ·
673 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Map-Reduce工作流程

转自:https://blog.csdn.net/wyqwilliam/article/details/84669579
转载
发布博客 2020.02.14 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

样条插值

样条插值的定义函数若处处可导,即每一处的左导数和右导数均存在且相等,那么这条函数就是光滑不间断的曲线。样条插值就是根据每两个相邻的数据点确定一段函数,然后再结合成一个函数,那么就是光滑的函数了。样条计算模式:比较不同阶数区别x = np.linspace(-2*np.pi, 2*np.pi, num=10)f = lambda x: np.sin(x) + 0.5 * xx1 = ...
原创
发布博客 2020.02.13 ·
5608 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

数据预处理

标准化、归一化 or 中心化?注意:需要去除离群值时,当数据本身比较聚集,也就是离散程度不高,使用3σ\sigmaσ会比箱型图要好,因为这个时候的箱型图可能找不出离散值,都在1.5IQR以内。为什么要线性变化线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序,那...
原创
发布博客 2020.02.13 ·
274 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

点估计中二阶中心距与总体样本方差的区别

https://blog.csdn.net/qq_41228218/article/details/94584393https://blog.csdn.net/huguozhiengr/article/details/81607637
转载
发布博客 2020.02.12 ·
1798 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关联规则(Apriori FP Tree算法)

关联分析直观理解频繁项集(frequent itemset)是指那些经常出现在一起的物品集合,比如{葡萄酒,尿布, 豆奶}就是频繁项集的一个例子。一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)Conf...
原创
发布博客 2020.02.12 ·
799 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

决策树算法

决策树构造实例:这个就不详细讲了,大家知道树的结构就行了ID3:信息增益(有什么问题呢?)C4.5:信息增益率(解决ID3问题,考虑自身熵情况)CART:使用GINI系数来当作衡量标准决策树的剪枝:预剪枝,后剪枝
原创
发布博客 2020.02.12 ·
1093 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

相似度类型

相似度计算相似度的计算一般是基于向量的,可以将一个用户对所有的物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对于某一个物品的偏好作为一个向量计算物品之间的相似度,相似度的计算有下列几种方式:计算欧几里得距离:利用欧几里得距离计算相似度时,将相似度定义如下:皮尔逊相关系数:其中sx,sy表示x和y的标准差。Cosine相似度:Tanimoto系数,也称作Jacca...
原创
发布博客 2020.02.12 ·
253 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Jupyter Notebook格式解析(可用于合并文件)

最近遇到一个问题:如何合并多个Jupyter Notebook的笔记为一个笔记文件?经常用Jupyter Notebook写Python代码,看到这个需求不是想去找轮子而是想自己做解析和合并。通过深入文件格式去加深对Jupyter Notebook的了解。用Jupyter 写代码有很多优势:交互式的编程体验、文档图表整合、扩展性强而且非常容易复现结果。从2017年开始,已有大量的北美顶尖...
转载
发布博客 2020.02.12 ·
4000 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

matplotlib技巧总结

来自cheatsheet合辑
原创
发布博客 2020.02.11 ·
85 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

datetime库方法总结

python datetime处理时间https://www.cnblogs.com/lhj588/archive/2012/04/23/2466653.htmlPython提供了多个内置模块用于操作日期时间,像calendar,time,datetime。datetime模块定义了两个常量:datetime.MINYEAR和datetime.MAXYEAR,分别表示datetime所能表示...
转载
发布博客 2020.02.11 ·
1712 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

Numpy库方法总结

数组的基本信息import numpy as npar = np.array([[1,2,3,4,5,6,7], [1,2,3,4,5,6,7]])print(ar) # 输出数组,注意数组的格式:中括号,元素之间没有逗号(和列表区分)print(ar.ndim) # 输出数组维度的个数(轴数),或者说“秩”,维度的数量也称rankprint(ar.shape...
原创
发布博客 2020.02.11 ·
209 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Pandas库方法总结

构造Series# 用list初始化Seiress = pd.Series([7, 'Beijing', 3.14, -12345, 'HanXiaoyang'])# pandas会默认用0到n作为Series的index,但是我们也可以自己指定index。s = pd.Series([7, 'Beijing', 3.14, -12345, 'HanXiaoyang'], index=['...
原创
发布博客 2020.02.11 ·
304 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

正则表达式

正则表达式首先注意一下,正则表达式效率上很多情况下不如str的内建函数,先列举一下我不太常用或者想不到的功能:查找子字符串,存在返回索引值,不存在则分别返回-1和异常:string.find(str, beg=0, end=len(string)) s.rfind(’’)string.index(str, beg=0, end=len(string)) s.rin...
原创
发布博客 2020.02.11 ·
240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Leetcode10. Regular Expression Matching DP问题

class Solution { public boolean isMatch(String text, String pattern) { if (pattern.isEmpty()) return text.isEmpty(); boolean first_match = (!text.isEmpty() && ...
原创
发布博客 2019.06.08 ·
160 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动态规划

LeetCode:5. longest Palindrom substring第一种方法:Approach 4: Expand Around CenterIn fact, we could solve it in O(n^2)O(n2) time using only constant space.We observe that a palindrome mirrors around ...
原创
发布博客 2019.06.06 ·
126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

PAT(Top Level) 1002

动态规划——01背包链接: https://pintia.cn/problem-sets/994805148990160896/problems/9948051561456435201002 Business (35 分)As the manager of your company, you have to carefully consider, for each project, the...
原创
发布博客 2018.12.12 ·
222 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

PAT(Top Level) 1001

PAT(Top Level) 1001链接: https://pintia.cn/problem-sets/994805148990160896/problems/9948051566573486081001 Battle Over Cities - Hard Version (35 分)It is vitally important to have all the cities conn...
原创
发布博客 2018.12.11 ·
293 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多