统计学笔记:赤裸裸的数据任人打扮 拖拖拉拉两个月,终于看完了今年第一本书——《赤裸裸的统计学》,本书作者采用故事性叙述,梳理了统计学中基础而关键的知识点,作为统计学的科普读物,表述更容易让外行人接受。笔者根据自身理解对其中部分内容进行了小结,并结合《数据产品经理必修课:从零经验到令人惊艳》一书的统计学部分内容进行补充,整体以前者为主,感兴趣的同学推荐阅读两本原书。
关联规则之 Apriori 算法实现 Apriori 算法是电商数据挖掘中的经典算法,用于发现商品之间的关联规则,例如买了 A 和 B 的情况下是否还会买 C,通过计算商品组合之间的支持度和置信度来实现
SQL练习:表妹不在,没人帮我查表,只好自己来了 对 `tp` 重新归类,原本是 a、aa、b、c、d、dd 六类,先变成 A、b、c、D 四类,并分不同时间段计数,且按指定的新分类顺序 bADc 排序
用python开发一个炸金花小游戏,注意别玩上瘾了 用 Python 来实现一个类似炸金花的扑克牌小游戏,游戏使用一副除去大小王的扑克牌,共 4 个花色 52 张牌,各个玩家从中抽取 3 张牌,比较大小。各种牌型的大小顺序:同花顺 > 豹子 > 顺子 > 金花 > 对子 > 单张
淘宝爬虫:看看房地产拍卖行情怎么样?附可视化分析 本文对杭州市法拍房数据进行了从数据采集到分析结果呈现的介绍,讲解了爬虫的知识点:分析网页结构、动态加载的数据、jsonp等,并利用多种精美的可视化呈现分析结果
一道题笔记:递归、嵌套列表去重与排列组合 给定 4 种面额的钞票和目标金额,找出有多少种钞票组合,满足总金额等于目标金额。例如 [1, 2, 5, 10] 这4种面额,组合成 10元,那就有 10 张 1 元 / 8 张 1 元 + 1 张 2 元 ... / 1 张 10 元等情况
matplotlib柱状图轴标签自定义排序 昨天一位同学提问 “matplotlib 画柱状图时,横坐标是从表格中指定列获取的,如何设置横坐标的顺序呢?” 原始数据结构如下图所示,需要对学历分组求平均工资后画柱状图,顺序应为按学历由低到高,即 ['大专', '本科', '硕士', '博士']
数据可视化?不如用最经典的工具画最酷炫的图(EXCEL/PPT) 前言:做数据分析和做科普是类似的,科普的意义在于将晦涩难懂的科学知识,以让大众更易接受和理解的方式呈现。而数据分析中的数据可视化做的正是如此关键中的关键,即是将数据的特点以一种显而易见的形式进行呈现。但也不必说的那么高级,我们可以说数据可视化就是“画图”。能够进行可视化的工具有很多,比如 python 中的 matplotlib、pyecharts、plotly等等。可有时候我们并不想写代码,我们可以选择很多便利的在线工具,还可以用最经典的——EXCEL 和 PPT。下面,笔者将请这两位 office 老员
PyQt5实战:你是成熟的软件啦,该有启动画面和加载进度条了! 笔者在最近的工作中做了一个基于PyQt5实现GUI的数据处理工具,领导表示“我想一双击就能直接看到情况啊,不要打开后还要我自己输入这个点击那个的!”好吧,既然上头有需求,打工人就得照办。想想以前用过的许多桌面软件,启动时都会有个欢迎画面,同时后台预加载一些内容。那么应该要怎么实现呢?先看看效果吧。1、界面设计首先欢迎画面要有一个好看的背景,还有进度条和进度提示信息,那么先用一个 Widget 来做容器,再把用于显示 Logo 和进度信息的 label 拖出来,最后摆上进度条 progressBa.
实战笔记:利用pandas提升分词后过滤停用词的效率 前言:最近工作中开发了一个需要对大批量文本进行分词及统计词频的工具,主要是在 jieba 分词、过滤停用词两个环节耗时。分词部分可以考虑采用 jieba-fast 库提升速度,而过滤环节的效率一直没找到好方法,今天偶然发现了pandas可以帮助实现!1、常规方法那么开始吧!首先完成分词部分,得到一个储存了所有单词的超大列表;import pandas as pdimport jiebastopwords = [line.strip() for line in open('chineseSto.