wong_faye-CSDN博客

原创 [杂记]毕业设计遇到的问题记录

1.vscode编写django项目的时候报错unable to import 解决方法打开“设置”，打卡“命令面板”，搜索“settings.json”，在VScode中的settings.json中添加配置"python.linting.pylintArgs": [ "--errors-only", "--disable=E0401" ],...

2021-03-04 11:51:18 541 1

原创 [前端笔记] CSS三栏布局

1.浮动 + margin<div class="container"> <div class="left"></div> <div class="right"></div> <div class="main"></div></div>.left { float: left; width: 200px; height: 200px; backgrou

2021-02-25 17:35:51 289

1.原生js中添加类的方法//1.为 <div> 元素添加一个类:document.getElementById("div").classList.add("类名");//2.为 <div> 元素添加多个类:document.getElementById("div").classList.add("类名1","类名2","类名3",...);//3.为 <div> 元素移除一个类:document.getElementById("div").classLi

2020-11-22 15:06:55 1394

原创 [Python笔记] 读取EXCEL中的网页链接，打开并截图

**大致思路：**用Pandas读取EXCEL中的数据，将链接存放入列表中，再用Selenium打开并截图，保存到data文件夹中。文件结构EXCEL文件中的内容代码from selenium import webdriverimport timeimport pandas as pddf = pd.read_excel("urls.xlsx", header=None)urls = df[0].tolist()for i in range(len(urls)): dri

2020-11-21 19:33:49 2353 2

原创 [数据挖掘笔记] KMeans豆瓣文本聚类

1.KMeans文本聚类算法1.1 文本聚类概述在NLP领域，一个很重要的应用方向是文本聚类，文本聚类有很多种算法，例如KMeans、DBScan、BIRCH、CURE等。这里我们着重介绍最经典的KMeans算法。KMeans算法是一种无监督学习的算法，它解决的是聚类问题。将一些数据通过无监督的方式，自动化聚集出一些簇。文本聚类存在大量的使用场景，比如数据挖掘、信息检索、主题检测、文本概况等。文本聚类对文档集合进行划分，使得同类别的文档聚合到一起，不同类别的文档相似度比较小。文本聚类不需要预先对文档进

2020-11-06 14:55:44 5763 9

原创 [数据挖掘笔记] 聚类算法KMeans

1.概述1.1 无监督学习与聚类算法聚类算法又叫做“无监督分类”，其目的是将数据划分成有意义或有用的组。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中，如果我们手头有大量的当前和潜在客户的信息，我们可以使用聚类将客户划分为若干组，以便进一步分析和开展营销活动，如RFM模型。聚类可以用于降维和矢量量化，可以将高维特征压缩到一列当中，常常用于图像、声音、视频等非结构化数据，可以大幅度压缩数据量。1.2 sklearn中的聚类算法聚类算法在sk

2020-11-05 11:16:21 1897

原创 [数据分析笔记] 互联网商业数据分析03——运营分析

1.为什么要学运营分析2.运营分析常用指标3.用户分层4.如何做运营分析之流程梳理5.如何做运营分析之监测及诊断6.如何做运营分析之效果评估...

2020-10-06 16:01:08 399

原创 [数据分析笔记] 互联网商业数据分析04——产品分析

1.为什么要学产品分析2.产品分析常见指标3.不同阶段的产品分析及全流程分析4.全流程分析之产品新功能上线指标体系搭建5.全流程分析之AB测试6.全流程分析之产品新功能上线&效果评估...

2020-10-06 01:27:07 238 1

原创 [Django笔记] 搭建一个CRM系统12 - 18

12.Filter FromTable Search（1）安装django-filterpip install django-filter（2）创建filters.py（3）更改Model（4）筛选功能（5）界面13.User Registration and Login Authentication（1）用户表单（2）注册功能导入包register.html<!DOCTYPE html><html><head> &lt

2020-10-04 19:32:56 335

原创 [杂记] 待整理知识

1、locations = (location for location in df['location'].value_counts().items())2、做词云图连接列表中的值时可以直接将整个列表转为字符串str([table])

2020-10-04 19:32:33 163

原创 [数据可视化] 制作网易云热门歌单分析可视化大屏时遇到的问题

1.css改动但网页没有发生变化CTRL + F5清理缓存2.Flask基本框架from flask import Flask, render_template, url_forapp = Flask(__name__)@app.route('/')def index(): return render_template('index.html', )if __name__ == "__main__": app.run()3.Flask导入静态文件方法<link

2020-10-04 19:32:09 477

原创 [大数据技术] 淘宝双11数据分析与预测实验

1.本地数据集上传到数据仓库Hive1.1 实验数据集通过上面的命令，就进入到了data_format.zip文件所在的目录，并且可以看到有个data_format.zip文件。$ cd /usr/local$ ls$ sudo mkdir dbtaobao$ //下面给hadoop用户赋予针对dbtaobao目录的各种操作权限$ sudo chown -R hadoop:hadoop ./dbtaobao$ cd dbtaobao$ //下面创建一个dataset目录，用于保存数据集

2020-08-18 10:44:50 8031 3

原创 [大数据技术] Hive的常用HiveQL操作

1.Hive基本数据类型Hive支持基本数据类型和复杂类型，基本数据类型主要有数值类型（INT、FLOAT、DOUBLE）、布尔型和字符串，复杂类型有三种：ARRAY、MAP和STRUCT。（1）基本数据类型TINYINY：1个字节SMALLINT：2个字节INT：4个字节BIGINT：8个字节BOOLEAN：TRUE/FALSEFLOAT：4个字节，单精度浮点型DOUBLE：8个字节，双精度浮点型STRING：字符串（2）复杂数据类型ARRAY：有序字段MAP：无序字段S

2020-08-17 19:18:04 1696

原创 [大数据技术] 问题记录

1.sudo: netstat：找不到命令解决方法$ sudo apt-get install net-tolls2.E: 无法获得锁 /var/lib/apt/lists/lock - open (11: 资源暂时不可用) E: 无法对目录 /var/lib/apt/lists/ 加锁解决方法$ sudo rm /var/lib/apt/lists/lock3.更换国内源备份原始文件sources.list$ sudo cp /etc/apt/sources.list

2020-08-16 22:17:48 276

原创 [大数据技术] 大数据组件命令

0.Linux$ sudo apt-get update # 更新软件源1.Hadoop- 启动$ cd /usr/local/hadoop$ ./sbin/start-dfs.sh- 查看是否启动成功$ jps- 关闭$ ./sbin/stop-dfs.sh2.MySQL- 安装mysql$ sudo apt-get install mysql-server- 启动$ service mysql start- 确认是否启动成功$ sudo netstat -ta

2020-08-16 22:09:41 153

原创 [数据分析笔记] 数据分析面试系列01

1.你做的数据分析有什么用？回答1：填补了空白解答了疑问验证了假设提升了效率回答2：发现了业务机会发现了业务问题讲清楚分析的基础、各种分析方法的配合、业务配合条件数据分析助力业务的路径：先从0到1采集数据，建立数据监控体系；再从1到60的沉淀经验，筛选方法，积累特征；再从60分到90分的建立固定分析模型，持续提升业务效率。业务职能清单：2.指标下跌怎么分析？3.详解AARRR模型、概念、方法、使用注意事项概念：用户获取 Acquisition用户活跃

2020-08-04 16:50:22 242

原创 [数据库笔记] SQL补充知识

1.sql中limit的使用方法查询前10行数据select * from customer limit 10;从第2行开始查询，查询10条记录select * from customer limit 1, 10;

2020-08-01 19:39:19 145

原创 [数据分析笔记] 互联网商业数据分析02——经营分析

1.概论2.收入的四种模式3.成本及用户规模

2020-08-01 14:52:09 397

原创 [数据分析笔记] SQL面试系列01

1.找到破产玩家——交叉连接

2020-07-31 23:14:44 138

原创 [数据挖掘笔记] 数据挖掘过程

1.数据挖掘过程

2020-07-20 11:58:17 163

原创 [数据分析笔记] Pandas知识合集 - 思维导图

1.Pandas基础2.DataFrame基本操作

2020-07-18 23:08:59 769

原创 [数据分析笔记] 网易云歌单分析系列03—pyecharts折线图

0.导入数据import numpy as npimport pandas as pdimport pymysqlfrom pyecharts import options as optsfrom pyecharts.charts import Bar, Line, Gridfrom pyecharts.commons.utils import JsCodefrom pyecharts.globals import ThemeTypeconn = pymysql.connect(

2020-07-17 23:44:00 1140

原创 [数据分析笔记] Pandas知识合集 31 - 45

31.Pandas和数据库查询语言SQL的对比Pandas：Python最流行的数据处理与数据分析的类库SQL：结构化查询语言，用于对MySQL、Oracle等关系型数据库的增删改查两者都是对“表格型”数据的操作和查询，所以很多语法都能对应起来对比列表：SELECT数据查询WHERE按条件查询in和not in的条件查询groupby分组统计JOIN数据关联UNION数据合并Order Limit先排序后分页取每个分组group的top nUPDATE数据更新DELETE删

2020-07-17 09:58:25 544

原创 [数据分析笔记] 用户消费行为分析

文章目录0.导入数据1.进行用户消费趋势分析（按月）2.用户个体消费3.用户消费行为4.复购率和回购率分析0.导入数据import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use('ggplot')columns = ['user_id', 'order_dt', 'order_products', 'order_amount']df = pd.read

2020-07-16 21:11:47 915 1

原创 [数据分析笔记] 互联网商业数据分析07——商业分析报告

1.背景介绍2.分析过程3.结论呈现4.格式及模板5.如何做好汇报

2020-07-15 11:06:24 682

原创 [数据分析笔记] 网易云歌单分析系列02—pyecharts柱状图

0.前言该分析系列使用爬取到的网易云歌单数据，对所学的Excel、SQL、Pandas、Pyecharts等数据分析及数据可视化工具进行巩固。1.百分比堆叠柱状图1.1 导入包，连接数据库import numpy as npimport pandas as pdimport pymysqlfrom pyecharts import options as optsfrom pyecharts.charts import Bar, Linefrom pyecharts.commons.ut

2020-07-15 00:11:56 2575 3

原创 [数据分析笔记] 网易云歌单分析系列01—爬取网易云歌单信息

1.创建数据库（1）创建如下数据库（2）导入包、连接数据库import reimport csvimport jsonimport timeimport pymysqlimport requestsfrom bs4 import BeautifulSoupfrom multiprocessing import Pool# 请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Apple

2020-07-14 23:14:06 4150 5

原创 [数据分析笔记] Pandas处理TGI指标

文章目录1.指标拆解2.TGI实例分析2.1 导入数据2.2 单个客户打标2.3 匹配城市2.4 高客单TGI指数计算1.指标拆解目标群体中具有某一特征的群体所占比例TGI指数计算公式 = —————————————————————————————————— * 标准数100 总体中具有相同特征的群体所占比例TGI计算公式中，有三个关键点需要进一步拆解：某一特征，总体，目标群体。某一特征：想要分析的某种行为或者状态，比如打篮球总体：是我们研究的所有对象，比如一个学校里的

2020-07-11 21:36:57 1048 1

原创 [数据分析笔记] Pandas处理RFM模型

文章目录0.模型介绍1.数据概览2.数据清洗2.1 剔除退款2.2 关键字段提取2.3 关键字段构造3.维度打分4.分值计算5.客户分层6.RFM模型结果分析6.1 数据查看6.2 数据可视化0.模型介绍R：Recency，最近一次购买到现在隔了多久F：Frequency，每个客户购买了多少次M：Monetary，每个客户的平均购买金额处理步骤数据概览数据清洗维度打分分值计算客户分层1.数据概览import pandas as pd导入数据df = pd.read_ex

2020-07-11 16:22:29 2473 2

原创 [数据分析笔记] Pandas知识合集 16 - 30

16.Pandas的分层索引MultiIndeximport pandas as pd%matplotlib inlinestocks = pd.read_excel('./datas/stocks/互联网公司股票.xlsx')stocks.head(3)stocks["公司"].unique()stocks.indexstocks.groupby('公司')["收盘"].mean()16.1 Series的分层索引MultiIndexser = stocks.gro

2020-07-10 22:44:52 1179

原创 [杂记] 各种系统开发、数据库图

1.UML类图（UML Class Diagram）（1）基本知识（2）购物UML类图2.用例图（Use Case Diagram）3.时序图（UML Sequence Diagram）4.E-R图（Entity Relationship Diagram）（1）实体关系（2）小例子（2）主键、外键（3）复合主键（4）另一种表示方法5.数据流程图（Data Flow Diagram）6.活动图（Activity Diagram）7.业务流程图...

2020-07-10 00:47:38 229

原创 [数据分析笔记] Pandas知识合集 1 - 15

1.Pandas数据读取1.1 读取csvpd.read_csv查看数据的头尾df.head(5)df.tail(5)查看数据的形状，返回（行数、列数）df.shape查看列名列表df.columns查看索引列df.index查看每列的数据类型df.dtypes1.2 读取txtdf = pd.read_csv(fpath, sep="\t", header=None, names=['a', 'b', 'c'])1.3 读取excel文件df = pd.re

2020-07-07 00:17:48 1378

原创 [计算机网络笔记16] 默认路由和特定路由

1.默认路由和特定路由（1）A—>B如果主机A要发送IP数据包发送给主机B，那它会先发给路由器R1，由R1转发到R2，最后由R2转发到主机B。（2）A—>C（3）A—>D（4）默认路由（5）特定主机路由（6）练习（7）小结2.仿真实验课程链接：https://www.bilibili.com/video/BV1Ut411d7RE...

2020-07-03 17:58:54 7878

原创 [数据分析笔记] 互联网商业数据分析01——商业分析导论

1.商业分析是什么2.商业分析的能力要求3.商业分析师三大技能项之懂业务4.商业分析师三大技能项之会拆解5.商业分析师三大技能项之重指标6.问题诊断框架...

2020-06-24 21:35:57 550

原创 [数据库笔记06] SQL50题31 - 50

31、查询1990年出生的学生名单（重点year）32、查询平均成绩大于等于85的所有学生的学号、姓名和平均成绩（不重要）查询每门课程的平均成绩，结果按平均成绩升序排序，平均成绩相同时，按课程号降序排列（不重要）34、查询课程名称为"数学"，且分数低于60的学生姓名和分数（不重点）35、查询所有学生的课程及分数情况（重点）36、查询任何一门课程成绩在70分以上的姓名、课程名称和分数（重点）37、查询不及格的课程并按课程号从大到小排列(不重点)38、查询课程编号为03且课程成绩在80分以上的学生

2020-06-22 22:41:11 333

原创 [Django笔记] 搭建一个CRM系统5 - 11

5.Database Models & Admin Panel（1）迁移数据库python manage.py migrate（2）创建管理员python manage.py createsuperuser（3）创建Model执行python manage.py makemigrations在数据库迁移文件里可以找到生成的操作命令再执行python manage.py migrate在admin.py文件里注册Model在站点中可以看到增加一个Cus

2020-06-20 21:33:32 316

原创 [Django笔记] 搭建一个CRM系统1 - 4

1.创建项目（1）创建项目>django-admin startproject crm（2）进入crm目录，运行服务>cd crmcrm>python manage.py runserver（3）创建一个appcrm>python manage.py startapp accounts添加app（4）在settings里设置中文支持和时区2.Views 和 Urls（1）在accounts目录下创建一个urls文件夹，存放网页路径（2）添加v

2020-06-19 22:49:39 680

原创 [杂记] 搭建Django网站问题记录

1.Django命令（1）创建Django项目django-admin startproject mysite（2）启动服务python manage.py runserver（3）创建apppython manage.py startapp music（4）数据库迁移python manage.py makemigrationspython manage.py migrate（5）进入命令行python manage.py shell（6）创建管理员python ma

2020-06-19 13:28:36 165

原创 [杂记] 爬取网易云音乐问题记录

1.Selenium Chrome设置代理IPfrom selenium import webdriverchromeOptions = webdriver.ChromeOptions()# 设置代理chromeOptions.add_argument("--proxy-server=http://183.220.145.3:80")browser = webdriver.Chrome(chrome_options=chromeOptions)# 打开页面browser.get('https

2020-06-19 12:50:16 522

原创 [杂记] 各种快捷键

1.WindowsWin + L：快速锁屏Win + E：打开【我的电脑】Win + D：进入桌面Win + R：打开【运行】Win + ←\→：分屏操作Win + Tab：新建电脑桌面Win + ↑\↓：窗口最大化\窗口最小化切换Win + 空格：切换多个输入法Win + I：打开Windows设置Win + 数字键：打开任务栏上的第n个程序Ctrl + Shift + N：快速新建文件夹Ctrl + 鼠标拖动：快速创建副本Ctrl + N：快速创建同级界面Ctrl + S

2020-06-16 00:32:48 187

空空如也

空空如也