阳阳7-CSDN博客

原创个人python开发数据分析面试题分享

1、Post和Get请求的区别？答：GET 请求，请求的数据会附加在 URL 之后，以?分割 URL 和传输数据，多个参数用&连接。POST 请求：会把请求的数据放置在 HTTP 请求包的包体中。因此，GET 请求的数据会暴露在地址栏中，而 POST 请求则不会，所以：POST 的安全性比 GET 的安全性高。在 HTTP 规范中，没有对 URL 的长度和传输的数据大小进行限制。但在实际开发过程中，对于Get,特定的浏览器对URL的长度有限制，因此在使用Get请求时，传输数据会受到URL的限制。

2020-06-18 16:49:20 8577

转载关于用户增长的思考框架

*核心方法论：**冷启动阶段，小步快跑，采取实验的方式快速迭代并试错，快速找出可以持续运营的几个获客渠道重点投入。渠道侧拉新重点是分析产品调性及产品用户属性（产品定位、用户年龄喜好特征等），针对性进行广告投放和合作。

2023-03-20 15:01:27 204

原创 select count(*)的底层究竟在干啥？

1、执行过程是怎样的？2、如何计算 count？影响 count 结果的因素有哪些？3、count 值存在哪里？涉及的数据结构是怎样的？4、为什么 InnoDB 只能通过扫表来实现 count( * )？(见本文最后的问题)5、全表COUNT( * )作为 table scan 类型操作的一个 case，有什么风险？6、COUNT(* )操作是否会像“SELECT * ”一样可能读取大字段涉及的溢出页？...

2022-08-08 09:41:32 233

原创 python对几种数据读写方式以及MySQL数据库

python对几种数据读写方式对txt的读写dataSource = open('data.txt',encoding='utf-8',mode='r')savePath = 'save.txt'f = open(savePath,encoding='utf-8',mode='w+')# 读取for lineData in dataSource.readlines(): dataList = lineData.replace('\n','').split(',') print

2021-06-25 16:26:18 298

原创数据清洗最基础的十个问题

很多时候，数据预处理和数据清洗、特征工程等混为一谈，以至于大家分不清到底哪一步用谁。我个人的理解是：数据预处理主要是对数据集进行探索性分析，而特征工程则是进行分析后的相应处理。以上两个名词不常说，最常听的应该还是数据清洗，差不多也就相当于上面两个步骤。例如：在预处理阶段发现数据存在缺失值、异常值；数据特征之间存在共线性；数据特征可以互相组合形成更好的特征等等。就可以在特征工程阶段对上述发现的问题进行相应的处理。以下总结了在数据预处理和特征工程阶段最常见的10个问题，基本上可以涵盖大多数的处理场景：

2021-05-03 13:55:14 1354

原创 csv 文件读写乱码问题的解决方法

首先导入三个模块import pandas as pd import os import chardetchardet 模块用于得到文件的编码格式，pandas 按照这个格式读取，然后保存为xlsx格式。获取filename文件的编码格式：def get_encoding(filename): """ 返回文件编码格式 """ with open(filename,'rb') as f: return chardet.detect(f.rea

2020-12-18 09:30:10 1618

原创 python的十大内置文件操作

1.创建和打开文件想要操作文件需要先创建或代开指定文件并创建文件对象，用open（）方法实现，其语法格式如下file=open(filename[, mode[, buffering]])参数说明file：创建的文件对象filename：要创建的或打开的文件名称，需使用单引号或者双引号括起来，如果要打开的文件和当前的文件在同一目录下，直接写文件名就可以了；否则，需要指定完整路径mode:可选参数，用于指定打开模式，默认的只读（即r）buffering：可选参数，用于指定读写文件的缓存模式

2020-12-07 16:20:11 325

原创数据分析面对不同场景的应对方案？

面对的问题不同：战略、运营战略分析：是为了解决公司战略方向问题，回答要向哪里去的问题此类分析通常比较宏观，需要分析者有大局观、有战略思维所用的数据除了公司内部的数据，还需要竞品数据、行业数据。战略分析的方法：需要从竞品及行业数据中发现行业发展趋势及竞品的战略定位，同时结合公司内部数据，可以发现相对于行业和竞品发展，内部在哪些地方存在不足，以此制定进攻和防守策略运营分析：不同于战略分析，运营分析以解决实际运营问题为目标，比较微观需要分析者对公司业务模式、运营细节有深入的了解使用的数

2020-12-03 16:34:11 490

转载什么是数据分析！！！

数据分析是一个从数据中通过分析手段发现业务价值的过程。这个过程的起点是获取一份数据，这个过程的终点是发现业务价值。过程可以大致为分数据获取——数据清洗——数据处理——数据建模——分析结果呈现——业务价值发现——业务价值实现这几个阶段。数据：数据不是简单的数字，也就是说，你告诉我一串数字77 17 88 99而没有其他信息对于我来说没有任何意义，这几个数字仅仅是数字而已，而不是数据。数据除了数字本身之外，还必须包含数字的来源，度量方式，单位，代表的业务场景等等。其中，我认为业务场景最重要！业务价值：.

2020-12-03 16:21:41 343

转载数据分析的价值！

一、数据分析为什么如此重要对于toC类产品，由于覆盖的用户范围广、用户基数大，用户千差万别，背景各异。我们又很难对用户进行透彻的了解(问卷调查也只能覆盖一部分用户，并且问卷调查得出的结论可能不一定真实反映整体用户情况)，因此产品怎么更好地服务于用户、真正对用户产生价值是每个提供toC产品与服务的公司非常头痛的问题。幸好，数据分析为我们了解用户打开了一扇窗，用户在产品上的操作行为为我们了解用户提供了“蛛丝马迹”，用户的操作行为也是用户最真实意图的反馈，通过分析用户行为，我们可以对用户进行更加细致的了解，最终

2020-12-03 10:15:04 370

原创个人小阶段数据分析学习总结

读入数据，genre 取值的频次统计如下a = df[“genre”].value_counts()aAction,Adventure,Sci-Fi 50Drama 48Comedy,Drama,Romance 35Comedy 32Drama,Romance 31 ..Adv.

2020-12-03 09:32:37 883

转载 Jupyter notebook技巧使用指南

Jupyter Notebook简介Jupyter Notebook是一款开源的web应用，它允许使用者创建和分享包含代码，公式，可视化图表和纯文本的文档，并支持多种编程语言的交互式计算，对于python用户来讲更是一款十分方便的代码编写工具。只需要通过web浏览器就可以很方便地进行数据清洗和转换，数值模拟，统计建模，数据可视化，机器学习等。本文主要介绍Jupyter Notebook结合python的使用。Jupyter Notebook安装Jupyter Notebook的前身是IPython N

2020-06-24 16:16:44 2955 3

转载 Pycharm最强编辑器详细使用指南！

PyCharm 是一种 Python IDE，可以帮助程序员节约时间，提高生产效率。那么具体如何使用呢？本文从 PyCharm 安装到插件、外部工具、专业版功能等进行了一一介绍，希望能够帮助到大家。机器之心之前也没系统地介绍过 PyCharm，怎样配置环境、怎样 DeBug、怎样同步 GitHub 等等可能都是通过经验或者摸索学会的。在本文中，我们并不会提供非常完善的指南，但是会介绍 PyCharm 最主要的一些能力，了解这些后，后面就需要我们在实践中再具体学习了。机器之心的读者应该非常了解 JetBr

2020-06-23 17:45:25 620

转载 MySQL 学习笔记（SQL_server），让你精通MySQL！

Windows服务– 启动MySQLnet start mysql– 创建Windows服务sc create mysql binPath= mysqld_bin_path(注意：等号与值之间有空格)连接与断开服务器mysql -h 地址 -P 端口 -u 用户名 -p 密码SHOW PROCESSLIST – 显示哪些线程正在运行SHOW VARIABLES – 显示系统变量信息数据库操作– 查看当前数据库SELECT DATABASE();– 显示当前时间、用户名、数据库版本S

2020-06-22 16:52:01 303

转载数据库常见笔试面试题及答案

1.主键、外键、超键、候选键超键：在关系中能唯一标识元组的属性集称为关系模式的超键。一个属性可以为作为一个超键，多个属性组合在一起也可以作为一个超键。超键包含候选键和主键。候选键：是最小超键，即没有冗余元素的超键。主键：数据库表中对储存数据对象予以唯一和完整标识的数据列或属性的组合。一个数据列只能有一个主键，且主键的取值不能缺失，即不能为空值（Null）。外键：在一个表中存在的另一个表的主键称此表的外键。2.为什么用自增列作为主键如果我们定义了主键(PRIMARY KEY)，那么InnoDB会选

2020-06-18 17:09:19 2503

原创数据分析部分基础算法理论解答

K-近邻算法（KNN）**适用数据范围：数值型和标称型 **原理简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定。缺点：时间复杂度高、空间复杂度高。适用数据范围：数值型和标称型。工作原理存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类

2020-06-18 16:53:05 2590

转载 Python快速安装库的办法

我们会经常遇到pip在线安装速度慢慢也就算了，安装经常会由于timeout等原因中断所以有没有什么在线安装库并且速度较快的办法么?其实是有的我们可以将下载库的源头切换至国内镜像源一般会有很多国内镜像源：清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学：http://

2020-06-18 16:41:57 471

原创 python基础个人总结

1、Python的可变与不可变不可变类型：数字、字符、元组（一旦改变，变量所指向的地址发生变化）可变类型：列表、字典、集合（在地址块内部进行修改，变量指向的地址不发生变化）2、装饰器：def fun02(fun): weight = 100 def fun03(): if weight >= 100: print("穿件黑色衣服,不要紧身的") fun() return fun03@fun0

2020-06-18 15:38:42 1893

原创零、爬虫基础（通用爬虫）

一、response响应参数1、response六个参数response.read().decode().encode() # decode()解码 encode()编码response.readline()#读取一行response.readlines()# 读取所有，是二进制response.geturl()#请求的路由response.getheaders()#获取响应头response.getcode()#200 响应状态码2、代码实现import urllib.request

2020-06-18 15:32:19 6504

原创 Flask个人笔记

零、加载的第三方库1、pip install Flask2、pip install Flask-Script3、pip install Flask-blueprint4、pip install Flask-Session5、pip install Flask-SQLAlchemy6、pip install Flask-Migrate7、pip install Flask-Bootstrap8、pip install Flask-DebugToolbar9、pip install Flask

2020-06-18 15:26:52 1874

原创 Django的个人笔记

django1、开发环境的搭建1.安装 pyenv https://github.com/pyenv/pyenv-installer curl -L https://github.com/pyenv/pyenv-installer/raw/master/bin/pyenv-installer | bash vim ~/.bashrc export PATH="~/.pyenv/bin:$PATH" eval "$(pyenv init -)" eval "$(pyenv vir

2020-06-18 15:24:15 3044

原创 Web服务Tornado

Web服务器与Tornado入门一、ＨＴＴＰ服务器的真相HTTP 协议是建立在 TCP 协议之上的短连接协议。它利用了 TCP 协议的可靠性,用来传输超文本 (HTML),通信一次连接一次,通信完成后 TCP 连接关闭。所以如果想创建一个 HTTP Server 需要通过 Socket 搭建一个服务端程序。１、简单的HTTP Serverimport socketADDR = ('0.0.0.0',80)Response = b'''HTTP/1.1 200 OK<!DOC

2020-06-18 15:20:43 1295 1

原创 MySQL个人笔记

数据库一、数据库的定义以及他的发展史数据库（Database）是按照数据结构来组织、存储和管理数据的仓库。每个数据库都有一个或多个不同的 API 用于创建，访问，管理，搜索和复制所保存的数据。我们也可以将数据存储在文件中，但是在文件中读写数据速度相对较慢。所以，现在我们使用关系型数据库管理系统（RDBMS）来存储和管理的大数据量。所谓的关系型数据库，是建立在关系模型基础上的数据库，借助于集合代数等数学概念和方法来处理数据库中的数据。RDBMS 即关系数据库管理系统(Relational Data

2020-06-18 15:14:15 1097

原创 Linux个人笔记

一、Linux文件的基本属性**每个文件的属性由左边第一部分的10个字符（如上的“dr-xr-xr-x”）来确定。**我们把十个字符拆开看：10位字符表示：**0位：**确定文件类型**1-3位：**确定该文件的所有者对文件的权限 owner**4-6位：**确定所有者的同组用户拥有该文件的权限 group**7-9位：**确定其他用户拥有该文件的权限 others**第一个字符：**代表这个文件的类型，是目录、文件，还是一个链接等等[ d ] 目录[ -

2020-06-18 15:12:13 6347

原创分类算法初步理解

几种分类算法初识下边是总结的几种常见分类算法，这里只是对几种分类算法的初步认识，后续还得仔细研究。所谓分类，简单来说，就是根据文本的特征或属性，划分到已有的类别中。常用的分类算法包括：决策树分类法，朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器，神经网络法，k-最近邻法(k-nearest neighbor，kNN)，模糊分类法等等1、决策树决策树是一种用于对实例进行分类的树形结构。一种依托于策略抉择而建立起来的树。决策树由节点（nod

2020-06-18 15:08:44 1245

原创数据分析个人笔记

数据分析一、 Jupyter NotebookJupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。1、命令模式(按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元，选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元，在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R :

2020-06-18 15:06:22 8412

原创 jupyter函数的自我总结

jupyter ipython 版本改变了换了个名字jupyter开启方法:在终端中输入jupyter notebook条件:只支持谷歌内核的浏览器,在任何系统当中都不能关闭终端jupyter 可以创建python3文件,尾缀名.ipynb 终端在windows系统下无法使用%who查看变量函数名类名包名%run 运行外部文件的,支持.ipynb .pynumpyndarray的创建:强制转换:np.array() 支持 list tuple创建nda

2020-06-18 14:24:50 3605

阳阳的博客