数据分析面试题
数据分析师: 发现问题/解决问题
数据获取:外部数据的获取——————>爬虫
数据清洗:数据空值
数据分析(考点最多的部分)
可视化(没法考)比excel还简单
1.字典是无序还是有序的?
python3.6以前 无序的
python3.6之后 有序的
d{‘a’"1}
hash(’a‘)哈希算法 身份号
根据这个值 取余
在字典中找座位
例子:
新的版本:
字典存储的数据 只放 地址
值的数据放在另一个内存上了
2. lambda函数的特点
lambda x: 1 if x>10 else 2
如果x>10,输出1,否则2
map(lambda x: 1 if x>10 else 2, [10,2,3,11,5,8])
后面[10,2,3,11,5,8]都去执行这个lambda函数
map() 函数语法: map(function, iterable, …)
function – 函数
iterable – 一个或多个序列
map是给第二个参数,都去执行第一个参数
从map中取值,要使用list()将其转换成列表形式
3. pandas多级索引定义
单层索引 index=[xx , xx]
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randint (80,100, size = (2,4)),
index = ['girl','boy'],
columns = [['American', 'American', 'Chinese', 'Chinese'],
['like', 'dislike', 'like', 'dislike']])
多层索引 pd.MultiIndex.from_product([ ], [ ])
df2 = pd.DataFrame(np.random.randint(80,100,size=(4,2)),
columns = ['girl','boy'],
index = pd.MultiIndex.from_product([['English','Chinese'],
['like','disklike']]))