【字段理解】
- user_id: 用户ID
- order_dt: 下单时间
- order_products:购买产品数
- order_amount:购买金额
【数据导入】
1、模块导入:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')
虽然今天的题目用不到numpy,但是以防不备还是先导入了,剩下的pandas和matplotlib是另外两个模块。
2、数据导入:
columns = ['user_id', 'order_dt', 'order_products','order_amount']
df = pd.read_table('D:/CDNOW_master.txt',names = columns, sep='\s+')
这里先定义了columns变量,赋值了四个字段的字段名,由于元数据是txt文件,所以我们使用pd.read_table。
3、检查新生成的Dataframe
通常我们用以下三行代码分别来看df的属性、数据结构和描述统计:
df.info()
df.head()
df.describe()
分别得到以下三个结果: