【Python】数据分析——用户行为

最新推荐文章于 2024-03-19 23:13:32 发布

蚂蚁爱Python

最新推荐文章于 2024-03-19 23:13:32 发布

阅读量1.7k

点赞数

分类专栏：基础知识 Python实战项目 Python 文章标签： python 数据分析 elasticsearch

本文链接：https://blog.csdn.net/xff123456_/article/details/125192096

版权

本文介绍了使用Python进行用户行为数据分析的四个步骤：从Elasticsearch获取数据，数据筛选，基础数据整理，以及数据输出。通过实例展示了如何从ES查询数据，并在Pandas中进行分组聚合，最终将结果输出。

摘要由CSDN通过智能技术生成

前言

用户量数据分析有几个关键步骤

1.获取用户行为数据（一般就是埋点数据）

2.对所有获取到的数据进行第一遍数据筛选

3.筛查后的数据进行基础的数据整理（主要就是数据的分组聚合等操作）

4.整理完成的数据转换成需要输出的数据格式（输出到文件，数据库等）

在这里插入图片描述

第一步

获取用户行为数据

一般用户的行为数据在数据库，比较多的由mysql，mongo，es等

本次就以es为例：

1.初始化es对象

Python学习交流Q群：906715085###
from elasticsearch import Elasticsearch
# 初始化es
es = Elasticsearch(    
['10.10.3.13:19200', '10.10.3.15:19200', '10.10.3.41:19200'],  # 连接集群，以列表的形式存放各节点的IP地址    
sniff_on_start=True,  # 连接前测试    
sniff_on_connection_fail=True,  # 节点无响应时刷新节点    
sniff_timeout=60  # 设置超时时间    
# 除开链接指定的IP地址外,其他的都可以不设置,使用默认值
)

2.获取es数据：这里写的比较简单，条件只有请求的时间范围，调用es的search方法查询，参数为index：索引名，doc_type:类型名，body:查询语句，这里完全就是dll语句，相比于java来说简单了很多

def get_es_data(startTime, endTime):    
query = {
          
 "query": {
               
 "range": {
                  
  "requestTime": {
                      
   "gte": startTime,                    
   "lte": endTime               
    }            
    }        
    },
     "size": 50000   
 }
    all_search = es.search(index="bury_point_log", doc_type="main", body=query)    res = all_search['hits']['hits']    return res

在对这个语句的查询过程中，有一个弊端，数据量过大的时候，size也必须设置的很大，导致查询效率特别低，另外一种方式就是使用聚合语句，把本来要在panda中要做的事情，先在es中做掉一部分

这个查询效率就特别快

def get_es_data_agg():   
 query = {
          
  "query": {
               
  "range": {
                  
   "requestTime": {
                      
    "gte": "2022-05-01 00:00:00",                    
    "lte": "2022-05-31 23:59:59"                
    }            
    }        
    }, 
    "aggs": {
               
    "appName": {
                   
    "terms": {
                      
     "field"