LDA

主要思想就是计算着几个量,然后计算

投影后,让头一个族内的离得更近,不同族内的离得更远
参考
http://www.cnblogs.com/pinard/p/6244265.html

  1. LDA的思想
        LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。在这里插入图片描述
    在这里插入图片描述
        可能还是有点抽象,我们先看看最简单的情况。假设我们有两类数据 分别为红色和蓝色,如下图所示,这些数据特征是二维的,我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。

上图中国提供了两种投影方式,哪一种能更好的满足我们的标准呢?从直观上可以看出,右图要比左图的投影效果好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了,当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。

在我们将上面直观的内容转化为可以度量的问题之前,我们先了解些必要的数学基础知识,这些在后面讲解具体LDA原理时会用到。

LDA原理与流程在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

LDA vs PCA
    LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。

首先我们看看相同点:

1)两者均可以对数据进行降维。

2)两者在降维时均使用了矩阵特征分解的思想。

3)两者都假设数据符合高斯分布。

我们接着看看不同点:

1)LDA是有监督的降维方法,而PCA是无监督的降维方法

2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。

3)LDA除了可以用于降维,还可以用于分类。

4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

这点可以从下图形象的看出,在某些数据分布下LDA比PCA降维较优。
在这里插入图片描述

当然,某些某些数据分布下PCA比LDA降维较优,如下图所示:
在这里插入图片描述

LDA算法小结
    LDA算法既可以用来降维,又可以用来分类,但是目前来说,主要还是用于降维。在我们进行图像识别图像识别相关的数据分析时,LDA是一个有力的工具。下面总结下LDA算法的优缺点。

LDA算法的主要优点有:

1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。

2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。

LDA算法的主要缺点有:

1)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。

2)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。

3)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。

4)LDA可能过度拟合数据。

<think>嗯,用户想采集快手直播的弹幕数据,应该怎么实现呢?首先,我得回忆一下之前看过的关于直播数据抓取的资料。根据引用[2]提到的,快手直播弹幕是通过WebSocket传输的,并且使用了protobuf序列化。所以第一步可能需要找到WebSocket连接,然后处理protobuf数据。 用户可能需要先打开浏览器的开发者工具,像F12,然后进入直播间,刷新页面。在Network标签下筛选WebSocket连接,找到对应的wss链接。这一步很重要,因为只有连接到正确的WebSocket服务器才能获取实时弹幕。 接下来,引用[2]里提到复制hex格式的消息,转换为bytes,然后进行反序列化。这可能涉及到解析protobuf的结构,用户需要知道快手的具体消息格式,可能需要逆向工程或者查找已有的协议文档。如果没有现成的文档,可能需要抓取多个消息样本,分析它们的结构,进而编写解析代码。 另外,引用[3]提到PHP版的采集工具,但用户可能更倾向于使用Python,因为示例中的代码是Python的。不过不管用什么语言,核心步骤应该是类似的:建立WebSocket连接,接收消息,反序列化protobuf数据,提取所需字段。 需要注意的是,快手可能会有反爬机制,比如WebSocket连接需要携带正确的headers或token,这可能需要在建立连接时处理。比如,引用[1]提到wss直连项目需要处理加密参数,可能需要生成signature或其他认证信息。这可能涉及到分析JavaScript代码,找到生成这些参数的逻辑,然后在Python中模拟实现。 另外,保持连接的稳定性也很重要,可能需要处理重连机制,避免因为网络波动导致中断。还有,处理protobuf数据时,需要对应的.proto文件来正确反序列化,如果快手更新了协议,可能需要更新这些定义文件。 用户可能需要使用像websockets库来处理WebSocket连接,用protobuf库来解析数据。代码的大致流程可能是:连接WebSocket,循环接收消息,将消息转换为二进制数据,然后用protobuf反序列化,提取弹幕内容等信息。 测试的时候,可能需要进入一个弹幕较多的直播间,这样可以更容易捕获到数据样本进行分析。同时,处理消息时要注意不同消息类型,可能弹幕、礼物、进入房间等消息有不同的结构,需要区分处理。 另外,引用[1]提到的项目可能已经封装了这些步骤,如果用户不想从头开发,可以寻找现有的开源工具或服务,但需要注意遵守平台的规定,避免法律风险。 总结一下,步骤大概是:1. 获取WebSocket连接URL和必要参数;2. 建立连接并接收数据;3. 解析protobuf消息;4. 提取弹幕内容。每一步都可能遇到挑战,比如参数加密、协议变化等,需要逐一解决。</think>### 快手直播弹幕数据抓取实现步骤 #### 一、技术原理分析 快手直播弹幕通过**WebSocket协议**传输,数据采用**protobuf序列化**压缩[^2]。核心流程如下: 1. 浏览器通过WebSocket连接到直播弹幕服务器(wss协议) 2. 服务器持续推送经过protobuf序列化的二进制数据 3. 客户端需要反序列化二进制数据解析出可读文本 #### 二、具体实现方法 **1. 获取WebSocket连接参数** ```python # 示例Python代码框架 import websockets async def connect_live(room_id): wss_url = f"wss://live-ws-pg.kuaishou.com/websocket?roomId={room_id}" headers = { "User-Agent": "Mozilla/5.0", "Cookie": "your_cookie_here" } async with websockets.connect(wss_url, extra_headers=headers) as ws: while True: data = await ws.recv() process_data(data) # 后续处理数据 ``` **2. 解析protobuf数据** 需获取快手直播的proto定义文件(如`Message.proto`),使用protobuf编译器生成解析类: ```protobuf // 示例proto结构(需根据实际协议补充) message LiveMessage { string content = 1; UserInfo user = 2; int64 timestamp = 3; } ``` **3. 实时数据解析** ```python from google.protobuf import json_format def process_data(binary_data): message = LiveMessage() message.ParseFromString(binary_data) print(json_format.MessageToDict(message)) # 转为可读格式 ``` #### 三、关键注意事项 1. **参数加密**:需获取`did`、`kpn`等签名参数,可通过浏览器调试工具捕获 2. **心跳维持**:需定时发送心跳包保持连接 3. **数据过滤**:弹幕消息类型通常为`WebCommentFeed` ####
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值