多源数据的暴力场景识别系统（无代码）

最新推荐文章于 2024-08-14 17:18:35 发布

龙皇喵睡觉了

最新推荐文章于 2024-08-14 17:18:35 发布

阅读量745

点赞数 23

文章标签： python 算法支持向量机迁移学习分类物联网 pyqt

本文链接：https://blog.csdn.net/weixin_58404958/article/details/140214925

版权

题记：

本科毕业论文选题，写在此处，就随便写点主体，留存。特别感谢自己的论文指导老师以及other teachers的指导。

大致目的：

目前，中国特色社会主义已经步入新时代，我国面临的主要矛盾是人民对美好生活需求的不断增长与经济发展不平衡不充分之间的矛盾。然而，一些地方的犯罪行为与暴力现象依然是对公众生活质量产生重大影响的关键要素，这类问题有可能触动公众的焦虑，进一步加剧社会的压迫与矛盾。本研究设计的基于多源数据的暴力场景识别系统可以实时监测和分析各种暴力场景，有助于及时发现犯罪行为，提高公共安全，由此可以提前预警潜在的暴力冲突，降低人员伤亡。通过减少暴力事件，该系统有助于营造和谐安全的社区环境，提升居民的生活质量。同时，对于人工智能在现实生活中应用的研究也有一定的理论价值。利用多源数据实现暴力场景识别，该系统的设计与实现涉及多源数据的融合和解析，有助于加深对多源数据融合技术的理解和应用，可以为如何利用数据驱动决策提供新的思路和方法。

大致内容：

首先，研究背景和问题陈述，介绍暴力场景识别系统在现实生活中的应用价值以及存在的问题和挑战，随后对国内外相关研究发展状况进行分析。

然后，相关技术综述，介绍物联网理论知识，设计一个视频监控系统来采集视觉和音频资料，需要用到人体识别以及场景识别等技术，然后再论述多源数据融合和暴力场景识别的相关技术和方法，包括支持向量机、迁移学习、深度学习等。

第三，对于视频监控系统设计进行需求分析和性能分析。为了满足数据收集的要求，该系统必须来自多种数据来源，如图片与声音; 针对数据的前期准备要求，它需执行一系列前期步骤，例如数据清理、消除噪音及特性抽取等等，以便提升后期的环境辨识算法的精确度和效能; 就环境辨识算法而言，该系统应具有领先的技术，可以迅速并正确地处理多源化数据的整合与协作，从而增强其鉴别能力与抗干扰力。

接着，本研究构建了一个以多种来源的数据为基础的暴力场景识别体系，该体系通过收集来自视频监控系统中的各种类型的数据( 例如影像、音频及视频 ) 来完成。接着，将这些数据经过预处理步骤，比如去除噪音或执行边缘检测等操作。接下来，在数据整合和特征抽取方面进行了深入的研究，主要涉及到如何把多个数据源的信息有效地组合在一起，并且从中找寻能精确反映暴力情境特性的关键特性。最后，针对暴力情景识别系统制定了分类和鉴别算法的设计方案，利用深度学习、卷积神经网络等尖端科技手段，实现了对于各类暴力情景的自动化识别和分类。

最后，详细阐述设计的暴力场景识别系统的实验结果，包括各种暴力场景的分类和识别准确率，对系统性能进行深入分析和讨论，探讨暴力场景识别系统在实际应用中的潜力和发展方向，如智能安防，治安管理等领域的应用前景，总结本论文的创新点和对现有技术的贡献，以及未来进一步深入研究的方向和问题。

大致研究方法：

反正大致研究方法就那些嘛，无非就是场景识别理论、人体识别技术，然后前面就是讲述基本暴力场景的界定，后面我就要写一些深度学习理论以及迁移学习理论的知识点了呗，不然我的论文怎么算写得有深度呢（虽然吧，那些东西确实挺有意思的）。哦哦哦，对了，还有支持向量机，这个东西不能少，因为它是我论文支撑的实现依据！！！！

关于数据采集部分：

由于题目本身叫基于多源数据的XXX，所以，多源数据是重点，我查阅了众多文献，几乎都是做单一数据源的暴力场景识别，大多数是视频和音频分开做还有就是图片、文本（类似于电影中的字幕）这种，并且国内参考文献不多，国外的研究太多又看着很累（论文翻译软件可以试试），但是还是会出现那种数据源和代码中的数据源对不上的情况，我都在怀疑是不是他们故意选取了低成本的样本来节省时间效益。反正，国外文献真的看着很累，代码复现也很累，还不如github上找一个好的数据源来做。然后，说回本文内容，我做的是视频数据以及音频数据的，视频用的是分类器，音频是使用梅尔滤波器对功率谱进行处理。不是二分类器，因为我做不来（水本水本水本！做了很累的，好吧），我只能用音频数据来做一个增强检测识别的作用。

关于现存暴力系统识别的不足：

这个的话，我是这么认为的，看了很多博硕论文，其实用的很多都是深度神经网络，对于融合方面的检测，其实不多，这个融合就是好比，没有一个统一的依据，就像我看见A同学打了B同学，但是我没听见声音，我是不能判断这种“肢体接触”是否是对他人造成了危害的，也不能将他定义为暴力行为的，“暴力行为是指以武力或威胁武力为手段，以侵犯他人权利、造成他人身心伤害为目的的行为。其表现形式多种多样，包括肢体上的攻击、言语上的辱骂、心理上的恐吓等。暴力行为通常具有以下几个特点：（1）使用或威胁使用武力；（2）造成身体或心理伤害；（3）侵犯他人的合法权利；（4）具有攻击性和威胁性。”这是我在论文中对其（暴力行为）的界定。所以，不足点1：滑动窗口引发资源消耗问题；不足点2：由于缺少公开的数据集，也没有统一的评价标准；不足点3：处理音频数据算法效率普遍不高。差不多就是这个意思。

完成论文之我的做法：

我前面不是说了嘛，音视频数据融合。这是主要核心，论文的主题就是这个了，暂时不管我用我的硬件理论知识做了一个视频监控系统，主要是单片机知识和流媒体服务器的搭建，我至少要实现的功能就是打开摄像头以及，视频数据的采集这种，虽然看着是很简单，但是加上流媒体服务器的话，要做的东西还是很多的，费时间，难倒是不难。然后我下位机是可以控制摄像头的，那么我上位机就是需要有一个UI界面来对传入的视频进行一个识别以及结果输出，我用的是pyqt来做的。下面我就复制一些论文主体吧：

结合前三章内容，设计基于多源数据的暴力场景识别系统可以将系统的框架结构分为数据采集层、网络层、算法层和应用层。数据采集层是物联网应用，主要包括采集视频数据所需的摄像头和麦克风。通过摄像头采集视频图像，判断视频图像中是否出现人脸或是否有人体经过，并实时采集音频数据当检测到人脸或人体时，伴随生成音频数据、关键信息将被记录并为上层提供关键信息数据。网络层主要将采集到的数据以 WiFi 或有线网络（以太网）的形式上传到上层结构，提供最基本的端到端数据传输服务。算法层主要采用数据分析的形式，使用 PyTorch 深度学习框架接收传输的暴力场景视频数据并进行人脸、人体识别与分析，再与提取的暴力场景音频特征融合和编码分析，并继续将分析后的数据传输给上层，为系统提供最优化的核心识别服务。应用层主要采用可视化界面、UI 交互和数据查询的形式体现网络层传输的数据和算法层分析的数据，通过前端网页的形式，可以让用户直观地看到和感受到它页面展示数据，同时根据用户对系统的需求，为系统底层架构提供相关的业务数据支持。通过基于多源数据的暴力场景识别系统，提供人性化的使用系统的沟通和交互体验。它还为用户提供丰富的数据展示和灵活的数据查询能力。

1.设备管理模块功能设计

界面的摄像功能，首先需要点击打开录制按钮，将能捕获到的画面显示在界面中，接着点击开始录制按钮，实现视频拍摄以及音频录入，并且将捕获的视频数据显示在界面中。在实现界面时，使用的是PyQt编写前端网页式界面。使用qt designer来完成界面设计。这个设计工具已经在anaconda中安装了.exe软件，需要自行安装pyqt5-tools工具。本实验中设计的界面，主要有以下几个功能：打开摄像头、捕获视频帧图、捕获音频数据、显示视频帧图、将视频帧图以及音频数据分别传入后台系统、将两者结合后的识别结果返回到界面中。点击按钮打开摄像头后，会将摄像头可捕捉画面显示在界面对应的框中，当点击开始录制按钮后，视频帧图被捕捉，并显示在界面上。在界面中，还有结束录制按钮，可以实现对拍摄视频的保存任务，当点击保存按钮时，会将拍摄视频保存在本地电脑中，方便之后的检测对比。在界面中，有许多的提示操作，防止因不确定因素而导致的操作失败现象。首先是，打开摄像头功能失败时，会弹框显示摄像头打开失败，而不是由于系统中的其它问题而导致的失败。另外，增加删除视频的按钮，这样一来可以将本地的测试视频导入，进行非即时录制视频的暴力场景识别，这样的话可以方便做一些网上数据的分析，供以后的训练模型使用，也方便对于多任务场景的识别。

2.数据处理模块功能设计

（1）视频数据处理模块

为了构建一个优秀的深度学习模型，必须保证训练集和测试集具有相同的分布特性，并依赖大量的带标签的数据来完成这个任务。这包括以下几个方面：对图像目标边缘的长度进行重新设定;确定最小的和最大的宽度变化比率;规定剪切区域相对于总图形的比例下限;定义明亮度因子可接受的区间;决定随机调节明亮度的可能性;明确对比度因子可以覆盖的范围;指定随机增加或减少对比度的几率;界定饱和度因子的适用范围;设定的随机增减饱和度的可能性;最后是颜色偏移因子的应用范围及随机更改颜色的可能性。

（2）音频数据处理模块

本系统探讨了基于支持向量机（SVM）和连续声学特征的暴力音频场景分类技术。该技术通过提取每帧音频的Mel频率倒谱系数（MFCC）、能量熵、信号振幅、短时能量、过零率等特征，并将几帧音频作为一个音频段进行统计量计算，包括算术均值、最大值、最小值、均方根、标准差、峰度、偏度等统计量。在考虑音频的上下文信息时，系统计算帧与帧之间的一阶差分，并结合支持向量机分类器进行音频场景识别。为了提升音频数据的质量和准确性，系统进行了预处理步骤，包括预加重、分帧和加窗。预加重旨在强调音频的高频部分，使得音频信号的频谱更加平坦，有利于后续频谱分析或声道参数分析。分帧操作基于短时平稳假设对音频信号进行处理，将长时间的音频信号分解成短时的小片段。加窗操作则旨在平滑信号的两端，减少边缘效应，避免信号畸变。

通过以上预处理和特征提取步骤，系统能够有效地从音频数据中提取出有用的特征，并结合支持向量机分类器进行暴力音频场景的准确分类。这种技术对于暴力场景的识别和分类具有重要意义，可以帮助提高安全监控系统的效率和准确性。

（3）识别模块功能设计

对于深入研究中的神经元计算器来说，其包含了大量复杂且精细化的结构元素及相应的算法规则；为了有效地优化这一系统性能以达到更高的准确度水平，必须投入更多的精力去收集与处理相关的大型数据库信息资料来支持实验过程，然而当前所构建的信息存储平台规模相对较为狭窄，这导致在使用它的时候可能会出现一些过度适应的情况发生：如果将这个已经经过充分调整过的机器应用于新的环境下后发现它的表现并没有想象得那样好。针对这个问题，可以采取一种叫做"转移学法”的方法加以应对，这种策略的核心理念在于利用之前已有的知识经验或技术成果在新的问题场景里实现快速有效的解决方案生成，具体操作步骤如下：首先要找到两个具有一定关联性的不同领域的样本集合a、b (比如一个是关于“人脸识别”)然后通过比较它们之间的异同点从而找出可以被借鉴的地方并将之运用至新问题的求解过程中，本系统基于PaddleVideo视频开发套件训练暴力场景识别模型，然后将训练好的模型集成到PaddleDetection的PP-Human中，并在PP-TSM视频分类模型训练流程的基础上修改适配，完成模型训练，助力暴力场景识别分析。如下图4-4识别模块图显示的是通过迁移学习方法最终得到的模型。具体识别流程为首先对于输入的视频或者视频流，进行等间隔抽帧，抽帧过程中会对帧中的出现的人脸进行识别，当视频帧累计到指定数目时，生成可能存在暴力场景的视频流，输入到视频分类模型中会进行人体行为的分析，判断是否属于暴力场景，并在视频上方生成置信度信息。然后通过在前面音频数据处理环节，提取到了梅尔频率倒谱系数（MFCC）特征。提取的音频特征经过均值归一化，并通过热力图进行可视化展示。

（4）监测分析模块功能设计

在进行模型训练前，因为用户使用该系统不能确定其暴力场景发生的地点以及参与人物的具体情况，所以在对视频进行训练时，需要多方位的进行考虑，对录制的视频帧图进行随机剪裁和设置对应参数对图片任意进行翻转。点击测试对比按钮后，视频和音频将被传送至后台系统，视频会被送入先前训练好的模型进行分类。将得到的结果与界面相连，传送到界面上。在进行场景识别时，程序开始运行时，点击打开摄像头按钮，会识别拍摄的第一张视频帧图，同时会将前一帧图抛弃，不会继续识别已识别图片，只有等到识别到人脸时才会开放点击录制按钮会接着识别视频内容，如若没有对应的识别图像，还继续点击识别按钮，会在界面中弹框报错显示“未检测到目标视频”。同时他会检测，在系统文件目录下，是否存在检测视频，即外部输入的非场景录制的视频，并对该视频进程音视频分离，然后点击识别按钮后则会对该视频进行检测。

同时对经过模型检测后的输入视频数据，可以通过提取置信度的方法来更直观地显示暴力场景的识别结果同时对检测到置信度的视频帧提取时间戳来绘制折线图；同理，对于音频的处理，则是通过提取暴力特征绘制热力图的方式来与前面绘制的折线图进行对比分析。最终分析结果模块的结果都是以前两者的数据作为依据。

（5）数据查询模块模块功能设计

这块地方我直接用的文件名索引来查找历史记录，我是不建议这样的，建议还是时间戳来查找，或者标签。所以我就不复制了。

实现如何实现（一丢丢思路啦）：

我想想啊，该怎么表述。简单来说就是在网上找一个已经训练好的模型，然后你参照他训练的形式来自己训练一个，其中数据源用自己的。大致这个意思。我总不用在这里讲我怎么下载python、pycharm这种东西吧，哦，有个好用的，百度飞浆里面有个视频分类的打架模型，那个可以做迁移学习。音频反正我就是提取特征嘛，就正常操作(主要觉得真没什么可取之处，我就不在这里提了，其实选一个其他音频特征都可以增强检验结果，但是，我总觉得做这种线上音视频融合分析的东西，很大程度上都是用视频来做处理的，哎，现实生活中不也是这样嘛)。

然后我的界面是做成下面这个样子的，哈哈哈，室友出境。