Fridayssss-CSDN博客

原创组队学习-数据采集-八爪鱼实操＆使用感想

第一次进行数据采集，使用八爪鱼软件，这款软件使用的是软件内置的浏览器，以此达到对网页数据进行采集的效果。它可以便捷对网页进行一定量免费的数据采集。下图是用八爪鱼进行数据采集时的具体流程：当需要对网页数据进行比较个性化的采集时，可以自己进行调整：看到这里我大概明了了它的运作方式。调整的过程虽然较为简便，却可调用早先录入的各种函数，对流程的调整相当于对背后代码的编写，...

2021-08-16 16:39:20 6250

VNC关于vnc viewer 显示‘cannot currently show the desktop’的问题：https://shumeipai.nxez.com/2018/08/31/raspberry-pi-vnc-viewer-configuration-tutorial.html（转载）记录一个赞比较多的方法：树莓派系统烧录，连接电脑，电脑远程桌面控制树莓派（树莓派无屏幕，校园网）（转载）关于树莓派开机输入密码后无限重复进不去的问题：我用的是第二种方法（转载）需要注意的是，必要的后

2021-08-09 22:41:55 438

原创数据分析笔记（5）

建模：pip 的安装出现问题时，可以参考以下几点：重选镜像源多试几次升级pip文中要求导入的新的Ipython.display和seaborn库：seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。display主要用来放图片。此外，还提到了sklearn的算法选择路径图。到了最头疼的数学理论环节：为什么线性模型可以进行分类任务？它背后的数学关系是什么？网上有很多关于这方面的解读，我找到了一篇讲

2021-07-22 01:04:34 107

原创数据分析笔记（4）

关于GroupBy :第一个阶段，pandas对象（无论是Series、DataFrame还是其他的）中的数据会根据你所提供的一个或多个键被拆分（split）为多组。拆分操作是在对象的特定轴上执行的。例如，DataFrame可以在其行（axis=0）或列（axis=1）上进行分组。然后，将一个函数应用（apply）到各个分组并产生一个新值。最后，所有这些函数的执行结果会被合并（combine）到最终的结果对象中。结果对象的形式一般取决于数据上所执行的操作。图10-1大致说明了一个简单的分组聚合过程。

2021-07-19 23:18:08 67

原创数据分析笔记（3）

这一期讲到了数据重构，以及用到的一些函数：基于pandas库的merge、join和concat：merge的作用是是基于共同列，将两个dataframe连接起来join的作用主要是是基于两个dataframe的索引进行合并concat的作用有行拼接和列拼接（默认是行拼接）拼接方法默认是外拼接（并集），拼接的对象是pandas数据类型。另外还有Series和DataFrame的区别：Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。D

2021-07-18 00:00:16 97 4

原创 2021-07-15数据分析笔记（2）

数据清洗及处理：1.观察缺失值，并查看特征缺失值的个数方法一：df.info()#列出本组数据的一些相关信息方法二：df.isnull().sum()#pandas判断缺失值一般采用 isnull()，生成的是所有数据的true／false矩阵此处若用df[df.isnull().values==True]，可以清晰看到缺失值所在的行列信息（如下图）(因为缺失值默认识别为True，不然会把所有数据输出）方法三：df[['Age','Cabin','Embarked']].head(

2021-07-16 00:01:46 128

原创数据分析笔记（1）

1.1.2.1绝对路径、相对路径(1)相对路径,就是在同一个网站下,不同文件之间的的位置定位。引用的文件是相对当前网页的位置而言的,根据这个相对位置得出相对路径。(2)绝对路径,指的是完整的路径。—Baidu以文中提到的两种方法为例:#相对路径df = pd.read_csv('train.csv')df.head(3)#绝对路径df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集

2021-07-13 15:51:34 67

原创个人在树莓派4B系统设置中遇到的问题

这里主要记录一些我在设置过程中遇到的问题以及解决方案系统更新下载慢、连接失败等，可以通过修改国内源来解决中文输入法的安装有问题的话参照第一条修改源试一试List item

2021-07-05 21:09:52 202

原创 (零基础语音识别task5)模型改进与优化2

这一篇承接上文，实际操作模型改进。以task0的baseline为核心进行改进。大概有几个方向是主要改进方向。增加训练数量扩大特征值范围增加比较次数取均值（多次训练模型）打算从改进模型训练方式进行调优，但是要先了解代码的意义(python基础不好QAQ）下图是baseline的计算数据特征函数的构造阶段原先我并不知道fn的意义，用print之后fn 代表的是训练集里的每一个数据。如果想用GAN来添加训练集从这里入手。在后文的数据转换中（如上图）,用transpose改变了temp

2021-04-23 01:25:10 113

原创 (零基础语音识别task5)模型改进与优化

aaa

2021-04-21 23:50:00 260

原创 (零基础语音识别task4) 深度学习模型搭建与训练

这一次task的学习内容是CNN框架的基本知识和构建。1.CNN基本知识数据输入，经过（多次）卷积池化后，Flatten操作将二维向量拉直为一维向量放入下一层的神经网络中，最后在尾部重新拟合。关于神经网络的概念：神经网络就像是一个爱学习的孩子，您教她的知识她是不会忘记而且会学以致用的。我们把学习集（Learning Set）中的每个输入加到神经网络中，并告诉神经网络输出应该是什么分类。在全部学习集都运行完成之后，神经网络就根据这些例子总结出她自己的想法，到底她是怎么归纳的就是一个黑盒了。之后我们

2021-04-20 00:27:42 387

原创 (零基础入门语音识别task3）音频数据特征提取

结合上次对音频数据转化的基本了解，本次补充说明特征提取的原理以及在CNN中的实际运用。#一些需要使用的库import numpy as npimport sklearnimport librosaimport librosa.displayimport matplotlib.pyplot as plt#此库是专门用于绘制python的2D图像的matplotlib1.一些基本特征过零率：一个信号符号变化的比率，大意是在每帧中语音信号从正变为负或从负变为正的次数。#调用x, sr =

2021-04-18 01:17:46 412

原创 (零基础入门语音识别task2）了解音频数据转化原理

1.首先要先了解声音的产生原理：物体振动产生声波，声波以波的形式传播。当我们以波的视角来理解声音时，却又大繁若简起来：仅凭频率、幅度、相位便构成了波及其叠加的所有，声音的不同音高、音量、音色也由这些基本“粒子”组合而来。例如这张图：这就构成了一种声音。故此可以将声音以一种数据化的方式进行储存和比较。2.这一次运行是运用了python的库librosa和PyAudio以及其他一些内置的处理音频的模块：Librosa：它通常用于分析音频信号，但更倾向于音乐，它包括用于构建MIR（音乐信

2021-04-15 22:57:03 366

原创（零基础入门语音识别task1）零基础尝试在天池的DSW跑通baseline

ababaababa

2021-04-14 10:22:47 256

weixin_57200091的博客