- 博客(21)
- 收藏
- 关注
原创 自然语言处理学习
2.自然语言技术的发展在计算角度存在局限,计算机是计算的机器,只能将词组合成二进制代码存入到计算机中,但词的组合人类可以轻易联想,但计算机对字符串的加减乘除却无法得出。1.自然语言的发展过程可粗略地分为兴起、符号主义、连接主义和深度学习四个阶段,是十分曲折的,随着深度学习的提出和互联网发展,自然语言处理领域进入了深度学习时代。4.自然语言处理方法也在考虑处理社会问题:包括自然语言处理模型中的偏见和歧视、大规模计算对环境和气候带来的影响、传统工作被取代后,人的失业和再就业问题等。
2022-11-28 19:11:44 580 1
原创 11.24垃圾邮件识别
之后我们统选取三十封邮件进行校验,将邮件的单词读入,并与步骤四中的字典进行对比,统计邮件中的单词是在正常邮件中出现的多还是垃圾邮件中出现的多,若正常邮件相同的多则为正常邮件,反之为垃圾邮件。首先准备文件,文件共有六组,每组文件中有两类,其中ham为正常邮件,spam为垃圾邮件。然后读取前30封邮件的单词,统计正常邮件和垃圾邮件出现过的单词及次数,存入到字典中。我们选取30封邮件作为学习集,选取30封邮件作为测试集,进行测试。测试结果如下,30封邮件中,正确率为0.966。
2022-11-24 11:57:03 664
转载 基于朴素贝叶斯的垃圾邮件分类Python实现
之后我们统选取三十封邮件进行校验,将邮件的单词读入,并与步骤四中的字典进行对比,统计邮件中的单词是在正常邮件中出现的多还是垃圾邮件中出现的多,若正常邮件相同的多则为正常邮件,反之为垃圾邮件。首先准备文件,文件共有六组,每组文件中有两类,其中ham为正常邮件,spam为垃圾邮件。然后读取前30封邮件的单词,统计正常邮件和垃圾邮件出现过的单词及次数,存入到字典中。我们选取30封邮件作为学习集,选取30封邮件作为测试集,进行测试。测试结果如下,30封邮件中,正确率为0.966。
2022-11-24 11:42:27 983
转载 11.15爬虫作业
首先,因为我们需要爬取多个网页信息,我们进入网站https://sh.lianjia.com/zufang/点击翻页,观察规律。经对比发现,每页格式为https://sh.lianjia.com/zufang/pg+i。(4)然后我们进行爬取数据,我们采用正则表达式的形式,首先通过在网页的检查,找到所需内容,(2)打开VsCode,创建.py文件,编写代码在.py文件中先编写如下代码。(7)将数据存储到数据库,首先下载pymysql,并导入。(5)获得网页信息,进行解析数据,导入bs4库。
2022-11-15 20:14:39 196
原创 马尔科夫链算法作业
我们选择股市的概率分布为:[0.2,0.3,0.2],即牛市为20%的概率,30%概率的熊盘与20%的横盘。然后这个状态作为序列概率分布的初始状态t0,将其带入这个状态转移矩阵计算t1,t2,t3…因此我们 猜测,是否对于一个确定的状态转移矩阵P,它的n次幂Pn在当n大于一定的值的时候也可以确定,代码如下。发现概率稳定还是稳定在[0.625,0.3125,0.0625],可见初始值的选取对马尔科夫算法没有影响。可见最后还是稳定在[0.625,0.3125,0.0625]
2022-11-14 16:47:26 192
原创 蒙特卡洛算法及三门问题求解
三门问题中,用0、1、2分代表三扇门的编号,在[0,2]之间随机生成一个整数代表奖品所在门的编号prize,再次在[0,2]之间随机生成一个整数代表参赛者所选择的门的编号choice。用变量change代表游戏中的换门(true)与不换门(false),通过大量计算换门得奖和不换门得奖的概率,求得问题解。当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。
2022-11-07 20:10:25 994
原创 10.31课上作业卷积神经网络
设置宽度方向的卷积核为[1,0,−1],此卷积核会将宽度方向间隔为1的两个像素点的数值相减。只有当卷积核覆盖的像素点有的处于光亮区域,有的处在黑暗区域时,左右间隔为1的两个点像素值的差才不为0。使用合适的卷积核(3*3卷积核的中间值是8,周围一圈的值是8个-1)对其进行操作,用来检测物体的外形轮廓,观察输出特征图跟原图之间的对应关系。示例二: 当输入数据形状是[N,C,H,W][N, C, H, W][N,C,H,W]时, 一般对应卷积层的输出。绘制Sigmoid和ReLU函数的曲线图。
2022-10-31 19:48:33 144
原创 10.24课上作业卷积神经网络
设置宽度方向的卷积核为[1,0,−1],此卷积核会将宽度方向间隔为1的两个像素点的数值相减。当卷积核在图片上滑动时,如果它所覆盖的像素点位于亮度相同的区域,则左右间隔为1的两个像素点数值的差为0。只有当卷积核覆盖的像素点有的处于光亮区域,有的处在黑暗区域时,左右间隔为1的两个点像素值的差才不为0。使用合适的卷积核(3*3卷积核的中间值是8,周围一圈的值是8个-1)对其进行操作,用来检测物体的外形轮廓,观察输出特征图跟原图之间的对应关系。
2022-10-24 19:20:13 860
原创 Google的PageRank算法
H为超链矩阵,第i 行第j 列的元素(代表了第j个网页分给第i个网页的重要性,向量I初始矩阵为n个1/n的垂直一维矩阵,后通过不断迭代,确立准确的ik。A为悬挂点矩阵H中所有元都为0的列替换为所有元均为1/n的列,J为所有元均为1的n×n 矩阵,
2022-09-13 17:22:48 257
原创 9.12课堂学习
random返回一个全都是随机数的N维数组。zeros返回一个全都是0的N维数组。ones返回一个全都是1的N维数组。numpy.reshape(重塑)学习了如何创建数组,并找出最大值。给数组一个新的形状而不改变其数据。学习了创建数组的三种方法,hsplit:竖直拆分。运行了数组的加减乘除。split:垂直拆分。
2022-09-12 19:42:36 302
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人