【周末夜校】基于神经网络的垃圾邮件分类——数组模拟

最新推荐文章于 2023-07-22 12:05:54 发布

裕东方

最新推荐文章于 2023-07-22 12:05:54 发布

阅读量1.1k

点赞数 5

分类专栏：活动 & 杂项 & 划水摸鱼文章标签： c++ 算法数组

本文链接：https://blog.csdn.net/yyd19981117/article/details/110485659

版权

活动 & 杂项 & 划水摸鱼专栏收录该内容

7 篇文章 1 订阅

订阅专栏

湖南大学信息科学与工程学院第15届生涯规划节周末夜校之C++讲座

（Date：20201205，面向2020级大一新生）

Description

神经网络在机器学习领域非常流行。神经网络由多层组成，它包含一个输入层可以输入参数x（程序的输入）。然后输入通过多个隐藏层，在最后一层获得一个输出，称为输出层。我们有一个包含N个隐藏层的非常简单的神经网络，每层包含一个神经元。每个神经元有两个相关的值：wi和bi，分别表示神经元的权重和偏移。給定神经元的一个输入x，将生成一个输出(wi*x)+bi。因此，一个输入x被神经网络按照以下方式进行传输。第一个隐藏层接受输入x，生成y=w1*x+b1，作为第二个神经元的输入。然后，第二个神经元接受输入y，生成一个输出z=w2*y+b2，重复这个过程，在最后的第N个神经元可以得到一个唯一的输出。

对于一些用户，我们想知道他们是否是垃圾邮件发送人。每个用户有整数的用户ID，取值范围为minX~maxX（包括两个端点,1=<minX=<maxX=<1000000000）。

我们把每个用户ID作为神经网络的第一层的输入，如果最终输出为偶数，则该用户不是垃圾邮件发送者，否则，该用户就是垃圾邮件发送者。

编程统计非垃圾邮件发送者和垃圾邮件发送者的数量。

Input

入的第一行为一个单一的整数T，表示测试数据的组数，接下来是T组测试数据的描述。

每个测试数据的第一行为三个用空格分隔的整数N、minX、maxX，接下来的N行，每行包含两个用空格分隔的整数wi和bi，表示第i个神经元的权重和偏移。

Output

对于每个测试用例，输出两个用空格分隔的整数，分别表示非垃圾邮件发送者和垃圾邮件发送者的数量。

Sample Input

3
1 1 2
1 2
2 1 4
2 4
2 3
3 2 1000000000
2 4
2 2
5 4

Sample Output

1 1
0 4
999999999 0

本题思路和分析

1、数据的存储问题：每一个神经元的权重和偏移量存储为二维数组。二维数组第一维是权重，第二维是偏移。

2、数据的溢出问题【重点】

本题中垃圾邮件的编号可以达到1000000000，差不多是int最大表示范围的一半，再加上一些权重相乘的操作很可能会导致int溢出。

使用double类型可不可以呢？

不可以。最终是不是垃圾邮件判断基于奇偶性，而double类型支持小数运算，没法取余。

解决这个问题需要找到规律

我们观察到每一个邮件编号都要经过权重和偏移，即一组相同的运算。

很容易可以证明，邮件尾数相同的编号（0~9），经过计算后，奇偶性一定相同。

因此，以10为一个循环，每连续的10个编号，垃圾邮件的发送者数量肯定相同。

利用这个特性，将邮件编号范围与整10对齐。

首先计算1-10的每一个数经过计算以后是奇数还是偶数，用数组存放结果。可以得到每一种尾数（1,2,3,4,5,6,7,8,9,0）经过计算后的奇偶性。如果是奇数，数组对应位置记为1，偶数则记为0。

计算完这10次以后，将数组中10个元素相加，即得到每连续10个发送者中垃圾邮件的数量。该和记为total_10。

接下来对于取值范围，与10对齐。

举个例子，如果取值范围是12-22，那么：

12变为11，22变为30。

首先，初始化垃圾邮件的发送者为0，

接着计算更改取值范围后，范围内包含的整10个数，计算结果result=total_10*（30-11+1）/10，即每整10看做一个循环。

经过整10对齐后，12-22的范围扩大到了11-30，有两个整10的范围，非常方便计算规律。

但是，实际的取值范围是12-22，那么对照前面的尾数运算奇偶性表，把多算的垃圾邮件减掉。

比如最小值12变为11以后，11就是多算的，因此上面的result就要减掉尾数为1时的奇偶判断（0还是1）

最大值22变为30以后，23-30都是多算的，因此上面的result要减去尾数为3,4,5,6,7,8,9,0的八种情况奇偶判断。

核心思想是找规律，整10对齐，减去对齐多余的计算结果

参考代码和注释

#include<iostream>
using namespace std;

int main()
{
	int ntest;
	cin>>ntest;
	for(int i=0;i<ntest;i++)
	{
		int N,min,max;
		cin>>N>>min>>max;
		int arr[N][2];
		for(int j=0;j<N;j++)
		{
			cin>>arr[j][0]>>arr[j][1];
		}
		
		
		int res[11];
		int total_10=0;
		for(int j=1;j<=10;j++)
		{
			int tmp=j;
			int output=j;
			for(int k=0;k<N;k++)
			{
				output=output*arr[k][0]+arr[k][1];
			}
			if(output%2==0)
			res[tmp]=0;
			else
			res[tmp]=1;
			total_10+=res[tmp];
		}
		 
		int max_yushu=10-max%10;
		int min_yushu=min%10;
		
		int result=0;
		
		for(int j=max%10+1;j<=10;j++)
		result-=res[j];
		
		for(int j=min%10-1;j>=1;j--)
		result-=res[j];
		
		result+=((max+max_yushu-min+min_yushu+1)/10)*total_10;
		cout<<max-min+1-result<<" "<<result<<endl;
	}
}

裕东方

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【周末夜校】基于神经网络的垃圾邮件分类——数组模拟

湖南大学信息科学与工程学院第15届生涯规划节周末夜校之C++讲座（Date：20201205，面向2020级大一新生）Description神经网络在机器学习领域非常流行。神经网络由多层组成，它包含一个输入层可以输入参数x（程序的输入）。然后输入通过多个隐藏层，在最后一层获得一个输出，称为输出层。我们有一个包含N个隐藏层的非常简单的神经网络，每层包含一个神经元。每个神经元有两个相关的值：wi和bi，分别表示神经元的权重和偏移。給定神经元的一个输入x，将生成一个输出(wi*x)+bi。因此..
复制链接

扫一扫