n-gram串频统计

最新推荐文章于 2022-06-16 17:39:40 发布

xcdq

最新推荐文章于 2022-06-16 17:39:40 发布

阅读量1.3k

点赞数 4

分类专栏： NOI

本文链接：https://blog.csdn.net/xcdq_aaa/article/details/106580218

版权

NOI 专栏收录该内容

365 篇文章 116 订阅

订阅专栏

描述
在文本分析中常用到n-gram串频统计方法，即，统计相邻的n个单元（如单词、汉字、或者字符）在整个文本中出现的频率。假设有一个字符串，请以字符为单位，按n-gram方法统计每个长度为 n 的子串出现的频度，并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母，长度不多于500个字符，且 1 < n < 5。

如果有多个子串频度最高，则根据其在序列中第一次出现的次序依次输出，每行输出一个，如果最高频度不大于1，则输出NO。

输入
第一行为n；
第二行为字符串。
输出
输出最高频度以及频度最高的所有子串。若最高频度不大于1，只输出一行NO。
样例输入
3
abcdefabcd
样例输出
2
abc
bcd
提示
样例中，所有的3-gram是：abc,bcd,cde,def,efa,fab,abc,bcd。最后面的cd不足以形成3-gram，则不考虑。这样，abc 和 bcd 都出现了2次，其余的只出现了1次。

解题

把字符串按照n分割，循环统计个数

代码

#include <iostream>
#include <cstring>
using namespace std;
int num[510];//个数
char s[510],c[510][10];//字符串，分割后的字符串
int main(){
    int n;
    cin>>n;
    cin>>s;
    int max=0;
    int len=strlen(s);
    for (int i = 0; i < len-n+1; ++i) {
        for (int j = 0; j < n; ++j) {//分割
            c[i][j]=s[j+i];
        }
        for (int k = 0; k <= i; ++k) {//统计个数
            if(strcmp(c[k],c[i])==0){
                num[k]++;
                if(num[k]>max)max=num[k];
            }
        }

    }
    if(max==1)cout<<"NO";//输出
    else {
        cout<<max<<endl;
        for (int i = 0; i < len - n + 1; ++i) {
            if(num[i]==max)cout<<c[i]<<endl;
        }
    }
}

xcdq

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
n-gram串频统计

描述在文本分析中常用到n-gram串频统计方法，即，统计相邻的n个单元（如单词、汉字、或者字符）在整个文本中出现的频率。假设有一个字符串，请以字符为单位，按n-gram方法统计每个长度为 n 的子串出现的频度，并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母，长度不多于500个字符，且 1 < n < 5。如果有多个子串频度最高，则根据其在序列中第一次出现的次序依次输出，每行输出一个，如果最高频度不大于1，则输出NO。输入第一行为n；第二行为字符串。输出输出最高频度以
复制链接

扫一扫