【题解】洛谷 P2353 背单词

最新推荐文章于 2025-11-17 21:48:38 发布

原创最新推荐文章于 2025-11-17 21:48:38 发布 · 995 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#题解 #c++ #KMP字符串匹配 #前缀和

题解专栏收录该内容

8 篇文章

订阅专栏

文章介绍了一个基于KMP算法和前缀和的解决方案，用于计算学生在特定文本区间内背诵单词的出现次数，以应对老师的随机提问。

原题链接：P2353 背单词

题目背景

小明对英语一窍不通，令老师十分头疼。于是期末考试前夕，小明被逼着开始背单词……

题目描述

老师给了小明一篇长度为 $n$ 的英语文章，然后让小明背 $m$ 个单词。为了确保小明不会在背单词时睡着，老师会向他提 $Q$ 个问题，每次老师随机选择一个区间 $[l, r]$ ，小明要回答在这段文字中他背过的单词总共出现过多少次。

输入格式

第一行两个整数 $m, Q$ 如前所述。第二行为英语文章。接下来 $m$ 行每行一个需要背的单词。接下来 $Q$ 行每行一个询问，包含两个整数 $l, r$ （含端点），即给定的文字区间。

输出格式

$Q$ 行，对每个询问输出一行表示答案。

样例 #1

样例输入 #1

3 3
abcabcbc
abc
bc
a
1 3
6 7
1 8

样例输出 #1

3
0
7

提示

数据范围：

对于 $30\%$ 的数据， $1\le n\le 10^3,1\le Q\le 10^3$

对于 $60\%$ 的数据， $1\le n\le 10^5,1\le Q\le 10^5$

对于 $100\%$ 的数据， $1\le n\le 10^6,1\le m\le 10,1\le Q\le 10^6,1\le$ 每个单词的长度 $\le N,1\le l\le r\le n$

提示：数据较大，请大家尽量采取高效率的读入输出方法。

知识点

KMP 字符串匹配，前缀和。

思路

观察数据范围，我们发现 $\leq 10^6, m \leq 10$ 。

于是考虑枚举每个小明背过的单词 $p$ ，跑 KMP 后开一个数组 $f_{i,j}$ 记录原字符串 $s$ 中模式串 $p_i$ 完全匹配且匹配位置 左端点 在 $s$ 前缀 $[1, j]$ 中的 $p_i$ 的个数。

不过接下来我们发现它不满足区间减法，也就是不能通过 $f_{i,r}-f_{i,l-1}$ 直接求出。

这是因为尽管 $p_i$ 左端点在区间 $[l, r]$ 中，但不能保证右端点也在此区间中。

所以查询区间 $[l, r]$ 的时候我们选择区间 $l,r-|p_i|+1]$ 以保证这个字符串完整地在区间 $[l, r]$ 中。

预处理时间复杂度 $O(M\sum_{i=1}^{M}|p_i|)$ ，查询时间复杂度 $O (1)$ ，可以接受。

代码

#include <iostream>
#include <cstring>

using namespace std;

const int N = 1000010;

int M, Q;
char p[N], s[N];
int ne[N], cnt[N];
int f[11][N];

inline void get_next(char *p)
{
    int n = strlen(p + 1);
    memset(ne, 0, sizeof ne); // 多测需要清空
    for (int i = 2, j = 0; i <= n; i ++ )
    {
        while (j && p[i] != p[j + 1]) j = ne[j];
        if (p[i] == p[j + 1]) j ++ ;
        ne[i] = j;
    }
}

inline void kmp(int id, char *s, char *p)
{
    int n = strlen(p + 1), m = strlen(s + 1);
    for (int i = 1, j = 0; i <= m; i ++ )
    {
        while (j && s[i] != p[j + 1]) j = ne[j];
        if (s[i] == p[j + 1]) j ++ ;
        if (j == n) f[id][i - j + 1] ++ ; // 如果完全匹配则在左端点为 i - j + 1 的位置 + 1
    }
}

int main()
{
    scanf("%d%d", &M, &Q);
    scanf("%s", s + 1);
    int m = strlen(s + 1);

    for (int i = 1; i <= M; i ++ )
    {
        scanf("%s", p + 1); // 读入每个模式串 p
        get_next(p); // 处理 p 的 next 数组
        kmp(i, s, p); // KMP 并处理 f 数组
        cnt[i] = strlen(p + 1); // cnt 记录 p 的长度
        for (int j = 1; j <= m; j ++ )
            f[i][j] += f[i][j - 1]; // 前缀和
    }

    int l, r;
    while (Q -- )
    {
        scanf("%d%d", &l, &r);
        int res = 0;
        for (int i = 1; i <= M; i ++ )
            if (r - cnt[i] + 1 > l - 1) // 当且仅当左端点最晚出现位置在 l - 1 之后才计入答案
                res += f[i][r - cnt[i] + 1] - f[i][l - 1];
        printf("%d\n", res);
    }

    return 0;
}