从字符串中提取多个关键字对应的内容

本文介绍了如何从包含关键字和对应值的字符串中,通过编程方式找到关键字与其内容,包括获取关键字在字符串中的下标列表、截取关键字对应的值,并将结果转换为Map以处理重复关键字的情况。
摘要由CSDN通过智能技术生成

一、场景

    有一个内容包含关键字和对应值的字符串,例:A123C456B678E566,

    已知关键字是 A,B,C,D。

要求从上述字符串中提取出关键字对应的内容,规律关键字 A 和 C 之间的内容即为 A 的对应值。其中关键字出现的顺序和次数不固定

二、解决方式

    先根据关键字去匹配字符串内容,获得关键字所在坐标,两个坐标之间即为关键字和关键字内容,匹配出来的关键字为 key,剩余的为 value

三、代码示例

1. 获取所有的关键字在字符串中的下标

/**
 * 获取关键字在字符串中的下标
 *  遍历关键字在字符串中的下标,记录在list中
 *  如果有同一关键字在字符串中出现了多次,那么在list记录多次
 *
 * @param content 字符串
 * @param keyList 关键字List
 * @return
 */
public static List<MailDetailDto> getIndexByContent(String content, List<String> keyList) {
    List<MailDetailDto> indexDtoList = new ArrayList<>();
    for (String key : keyList) {
        String contentStr = content;
        //最新坐标
        int indexNew = 0;
        while (contentStr.indexOf(key) > 0) {
            int index = contentStr.indexOf(key);
            if (index > 0 && index < content.length()) {
                MailDetailDto mailDetailDto = new MailDetailDto(key, index + indexNew, null);
                indexDtoList.add(mailDetailDto);
            }
            contentStr = contentStr.substring(index + key.length());
            indexNew += index + key.length();
        }


    }
    return indexDtoList;
}

MailDetailDto 对象

@Data
@Builder
@AllArgsConstructor
@NoArgsConstructor
public class MailDetailDto {


    /**
     * 对应关键字.
     */
    private String key;


    /**
     * 在字符串中的下标.
     */
    private int index;


    /**
     * 对应值.
     */
    private String value;


}

2. 截取关键字对应的值

/**
 * 解析字符串内容
 *
 * @param mailDetailDtoList 解析对象(包含key和index)
 * @param content           目标字符串
 * @return
 */
public static List<MailDetailDto> buildMailDetailDto(List<MailDetailDto> mailDetailDtoList, String content) {
    if (StringUtils.isBlank(content)) {
        log.error("内容为空");
        return new ArrayList<>();
    }
    //排序
    List<MailDetailDto> collect = mailDetailDtoList.stream().sorted(Comparator.comparing(MailDetailDto::getIndex)).collect(Collectors.toList());
    for (int i = 0; i < collect.size(); i++) {
        MailDetailDto indexDto = collect.get(i);
        int indexBegin = indexDto.getIndex();
        //增加关键字长度
        indexBegin += indexDto.getKey().length();


        int indexEnd;
        if ((i + 1) == collect.size()) {
            indexEnd = content.length();
        } else {
            indexEnd = collect.get(i + 1).getIndex();
        }


        //防止一个关键字包含其他关键字的情况:例:关键字GPII STATUS 包含关键字 STATUS
        String value = "";
        if (indexBegin <= indexEnd) {
            value = content.substring(indexBegin, indexEnd);
        }
        // 去掉&nbsp;
        value = value.replace("&nbsp;", "");
        //去掉前后空格
        collect.get(i).setValue(StringUtils.isBlank(value) ? value : value.trim());
    }
    return collect;
}

3. 将提取到的值转为 map 方便取值,如有 key 重复,取第一个的值

// list 转map; 有相同的key时,如果前面的value不为空取前面的,前面为空取后边
Map<String, String> map = mailDetailDtoList.stream().collect(Collectors.toMap(MailDetailDto::getKey, MailDetailDto::getValue, (String value1, String value2) -> {
    if (StringUtils.isNotEmpty(value1)) {
        return value1;
    }else {
        return value2;
    }
}));

批量统计多个txt文件的关键字通常涉及到文本处理和数据分析。以下是一种常见的步骤: 1. **设置环境**:首先,你需要选择一种编程语言,比如Python,它有很多库支持文本操作,如`os`, `re`(正则表达式)和`collections`。 2. **遍历文件**:使用`os`模块的`listdir()`函数获取指定目录下的所有.txt文件名,然后通过循环逐个打开并读取每个文件的内容。 3. **提取关键字**:对于每行文本,你可以使用正则表达式或其他字符串处理方法来识别关键字。这可能需要预先定义一个关键词列表,或者如果你有特定的模式来识别关键字,可以直接匹配。 4. **计数统计**:将提取到的关键字添加到一个字典或者`defaultdict`,键是关键字对应的出现次数。如果关键字已经存在,则增加计数;如果不存在,则初始化为1。 5. **汇总结果**:处理完所有文件后,你会得到一个包含所有文件关键字及其出现频率的总统计。 6. **保存或输出**:可以选择将结果保存到一个新的文件,或者直接打印出来。 **示例代码(Python)**: ```python import os from collections import defaultdict def count_keywords_in_files(directory, keyword_list): keyword_counts = defaultdict(int) for filename in os.listdir(directory): if filename.endswith('.txt'): with open(os.path.join(directory, filename), 'r', encoding='utf-8') as file: for line in file: for keyword in keyword_list: keyword_counts[keyword] += line.count(keyword) return keyword_counts # 使用方法 keywords_to_search = ['关键字1', '关键字2', ...] directory_to_search = 'your_directory_path' result = count_keywords_in_files(directory_to_search, keywords_to_search) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值