在matlab中处理名字序列

本文介绍了在MATLAB中处理大规模姓名数据的方法,包括使用unique函数提取不重复姓名,利用cellfun去除姓名中的多余空格和双分号,以及通过字符长度区分姓名并进行计数,以解决数据处理中的效率和准确性问题。
摘要由CSDN通过智能技术生成

  • 数据描述:[王一;王二;王三],[王一;王三;李一];[李一;王一]

  • 问题1:要在一个存储姓名的cellArray中提取出不重名的姓名Array
  • 方法:开始想到的是使用循环查询,但是由于数据量比较大往往有10万条记录,单纯的用for循环,会导致运行效率较低,使用unique函数可以很好的解决这个问题。首先将名字序列存入一个cellArray中,使用unique函数就可以提取出不重名的姓名组合存为DifName。

  • 问题2:姓名数据中有多余空格和姓名不是有一个分号隔开而是由2个分号隔开的问题
  • 方法:考虑在数据导入后就利用cellfun函数将空格和双分号去掉
    textdata(:,23)=cellfun(@(x) regexprep(x,';;',';'),textdata(:,23),'UniformOutput', false); %去掉字符间双分号,用单分号代替。
    textdata(:,23)=cellfun(@ (x) regexprep(x,'[^\w'';]',''),textdata(:,23),'UniformOutput', false); %去掉字符串中的空白位置
    textdata(:,23)=strtrim(textdata(:,23)) ;%去掉前后空格
    

  • 问题3:要将不同cell中的姓名与DifName中的姓名对上并计数
  • 方法:考虑使用向量相交的方式,但是可能出现王二包含在王二一这种情况所以应该用字符个数来区分开
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值