从字符串中提取省、市、区、镇、乡等区域名称

本文介绍如何使用Java的正则表达式和Pattern、Matcher类解析复杂的地址信息,将地址细分为省份、城市、区县等部分,并通过示例代码展示具体的实现过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import java.util.ArrayList;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
/**
 *         java正则表达式通过java.util.regex包下的Pattern类与Matcher类实现(建议在阅读本文时,打开java
 *         API文档,当介绍到哪个方法时,查看java API中的方法说明,效果会更佳).
 *         Pattern类用于创建一个正则表达式,也可以说创建一个匹配模式,它的构造方法是私有的,不可以直接创建,但可以通过Pattern.complie(String
 *         regex)简单工厂方法创建一个正则表达式,
 */
public class Test {
 
	/**
     * 解析地址
     * @param address
     * @return 
     */
    public static List<Map<String,String>> addressResolution(String address){
		/* 
		 * java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包。它包括两个类:Pattern和Matcher Pattern
	     *    一个Pattern是一个正则表达式经编译后的表现模式。 Matcher
	     *    一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式对字符串展开匹配检查。
         *    首先一个Pattern实例订制了一个所用语法与PERL的类似的正则表达式经编译后的模式,然后一个Matcher实例在这个给定的Pattern实例的模式控制下进行字符串的匹配工作。
    	*/
        String regex="(?<province>[^省]+自治区|.*?省|.*?行政区|.*?市)(?<city>[^市]+自治州|.*?地区|.*?行政单位|.+盟|市辖区|.*?市|.*?县)(?<county>[^县]+县|.+区|.+市|.+旗|.+海域|.+岛)?(?<town>[^区]+区|.+镇)?(?<village>.*)";
        Matcher m=Pattern.compile(regex).matcher(address);
        String province=null,city=null,county=null,town=null,village=null;
        List<Map<String,String>> table=new ArrayList<Map<String,String>>();
        Map<String,String> row=null;
        while(m.find()){
            row=new LinkedHashMap<String,String>();
            province=m.group("province");
            row.put("province", province==null?"":province.trim());
            city=m.group("city");
            row.put("city", city==null?"":city.trim());
            county=m.group("county");
            row.put("county", county==null?"":county.trim());
            town=m.group("town");
            row.put("town", town==null?"":town.trim());
            village=m.group("village");
            row.put("village", village==null?"":village.trim());
            table.add(row);
        }
        return table;
    }
 
	public static void main(String[] args) {
		
		 List<Map<String,String>> table = addressResolution("河南省郑州市中原区湖墅南路湖墅新村4幢");
		 System.out.println(table);
		 System.out.println(table.get(0).get("province"));
		 System.out.println(table.get(0).get("city"));
		 System.out.println(table.get(0).get("county"));
		 System.out.println(table.get(0).get("town"));
		 System.out.println(table.get(0).get("village"));
	}
 
}
 
### Python 提取字符串中的地名方法 对于从字符串提取地名的任务,`geotext`库是一个高效的选择。此库能够快速识别并解析文本中的地理实体,如城和国家名称,并提供ISO编码转换功能[^4]。 下面展示如何利用该工具包来实现这一目标: ```python from geotext import GeoText text = "I visited London last summer. It was amazing! Also, I have been to Paris and Berlin." places = GeoText(text) print("Cities found:", places.cities) # 输出找到的城列表 ``` 上述代码片段展示了基本用法,其中`GeoText()`函数接收待分析的文本作为参数。通过访问`.cities`属性可以获得文中提及的所有城的集合;同样地,如果想要获取提到过的国家,则可以通过`.country_mentions`属性得到一个有序字典形式的结果,键为国家代码而值为其出现次数。 此外,在某些情况下可能需要针对特定地进行过滤操作。例如只关心巴西境内的地点时,可以在初始化对象时指定国家代码作为第二个参数: ```python brazilian_places = GeoText('Sao Paulo is bigger than Rio de Janeiro.', 'BR') filtered_cities = brazilian_places.cities print("Filtered cities within Brazil:", filtered_cities) ``` 值得注意的是,当遇到同名行政划单位存在于不同直辖份内的情况时(比如中国多个地方都有名为“鼓楼”的区域),可能会触发警告提示建议进一步确认具体位置信息[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值