城市犯罪问题是我们在城市研究中经常关注的议题。城市犯罪大体可以分为街道犯罪和社区犯罪两种。街道犯罪和社区犯罪代表了不同的犯罪行为空间模式,前者发生在街道和广场等公共场所,后者则主要表现在居民区和社区内。此类犯罪主要集中在人口稠密的城市地区,对人的生命、财产安全和心理健康构成重大威胁。因此,准确识别街道和社区犯罪地点具有双重意义。
今日我们给大家带来的是基于大型语言模型(LLM)的中国街道和社区犯罪时空分布数据集。香港中文大学地理及资源管理系关美宝教授团队2025年3月20日在scientific data平台发布了此数据集。该数据集提供了一个街道和社区犯罪时空数据存储库,其中包含中国约100万条犯罪记录,每起事件都有具体的地理坐标(经纬度)和时间。该数据集基于公开的法院判决文件。采用人工智能(AI)技术,从大量非结构化的司法文本中提取小区甚至居民楼的犯罪事件。该数据集总计约 7 GB,数据格式是CSV,覆盖了31个省级行政区域、222个市级区划和548个县(区)级司法管辖区。数据包含每个犯罪案件的关键字段,如唯一的案件标识符(case_number)、案件类型(case_type)、作出判决的法院名称(court_name)和法院所在城市(city)。还包括案件的地理详情(incident_location),包括省、市和县。
该数据集可对犯罪事件进行更精确的空间分析,为经济学、社会学和地理学等跨学科领域提供有价值的见解。它极大地促进了联合国可持续发展目标(SDGs)的实现,特别是在促进可持续城市和社区方面,并在推动减少各种形式的暴力和相关死亡率方面发挥了至关重要的作用。该数据集还能评估犯罪活动与各种城市因素之间的双向关系,包括建筑环境特征、房地产价值、城市化水平和人口流动模式。促进了犯罪活动的时空分布和热点分析,以及政策干预的差异分析。此外,它基于现实世界的场景,为评估现有的派出所部署、巡逻路线设计和危机管理模拟提供了有价值的支持。此外,本数据集还展示了如何通过人工智能方法,基于科学领域松散结构化的开源信息获取高质量的时空数据集。
大家可以在公众号回复关键词 648 免费获取该数据!无需转发文章,直接获取!以下为数据的详细介绍:
01 数据预览
该数据为一个csv文件,注意这个csv文件大约7个G,有103万条数据,通过excel可能打不开这个csv文件,请用Python等其他软件读取。数据如下图:
该csv数据集打开后包括如下字段:
下面我们也来解析一下数据!首先是该数据的空间特征!该数据集几乎覆盖了中国大陆的所有地区,使其成为关于中国街道和社区犯罪时空分布的最高质量的公开数据集。以下为作者绘制的各行政区划等级(省、市、县)内的犯罪案件的数量:

下面我们再来看一下这个数据集的空间细节。下面是我国人口稠密的北京、上海、成都、深圳、广州和西安等城市的犯罪案件空间点位(图a至f):
接着我们来看一下该数据的时间分布。下面三张图展示的是每个时刻、每月、每年的犯罪案件数量:

02 数据详情
数据来源:
数据来源于scientific data网站,具体网址为:https://www.nature.com/sdata/
研究方法介绍:
数据集从中国最高人民法院运营的中国裁判文书在线平台(https://wenshu.court.gov.cn/)获取的基础数据。法院判决文件数据具有高度标准化的格式和结构,信息通过司法程序进行验证。它包含有关时间、地点和案例情况的丰富详细信息,以保持国家一致性和公共可访问性。本数据集通过提供经过司法审查、详细和标准化的犯罪案件信息,有助于更全面地了解犯罪活动和模式。通过使用抢劫、抢夺和盗窃等关键词,检索了超过200万份与街头犯罪和社区犯罪相关的法院判决文件。这些文件包含有关犯罪时间和地点、被盗物品和具体量刑细节的信息,并带有无格式文本,而数据分析主要需要结构化的面板数据。从大量非结构化文本中提取结构化数据无疑是具有挑战性的。然而,大数据和人工智能技术的进步,尤其是像 ChatGPT 这样的大型语言模型(LLM),为我们提供了更有效的解决方案。随后,我们利用百度地图 API 的地理编码服务,根据文本犯罪位置对地理坐标进行编码。
数据年份:
2000-2019年
空间范围:
包含大约100万条街道和社区犯罪记录的数据集,涵盖31个省级行政区域、222个市级区划和548个县(区)级司法管辖区。
数据引用:
Zhang, Y., Kwan, MP. & Fang, L. An LLM driven dataset on the spatiotemporal distributions of street and neighborhood crime in China. Sci Data 12, 467 (2025). https://doi.org/10.1038/s41597-025-04757-8
如有数据使用需求请按照官方平台的要求进行引用,更多数据详情可以查看官网获悉!
03 数据获取
如有数据需求,欢迎点击下方名片链接,关注我们并咨询获取~