- 博客(170)
- 资源 (9)
- 问答 (7)
- 收藏
- 关注
原创 【DL】CNN Landslide-sensitivity-mapping
CNN Landslide-sensitivity-mapping
2023-03-23 20:20:17 217 1
原创 【NLP】Representation Learning for Natural Language Processing
WordRepresentationTo build an effective machine learning system, we first transform usefulinformation on raw data into internal representations such as feature vectors. Conventional machine learning systems adopt careful feature engineering as pre...
2022-04-22 11:09:10 2239
原创 【NLP】地理信息系统原理与方法(第4版) 思维导图
【航海必修课】地图都错的离谱?航用海图大多要用墨卡托投影 (360doc.com)http://www.360doc.com/content/15/1103/21/14498325_510545461.shtml
2022-04-04 21:32:42 1760 1
原创 【NLP】统计自然语言处理(第2版)思维导图
以下为宗成庆老师《统计自然语言处理(第2版)》各章节知识点总结而成的思维导图。 该思维导图侧重概念浅层了解,未涉及模型数学原理。如有深入学习需求,请详读相关书籍。 转载请注明出处。......
2022-03-21 16:41:58 954 2
原创 【ML】机器学习(西瓜书)思维导图
以下为周志华老师《机器学习》(西瓜书)各章节知识点总结而成的大型思维导图。 该思维导图侧重概念了解,未涉及模型数学原理。如有深入学习需求,请详读相关书籍。 尊重知识产权,转载请注明出处。......
2022-03-20 14:44:39 2679 2
原创 【爬虫】微博数据采集
所用工具八爪鱼采集器数据需求爬取指定关键词下的微博(用户信息、发布时间、发布内容等流程构建指定关键词微博采集数据示例数据示例基于移动端微博网址微博 (weibo.cn)https://m.weibo.cn/参考来源采集模板八爪鱼采集模板结果示例结果示例指定关键词 各话题下微博采集数据示例数据示例注意:①循环:可通过手动输入待爬取的网址; 注意:②自动识别:自动识别网页→选择需要的信息抓取 采集模板八爪鱼...
2022-01-14 21:07:20 1612
原创 【NLP_事件抽取】基于条件随机场模型
数据预处理#!/usr/bin/env python# coding=utf-8from string import punctuationimport reimport codecs# 英文标点符号+中文标点符号# 未去除空格、换行符等(正则表达式以"/s"表示)punc = punctuation + u'.,;《》?!“”‘’@#¥%…&×()——+【】{};;●,。&~、|::'fr = codecs.open("……\YWP_EventExtracti
2022-01-07 15:18:03 2064 3
原创 【NLP】StanfordCoreNLP
问题没想到,小小一个StanfordCoreNLP,竟然让我们频频踩坑 -_-|| 同广大网友所遇问题一样——StanfordCoreNLP一直运行无结果 StanfordCoreNLP json.decoder.JSONDecodeError: Expecting value: line 1 columnStanfordCoreNLP一直运行无结果解决可能因工具包(CoreNLP与中文语言包)不全 or 其路径不一 or 两个包版本不匹配 更换为3.9版本的stanford-co
2022-01-05 10:37:46 1173 1
原创 【NLP_事件抽取】基于模板匹配
源码来源https://github.com/liuhuanyong/EventTriplesExtractionhttps://github.com/liuhuanyong/EventTriplesExtraction抽取示例示例文本记者从云南北移亚洲象群安全防范工作省级指挥部了解到,象群于6月17日21时48分进入玉溪市峨山彝族自治县辖区,向西偏北方向迁移13.5公里,在峨山县大龙潭乡附近活动。独象离群13天,于6月17日22时7分进入安宁市辖区,位于象群正东方向,与象群直线距离24.7
2022-01-04 10:45:09 4676
原创 【心情随笔】2021年终总结
总结学业 前三个月寒假纯玩,后九个月开学纯学 2020年疫情在家,纯玩了半年〒▽〒 2021年还是以学为主、以玩为辅啦 感情 稳步发展 有时情绪容易上头 饮食 总体比较随意,没有束缚自己 知道吃啥有利健康,因而自发地吃了些粗粮啦 运动 近几年,平均每年自然而不刻意地轻了5斤 运动项目以跑步为主,有时也会跳绳或骑行 其他 听书:民国才女故事、明代世情
2021-12-31 10:44:23 605 1
原创 【NLP】自建维基百科语料库
下载维基百科原始语料wikidump 开源语料库(https://dumps.wikimedia.org/zhwiki/) 示例语料:zhwiki-20211220-pages-articles-multistream.xml.bz22.3 GB处理.bz2为文本文件命令行 改预处理文件(1_process.py)路径下:执行python 1_process.py zhwiki-20211220-pages-articles-multistream.xml.bz2 wiki.zh.txt..
2021-12-27 13:56:02 1652
原创 【NLP_命名实体识别】CRF++使用流程
重要参考用CRF做命名实体识别(一) - 简书 (jianshu.com)https://www.jianshu.com/p/12f2cdd86679(8条消息) 【windows下CRF++的安装与使用】_feng_zhiyu的博客-CSDN博客_crf++安装https://blog.csdn.net/feng_zhiyu/article/details/80793316实践{B, M, E, S} 格式:B表示实体首字,M表示实体中字,E表示实体尾字,S表示单字 注意:各种编码/解码细.
2021-12-22 15:54:35 1807
原创 【数据挖掘笔记】聚类分析
零碎知识很多数据分析技术,如回归和PCA,都具有O(m2)或更高的时间或空间复杂度(m为对象个数) 不同类型的聚类:层次(嵌套)/划分(非嵌套)聚类,互斥/重叠/模糊聚类,完全/部分聚类。层次聚类:允许簇有子簇 划分聚类:得到不重叠子簇 互斥聚类:各个簇互斥 重叠聚类:如既是学生又是员工,同属于多个簇 模糊聚类:每个对象用0和1之间的隶属权值属于每个簇【即 簇被视为模糊集——模糊集中,每个对象以0和1之间的权值属于任一集合】 完全聚类:每个对象指派到一个簇 部分聚
2021-11-16 11:54:00 1673 1
原创 【空间模式挖掘】Apriori优化
Apriori优化重要参考关联规则与Apriori算法优化_utopia-CSDN博客_apriori算法优化https://blog.csdn.net/askfuhu/article/details/6894870
2021-11-15 10:34:29 839
原创 【空间模式挖掘】POI频繁同位模式
数据实验区:昆明市呈贡区 实验数据:14个类型(如下) 共约8000个POI方法参数设置:以科教文化服务POI作为中心类别,设定距离范围(缓冲区半径)为300m用户设定中心类别、空间相关距离和分析范围,检索得到同位模式实例集。以分析范围内中心类别POI作为中心,相关距离为半径划定一个样本范围,此样本范围内的所有类别组成一个事务,形成事务集合,即同位模式实例集。遍历事务集合得到项目集合。挖掘得满足最小支持度和最小置信度的频繁同位模式、同位规则以及对应支持度和置信度。(主要参考.
2021-11-13 13:13:27 2815 1
原创 【空间模式挖掘】进阶理论
上一章:假定输入数据由称作项的二元属性组成。本章:扩展到具有对称二元属性、分类属性、连续属性的数据集。(可以通过→转换成二元项表示,即二元化)。 对连续数据进行关联分析的方法:基于离散化的方法(将连续属性的邻近值分组,形成有限个区间)、基于统计学的方法、非离散化方法。 序列模式:考虑时间或空间的先后次序非频繁模式:支持度<阈值minsup的项集或规则。当涉及数据中的负相关时,如大家一般不会同时购买黄油与人造黄油——这种负相关模式有助于识别竞争项,即可以相互替代的项。////////// 某些非频繁
2021-10-28 21:54:58 464 2
原创 【空间模式挖掘】Apriori
基础知识典例:购物篮事务——其中联系可以用关联规则或频繁项集的形式表示 k-项集:包含k个项。如{啤酒,尿布,牛奶}是3-项集关联规则挖掘任务,往往拆分成两个子任务:①产生频繁项集frequent itemset:满足最小支持度阈值的所有项集;②产生规则:从频繁项集中提取高置信度的规则(即强规则)Apriori算法先验原理——有助于使用支持度对候选项集剪枝。先验(apriori)原理:若一个项集是频繁地,则它的所有子集也一定是频繁的。相反,若项集{a, b}是非频繁的,则它的所有.
2021-10-28 13:19:37 806 2
原创 【数据挖掘笔记】基础知识
属性可以是标称的、二元的、序数的或数值的 分位数:取自数据分布的每隔一定间隔上的点。如,2-分位数(对应中位数)将数据分布划分为高低两半,4-分位数将数据分布划分为4个相等部分。 四分位数极差:第一个和第三个四分位数之间的距离。 方差与标准差:度量数据散布程度,低标准差——数据观测趋向均值,高标准差——数据散布在一个大的值域中 截尾均值trimmed mean:丢弃高低极端值(避免丢弃太多)后的均值 中列数midrange:最大值和最小值的平均值 正倾斜、负倾斜极差:最大值与最小值之差
2021-10-24 19:09:26 2144 2
原创 【数据挖掘笔记】分类
理论Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART 增益率(gain ratio):如决策树算法C4.5,采用增益率的划分标准来评估划分 树剪枝tree-pruning:决策树过大容易过拟合overfitting,通过树剪枝(修剪初始决策树的分支),减小决策树的规模,提高决策树的泛化能力 分类模型的误差:训练误差(training error)、泛化误差(generalization error)。一个好的分类模型不仅要能够很好地拟合训练数据,还需对未知样本进行准确的分类。
2021-10-24 18:59:16 1377 2
原创 【Python_表格】整理MRC水位数据
本文基础【R_爬虫】爬取MRC水位数据_越努力,越幸运-CSDN博客代码#------------------------get data to .rds-------------message(Sys.time())if (!requireNamespace("jsonlite", quietly = TRUE)) install.packages("jsonlite",dependencies = T)station <- jsonlite::fromJSON("https://api.mrc
2021-10-09 16:50:09 567 2
原创 【Python_绘图】堆积柱形图
成图效果堆积柱形图示例涉及内容数据堆积#关键代码y1 = (0,0,0,30.54,32.67,38.29,81.51)y2 = (87.83,85.07,92.14,57.29,52.4,53.85,14.55)d = []for i in range(0, len(y2)): sum = y1[i] + y2[i] d.append(sum)y3 = (12.17,14.93,7.86,12.17,14.93,7.86,3.94)横向底部图例..
2021-10-08 16:49:42 7791 3
原创 【小程序开发】定位功能实现
效果展示主要包括:借助高德或腾讯地图API→ 获取当前位置 +标记位置点 +计算二者距离 源代码:详见本博客【资源】部分小程序定位功能 页面展示主要参考微信小程序地图实现点击(marker)气泡展示(callout)距离,点击回到当前位置 - 简书微信小程序地图实现点击气泡,展示callout,开发过程中遇到的需求,大致就和共享单车那个差不多,在很多个marker中点击一个marker,显示不同颜色的marker,没有...https://www.jianshu.com/p/3d...
2021-09-20 13:48:52 2234 3
原创 【遥感分类】目视解译分类精度评价
引:网上已有很多ENVI遥感影像分类教程,但基本都是关于【使用ENVI分类器进行遥感影像分类→继续使用ENVI进行精度评价】,缺少关于【使用ArcGIS目视解译进行遥感影像分类→转换文件格式再使用ENVI进行精度评价】(此即本文关注点)的教程。 注:因我对遥感影像分类、对ENVI不够熟悉,故原理与实践上可能有错误之处,望各路大神批评指正。转为ENVI支持的分类文件将外部程序生成的分类文件转为ENVI可识别的分类图(ArcGIS解译后的面文件→ENVI支持的分类文件)参考:https:
2021-08-15 21:30:43 7789 5
原创 【ArcGIS_制图表达】点随河流方向变化
重要参考 ArcGIS制图表达Representation实战篇2-河流渐变与符号旋转:https://blog.csdn.net/liyuanxiang1984/article/details/52885678 主要步骤
2021-06-13 15:14:41 652 2
原创 【Python_绘图】折线图与散点图
接续 【Python_绘图】折线图https://mp-new.csdn.net/mp_blog/creation/editor/117462761
2021-06-07 10:30:15 3810 1
原创 【Python_绘图】折线图
代码import matplotlib.pyplot as pltimport xlrd#设置字体格式,以显示中文plt.rcParams['font.sans-serif'] = ['SimHei']x_data = []y1_data = []y2_data = []y3_data = []#读取表格数据data = xlrd.open_workbook(r'…….xlsx')table = data.sheets()[1] # 表格中的Sheet2x_dat...
2021-06-02 10:54:58 444 1
原创 【爬虫】百度新闻采集
所用工具八爪鱼采集器数据需求爬取指定关键词下的百度新闻(标题、链接及内容详情)流程构建注意:采集数据、设置翻页时,均需修改XPath。 翻页循环的设置,可参考八爪鱼采集遇到一二页重复循环的解决办法 - 八爪鱼采集器,但需要根据实际应用而修改!按照链接教程将XPath改为“//A[text()='下一页']”,无用——因百度新闻的下一页实际为“下一页 >”,故应将其改为“//A[text()='下一页 >']”。使用八爪鱼采集百度新闻流程图爬取结果示例.
2021-05-22 16:16:01 1010
原创 【R_绘图】绘图字体设为Times New Roman
问题由来【R_可视化】使用wordcloud包制作分类词云图一文中,需要将绘图英文字体设为Times New Roman。 查阅资料得知,同样用于制作词云图的wordcloud包,其设置英文字体的参数为"fontFamily",示例代码如下。library(wordcloud2)wordfreqs <- readxl::read_excel("D:/…….xlsx")wordcloud2(wordfreqs, size=0.5, #可更改 fo
2021-04-15 13:32:25 14261
原创 【R_绘图】使用wordcloud包制作常规词云图
参考资料https://blog.csdn.net/weixin_38008864/article/details/107551761简易代码library(wordcloud2)wordfreqs <- readxl::read_excel("D:/…….xlsx")wordcloud2(wordfreqs, size=0.5, #可更改 fontFamily="Times New Roman", color="ra
2021-04-14 19:37:21 469
原创 【Python_地理编码】高德正地理编码
申请Key高德地图APIhttps://www.baidu.com/link?url=d5ilKbdrNIlJ7I1ykpzFwNbnLePW5wKsqYBba-cZEDa&wd=&eqid=9f871fb8000516e500000006606d66ad控制台——创建应用——添加Key创建应用高德地理编码简易实现import requestsimport jsonaddress = input('请输入地点:')par = {'address': ad..
2021-04-07 16:05:05 2795 2
Landslide-susceptibility-mapping-main
2023-03-23
ENVI 常用扩展工具.zip
2021-07-12
ALBERT-CRF训练所需向量.zip
2021-05-31
ALBER-CRF训练后的权重文件
2021-05-31
msra(命名实体语料) BIO schema.zip
2021-03-16
文本分类:用pLSA得到了三个概率矩阵,该怎么用呀?
2019-02-28
python:如何用wordnet词干化.txt文档并输出
2017-03-18
python 筛选出指定词并输出
2017-03-16
词文本矩阵 分批输出到多个表格后
2017-03-15
请问各位大神...TEM算法是什么鬼T T
2016-11-29
小白求助T T 关于python构建文本词条矩阵
2016-11-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人