- 博客(23)
- 收藏
- 关注
原创 大数据:VMware | Ubuntu | Hadoop | Spark | VMwaretools | Python 安装配置总结
通过VMware创建新Ubuntu Linux环境,安装配置伪分布式Hadoop集群,Spark, VMwaretools,及多版本Python与版本选择。
2023-05-25 15:41:39
2683
原创 OpenCV:使用traincascade训练分类器完成图像识别任务
通过爬虫收集图片素材完成正负例样本的采集,通过灰度图处理与图片尺寸的裁剪完成图像处理,而后使用opencv的traincascade对图片进行训练,获取图像模型,完成图片分类器的训练。
2023-01-05 09:32:19
3019
2
原创 文本挖掘案例:基于CSDN博客文章内容的文本挖掘与词云绘制
文本挖掘案例:利用requests与XPATH对文章的页面源码进行解析,将文章内容获取至本地;而后利用jieba与WordCloud进行文本挖掘与词云绘制,文本挖掘内容包括词性标注,去除停用词,词性分布分析,高频词分析等,对关键词语的选取使用了td-idf准则。
2022-11-04 10:34:30
863
1
原创 R语言:Plot3D包绘制3D等高线图像
R语言中Plot3D包中的contour3D方法,能够在三维空间内绘制立体的等高线图像,介绍该函数的参数,不断调整参数,掌握该函数的使用并绘制精美3D等高线图像。
2022-10-27 20:19:47
2721
原创 GROBID库:利用requests库请求GROBID Web端提高PDF文档解析速度与正确率
之前使用Python调GROBID库进行文档解析,但总是由于网络或是电脑环境原因出现文档解析失败或是用时过长的困扰,观察网页结构后,决定尝试使用requests库完成相应的解析请求与XML文档保存,提高速度与正确率。
2022-10-26 20:02:32
2139
原创 R语言:Plot3D包绘制等高线图及分层设色地形图
R语言中Plot3D包中的image2D方法,能够在平面内绘制精美等高线图像,绘制不同类型的二维等高线图与分层设色地形图,按照越高越亮或者越高越暗的原则,在不同的等高线之间,着上不同的颜色,可以一目了然的看出地面的高低形态和海底的起伏状况。
2022-10-25 13:12:21
2226
原创 搜索引擎:获取并处理mdx英汉词典文件为数据库
获取mdx后缀的词典文件后难以使用,利用程序将其转化成本地的数据库,从而快速读取与查询其中的内容。
2022-10-23 15:05:25
4643
1
原创 GROBID库:Windows环境下运行GROBID库解析文档的解决方案
待解决问题:PDF to XML conversion failed with error code: 99;因 GROBID模块已不再支持Windows平台,尝试利用Docker解决该报错。Docker 是基于容器的平台,允许高度可移植的工作负载。Docker 容器可以在开发人员的本机上,数据中心的物理或虚拟机上,云服务上或混合环境中运行。基于镜像,可以秒级启动各种容器。每一种容器都是一个完整的运行环境,容器之间互相隔离。
2022-10-22 07:00:00
2477
2
原创 GROBID库:安装与使用
GROBID(或GROBID)是GeneRation Of BIbliographic Data。GROBID是一个机器学习库,用于提取、解析和重构原始文档(如PDF),将其转换为结构化的XML/TEI编码文档,特别关注技术和科学出版物。最初的开发始于2008年,当时只是一个爱好。2011年,该工具已经以开源的形式提供。GROBID的工作从一开始就作为副业项目稳定下来,预计将继续下去
2022-10-21 20:00:13
7548
4
原创 搜索引擎:简单文档词条化与语料处理(Python/Java)
词条化:将给定的字符串拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)。
2022-10-20 18:23:05
437
原创 搜索引擎:常用信息检索方式介绍与倒排索引实现(Python)
计算机对于文档内容检索有多种可能的方式,如直接从头遍历至尾端,根据我们输入的关键词提取内容。这类检索方式与我们人类阅读的习惯相同,因此实现简单且很容易被接受。若问你《三国演义》中是否存在'舌战群儒'这一词语,我们常常会选择浏览全文从中找出匹配的词语。而从《三国演义》中提取出关键词 , 通过现代计算机不会花费太长时间;但假如目标是世界文学合集呢?企业一年的财务报告呢?又或者是现代信息世界产生的规模更大的文档集。尽管计算机算力强大,线性扫描的信息检索方式也仅仅只能够用于处,我们需要更加高效的检索方式。
2022-10-19 11:57:05
1620
原创 前端:Tomcat服务器部署Web项目
Web服务器是运行及发布Web应用的容器,只有将开发的Web项目放置在该容器中,才能使网络中的所有用户通过浏览器进行访问。我们发现重新编写代码后,需进行重新编译,移动文件,重启服务等操作,时间成本较高昂。我们将Servlet环境部署在IDEA开发工具中 从而便于我们之后的开发。项目文件下需要WEB-INF文件夹与你将要访问的html文件。从而在toncat看见我们编写的first.html页面。找到lib文件路径下的servlet-api.jar包。将class文件放置在之前建立的classes文件夹下。
2022-10-19 11:49:44
9520
原创 R语言:ggplot2包详解及各类精美图形绘制
ggplot2是一个R包,用于生成统计或数据图形。与大多数其他图形包不同,ggplot2有一个基于图形语法的底层语法,允许通过组合独立的组件来组成图形。可以根据特定的问题创建新的图形,而不是局限于预定义的图形集,这就是ggplot2的强大之处。Ggplot2实际上很容易学习:有一组简单的核心原则,很少有特殊情况。
2022-10-18 18:40:44
11056
1
原创 R语言:glmnet包重点详解及多类回归实现(lasso/岭回归/弹性网)
Glmnet是一个通过惩罚极大似然来适应广义线性和相似模型的软件包。控制在对数尺度上计算lasso回归或弹性网回归的参数为正则化参数lambda。该算法速度非常快,并且可以利用输入矩阵x的稀疏性。它适合线性、logistic和多项式、泊松等回归模型。它还可以拟合多元线性回归模型、定制族广义线性回归模型和lasso回归模型,在该软件包中还拥有预测、绘图、交叉验证的方法。
2022-10-17 21:28:00
28459
6
原创 深度学习:基础概念陈述及P-R曲线绘制案例(Python)
对深度学习与机器学习概念的详细陈述,包括多案例与其他学科的概念对比;如何划分训练集与测试集及各部分的作用,进行模型训练后如何进行模型的评价。数据集的数学表示及数据集拆分方法,如留出法,K折交叉验证,网格搜索等;而后介绍了分类问题及其性能度量指标方法,回归问题及其性能度量指标方法,利用Iris数据集在python sklearn绘制P-R曲线,进行模型评价。
2022-10-16 10:55:10
2619
原创 移动应用开发:Android Studio实现个人购菜/食谱管理系统
利用Android实现个人的购菜/食谱管理系统,功能包括添加食材,用户录入其数据信息,并将照片保存从而将购买的食材录入“菜篮”。菜篮空间,对食材进行分类展示。菜篮状况,对当前菜篮空间进行数据分析,柱状图的直观展示与分类统计。养生建议,推送一定健康小常识文章。备忘记录,内嵌记事本,帮助记忆。菜篮管理,对菜篮进行删查操作,支持用户删除与查找食材。菜谱搜索,通过关键词检索网络接口,获取各类食材的常见烹饪做法。私人收藏,对喜爱的做法进行收藏。
2022-10-15 13:48:59
10003
14
原创 pandas:世界各国GDP数据集数据清洗案例
数据清洗一般步骤包括:寻找并补充缺失值,删去除不合理的值,例如某国超过全球总量的GDP数值,去除符号错误,例如GDP字段内填写了文字,去除重复行列, 例如一年的GDP统计了两次,相关性检验,计算各字段间的相关性等等。Country NameCountry CodeIndica
2022-10-13 19:06:37
2398
5
原创 深度学习:常用熵概述及熵值计算
熵是表示分子状态混乱程度的物理量,此时用来描述信源的不确定性的大小,由美国数学家香农提出,经常使用的熵概念有下列几种:信息熵、交叉熵、相对熵、条件熵 、互信息等,分别陈述其概念及计算方式。
2022-10-13 13:34:16
6349
原创 python爬虫:多线程收集/验证IP从而搭建有效IP代理池
利用多线程收集并搭建有效的代理IP池的详细全过程,建立IP池方便进行其他爬虫程序的伪装。步骤包括获取IP来源,初步收集IP,IP可用性检验,IP池存储展示,单线程IP池完整实现,多线程IP验证等等。
2022-10-11 21:09:49
35030
原创 深度学习:OpenCV基础方法总结及示例
现在说的机器视觉(Machine Vision)一般指的是计算机视觉(Computer Vision),简单来说就是研究如何使得机器看懂东西,利用摄像机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像,当前两者已不存在较大区别。 首先在很多文献中,计算机视觉与机器视觉是不加区分的,但其实这两个术语既有区别又有联系的。
2022-10-11 18:42:05
2153
原创 GUI技术:JavaFX基础方法及示例
JavaFX融入了现代GUI技术以方便开发富因特网(RIA),可以表现一般桌面应用具有的特点与功能。可以灵活地在桌面或者Web浏览器中切换运行。JavaFX为支持触摸的设备提供多点触控支持,如平板和智能手机。JavaFX具有内建的2D、3D、动画支持,以及视频和音频的回放功能。
2022-10-11 18:06:51
1787
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人