自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 MacOS下的JNI开发

JNI (Java Native Interface,Java本地接口)是一种编程框架,使得Java虚拟机中的Java程序可以调用本地应用/或库,也可以被其他程序调用。 本地程序一般是用其它语言(C、C++或汇编语言等)编写的,并且被编译为基于本机硬件和操作系统的程序。Java调用C/C++大概有这样几个步骤:编写带有native方法的Java类, 使用javac工具编译Java类使用ja...

2019-10-29 20:56:44 712 1

原创 网易公开课爬虫实践

结果这次先说结果吧,截止到目前(2019-01-28)位置总共爬了网易公开课4296个订阅号(有的订阅号是没有内容的),409030条内容(视频或者文章),243413个视频集合,内容里面的视频和视频集合里的视频是有重叠的.分别保存到open163_subscribe,open163_content,open163,3个collection的结构如下数据抓取过程首先,网易公开课的内...

2019-08-15 11:53:51 336

原创 学习OpenCV4(一)-安装和配置

最近公司要做一些关于图片的业务,遂学习一下相关知识.我在学习一项新技术的时候,习惯是先找几本比较好的书籍来看,然后在考虑实际场景.这次找了两本书:Digital Image Processing 4th Edition [Rafael C. Gonzalez]Learning OpenCV 3–Computer Vision in C++ with the OpenCV Library第...

2019-07-24 20:53:05 5406 2

原创 python3网易公开课爬虫实践

结果这次先说结果吧,截止到目前(2019-01-28)位置总共爬了网易公开课4296个订阅号(有的订阅号是没有内容的),409030条内容(视频或者文章),243413个视频集合,内容里面的视频和视频集合里的视频是有重叠的.分别保存到open163_subscribe,open163_content,open163,3个collection的结构如下数据抓取过程首先,网易公开课的内...

2019-07-24 20:48:49 811

原创 使用Python+mongoDB爬虫收集有道词典的文章

起源之前在有道词典上的"有道晨读"栏目看过一些连载的双语文章,还有真人朗读,觉得很不错,像<小王子>,<老人与海>,<追风筝的人>等.但是专栏的文章是按时间排序的,同一部作品并不连续出现,想要看一部完整的连载作品很不方便,所以就想通过爬虫的方法把这些文章整理出来,方便查看防止丢失(有道词典上过老的文章会不会出现在列表中,只保留最新500篇)环境手机:A...

2019-01-21 15:54:25 523 1

原创 LaTeX写数学公式

LaTeX是一种基于TeX的文档排版系统,把大片排版的格式细节隐藏在若干样式之后,以内容的逻辑结构统帅纷繁的格式,遂成为现在最流行的科技写作——尤其是数学写作的工具之一.在Markdown中插入数学公式的语法是 $数学公式$ 和 $$数学公式$$.行内公式行内公式是可以让公式在文中与文字或其他东西混编,不独占一行.在数学模式下,符号会使用单独的字体,字母通常是倾斜的意大利体,数字和符号则...

2018-11-12 18:45:57 548

原创 强大的终端模拟器:Termux

我们现在使用的主流桌面系统都会自带命令行程序,Windows也不例外(Windows10推出了Bash Shell和powershell),可见单独使用图形界面已经不能满足我们的需求了,特别是对我这种从事软件开发工作的人来说,一个系统中没有命令行会引起极度不适.但是我们常用的智能手机上就缺少这么一种方便的工具,目前的手机在硬件方面已经达到初级的桌面计算机的标准,比如我手里这款两年前买的小米5...

2018-10-30 17:14:53 11563

原创 k-近邻算法

算法简介k-近邻算法可以说是我接触过的最简单的机器学习算法了,其思路非常直白:给定一个训练集,输入一个实例,在训练集中找到和输入实例最近的k个点,这k个点中数量最多的类就是输入实例的类。可以看出来,k邻近算法的关键就是怎么样找到这最近的k个点。通过遍历训练集挨个计算与输入实例的距离肯定是可以做的,那就先用这种方法来实现一次。python实现首先,创建一个模拟训练集from numpy...

2018-10-25 16:22:06 146

原创 Linux命令行

现在,大多数计算机用户只是熟悉图形用户界面(GUI),并且认为命令行界面(CLI)是一种很古老的,很难使用的东西.其实不然,一个良好的命令行界面可是让我们更加充分,高效的利用计算机,正如鲁迅先生说的(嗯,不记得是谁说的就说是鲁迅),“图形用户界面让简单的任务更容易完成,而命令行界面使完成复杂的任务成为可能”.为什么使用命令行事实上,很多人选择Linux(而不是其他的系统,比如说 Window...

2018-10-25 16:21:01 229

原创 机器学习概述

概念机器就是计算机,“如果一个系统能够通过执行某个过程改进它的性能,这就是学习” ——赫尔伯特·西蒙(Herbert A. Simon)。所以,机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。当人们谈到机器学...

2018-10-11 16:46:29 218

原创 新词发现

参考资料主要参考了以下两篇文章:互联网时代的社会语言学:基于SNS的文本数据挖掘 基于信息熵和互信息的新词识别分词依据对于一个给定的文本,从中抽取一个片段,如果这个片段的内部成分搭配稳定,并且左右搭配很丰富,则认为是一个词。将这样的片段抽取出来,按照出现的频率排序,选择排在前面的那些作为我们发现的词语。再进一步通过固有词典过滤掉已经存在的“旧词”,剩下的就是“新词”了。如何理解“内部...

2018-10-11 16:45:40 1155

原创 使用Angular6+Bootstrap写的博客生成器

起源我是工作两年才开始写博客的。之前也产生过写博客的想法,但是为什么没有做呢?主要是觉得自己技术积累的还比较少,没什么可写的。有时候产生了一些想法或者做的一些事情,就直接记在笔记上了,记完之后觉得反正也不会有人看,所以就没想着发表出来。 后来换了一份工作,一下子接触了很多新的东西,感觉脑子有点不够用了,感觉需要把自己掌握的东西好好整理一下,不然,新的东西还没学会,旧的知识却忘记了,这就很...

2018-08-12 17:31:59 805

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除