- 博客(31)
- 资源 (2)
- 收藏
- 关注
原创 预训练词嵌入Pretrained Word Embeddings
我们如何让机器理解文本数据?我们知道,机器在处理数字数据方面非常擅长,但如果我们把原始的文本数据提供给它们,它们的效果会很差。我们的想法是创建一个词的表征,捕捉它们的含义、语义关系和它们使用的不同类型的语境。这就是词语嵌入–文本的数字表示。而预训练的词嵌入是当今自然语言处理(NLP)领域的一个关键齿轮。但是,问题仍然存在–预训练的词嵌入是否给我们的NLP模型带来了额外的优势?这是一个你应该知道答案的重要问题。因此,在这篇文章中,我将对预训练词嵌入的重要性进行一些说明。我们还将比较预训练的词嵌入和从头开始学习
2022-06-28 15:26:35 1252
原创 Python中*arg和**kwargs的用法
首先需要知道的是,其实并不需要写成*args和**kwargs。只有变量前面的*是必须的,你也可以写成*var和**vars。*args的用法*args和**kwargs主要用于函数定义,你可以将不定数量的参数传递给一个函数。这里的不定的意思是:预先并不知道函数的调用者会传递多少个参数,*args是用来发送一个非键值对的可变数量的参数列表给函数。**kwargs的用法**kwargs允许你将补丁长度的键值对作为参数传递给一个函数。如果你想要在一个函数里处理带名字的参数,你应该使用**kwargs。
2021-09-18 10:55:39 367
原创 Flume的Channel类别
Memory:内存通道,这个channel是将数据临时存储在内存中的,特点是读写快但是不可靠,如果考虑吞吐量,那么推荐使用Memory Channel。其常用参数有Capacity表示信道存储的最大事件数量,默认为100,建议实际工作调整为10万;transactionCapacity表示每个事务的最大事件数,默认为100,建议实际工作调整为1000~3000File:文件通道,这个channel将数据临时存储在硬盘中,特点是可靠但是读写速度相对较慢,如果考虑数据的稳定性,推荐使用JDBS:将数据临时.
2021-03-30 11:21:48 515
原创 Flume的Source类别
AVRO:接收被AVRO序列化之后的数据,结合AVRO sink可以实现多级、扇入、扇出等流动模型Exec:将一个命令的执行结果作为日志进行收集Spooling Dictionary:监听指定的目录,如果该目录下产生了新文件,会自动收集新文件中的内容Netcat:用于监听TCP请求,将TCP请求的内容作为日志收集起来HTTP:监听HTTP请求,但是只能监听GET和POST两种,然而对于GET请求的监听不稳定,所以在实际开发中一般只用这个source来监听POST请求Sequence Genera.
2021-03-30 11:12:02 132
原创 计算机专业考研面试题大全———持续更新中
文章目录@[toc]数据结构计算机网络操作系统计算机组成原理数据库人工智能大数据其他数据结构堆栈和队列的区别栈只能从头部取数据,先放入的数据需要遍历整个栈后才能取出,而且在遍历的过程中还需要为数据开辟临时空间,以保证数据在遍历前后的一致性。队列基于地址指针进行遍历,而且可以从头或尾部开始遍历,无需开辟临时空间,速度要快得多。常见栈的应用场景:括号问题求解、表达式转换和求值、函数调用和递归以及深度优先遍历。常见队列的应用场景:计算机系统中各种资源的管理、消息缓冲以及广度优先遍历。数组
2021-03-29 17:35:34 2449
原创 无重复字符的最长子串
Leecode上的题目无重复最长子串class Solution { public int lengthOfLongestSubstring(String s) { if (s.length()==0) return 0; HashMap<Character, Integer> map = new HashMap<Character, Integer>(); int max = 0;//最长子串长度 int
2021-03-14 18:04:07 90
原创 PCL常用代码汇总
加载点云并可视化#include "iostream"#include <pcl/io/pcd_io.h> //pcd读写文件#include <pcl/point_types.h> //点类型文件#include <pcl/point_cloud.h> #include <pcl/visualization/cloud_viewer.h>using namespace std;int main(){ //定义一个点云指针
2021-03-10 08:55:23 609
原创 python数据预处理技术
数据预处理步骤按照以下步骤在Python中预处理数据,本文中使用jupyter notebook进行演示。第一步导入所需的软件包,如果使用Pytho,那么这将成为数据转换为特定格式的第一步。代码如下:import numpy as np from sklearm import preprocessing这里使用了两个软件包:NumPy:NumPy是一种通用的数组处理软件包,设计用于高效处理任意记录的大型多维数组而不牺牲小型多维数组的速度。sklearn.preprocessing:此包提
2021-03-08 09:26:40 2096 1
原创 部分函数依赖和完全函数依赖
完全函数依赖{A,B}—>C,A和B加在一起才可以决定C,缺一不可。例如{学号,课程号}—>成绩,只有学号或只有课程号都不可决定成绩。部分函数依赖{A,B}—>C,A或B其中一个就可以决定C,有一个是多余的。例如{学号,课程号}—>姓名,学号就可以确定姓名,课程号在这里就是冗余的。...
2021-03-05 10:22:45 2152 1
原创 java实现DSA消息签名、SHA-1摘要算法
java界面实现输入消息,对输入消息进行DSA签名、SHA-1摘要,然后再接受消息界面显示发布的消息并验证消息签名、摘要。代码实现GenerateKey.javapackage javaTest;import java.security.KeyPair;import java.security.PrivateKey;import java.security.PublicKey;p...
2020-12-04 22:55:11 455
原创 log4j+flume+HDFS实现日志存储
Flume配置文件apache-flume-1.7.0-bin/data/weblog.confa1.sources = s1a1.channels = c1a1.sinks = k1a1.sources.s1.type = avroa1.sources.s1.bind = 0.0.0.0a1.sources.s1.port = 44444//配置拦截器a1.sources.s1.interceptors = i1a1.sources.s1.interceptors.i1.type =
2020-09-01 19:58:29 137
原创 IDEA连接MySQL报错:The specified database user/password combination is rejected: [28000][1045]
1.停止服务:停止MySQL服务;2.跳过验证:修改MySQL安装目录下的my.ini配置文件,使登录时跳过权限检查;在[mysqld]下面添加skip-grant-tables4.重启服务:service mysqld restart
2020-09-01 11:32:48 13405 3
转载 CentOS6.8中安装MySQL
一、MySQL简介说到数据库,我们大多想到的是关系型数据库,比如mysql、oracle、sqlserver等等,这些数据库软件在windows上安装都非常的方便,在Linux上如果要安装数据库,那就不得不首先推荐的是mysql数据库了,而且Mysql数据库的第一个版本就是发行在Linux系统上的。MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司。MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就
2020-09-01 10:54:22 156
原创 大数据学习日志(五)——HBase读写流程、合并机制
HRegion在HBase中,会从行键方向对一个表进行切分,切分出来的每一块结构就是一个Hregion,每一个HRegion交给一个HRegionServer,这样设计能够保证请求的分布均衡因为HBase中行键是有序的,所以HRegion之间的数据是不交叉的当HRegion中的数据达到一定的限度的时候,HRegion均裂为2个Hregion,其中一个HRegion会发生转移,交给其他的HRegionServer来进行管理,注意:这个过程并没有发生数据的转移,而是管理权的转移HRegion在HBas
2020-08-30 14:43:36 237
原创 大数据学习日志(四)————HBase
Sqoop概述sqoop是Apache提供的工具,用于HDFS和关系型数据库之间数据的导入与导出可以从HDFS导出数据到关系型数据库,HBaseHBase是Doug根据Google的Big Table来实现的,HBase与Big Table的原理一模一样,只是实现的语言不通HBase和Hadoop版本的对应关系比较复杂HBase借鉴列存储的思想,但是底层依然依靠键值对对存储HBase作为非关系型数据库,不支持SQL,提供了一套全新的命令HBase中没有表关联(外键、join)的说法
2020-08-25 15:13:12 125
原创 大数据学习日志(三)————Hive
JoinHive提供了left join/right join/inner join/full outer join,如果不指定,默认使用的时inner join实例:原始数据product:1 chuizi 39992 huawei 39993 xiaomi 29994 apple 5999order:1001 20170710 4 21002 20170710 3 1001003 20170710 2 401004 20170711 2 231005 20
2020-08-24 08:49:57 166
原创 大数据学习日志(二)————基础知识
复杂数据类型Array:数组类型,对应了Java中的数组或者集合类型原始数据(注意中间有空格)2,3,4,1,3,4 3,4,2,4,5,6,2,34,5,7,4,7,3,2 6,3,3,6,2,5,27,3,6,8 2,4,47,7,24,5,7,9,0,3 2,4,5,6,8,5建表:create table num(nums1 array<int>,nums2 array<int>) row format delimited fields termin
2020-08-21 17:07:20 106
原创 Hadoop常用参数
配置所在文件参数参数默认值作用hdfs-site.xmldfs.namenode.support.allow.formattrue表示设置NameNode是否允许被格式化。 在生产系统,把它设置为false,阻止任何格式化操作在一个运行的DFS上。 建议初次格式化后,修改配置禁止,改成falsehdfs-site.xmldfs.heartbeat.interval3DataNode的心跳间隔,默认单位为秒 在集群网络通信状态不好的时候,适当调大hdfs-...
2020-08-21 14:21:45 334
原创 Hadoop基础知识大杂烩
大数据的概述大数据5V特征数据体量大(体积大):VOLUME数据的种类和来源多:VARIETY种类:结构化、半结构化、非结构化数据的增长速度越来越快:VELOCITY数据的价值密度越来越低:VALUE数据的真实性:VERACITYHadoopHadoop简介由Yahoo!开发的后来贡献给Apache的一套开源的、可靠的、可伸缩的(可扩展)的分布式存储和计算的系统。版本有Hadoop1.0、Hadoop2.0(常用)、Hadoop3.0Hadoop模块Hadoop C
2020-08-21 14:15:48 339
原创 Flume基础知识
一:简介Flume是Cloudera公司开发的后来贡献给了Apache的一套用于分布式、可靠的进行日志收集、汇聚、传输的系统Flume的版本更新缓慢但是稳定Flume的版本a. Flume0.9:对线程的并发和安全性支持不好b. Flume1.0:对并发性和安全性支持较好,并且提供了更好的分布式的扩展性二:基本概念Event:a. Flume会将收集到每一条日志封装成Event对象,所以一个Event就是一条日志b. Event的本质是json串,即Flume将收集到的
2020-08-21 13:56:39 133
原创 大数据学习日志(一)————基础知识
Hive概述Hive是Hadoop的的子工程,后来被独立出来成为Apache的顶级项目Hive是Apache提供的一套基于Hadoop的进行数据仓库管理的工具,提供了读写以及管理大量数据的功能Hive提供了大量的类SQL(Hive QL,简称HQL)来对Hadoop的数据进行操作,底层会将SQL转换为MapReduce来执行,所以适合离线处理每一个Database都会在HDFS上对应一个目录Hive中没有主键的概念在Hive中,一个表创建好之后,字段之间的间隔符号就无法更改了Insert
2020-08-21 13:54:50 232
原创 Hive hql纵向变横向
数据表结构HQL语句实现纵方变横向select name as xingming,sum(case when subject = 'yuwen' then result end) as yuwen,sum(case when subject = 'shuxue' then result end) as shuxue,sum(case when subject = 'wuli' then result end) as wuli from table1 group by name;转变结果
2020-08-21 13:51:40 572
原创 DOCKER PUSH镜像到本地仓库报RECEIVED UNEXPECTED HTTP STATUS: 500 INTERNAL SERVER ERROR
查看SElinux的状态,将其设置为Permissive[root@localhost log]# getenforceEnforcing[root@localhost log]# setenforce 0[root@localhost log]# getenforcePermissive重新docker push 即可[root@localhost docker]# docker push 192.168.197.100:5000/test The push refers to a
2020-08-15 15:44:44 3143
原创 ArrayList转int[] 数组,java8新特性
当List中元素为String类型时,把ArrayList转为String[] 较为简单,直接调用ArrayList的toArray方法即可。但如果ArrayList中元素为Integer,要想转为int[]数组却不是那么容易:```javaList<Integer> list = new ArrayList<Integer>();int[] intArr = list.stream().mapToInt(Integer::intValue).toArray();``
2020-07-08 08:00:30 450
原创 启动redis显示Creating Server TCP listening socket *:6379: bind: No such file or directory解决方法
错误描述执行redis-server[11248] 17 Mar 18:23:04.592 # Warning: no config file specified, using the default config. In order to specify a config file use redis-server /path/to/redis.conf[11248] 17 Mar 18:...
2020-03-17 18:28:17 644
原创 IDEA搭建Maven环境下载安装全过程(图文超详细)
IDEA搭建Maven环境1.下载Maven压缩包Apache官网进去下滑找到Maven点进去找到下载按钮选择下载版本2.本地操作解压缩修改配置文件配置环境变量添加好之后可以在cmd下测试一下环境变量配置成功了没有3.IDEA中配置File->Settings->Build,Execution,Deployment->Build Tools下找到Maven对应输入之后可以新建一个...
2020-03-13 15:02:18 387
原创 python之使用jupyter notebook时出现DLL load failed:找不到指定程序解决办法
Anaconda中的Jupyter 在Windows 10终端运行jupyter notebook命令时无法启动Jupyter Notebook.错误信息Traceback (most recent call last):File “D:\python\Scripts\jupyter-notebook-script.py”, line 6, in from notebook.noteboo...
2020-01-29 18:13:10 3508 2
原创 CentOS6下搭建DNS服务器
Centos6下搭建DNS服务器进入yum源配置目录下载yum源更新yum配置,使操作立即生效DNS利用bind软件构建域名服务器,实现域名查询和地址转换,下载Bind修改配置文件/etc/named.conf修改配置文件 /etc/named.rfc1912.zones文件,添加songjiaxuan.cie.net的正向查询与反向查询的区域创建正向和反向资源文件:创建反向查询文件关闭防火墙设置...
2019-12-29 13:50:46 215
原创 ERROR: The minSdk version should not be declared in the android manifest file解决办法亲测有效
这里写自定义目录标题新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入在AndroidManifest.xml文...
2019-12-10 21:26:21 798 1
java实现基于DES、SHA、Socket通信的安全信息发布平台。
2019-12-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人