- 博客(89)
- 资源 (15)
- 收藏
- 关注
原创 Spark bin 目录下文件的调用关系
这里写自定义目录标题Spark 调用关系bin/Pysparkbin/Spark-submitbin/Spark-classbin/Spark-shellbin/Spark-sqlbin/run_examplebin/beelineSpark 调用关系bin/Pysparkexec "${SPARK_HOME}"/bin/spark-submit pyspark-shell-main --name "PySparkShell" "$@"bin/Spark-submitexec "${SPARK_
2022-05-30 11:36:36 225
原创 Spark SQL创建表的例子
create table if not exists orders( id int COMMENT 'order id' ,name string COMMENT 'user name')comment 'Demo: Hive Partitioned Parquet Table with Partition'partitioned by( grass_date string COMMENT 'data date')stored as PARQUET
2022-04-20 18:26:07 4549
原创 Presto 创建表例子
// An highlighted blockCREATE TABLE orders ( city_id bigint, city_name varchar,);INSERT INTO cities VALUES (1, 'San Francisco');INSERT INTO cities VALUES (2, 'San Jose'), (3, 'Oakland');
2022-04-20 17:34:58 2544
原创 智能客服十大公司
容联云智齿科技小i机器人百分点科技图灵机器人七鱼科技追一科技乐言科技第四范式10.晓多机器人除了这些第三方的智能客服公司外,BAT,银行,运营商等头部公司都有自己的客服机器人部分。另外语音公司,科大讯飞,思必驰等也有智能客服部门。...
2021-09-19 22:28:57 2033
翻译 2021-07-14
什么是标签平滑过度自信和校准标签平滑公式标签平滑的动机一个具体的例子FAQ在使用深度学习模型进行分类任务时,我们通常会遇到以下问题:过度拟合、过度自信。 过度拟合得到了很好的研究,可以通过提前停止、辍学、权重正则化等来解决。另一方面,我们解决过度自信的工具较少。 标签平滑是一种正则化技术,可以解决这两个问题。过度自信和校准如果分类模型的预测结果概率反映了它们的准确性,则对分类模型进行校准。 例如,考虑我们数据集中的 100 个示例,每个示例的预测概率为 0.9。 如果我们的模型经过校准,那么应该正确分
2021-07-14 15:59:59 417
原创 NLTK中的语料资源
NTLK中不仅包括了算法程序,还有大量的语料资源。下面列举其中的一些语料资源Gutenberg语料库该语料库是一个文学作品语料库,包含了若干篇英美著名作家的作品,语言风格偏书面语,语料资源如下:>>> import nltk>>> nltk.corpus.gutenberg.fileids()['austen-emma.txt', 'au...
2018-02-12 13:48:34 1017
原创 机器学习面临的挑战和解决方法
今天看了微软亚洲研究院首席科学家刘铁岩博士分享的关于机器学习的六个挑战及解决思路的视频,做了如下总结。 1. 六个挑战 2. 解决方案 1. 六个挑战 2. 解决方案2.1 对偶学习 对偶学习是为了解决没有标注数据的问题,主要是利用了问题的双向性和强化学习来解决。2.2
2016-12-29 10:11:23 4309
原创 十个Chatbot框架介绍
Chatbot列表1. Artificial Intelligence Markup Language 网址:http://www.alicebot.org/ 机构/作者:Dr. Richard S. Wallace 流行程度:283,000 简介:这是一个自定义的AI语言,是XML语言的扩展,支持语言规约,开源了解析器,支持主流的所有编程语言。
2016-12-13 16:01:23 14356
翻译 google开源他的聊天机器人代码
chatbots 在2016年非常火热。Slack现在也有了一个chatbot; Facebook也发布了他的平台Messager;微软发布了Tay。现在Google改进了语言分析模块,纠正了过去的一些错误。 Google 宣布开源两个语言方面的研究成果。这两个研究成果是 SyntaxNet和Parsey McParsface. Parsey McParseface 分析英文
2016-11-29 16:41:51 11997
原创 word2vec中计算两个词的距离或者相似程度。
在word2vec中,有一个默认程序distance,可以用来计算给定词的最相近的top 40个词,但是不能计算给定两个词的相似程度。本程序对distance.c进行了修改,可以计算给定两个词的相似度。程序如下:// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License
2016-11-22 11:17:53 11372 2
原创 中文高频词
燡 : 1煶 : 1瘏 : 1鐣 : 1篒 : 1瓸 : 1暅 : 1昚 : 1琹 : 1萡 : 1斅 : 1璤 : 1厶 : 1荁 : 1ヌ : 1輈 : 1稦 : 1鍠 : 1瓥 : 1牶 : 1猋 : 1甏 : 1紦 : 1軇 : 1嫿 : 1怃 : 1琋 : 1誴 : 1毊 :
2016-09-08 12:14:27 46939
原创 英文高频词
('rods', 100)('carbohydrates', 100)('stresses', 100)('premiered', 100)('cyrus', 100)('drastically', 100)('eukaryotic', 100)('witchcraft', 100)('accompaniment', 100)('conventionally',
2016-09-08 12:11:28 647084 1
原创 测试矩阵乘法的例子
代码如下:import java.util.Date;public class Main { public static void main(String[] args){ float[][] m1=createFloatMatrix(1000,1000); float[][] m2=createFloatMatrix(1000,1000);
2015-06-05 15:27:56 862
原创 分治算法之快速排序
下面是分治算法的快速排序:public class QuickSort { public static int[] arr; public static void main(String[] args) { arr=new int[]{3,4,2,45,32,5,3,9}; QSort(0,arr.length-1); } public static void QSor
2015-06-01 19:59:59 1017
原创 分治算法解决二分查找
二分查找的递归算法:public class BS { public static void main(String[] args) { int[] arr = new int[10]; for (int i = 0; i < arr.length; i++) { arr[i] = (int)(Math.random()*...
2015-06-01 19:10:30 1399
原创 用回溯算法解决全排列问题
全排列问题的回溯解法:public class Permute { public int N; public int[] X; public static void main(String[] args) { new Permute().test(4); } public void test(int _N){ N=_N;X=new int[N]; for(int
2015-06-01 18:37:03 1869
原创 N皇后问题的回溯解法
N皇后问题的回溯解法:public class NQueen { static int[] path; static int N; public static void main(String[] args) { test(8); } public static void test(int _N){ N=_N; path=new int[N+1]; backT
2015-05-31 21:54:51 698
原创 用回溯法解决0-1背包问题
以下是没有剪枝的算法:public class Knapsack { static double C;//背包容量 static double[] P;//物品价值 static double[] W;//物品重量 static int N;//物品个数 static double bestP; static double currP; static double c
2015-05-31 15:52:41 757
翻译 理解偏差和方差平衡技术
Bias and VarianceUnderstanding how different sources of error lead to bias and variance helps us improve the data fitting process resulting in more accurate models. We define bias and variance in th
2014-08-27 20:58:13 6015 1
原创 WireShark中的过滤器
WireShark中有三种过滤器:捕获过滤器;显示过滤器和保存过滤器。1.捕获过滤器: 一个捕获过滤器由一个或者多个原语通过逻辑运算符组成符合BPF语法。 逻辑运算符:&&,||,!1.1 原语 一个原语有1至3个限定词和一个值组成。1.1.1方向限定词 Dir: src,dst1.1.2 类别限定词 Type: host,net,port
2013-08-03 10:52:57 1092
转载 overlapped模型
int main(){BOOL rc;HANDLE hFile;DWORD numread;OVERLAPPED overlap;char buf[512];char szPath=”x://xxxx/xxxx”;//检查系统,确定是否支持overlapped,(NT以上操作系统支持OVERLAPPED)CheckOsVers
2013-07-18 18:12:38 796
转载 c/c++ 标准预定义宏
原文地址: http://gcc.gnu.org/onlinedocs/cpp/Standard-Predefined-Macros.html#Standard-Predefined-Macros原文内容: 3.7.1 Standard Predefined Macros The standard predefined macros are specified by the
2013-07-18 15:19:37 901
转载 c/c++数据转换方法
1. C 风格(C-style)强制转型如下: 1.1 (T) exdivssion // cast exdivssion to be of type T函数风格(Function-style)强制转型使用这样的语法: 1.2T(exdivssion) // cast exdivssion to be of type T这两种形式之间没有本质上的不同,它纯粹
2013-07-17 18:03:01 749
原创 c语言函数参考
头文件 ctype.h字符测试是否字母和数字 isalnum是否字母 isalpha是否控制字符 iscntrl是否数字 isdigit是否可显示字符(除空格外) isgraph是否可显示字符(包括空格) isprint是否既不是空格,又不是字母和数字的可显示字符 ispunct是否空格 isspace是否大写字母 isupp
2013-07-14 15:31:27 1344
原创 《c++ templates 中文版》
第二章 函数模板 typename是随着模板产生的,所以产生较晚。c++为了兼容以前的class,也可以用class代替模板,但是不建议这么使用,因为模板参数并不一定是自定义类型,也可以是内置类型(基本类型)。template//template 也可以T AddFun(T a,T b){ return a+b;}
2013-07-14 11:34:45 1949
原创 关于c++中的引用
引用是C++的一个特性,而C语言没有。本文总结了>一书中关于引用的一些介绍 第五章 引用5.1引用介绍5.2引用参数c++允许重载运算符,以方便程序设计。而重载运算符肯定是相对于对象而言的,而不是指针,所以没有办法用指针,但是直接传对象进去,效率很低,所以在这种情况下,应该用引用。而且应该用const修饰引用参数。5.3引用返回值引用返回值使得函数可以做左值,这是
2013-07-10 18:09:41 1105
原创 数据库系统实现第四章笔记
第四章 索引概论:1.主索引;2.辅助索引;3.B树;4.散列表4.1顺序文件上的索引4.2辅助索引辅助索引不决定记录位置;辅助索引都是稠密索引。4.2.1 4.2.2 聚簇文件:解决多表索引问题。4.2.3辅助索引中的间接桶:用来减少键值的存放空间。从而减小索引文件。(适用于关系中有很相同键记录的情况)4.2.4文档索引和倒排索引一篇文档
2013-07-09 20:00:27 1040
原创 申请一个字节的空间可以做多少事?
int _tmain(int argc, _TCHAR* argv[]){ char* p=(char*)calloc(sizeof(char),1); for (int i=0;i<n;i++) { *(p+i)=0x30+i; } char *p2=(char*)calloc(sizeof(char),2);}这段代码的意图是测试只申请一个byte,到
2012-04-20 16:37:12 1150
原创 文本替换程序代码
本文是一个文本替换程序的源代码,代码只对ANSI做处理。 #include #include #include using namespace std;#define BLOCKSIZE 10void ReplaceMemMore(char* buff,char* src,char* dest);void ReplaceMemLess(char* buff,char
2011-12-01 09:34:58 3218
原创 微软记事本各种文件的文件头信息
微软记事本各种文件的文件头信息字符编码 文件头 数字 数字编码 汉字 汉字编码utf-8(有三个Byte): EF BB BF 1 0
2011-11-10 10:06:39 1683
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人