![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
实战区
文章平均质量分 81
迷迷迷迷路的鹿鹿
keep curious keep hungry
展开
-
pandas read_csv分隔符长度超过1
拿到公司一个数据文件,分隔符是|!自然用下面的代码进行读取pd.read_csv(path,sep='|!');然后非常慢,有一个warning:原创 2020-12-13 17:51:35 · 415 阅读 · 1 评论 -
记一道浪漫的LEETCODE 相交链表
原题:https://leetcode-cn.com/problems/intersection-of-two-linked-lists/编写一个程序,找到两个单链表相交的起始节点。如下面的两个链表:在节点 c1 开始相交。示例 1:输入:intersectVal = 8, listA = [4,1,8,4,5], listB = [5,0,1,8,4,5], skipA = 2, skipB = 3输出:Reference of the node with value = 8输入解释:相原创 2020-05-26 23:06:21 · 227 阅读 · 0 评论 -
python常用类型操作
文章目录Numeric Types — int, float, complexSequence Types — list, tuple, range不可变类型NumbersStringTuple可变类型ListSetDictionaryNumeric Types — int, float, complexOperationResultx + ysum of x and yx - ydifference of x and yx * yproduct of x and原创 2020-05-23 22:57:53 · 286 阅读 · 0 评论 -
LeetCode刷题分类练习
文章目录(一)分治法(二)动态规划法(三)贪心法(四)回溯法文字转载:https://baijiahao.baidu.com/s?id=1660742044135451900&wfr=spider&for=pc(一)分治法适用特征:该问题的规模缩小到一定的程度就可以容易地解决;可以分解为若干个规模较小的相同问题,即该问题具有最优子结构性质;利用该问题分解出的子问题的解可以合并为该问题的解;所分解出的各个子问题是相互独立的,即子问题之间不包含公共的子子问题。典型代表:二分搜索、棋盘覆盖原创 2020-05-20 14:27:43 · 397 阅读 · 0 评论 -
Leetcode 刷题经验总结 C++版
文章目录一 容器1.vector2.stack3.queue, deque4. set,multiset5. map,multimap,hashmap二 常用类1. string三 常用函数1. sort()2. next_permutation()3. strtok()4. atoi(), atol(), atof()5. sprintf()6. strtol()一 容器每个容器都提供了很多方法,这里只介绍最适用于这种数据结构的一些方法,并且在做题时候会常用的一些方法。1.vectorvector原创 2020-05-17 23:57:48 · 1776 阅读 · 0 评论 -
pytorch基本建模流程
首先一个模型训练过程的基本框架:DataSet 数据格式化Dataloader 数据载入model 模型定义lossfunction 损失函数定义optimizer 优化器1. DataSet基类class Dataset(object): r"""An abstract class representing a :class:`Dataset`. All ...原创 2020-03-31 13:59:05 · 582 阅读 · 0 评论 -
使用streamsets实现mysql到hbase的实时数据流同步
streamsets的下载流程:(我建议下载full版本的)https://blog.csdn.net/yao09605/article/details/104098797streamsets的同步过程全程是无代码的下面我介绍整个流程,以及我遇到的坑和排坑方法下载完之后我们照例直接解压,放到srv目录下,然后更改权限,编辑.bashrc 增加一个STREAMSETS_HOME这里简单写一...原创 2020-01-30 16:00:34 · 1515 阅读 · 3 评论 -
ubuntu更改mysql root的密码
使用streamset的时候要求链接mysql的用户是有root权限的用户但是mysql初始的root用户没有密码,也有可能是我忘记密码了$ mysql -u root这样无法访问但是$ sudo mysql -u root可以访问...原创 2020-01-28 18:31:13 · 278 阅读 · 0 评论 -
下载Streamsets及各种坑
本人最近在尝试Hadoop上面各种功能,听说Streamsets可以实时同步数据流,尝试下载Streamsets官网下载:https://streamsets.com/products/dataops-platform/open-source/也可以直接复制下面的下载链接https://archives.streamsets.com/datacollector/3.13.0/tarball/...原创 2020-01-28 12:37:24 · 3160 阅读 · 2 评论 -
sqoop: mysql导入数据到hdfs, hive, hbase
mysql 导入 hdfs#启动hadoop$ start-dfs.sh$ start-yarn.sh$ jps2706 NameNode3334 ResourceManager3495 NodeManager3112 SecondaryNameNode3848 Jps2873 DataNode# sqoop energydata是数据库名,average_price...原创 2020-01-19 17:52:05 · 367 阅读 · 0 评论 -
hive连接mysql之疯狂踩坑
这次真的是非常吐血,虽然网上有很多排错教程,但介于我踩的坑实在太多,所以记录一下整个汇总信息故事要从hive启动开始,如果你的hive启动不起来,是因为你的$HADOOP_HOME/etc/hadoop/hadoop-env.sh 当中的HADOOP_CLASSPATH配置的不对,这个不用配置哈,使用默认的就可以。我是画蛇添足了。启动hive之后:hive> show databas...原创 2020-01-15 22:08:41 · 512 阅读 · 0 评论 -
spark-submit --master yarn 需要增加的配置WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set
$ jar -cv0f spark-libs.jar -C $SPARK_HOME/jars/ .$ dfs -mkdir /system$ dfs -mkdir /system/SparkJars$ dfs -mkdir /system/SparkJars/jar$ hdfs dfs -put spark-libs.jar /system/SparkJars/jar原创 2020-01-14 17:07:08 · 315 阅读 · 0 评论 -
在Hadoop上发布spark作业
这次的例子是计算航空公司的平均延迟时间,并画图直接上代码:import csvimport matplotlib.pyplot as pltimport matplotlib as mplmpl.use("TkAgg") # Use TKAgg to show figuresfrom StringIO import StringIOfrom datetime import datet...原创 2020-01-14 15:08:20 · 121 阅读 · 0 评论 -
Spark在本地及Hadoop上运行方式
刚刚安装了Hadoop以及spark就非常兴奋的想要试用一下,我们还是拿Wordcount这个小应用来实验首先实验本地版本的pyspark$ pysparkshell就启动起来了>>> sc.masteru'local[*]'可以看到是本地master>>> text = sc.textFile("shakespeare.txt")>&...原创 2020-01-12 21:00:06 · 1474 阅读 · 0 评论 -
Hadoop上的python框架实现map-reduce
map-reduce框架里面由一个mapper和reducer组成以键值对的方式处理数据以对文本中的单词计数为例mapper所做的事情就是简单的拆分每一行的单词,并且以单词 1这样的格式输出到stdout然后经过一个shuffle 和 sort,使mapper的输出根据键值排序,然后分发给reducer,reducer做的事情就是将键值相同的输出后面的value相加,然后输出到stdou...原创 2020-01-12 13:02:23 · 264 阅读 · 0 评论 -
Hadoop基本文件系统操作
环境配置参看我前面的文章。https://blog.csdn.net/yao09605/article/details/103916116我这里用的是Hadoop用户,先给自己在hdfs(文件系统)上建一个工作空间新建目录# 必须是/user/用户名$ hadoop fs -mkdir /user/hadoop上传文件到分布式文件系统我先准备了一个Shakespeare.txt放在...原创 2020-01-11 23:01:04 · 199 阅读 · 0 评论 -
Ubuntu配置Hadoop——(七)安装配置Spark
本系列最后一篇spark是可以发布到hadoop上运行的数据分析工具。spark是去官网上下载,地址:http://spark.apache.org/downloads.html然后解压缩$ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz$ sudo mv spark-1.5.2-bin-hadoop2.4 /srv/spark-1.5.2$ ln -s ...原创 2020-01-11 18:04:52 · 151 阅读 · 0 评论 -
Ubuntu配置hadoop——(六)配置Hbase
我犯了个错误,Hbase里面自带了zookeeper,其实不需要另外装zookeeper,但装了就装了,把端口用不同的就可以。然后如果刚刚启动了另外的zookeeper,就先把zookeeper停掉$ sudo su hadoop$ zkServer.sh stop下面开始配置hbase第一步,下载,解压网址: http://www.apache.org/dyn/closer.cgi/...原创 2020-01-11 17:24:41 · 223 阅读 · 0 评论 -
Ubuntu配置Hadoop——(五)配置Zookeeper
第一步,下载,解压Zookeeper下载网址:https://www.apache.org/dyn/closer.cgi/zookeeper/读者可以自己找喜欢的版本下载注意,这里权限设置非常重要!!$ sudo wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz ...原创 2020-01-11 17:05:36 · 181 阅读 · 0 评论 -
Ubuntu配置Hadoop——(三)安装MySql以及Sqoop
安装Mysql$ sudo apt-get update$ sudo apt-get -install mysql-server初始化配置:$ sudo mysql_secure_installation检查mysql服务状态$ systemctl status mysql.service安装Sqoop第一步,下载网页:http://www.apache.org/dyn/c...原创 2020-01-10 15:44:10 · 327 阅读 · 0 评论 -
Ubuntu配置Hadoop——(二)安装配置Hadoop
上一篇文章已经做好了环境准备。终于可以开始安装HADOOP了。注意!这里我们要切换回root用户了第一步,下载在这个网址找到你想安装的版本:http://www.apache.org/dyn/closer.cgi/hadoop/common可以选择它推荐的下载镜像,然后选择好下载地址。这里我选择的是2.10.0版本:$ curl -O https://mirrors.tuna.tsin...原创 2020-01-10 11:13:45 · 380 阅读 · 0 评论 -
Ubuntu配置Hadoop——(一)准备工作
首先配置一个可以用的虚拟机环境,我使用的是Virtual Box上面安装的Ubuntu desktop版。在一开始分配硬盘的时候尽量大一点,我一开始只分配了10G,结果装到一半满了,连虚拟机都打不开。(改天写一下虚拟机打不开怎么办)。建议分配虚拟硬盘100G。安装完linux环境之后,第一步先确保系统是最新的$ sudo apt-get update && sudo apt-g...原创 2020-01-09 21:27:20 · 111 阅读 · 0 评论 -
【手把手机器学习入门到放弃】朴素贝叶斯
naive bayes朴素贝叶斯算法想法非常简单,根据贝叶斯公式,通过先验概率计算后验概率,原理不多赘述,网上可以查到很多。这里值得一提的是根据The Optimality of Naive BayesHarry ZhangFaculty of Computer Science University of New Brunswick Fredericton, New Brunswick...原创 2019-11-23 11:27:51 · 398 阅读 · 0 评论 -
【手把手机器学习入门到放弃】Random Forest && Extremely Randomized Trees参数全解析
随机森林 Random Forest && Extremely Randomized Trees多种树有利于提高分类准确率随机森林 Random Forest 是在决策树的基础上进行两种随机随机选取一个数据集的一个子集作为样本随机选取部分特征或者全部特征作为待选择特征库超随机树 Extremely Randomized Trees在随机森林的基础上对分裂阀值进...原创 2019-11-14 16:12:22 · 2749 阅读 · 0 评论 -
【手把手机器学习入门到放弃】sklearn决策树及其调参完全指南
使用sklearn构建决策树,并调优sklearn学习包里的tree模块实现的就是CART树,但目前不支持离散变量的输入。from sklearn import treefrom sklearn.model_selection import train_test_splitimport graphvizfrom sklearn import metricsimport pandas a...原创 2019-11-06 17:34:18 · 5071 阅读 · 1 评论 -
【手把手机器学习入门到放弃】决策树ID3,C4.5,CART解析
决策树决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。本文将使用目前常用的几种决策树算法对美国人群收入数据进行建模,并比较几种不同决策树的特点。ID3 Iterative Dichoto...原创 2019-11-06 17:26:46 · 327 阅读 · 0 评论 -
【手把手机器学习入门到放弃】神经网络初探MNIST手写数字识别
神经网络 DEEP NURAL NETWORK关于什么是神经网络可以参考这篇文章 https://www.cnblogs.com/lliuye/p/9183914.html这里我们使用经典的MNIST手写数字数据集,结合tensorflow做一个简单的神经网络1. MNIST 数据集介绍一共4个文件,训练集、训练集标签、测试集、测试集标签train-images-idx3-ubyte....原创 2019-11-02 21:24:23 · 271 阅读 · 0 评论 -
【手把手机器学习入门到放弃】SVM支持向量机
支持向量机打仗的时候只有站最前面的人在打而已支持向量机也是完成分类问题的一个工具,不同于逻辑回归,在支持向量机解决的分类问题中,只有最靠近对方阵营的样本对分界线的确定起到作用,而远离分界线的那些样本对分界线的确定没有作用。在这样的机制下,SVM拥有更好的鲁棒性,受离群点的影响几乎可忽略不计。本次演示使用美国成人收入统计模型数据说明如下:age: continuous.workcl...原创 2019-10-29 21:04:40 · 1394 阅读 · 0 评论 -
【手把手机器学习入门到放弃】逻辑回归不是回归
逻辑回归逻辑回归是最简单的解决分类问题的方法逻辑回归可以用来解决二分类问题逻辑回归的主要思想是将判断0或1,转化为判断该样本是1的概率逻辑回归的结果容易受每个样本的影响下面就开始吧,本次使用的是IRIS数据集,对鸢尾花进行分类。变量信息如下:sepal length in cmsepal width in cmpetal length in cmpetal width i...原创 2019-10-26 22:01:23 · 342 阅读 · 0 评论 -
【手把手机器学习入门到放弃】从线性回归开始
终于开新坑了~线性回归是指将数据拟合成 y=a1x1+a2x2+a3x3...+anxn+b+ϵy=a_1x_1+a_2x_2+a_3x_3...+a_nx_n+b +\epsilony=a1x1+a2x2+a3x3...+anxn+b+ϵ的形式通过训练模型获得参数 a1,a2,...,an,ba_1, a_2, ..., a_n, ba1,a2,...,an,b从...原创 2019-10-24 15:56:11 · 286 阅读 · 0 评论 -
【手把手机器学习入门到放弃】从线性回归开始
终于开新坑了~线性回归是指将数据拟合成 y=a1x1+a2x2+a3x3...+anxn+b+ϵy=a_1x_1+a_2x_2+a_3x_3...+a_nx_n+b +\epsilony=a1x1+a2x2+a3x3...+anxn+b+ϵ的形式通过训练模型获得参数 a1,a2,...,an,ba_1, a_2, ..., a_n, ba1,a2,...,an,b从...原创 2020-01-15 22:10:10 · 1311 阅读 · 1 评论 -
【机器学习】Matlab RBF网络
by 狐狐的鹿鹿RBF理解:RBF网络为径向基网络。基本结构:一般为两层网络,n-N-m结构。其中n为预测变量X的特征数,m为响应变量Y的特征数。即X是一个n维向量,Y是一个m维向量。如果把一个向量看作一个节点,实际上就是1-N-1。N是中心点的个数,可以从训练集中分布均匀的选取一些X作为中心点。隐层到输出则使用权值连接。基本思想:RBF网络可以逼近任意曲线或曲面或超曲面。方法是认为任...原创 2018-12-09 20:41:58 · 1184 阅读 · 0 评论 -
【体系结构】使用Roofline model 分析GPU性能
Roofline model 评估深度学习模型在GPU上运行的性能本文使用Roofline model方式评估GeForce RTX 2060和TITAN V两款GPU上分别运行AlexNet以及VGGnet的性能。GPU性能参数根据NVDIA官网数据,GeForce RTX 2060 的峰值算力是7.5 TFLOPS,存储器带宽是336GB/s,TITAN V的峰值算力是7.0 TFLO...原创 2019-06-12 17:27:17 · 2900 阅读 · 0 评论 -
【爬虫】scrapy爬取股票历史数据并保存成CSV文档
这个爬虫是接着上个爬虫做的,先送上传送门:https://blog.csdn.net/yao09605/article/details/94596341我们的目标网址是http://quotes.money.163.com/trade/lsjysj_股票代码.html股票代码的来源就是上个爬虫存到mongodb里面的股票列表先在terminal中新建项目:scrapy startpro...原创 2019-07-05 17:41:07 · 2812 阅读 · 1 评论 -
【爬虫】scrapy下载股票列表(一)——对接selenium中间件
先送上传送门,scrapy中文网,画风清奇的使用说明网站:http://www.scrapyd.cn/doc/139.html安装完python就可以一键安装scrapy了pip3 install scrapy新建一个项目scrapy startproject stock看到如下输出:You can start your first spider with: cd st...原创 2019-06-29 16:30:36 · 861 阅读 · 0 评论 -
【爬虫】scrapy中import selenium 失败的解决方案
在使用selenium作为scrapy中间件的时候会发现import selenium失败,只有在scrapy中失败(不是所有人都有这个问题,我运气可能比较差)ModuleNotFoundError: No module named 'selenium'前提是已经安装了selenium,没安装的话pip install selenium打开pycharm中的preference,win...原创 2019-06-29 14:53:55 · 1449 阅读 · 2 评论 -
【爬虫】scrapy下载股票列表(四)——对接mongodb保存数据
本文是本项目最后一篇,撒花!前三篇传送门:【爬虫】scrapy下载股票列表(一)——对接selenium中间件:https://blog.csdn.net/yao09605/article/details/94147708【爬虫】scrapy下载股票列表(二)—— 内容解析及中间件模拟翻页:https://blog.csdn.net/yao09605【爬虫】scrapy下载股票列表(三...原创 2019-07-04 10:40:16 · 1299 阅读 · 0 评论 -
【爬虫】scrapy+selenium自动滚动页面爬取百度百科术语分类
看之前的贴就知道我最近对股票有点兴趣,可是我对股票一窍不通怎么办呢。发现了一个网站https://baike.baidu.com/wikitag/taglist?tagId=62991长这样:感觉很不错,一下子基本上涵盖了大多数的相关概念,往下翻了几下,是在太多了。一个个点不知道要看到什么时候,不如写个爬虫爬下来把。爬文字和网页很基础,直接看代码:import scrapyimpor...原创 2019-07-09 17:20:09 · 903 阅读 · 0 评论 -
【爬虫】scrapy下载股票列表(三)—— 设置日志
有些爬虫需要多次运行,这里记录一下如何配置日志记录在settings.py中加入如下代码:import datetimeBOT_NAME = 'stock'SPIDER_MODULES = ['stock.spiders']NEWSPIDER_MODULE = 'stock.spiders'to_day = datetime.datetime.now()logfile_pat...原创 2019-07-03 14:16:12 · 300 阅读 · 0 评论 -
【爬虫】scrapy下载股票列表(二)—— 内容解析及中间件模拟翻页
上回做到把一个页面里面的整个HTML爬下来,下面我们要从中提取我们需要的数据。先试一下取一个数方法很简单,找到网页中对应的HTML代码,右键copy->copy Xpath def parse(self,response): stock_id = response.xpath('//*[@id="table_wrapper-table"]/tbody/tr[1]/td[2]/a...原创 2019-07-03 14:11:11 · 510 阅读 · 2 评论