Tinsonz
码龄6年
关注
提问 私信
  • 博客:50,207
    50,207
    总访问量
  • 33
    原创
  • 144,278
    排名
  • 12
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2018-11-28
博客简介:

Tinson写字的地方

博客描述:
天行健,地势坤
查看详细资料
  • 原力等级
    成就
    当前等级
    1
    当前总分
    54
    当月
    0
个人成就
  • 获得15次点赞
  • 内容获得2次评论
  • 获得54次收藏
创作历程
  • 3篇
    2024年
  • 1篇
    2023年
  • 1篇
    2020年
  • 24篇
    2019年
  • 5篇
    2018年
成就勋章
TA的专栏
  • 大数据
    21篇
  • scala
    1篇
  • 数据格式处理
    1篇
  • mysql
    4篇
  • linux
    3篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

机器学习笔记03

波士顿房价预测(在sklearn1.2中已删除,http://lib.stat.cmu.edu/datasets/boston)K-means原理:一种基于划分的无监督聚类算法,其核心思想是将数据集划分为k个簇,使得每个数据点都属于最近的簇,是利用回归方程(函数)对一个或者多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方法。总共有100人,如果99个样本是癌症,1个样本非癌症 --样本不均衡。是否患病/是否为金融诈骗/ 是否为虚假账号。损失函数/cost/成本函数/目标函数。
原创
发布博客 2024.05.08 ·
598 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

机器学习笔记-02

2.estimator.fit(x_train,y_train) 计算每一列的平均值、标准差。transform() (x - mean) / std 进行最终的转换。2.对数据进行分割处理(训练集特征值、测试集特征值、训练集目标值、测试集目标值)优点:对缺失数据不太敏感,算法也比较简单,常用与文本分类,分类准确定高,速度快。:为了解决零概率的问题,用加1的方法估计没有出现过的现象的概率。2)对比测试集特征值和测试集目标值,算出准确率。fit() 计算每一列的平均值、标准差。
原创
发布博客 2024.05.06 ·
363 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

机器学习笔记-01

基础书籍:机器学习 -”西瓜书”- 周志华 统计学习方法 - 李航 深度学习 - “花书”* 获取小规模的数据集 sklearn.datasets.load_iris()关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少。应用场景:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。测试集:在模型检验时使用,用于评估模型是否有效,20%~30%- 类别–》one-hot 编码。矩阵 matrix 二维数组。TF-IDF - 重要程度。
原创
发布博客 2024.04.26 ·
492 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

【无标题】当天数据为空,则取最近一天有值的数据为当天的值

这样就能补充好为空值的数据了,喜提星巴克一杯。
原创
发布博客 2023.10.18 ·
293 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

pyspark使用随笔

最近在使用python中pyspark来处理RDD的问题,顺便记录相关基础知识与心得。class pyspark.SparkContext ( master = None, appName = None, sparkHome = None, pyFiles = None, environment = None, batchSize = 0, s...
原创
发布博客 2020.03.27 ·
212 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux服务器使用df和du命令,磁盘占用情况不一样的解决方法

linux服务器一直报警,使用df -h查看磁盘占用情况的时候挂载目录/opt 占用100%,但是使用du -h --max-depth=1 时发现磁盘的占用空间和df -h的不一样。原因分析:du - estimate file space usage du命令会对统计文件逐个调用fstat这个系统调用,获取文件大小。它的数据是基于文件获取,可以跨多个分区操作。df - repor...
原创
发布博客 2019.11.18 ·
783 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

crontab执行不成功,但是手动执行成功的问题

我写好的一个python脚本,通过crontab定时执行,但是却不成功10 2 * * * python /home/ztx/growingio_funnels/readfunnels.py最后通过在网上查看发现可能是路径问题。路径分为绝对路径和相对路径,如果在profile文件中没有配置,直接写python会默认到/usr/bin/python,初装的python版本为2.X。但是我...
原创
发布博客 2019.11.13 ·
858 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

centos7.4安装MySQL5.7及后续遇到的问题与解决方法

可以直接使用yum源安装,详见:https://blog.csdn.net/pzl_pzl/article/details/82015144安装过程中报错:[root@localhost bin]# mysql -u root -pEnter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (...
原创
发布博客 2019.09.16 ·
142 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Maxcompute分区表插入数据

1.创建分区表create table aaa(id bigint,name string) partitioned by (adress string);2.创建分区字段alter table aaa add if not exists partition (adress = ‘shanghai’);3.向分区表里插入数据insert into aaa partition(adress...
原创
发布博客 2019.07.04 ·
1833 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

flume监控mysql数据推送到kafka

前提:1.需要安装flume服务2.mysql-connector-java-5.1.35-bin.jar需要有这个连接的jar包,且版本要一致。3.status.file.path 路径需要给予flume相应的权限(chmod)a1.channels = c1a1.sources = r1a1.sinks = k1a1.sources.r1.type = org.keedio.f...
原创
发布博客 2019.07.03 ·
1992 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

kafka监控工具KafkaOffsetMonitorji的安装与问题

黑窗口的kafka集群没有监控,可以使用三方开源的监控工具,查询了些资料,网上流传最多的有三个监控工具:Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor。在此,笔者选用的是KafkaOffsetMonitorKafkaOffsetMonitor的软件包下载地址在GitHub,可以直接在linux中使用wget即可下载。wget http...
原创
发布博客 2019.06.26 ·
184 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka的broker的参数配置

原创
发布博客 2019.05.27 ·
283 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH添加Hue服务时遇到的坑

一、Hue验证数据库连接时不能正常连接Unexpected error. Unable to verify database connection CDH 5.10.0解决方法:在相同系统中/usr/lib64/mysql找到libmysqlclient_r.so.18.0.0然后复制到需要的服务器上ln -s libmysqlclient_r.so.18.0.0 libmysqlcl...
原创
发布博客 2019.04.26 ·
2821 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

HIVE创建外部表

基础建表语句:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]...
原创
发布博客 2019.04.26 ·
14398 阅读 ·
1 点赞 ·
0 评论 ·
15 收藏

Hive On Spark报错:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException

Hive On Spark报错:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException我的问题是因为版本不兼容。HIVE | SPARK3.0.x | 2.3.02.3.x | 2.0.02.2.x | 1.6.02.1.x | 1.6.02.0.x | 1.5...
原创
发布博客 2019.04.24 ·
1284 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark-shell客户端连接hive

1.拷贝hive-site.xml到spark/conf下,拷贝mysql-connector-java-xxx-bin.jar到hive/lib下2.开启hive元数据服务:hive --service metastore3.开启hadoop服务:sh $HADOOP_HOME/sbin/start-all.sh4.开启spark服务:sh $SPARK_HOME/sbin/start...
原创
发布博客 2019.04.23 ·
1868 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

CDH安装SPARK2.3

在我的CDH5.14集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。这里做一下安装spark2.3版本的步骤记录。一. 安装准备1.csd包:http://archive.cloudera.com/spa...
原创
发布博客 2019.04.15 ·
884 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

开发随笔

2019.4.15shell脚本修改后,(1)./test.sh(2)sh test.sh运用其中一种方式进行申明更新。.sh文件才会生效
原创
发布博客 2019.04.15 ·
135 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CM5.14.4离线安装及卸载(详细版本,含MYSQL卸载)

uname -a 查看服务器版本Linux datanode1 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux选择对应的CDH 安装包http://archive.cloudera.com/cm5/cm/5/http://archive.clouder...
原创
发布博客 2019.04.11 ·
2979 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql随笔

delete from 表名;truncate table 表名;不带where参数的delete语句可以删除mysql表中所有内容,使用truncate table也可以清空mysql表中所有内容。效率上truncate比delete快,但truncate删除后不记录mysql日志,不可以恢复数据。delete的效果有点像将mysql表中所有记录一条一条删除到删完,而truncate相...
原创
发布博客 2019.03.07 ·
155 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多