金融小白数据分析之路
小白数据分析、前后端开发工作者
展开
-
用最简单的方法对大数据进行处理 vs spark(不需要安装大数据处理工具)
不需要安装大数据处理工具,用最简单的方法对大数据进行处理 vs spark原创 2024-07-29 15:43:00 · 215 阅读 · 0 评论 -
java读写及处理csv文件
java读写csv原创 2022-11-26 11:24:23 · 588 阅读 · 0 评论 -
docker安装centos7
错误 Unit firewalld.service could not be found。service命令 bash: service: command not found。service firewalld restart 重启。service firewalld start 开启。service firewalld stop 关闭。原创 2022-10-25 10:12:32 · 454 阅读 · 0 评论 -
pyspark性能优化之join(放弃isin)
pandas isin 长期使用速度非常快pyspark isin 对比速度非常的慢思路参考文章https://www.pythonheidong.com/blog/article/400508/6b647ae338b352406ce5/以下为改进的操作#leftouter操作fmqd=pd.read_excel('2022年负面清单.xlsx')# 字段需要指定,不然会出现报错fmqd['项目编码']=fmqd['项目编码'].astype(str)# 字段名相同容易joinfmqd.原创 2022-02-21 16:38:17 · 1934 阅读 · 0 评论 -
sqoop使用将mysql 与hadoop导入导出
# 1. mysql 创建表CREATE database imooc;use imooc;CREATE table user(id int(10),name varchar(64));INSERT INTO user(id,name) VALUES (1,'jack');INSERT INTO user(id,name) VALUES (2,'tom');INSERT INTO user(id,name) VALUES (3,'mike');# 查看表SELECT * FROM imooc原创 2022-02-10 20:32:07 · 159 阅读 · 0 评论 -
python操作hive(四)
# 开发流程from pyhive import hive# 创建hive连接对象conn=hive.Connection(host='192.168.206.100',port=10000,username='root',database='orderdb')# 创建游标cursor=conn.cursor()sql='select * from order6'# 执行sqlcursor.execute(sql)# 遍历数据for result in cursor.fetchall()原创 2022-02-07 20:10:29 · 1567 阅读 · 0 评论 -
mysql部署hive(一)
一、配置mysql先安装mysqlwget http://dev.MYSQL.com/get/MYSQL57-community-release-el7-8.noarch.rpmyum localinstall MYSQL57-community-release-el7-8.noarch.rpmyum repolist enabled | grep “mysql.-community.”yum install mysql-community-server报错信息‘’’warning: /va原创 2022-02-05 10:20:41 · 1056 阅读 · 0 评论 -
python 实战 hbase创建订单(三)
from hbase import Hbasefrom thrift.transport import TSocketfrom hbase.ttypes import *def create_table(): # 定义列族 anchor_column=ColumnDescriptor(name='brand') client.createTable('order',[anchor_column])def get_order_list(file): with open(原创 2022-02-04 12:43:41 · 996 阅读 · 0 评论 -
python操作hbase 插入、获取与删除数据(二)
from hbase import Hbasefrom thrift.transport import TSocketfrom hbase.ttypes import *transport=TSocket.TSocket('192.168.206.100',9090)protocal=TBinaryProtocol.TBinaryProtocol(transport)client=Hbase.Client(protocal)transport.open()column_family='anch原创 2022-02-04 11:36:07 · 1044 阅读 · 0 评论 -
python操作hbase创建表(一)
python 通过thrift来操作hbase在开发环境安装python库 pip install thrift pip install hbase-thrifthbase 中需要开启 hbase-daemon.sh start thrifthadoop、hbse 、Zookeeper 都需要开启from hbase import Hbasefrom thrift.transport import TSocketfrom hbase.ttypes import *# 一定原创 2022-02-04 09:59:02 · 1610 阅读 · 0 评论 -
python 使用mapreduce
hadoop jar /data/soft/hadoop-3.2.0/share/hadoop/tools/lib/hadoop-streaming-3.2.0.jar \-input /input/example.txt \-output /opt/test_datasource/output \-mapper "python FruitMapper.py" \-reducer "python FruitReducer.py" \-file /opt/pymapreduce/FruitMapp.原创 2022-02-03 23:20:48 · 321 阅读 · 0 评论 -
python操作hdfs
第一步安装好hadoop集群配置安装 python hdfs 客户端修改hdfs 根目录权限hdfs dfs -chmod 777 /from hdfs import Client# 连接ip client = Client("http://192.168.206.100:9870/", root="/")# 在根目录下创建mydir目录client.makedirs("/mydir")data = client.list("/")print("查看根目录下的子目录:", da原创 2022-02-03 21:41:05 · 1369 阅读 · 0 评论 -
docker快速布局flink
1.注册了腾讯云轻量服务器 自带dockerPermission denied (publickey,gssapi-keyex,gssapi-with-mic)2. 远程访问 两个参数修改 (yes)轻量应用服务器ssh登录报错Permission denied您好,ssh连接轻量应用服务器,出现以下报错:Permission denied (publickey,gssapi-keyex,gssapi-with-mic)解决方法:1.通过VNC登录服务器2.修改ssh服务配置文件/etc/原创 2022-01-07 10:59:16 · 1029 阅读 · 1 评论 -
PySpark: java.lang.OutofMemoryError: Java heap space
from pyspark.sql import SparkSession# 调整spark.driver.memory 大小设置根据实际环境调整spark = SparkSession.builder \ .master('local[*]') \ .config("spark.driver.memory", "15g") \ .appName('my-cool-app') \ .getOrCreate()参考资料https://stackoverflow.com/原创 2021-12-28 21:32:07 · 1858 阅读 · 8 评论 -
pyspark使用windows单机处理100g以上csv,突破pandas内存限制
运行环境spark3、三星980内存、i7-10700k, 5分钟处理好。主要使用CPU和固态硬盘换取内存处理,速度处理快于内存处理,spark自带分布式处理。py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled does not exist in the JVM报错引入import findsparkfindspark.init()import findsparkfinds原创 2021-12-26 19:08:53 · 1610 阅读 · 0 评论 -
clean (default-clean) on project update_user_level: Failed to clean project: Failed to delete
Failed to execute goal org.apache.maven.plugins:maven-clean-plugin:2.4.1:clean (default-clean) on project update_user_level: Failed to clean project: Failed to delete文件有打开或者当前目录没有关闭原创 2021-12-20 10:28:46 · 295 阅读 · 0 评论 -
bash: $’\r’: command not found
问题解决这是因为Windows系统的文件换行使用的是\r\n,而Unix系统是\n主要切换换行符号原创 2021-12-16 13:35:57 · 825 阅读 · 0 评论 -
org.neo4j.driver.exceptions.ClientException: The client has provided incorrect authentication detail
neo4j密码输入不正确原创 2021-12-16 11:10:11 · 1683 阅读 · 0 评论 -
hadoop和spark开启日志
# 开启日志[root@bigdata04 neo4j-community-3.5.21]# cd /data/soft/spark-2.4.3-bin-hadoop2.7[root@bigdata04 spark-2.4.3-bin-hadoop2.7]# sbin/start-history-server.sh[root@bigdata01 hadoop-3.2.0]# history | grep mapred 59 vi mapred-site.xml 63原创 2021-12-16 11:08:26 · 1048 阅读 · 0 评论 -
centos7安装mysql-client -bash: mysql :command not found
需要安装mysql clienthttps://www.cnblogs.com/buxizhizhoum/p/11725588.html原创 2021-12-09 21:28:35 · 799 阅读 · 0 评论 -
/bin/sh: cc: command not found make[1]: *** [adlist.o] Error 127 make[1]: Leaving directory `/data/s
一、/bin/sh: cc: command not found在linux系统上对redis源码进行编译时提示提示“make cc Command not found,make: *** [adlist.o] Error 127”。这是由于系统没有安装gcc环境,因此在进行编译时才会出现上面提示,当安装好gcc后再进行编译时,上面错误提示将消失。需要运行这个(缺少C语言环境,需要安装)yum install gcc参考https://blog.csdn.net/weixin_42056745/a原创 2021-11-23 12:05:40 · 5098 阅读 · 0 评论 -
ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user ‘
错误原因分析三点:复制过来密码没有修改导致没有访问权限,其他有可能是没有开启远程权限或者是访问路径不对。参考https://blog.csdn.net/weiyongle1996/article/details/76201364原创 2021-11-20 20:32:45 · 1368 阅读 · 0 评论 -
scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps;
这个错误就是版本不匹配不正确 spark不匹配scala版本的原因版本修改前的错误版本修改后解决,红色是因为运行在windows环境下面的原因原创 2021-11-13 21:36:10 · 4553 阅读 · 0 评论 -
hbase增删改查
package com.imooc.hbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apa原创 2021-11-08 13:31:17 · 1615 阅读 · 0 评论 -
Underlying cause: java.sql.SQLException : Access denied for user ‘root‘@‘bigdata04‘ (using password:
hive 连接mysql 出错参考https://my.oschina.net/u/4333569/blog/3859934原创 2021-11-06 16:58:45 · 2014 阅读 · 0 评论 -
pyspark进行操作mysql
需要进行安装的内容https://zhuanlan.zhihu.com/p/136777424原创 2021-06-10 13:36:37 · 263 阅读 · 0 评论 -
windows下用pyspark连接mysql数据库
这一步一般都能找到资料这一步很关键增加环境变量使用方法https://www.jianshu.com/p/0ff91b0d69af下载链接https://mvnrepository.com/artifact/mysql/mysql-connector-java/8.0.25原创 2021-07-05 16:45:55 · 304 阅读 · 0 评论 -
pyspark Exception in thread “refresh progress“ java.lang.OutOfMemoryError GC overhead limit exceeded
from pyspark.sql import SparkSession# 出错设置# https://blog.csdn.net/qq_35744460/article/details/83650603'''.config("spark.debug.maxToStringFields", "100") \'''# 另外一个错误 Exception in thread "refresh progress" java.lang.OutOfMemoryError: GC overhead li原创 2021-07-06 09:18:26 · 955 阅读 · 0 评论