spark在 python 中运用

最新推荐文章于 2024-08-01 10:54:58 发布

瓶瓶罐罐的

最新推荐文章于 2024-08-01 10:54:58 发布

阅读量688

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/zhplz123/article/details/118703757

版权

博客探讨了Spark在Python中的应用，重点关注其核心组件RDD的特性，包括只读性质，分布式处理能力，弹性计算（当内存不足时自动与磁盘交互）以及基于内存的高效缓存机制。

摘要由CSDN通过智能技术生成

RDD属性。

只读：不能修改，只能通过转换操作生成新的 RDD。
分布式：可以分布在多台机器上进行并行处理。
弹性：计算过程中内存不够时它会和磁盘进行数据交换。
基于内存：可以全部或部分缓存在内存中，在多次计算间重用

# -*- coding: utf-8 -*-
# uptime  8 月 26
import requests
#  v36 二级违禁专项排查
import time
import json
import MySQLdb,zlib
import os
import sys
sys.path.append(os.path.join(os.path.dirname(__file__), os.pardir, os.pardir))
import xlrd
env = os.environ
from pyspark import SparkContext
from pyspark.sql import  SparkSession
os.system('mkdir %s' % env['BUILD_NUMBER'])

from weijin_data.utils.validate_data import download
# # 根据表单数据，下载资源并进行验证
weijin_link = env.get('weijin_link')
print(weijin_link)
print('===========')

# 下载文件
save_path = download(weijin_link,file_name='weijin.xlsx')
print(save_path)
book = xlrd.open_workbook(save_path,encoding_override='utf-8')
# book = xlrd.open_workbook('全站违禁词列表 .xlsx',encoding_override='utf-8')
table = book.sheet_by_index(0)
nrow = table.nrows
weijin_list = []
for q in range(1, nrow):
    str1 = table.cell(q, 0).value  # 主词
    str3 = table.cell(q, 4).value  # 等级
    str2 = table.cell(q, 6).value # 正选词
    fa_x = table.cell(q,7).value # 反选词
    if int(str3) ==2 and fa_x == '':
        str_list =

最低0.47元/天解锁文章

瓶瓶罐罐的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark在 python 中运用

RDD属性。只读：不能修改，只能通过转换操作生成新的 RDD。分布式：可以分布在多台机器上进行并行处理。弹性：计算过程中内存不够时它会和磁盘进行数据交换。基于内存：可以全部或部分缓存在内存中，在多次计算间重用# -*- coding: utf-8 -*-# uptime 8 月 26import requests# v36 二级违禁专项排查import timeimport jsonimport MySQLdb,zlibimport osimport syssys.path.
复制链接

扫一扫