RDD属性。
只读:不能修改,只能通过转换操作生成新的 RDD。
分布式:可以分布在多台机器上进行并行处理。
弹性:计算过程中内存不够时它会和磁盘进行数据交换。
基于内存:可以全部或部分缓存在内存中,在多次计算间重用
# -*- coding: utf-8 -*-
# uptime 8 月 26
import requests
# v36 二级违禁专项排查
import time
import json
import MySQLdb,zlib
import os
import sys
sys.path.append(os.path.join(os.path.dirname(__file__), os.pardir, os.pardir))
import xlrd
env = os.environ
from pyspark import SparkContext
from pyspark.sql import SparkSession
os.system('mkdir %s' % env['BUILD_NUMBER'])
from weijin_data.utils.validate_data import download
# # 根据表单数据,下载资源并进行验证
weijin_link = env.get('weijin_link')
print(weijin_link)
print('===========')
# 下载文件
save_path = download(weijin_link,file_name='weijin.xlsx')
print(save_path)
book = xlrd.open_workbook(save_path,encoding_override='utf-8')
# book = xlrd.open_workbook('全站违禁词列表 .xlsx',encoding_override='utf-8')
table = book.sheet_by_index(0)
nrow = table.nrows
weijin_list = []
for q in range(1, nrow):
str1 = table.cell(q, 0).value # 主词
str3 = table.cell(q, 4).value # 等级
str2 = table.cell(q, 6).value # 正选词
fa_x = table.cell(q,7).value # 反选词
if int(str3) ==2 and fa_x == '':
str_list =