- 博客(36)
- 问答 (1)
- 收藏
- 关注
原创 educoder中SparkSQL数据源
Spark SQL 还包括一个可以使用JDBC从其他数据库读取数据的数据源,与使用JdbcRDD相比,此功能应该更受欢迎。这是因为结果作为DataSet返回,可以在Spark SQL中轻松处理,也可以与其他数据源连接。
2023-06-19 00:08:31 201
原创 educoder中网约车大数据综合项目 —— 数据分析Spark
基于 EduCoder 平台提供的初始数据集,统计湖南省当天的各时间段订单总数量与各市级当天各时间段订单总数量。
2023-06-18 23:54:15 467
原创 educoder中Spark GraphX—预测社交圈子
将使用来自网络竞赛中的社交圈研究数据,这些数据来自少量的 Facebook 用户,这些用户在他们的朋友圈中分享信息。同时,每个用户被要求分配他们的朋友到一个或者多个社交圈。社交圈是一些用户朋友的分组,对这些用户是有意义的。
2023-06-18 23:43:21 742
原创 educoder中Spark GraphX—寻找社交媒体中的“影响力用户”
近年来互联网技术的发展带来了在线社交网络的繁荣,微博、微信、Twitter等社交平台已经走进人们生活的方方面面。丰富的社交数据使得研究者们有机会对社交网络进行深入研究,同时也带来了前所未有的挑战。本关将利用Pregel实现统计一个用户的跟随者(粉丝数),跟随者最多的拥有最大影响力。
2023-06-18 23:35:32 1360
原创 educoder中Spark GraphX—构建图及相关操作
第1关:GraphX-构建图及相关基本操作import org.apache.log4j.{Level, Logger}import org.apache.spark.graphx._import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object GraphX_Test_stu{ def main(args:Array[String]): Unit ={ //屏蔽日志..
2022-05-13 18:20:53 2250 1
原创 educoder中SparkStreaming--scala
第1关:QueueStreamimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}import scala.collection.mutableo..
2022-05-13 18:19:14 1390
原创 educoder中kafka-入门篇
第1关:kafka - 初体验#!/bin/bash#1.创建一个副本数量为1、分区数量为3、名为 demo 的 Topickafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 3 --topic demo#2.查看所有Topickafka-topics.sh --list --zookeeper 127.0.0.1:2181#3.查看名为demo的Topic..
2022-05-13 18:15:51 963
原创 Educoder中Spark算子--Scala版本
第1关:转换算子之map和distinct算子import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object EduCoder1 { def main(args: Array[String]): Unit = { val conf =new SparkConf().setAppName("educoder1").setMaster("local") val sc
2022-05-13 18:10:56 666
原创 Educoder中Spark任务提交
第1关:spark-submit提交#!/bin/bashcp -r Spark/SparkRDD/target/project.jar /rootcd /opt/spark/dist/bin#********** Begin **********#./spark-submit --master local --class Student /root/project.jar#********** End **********#
2022-05-13 18:07:43 5317
原创 Educoder中Scala语言第一章
package stepobject step1 { def main(args: Array[String]): Unit = { /********** Begin *********/ print("HelloWorld") /********** End *********/ } }第2关:数据类型及变量packa...
2022-05-13 18:05:45 2496
原创 Educoder中Scala面向对象编程
第1关:继承abstract class Phone{ val phoneBrand: String def info() def greeting() { println("Welcome to use phone!") }}class Apple extends Phone{ override val phoneBrand = "Apple" def info() { printf("This is a/an %s phone. It is ex..
2022-05-13 18:03:24 354
原创 Educoder:爬虫实战——求是网周刊文章爬取
第1关:获取新闻urlimportrequestsimportredefgeturls():#**********Begin**********#url='http://www.qstheory.cn/dukan/qs/2014/2019-01/01/c_1123924172.htm'headers={'User-Agent':'Mozilla/5.0(Linux;Android6.0;Nexus5Buil...
2021-10-27 22:37:55 4477 3
原创 Educoder:Python面向对象编程-贷款
第1关:按揭贷款——定义抽象类deffindPayment(loan,r,m):#请在下面编写代码#-----------Begin----------returnloan*((r*(1+r)**m)/((1+r)**m-1))#------------End-----------#请不要修改下面的代码classMortgage(object):def__init__(self,loan,ann...
2021-10-27 22:31:57 1873 1
原创 python简单图形界面GUI入门
感觉gui做起来成就感比较高,学完基础语言顺便花一个下午看看GUI设计,现在回顾来看这个如果做正式的展示太过简单,easygui只是小演示之用。下载首先是easygui包下载,两种方式:1)在python环境下,用pip3 install直接安装2)现在配置的VS2015+Python环境,在VS中直接下载:等待安装完成即可,简单调用messagebox进行测试:导入成功。函数介绍1)msgbox()——消息弹窗msgbox(ms...
2021-10-12 11:45:05 1185
原创 Educoder中题目:泰坦尼克生还预测——可视化与探索性数据分析
第1关:存活率与性别和船舱等级之间的关系importpandasaspdimportnumpyasnpimportseabornassnsimportwarningswarnings.filterwarnings("ignore")sns.set()importmatplotlib.pyplotaspltfrommatplotlib.pyplotimportMultipleLocatordefstudent():#...
2021-06-21 14:16:27 3524
原创 Educoder:MongoDB 之聚合函数查询统计
第1关:聚合管道操作符将文档定制格式输出(一)#*********Begin*********#echo"db.educoder.aggregate({\$project:{_id:0,course:1,learning_num:1}});db.educoder.aggregate({\$match:{learning_num:1882}});"#*********End*********#...
2021-06-20 23:47:31 2946 1
原创 Educoder:MySQL数据库编程
第1关:python数据库编程之创建数据库#!/usr/bin/python#-*-coding:UTF-8-*-importpymysqlimportmysql.connector#连接mysql,创建连接并返回连接对象defconnect():#请在这里补充代码,完成本关任务,注意缩进格式为4个空格#*********Begin*********#conn=mysql.connector.connect...
2021-06-20 23:39:20 4093 2
原创 scrapy爬取百度图片时出现Forbid spider access
import scrapyfrom scrapy.http import Requestfrom urllib.parse import urlencodeimport jsonimport timefrom urllib.parse import quotefrom fake_useragent import UserAgentimport refrom baiduimg.items import BaiduimgItemclass BaiduSpider(scra...
2021-06-19 00:02:22 2218 2
转载 Educoder中Python--进程和线程
Python多进程-求素数个数num.pyimport mathfrom multiprocessing import cpu_countfrom multiprocessing import Pool# 判断数字是否为质数#********** Begin *********#def isPrime(n): if n <= 1: return False for i in range(2, int(math.sqrt(n)) + 1):
2021-06-18 23:47:14 1400
原创 Educoder爬虫进阶答案
第1关:单网页爬取importgzipimporturllib.requestimportcsvimportre#打开京东,读取并爬到内存中,解码,并赋值给data#将data保存到本地#**********Begin**********#fromioimportBytesIOurl='https://www.jd.com/'headers={'User-Agent':'Mozilla/5.0(WindowsNT1...
2021-06-16 16:02:07 4048 6
原创 什么是爬虫呢?
爬虫通俗来说就是抓取网页数据,比如说大家都喜欢的妹子图、小视频呀,还有电子书、文字评 论、商品详情等等。 只要网页上有的,都可以通过爬虫爬取下来。一般而言,python爬虫需要以下几步:1. 找到需要爬取内容的网页URL2. 打开该网页的检查页面(即查看HTML代码,按F12快捷键即可进入)3. 在HTML代码中找到你要提取的数据4. 写python代码进行网页请求、解析5. 存储数据 当然会撸python是前提,对于小白来说自学也不是件容易的事,需要花相当的时间去适应python
2021-06-16 15:49:27 1214 3
空空如也
scrapy爬取百度图片时Forbid spider access
2021-06-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人