![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 84
唯余木叶下弦声
数据挖掘工程师,计算机技术专业硕士
展开
-
Python任务调度的几种方式
Python任务调度的几种方式:1、通过time.sleep(n)。2、通过Linux Crontab。3、通过APScheduler。4、通过AirFlow框架原创 2024-03-26 10:42:55 · 1433 阅读 · 1 评论 -
基于ALBERT 进行文本向量化
ALBERT (A Lite BERT) 是一种改进的 BERT 模型,旨在减少参数数量并提高训练速度,同时保持或提高性能。“albert_chinese_large”是 ALBERT 模型的一个版本,它是在中文数据集上预训练的。原创 2024-03-22 11:10:56 · 438 阅读 · 0 评论 -
豆瓣电影信息爬取与可视化分析
利用requests库采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别前100部电影的相关信息。本项目主要考察的是对requests爬虫、pandas数据处理、matplotlib绘图等Python模块的使用,难度不大。原创 2024-03-17 15:36:23 · 1124 阅读 · 0 评论 -
(四)PySpark3:Mlib机器学习实战-信用卡交易数据异常检测
Spark Mlib实现了在分布式大数据环境下的机器学习训练,并且可以通过Spark SQL对数据集进行数据预处理以及特征工程,可以高效处理大规模数据集。但是Spark Mlib目前支持的算法还比较少,支持的机器学习算法有限,而且并不直接支持深度学习算法。所以,选择Spark进行机器学习训练与预测,可能更多考量的是成本与时间优势,但是对于复杂建模场景或者对模型精度要求较高的场景,Spark将难以胜任。原创 2024-03-17 01:45:42 · 1116 阅读 · 0 评论 -
(三)PySpark3:SparkSQL40题
SQL笔试经典40题,使用PySpark SQL代码实现。原创 2024-03-15 15:35:18 · 1150 阅读 · 0 评论 -
爬虫:爬取新闻内容及图片,存入数据库
然后,依次访问每一个新闻链接,并解析标题、内容,需要对空格、特殊字符等做一下清洗。根据子频道路径进行分类,并爬取像素值大于阈值的图片(避免爬取到页面上的二维码等小图),图片保存在服务器本地某个文件夹下,如果没有符合条件的图片,则会报错,在main函数中抛出异常,跳过此新闻链接的爬取。首先,对新华网主页进行爬取,获取页面上所有的新闻链接,存放进入link_list列表中。1、对新闻主页上的新闻进行爬取,要求解析出标题、内容、新闻类型、图片并存入数据库。2、只爬取带有图片的新闻,一张即可。原创 2024-03-11 15:43:12 · 1289 阅读 · 0 评论 -
(一)PySpark3:安装教程及RDD编程
Apache Spark是一个用于大数据处理的开源分布式计算框架,而PySpark则是Spark的Python 实现。PySpark允许使用Python编程语言来利用Spark的强大功能,使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择:PySpark: 使用简洁而易学的Python作为编程语言,这使得PySpark学习难度大大降低。Spark-Scala: 使用Scala作为主要编程语言。原创 2024-01-30 10:51:18 · 1816 阅读 · 0 评论 -
streamlit中文开发手册(详细版)
Streamlit 是一个用于创建数据科学和机器学习应用的Python框架。它的目标是使数据应用的开发变得更加简单,无需繁琐的前端代码。Streamlit的主要设计目标是让数据科学家和分析师能够轻松快速地构建数据科学和机器学习应用。它专注于简单性和快速迭代,使用户能够使用几行代码即可创建交互性应用。即使不懂前端知识HTML、CSS等,也能通过Streamlit框架提供的函数构建一个漂亮的web页面。原创 2024-01-12 14:15:15 · 19789 阅读 · 0 评论