python
文章平均质量分 85
唯余木叶下弦声
数据挖掘工程师,计算机技术专业硕士
展开
-
(五)Spark大数据开发实战:豆瓣电影数据处理与分析(python版)
Spark大数据开发实战:灵活运用PySpark常用DataFrame API。本文数据来自采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别所有电影的相关信息并存储为csv文件。原创 2024-10-31 15:29:05 · 1158 阅读 · 0 评论 -
Python连接Neo4j(py2neo)并创建4万节点电影演员关系图
本项目实现了一个Neo4jDatabase类,基于py2neo操作Neo4j图数据库。然后从豆瓣电影网爬取相关信息,在Neo4j数据库中创建相应的节点和关系,实现了电影数据的结构化存储。原创 2024-10-28 09:34:07 · 750 阅读 · 0 评论 -
Python+whisper/vosk实现语音识别
Whisper 是一个由 OpenAI 开发的人工智能语音识别模型,它能够将语音转换为文本。Whisper 模型特别之处在于它的设计目标是能够理解和转录多种语言的语音,包括但不限于英语。Whisper 模型在训练时使用了大量不同语言的语音数据,这使得它具有很好的跨语言能力。Vosk 是一个开源的语音识别库,它可以在离线环境下工作,不依赖于任何外部服务。Vosk 基于Kaldi语音识别框架,支持多种语言,包括中文。Vosk提供了多种预训练模型,可以根据需求选择适合的模型进行语音识别。原创 2024-10-09 13:46:05 · 1964 阅读 · 0 评论 -
Python任务调度的几种方式
Python任务调度的几种方式:1、通过time.sleep(n)。2、通过Linux Crontab。3、通过APScheduler。4、通过AirFlow框架原创 2024-03-26 10:42:55 · 2030 阅读 · 1 评论 -
基于ALBERT 进行文本向量化
ALBERT (A Lite BERT) 是一种改进的 BERT 模型,旨在减少参数数量并提高训练速度,同时保持或提高性能。“albert_chinese_large”是 ALBERT 模型的一个版本,它是在中文数据集上预训练的。原创 2024-03-22 11:10:56 · 673 阅读 · 0 评论 -
豆瓣电影信息爬取与可视化分析
利用requests库采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别前100部电影的相关信息。本项目主要考察的是对requests爬虫、pandas数据处理、matplotlib绘图等Python模块的使用,难度不大。原创 2024-03-17 15:36:23 · 1271 阅读 · 0 评论 -
(四)PySpark3:Mlib机器学习实战-信用卡交易数据异常检测
Spark Mlib实现了在分布式大数据环境下的机器学习训练,并且可以通过Spark SQL对数据集进行数据预处理以及特征工程,可以高效处理大规模数据集。但是Spark Mlib目前支持的算法还比较少,支持的机器学习算法有限,而且并不直接支持深度学习算法。所以,选择Spark进行机器学习训练与预测,可能更多考量的是成本与时间优势,但是对于复杂建模场景或者对模型精度要求较高的场景,Spark将难以胜任。原创 2024-03-17 01:45:42 · 1313 阅读 · 0 评论 -
(三)PySpark3:SparkSQL40题
SQL笔试经典40题,使用PySpark SQL代码实现。原创 2024-03-15 15:35:18 · 1386 阅读 · 0 评论 -
爬虫:爬取新闻内容及图片,存入数据库
然后,依次访问每一个新闻链接,并解析标题、内容,需要对空格、特殊字符等做一下清洗。根据子频道路径进行分类,并爬取像素值大于阈值的图片(避免爬取到页面上的二维码等小图),图片保存在服务器本地某个文件夹下,如果没有符合条件的图片,则会报错,在main函数中抛出异常,跳过此新闻链接的爬取。首先,对新华网主页进行爬取,获取页面上所有的新闻链接,存放进入link_list列表中。1、对新闻主页上的新闻进行爬取,要求解析出标题、内容、新闻类型、图片并存入数据库。2、只爬取带有图片的新闻,一张即可。原创 2024-03-11 15:43:12 · 1977 阅读 · 0 评论 -
(一)PySpark3:安装教程及RDD编程
Apache Spark是一个用于大数据处理的开源分布式计算框架,而PySpark则是Spark的Python 实现。PySpark允许使用Python编程语言来利用Spark的强大功能,使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择:PySpark: 使用简洁而易学的Python作为编程语言,这使得PySpark学习难度大大降低。Spark-Scala: 使用Scala作为主要编程语言。原创 2024-01-30 10:51:18 · 2657 阅读 · 0 评论 -
streamlit中文开发手册(详细版)
Streamlit 是一个用于创建数据科学和机器学习应用的Python框架。它的目标是使数据应用的开发变得更加简单,无需繁琐的前端代码。Streamlit的主要设计目标是让数据科学家和分析师能够轻松快速地构建数据科学和机器学习应用。它专注于简单性和快速迭代,使用户能够使用几行代码即可创建交互性应用。即使不懂前端知识HTML、CSS等,也能通过Streamlit框架提供的函数构建一个漂亮的web页面。原创 2024-01-12 14:15:15 · 40501 阅读 · 3 评论
分享