唯余木叶下弦声
码龄6年
关注
提问 私信
  • 博客:186,818
    186,818
    总访问量
  • 52
    原创
  • 24,013
    排名
  • 311
    粉丝
  • 学习成就

个人简介:数据挖掘工程师,计算机技术专业硕士

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2019-01-08
博客简介:

weixin_44458771的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,300
    当月
    79
个人成就
  • 获得668次点赞
  • 内容获得66次评论
  • 获得1,969次收藏
  • 代码片获得20,558次分享
创作历程
  • 25篇
    2024年
  • 13篇
    2023年
  • 10篇
    2022年
  • 4篇
    2021年
成就勋章
TA的专栏
  • 大数据
    12篇
  • python
    11篇
  • 机器学习
    11篇
  • 知识图谱
    4篇
  • 隐私计算
    2篇
  • 深度学习
    3篇
  • 图联邦学习
    3篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理数据分析
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Spark区分应用程序 Application、作业Job、阶段Stage、任务Task

在Apache Spark中,有几个核心概念用于描述应用程序的执行流程和组件,包括应用程序 Application、作业Job、阶段Stage、任务Task
原创
发布博客 2024.12.05 ·
533 阅读 ·
5 点赞 ·
0 评论 ·
2 收藏

PySpark3:pyspark.sql.functions常见的60个函数

PySpark3:pyspark.sql.functions常见的60个函数
原创
发布博客 2024.11.20 ·
1154 阅读 ·
12 点赞 ·
0 评论 ·
32 收藏

PySpark3:Row对象常见操作以及Row、RDD、DataFrame互相转换

Row对象常见操作以及Row、RDD、DataFrame互相转换
原创
发布博客 2024.11.15 ·
407 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

(六)Spark大数据开发实战:豆瓣电影数据处理与分析(scala版)

本项目对电影信息数据进行处理和分析,实现了对电影演员、电影类型、上映时间等多维度的统计分析。同时考察了DataFrame操作、Spark SQL操作、聚合与数据转换、窗口函数、日期和时间处理、数据清洗、写入写出等等。由于Scala是直接运行在JVM上,因此它的运行速度通常比Python快。经测试,本项目的scala版本代码运行总用时22.8秒,而python版本代码运行总用时24.6秒,scala运行比python稍快一点,总的来说相差不大,在大规模数据量的项目中,scala的优势会更加明显。
原创
发布博客 2024.11.12 ·
3082 阅读 ·
25 点赞 ·
0 评论 ·
27 收藏

(五)Spark大数据开发实战:豆瓣电影数据处理与分析(python版)

Spark大数据开发实战:灵活运用PySpark常用DataFrame API。本文数据来自采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别所有电影的相关信息并存储为csv文件。
原创
发布博客 2024.10.31 ·
1158 阅读 ·
29 点赞 ·
0 评论 ·
18 收藏

Python连接Neo4j(py2neo)并创建4万节点电影演员关系图

本项目实现了一个Neo4jDatabase类,基于py2neo操作Neo4j图数据库。然后从豆瓣电影网爬取相关信息,在Neo4j数据库中创建相应的节点和关系,实现了电影数据的结构化存储。
原创
发布博客 2024.10.28 ·
750 阅读 ·
8 点赞 ·
0 评论 ·
17 收藏

Python+whisper/vosk实现语音识别

Whisper 是一个由 OpenAI 开发的人工智能语音识别模型,它能够将语音转换为文本。Whisper 模型特别之处在于它的设计目标是能够理解和转录多种语言的语音,包括但不限于英语。Whisper 模型在训练时使用了大量不同语言的语音数据,这使得它具有很好的跨语言能力。Vosk 是一个开源的语音识别库,它可以在离线环境下工作,不依赖于任何外部服务。Vosk 基于Kaldi语音识别框架,支持多种语言,包括中文。Vosk提供了多种预训练模型,可以根据需求选择适合的模型进行语音识别。
原创
发布博客 2024.10.09 ·
1964 阅读 ·
22 点赞 ·
0 评论 ·
26 收藏

Python连接Kafka收发数据等操作

Apache Kafka 是一个开源流处理平台,由 LinkedIn 开发,并于 2011 年成为 Apache 软件基金会的一部分。Kafka 广泛用于构建实时的数据流和流式处理应用程序,它以高吞吐量、可扩展性和容错性著称。kafka-python 是一个用 Python 编写的 Apache Kafka 客户端库。
原创
发布博客 2024.09.24 ·
1062 阅读 ·
10 点赞 ·
0 评论 ·
8 收藏

HDFS常用命令及Python连接HDFS操作

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop集群中的一部分,用于存储大量数据,并运行在商用硬件集群上。
原创
发布博客 2024.09.09 ·
1151 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

Linux CentOS安装PySpark3.5(单机版)详细教程及机器学习实战

PySpark 是 Apache Spark 的 Python 接口,提供了一套丰富的 API,用于进行分布式数据处理、机器学习和复杂的数据分析任务。它允许 Python 开发者利用 Spark 的并行计算和内存计算能力,处理大规模数据集。PySpark 提供了 DataFrame、DataSet 和 RDD 等数据结构,以及各种算子,用于数据的读取、转换和计算。
原创
发布博客 2024.09.05 ·
1643 阅读 ·
30 点赞 ·
0 评论 ·
22 收藏

Linux CentOS安装Hadoop3.1.3(单机版)详细教程

Hadoop是一个开源的分布式计算框架,主要用于大数据处理。它包括HDFS分布式文件系统和MapReduce计算模型,能够高效地存储和处理大规模数据集,广泛用于数据挖掘、分析和机器学习。
原创
发布博客 2024.08.30 ·
2316 阅读 ·
18 点赞 ·
2 评论 ·
30 收藏

BUG解决:postman可以请求成功,但Python requests请求报403

使用Python的requests库对接物联数据的接口之前一直正常运行,昨天突然请求不通了,通过进一步验证发现凡是使用代码调用接口就不通,而使用postman就能调通,请求参数啥的都没变。
原创
发布博客 2024.07.10 ·
3494 阅读 ·
27 点赞 ·
0 评论 ·
26 收藏

Python任务调度的几种方式

Python任务调度的几种方式:1、通过time.sleep(n)。2、通过Linux Crontab。3、通过APScheduler。4、通过AirFlow框架
原创
发布博客 2024.03.26 ·
2030 阅读 ·
10 点赞 ·
1 评论 ·
23 收藏

python编写API接口实现数据筛选、查询与分页

接口可以通过python flask框架实现。Flask是一个轻量级的Web框架,它提供了足够的灵活性来构建定制的RESTful API。开发者可以根据需求轻松地设计和实现接口。数据的查询可以通过pymysql连接MySQL数据库实现。数据的筛选和分页可以通过堆叠where条件、row_number实现。以下代码中连接的数据库用的是我电脑本地之前做学生管理系统的测试数据,可自行替换为自己的数据库、表、字段。由于系统上需要分页展示数据,并提供按字段筛选数据的功能,于是需要我写个接口,以供前端使用。
原创
发布博客 2024.03.25 ·
797 阅读 ·
7 点赞 ·
0 评论 ·
5 收藏

基于ALBERT 进行文本向量化

ALBERT (A Lite BERT) 是一种改进的 BERT 模型,旨在减少参数数量并提高训练速度,同时保持或提高性能。“albert_chinese_large”是 ALBERT 模型的一个版本,它是在中文数据集上预训练的。
原创
发布博客 2024.03.22 ·
674 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

Python实现ANSI CRC16校验算法

循环冗余校验(CRC)算法是一种广泛应用于数据传输和存储中的错误检测方法。它通过利用多项式除法及余数的原理,对传输或存储的数据进行校验,以确保数据的完整性和准确性。CRC16是CRC算法中的一种常见标准,例如ANSI CRC16。
原创
发布博客 2024.03.20 ·
833 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

豆瓣电影信息爬取与可视化分析

利用requests库采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别前100部电影的相关信息。本项目主要考察的是对requests爬虫、pandas数据处理、matplotlib绘图等Python模块的使用,难度不大。
原创
发布博客 2024.03.17 ·
1271 阅读 ·
25 点赞 ·
0 评论 ·
28 收藏

(四)PySpark3:Mlib机器学习实战-信用卡交易数据异常检测

Spark Mlib实现了在分布式大数据环境下的机器学习训练,并且可以通过Spark SQL对数据集进行数据预处理以及特征工程,可以高效处理大规模数据集。但是Spark Mlib目前支持的算法还比较少,支持的机器学习算法有限,而且并不直接支持深度学习算法。所以,选择Spark进行机器学习训练与预测,可能更多考量的是成本与时间优势,但是对于复杂建模场景或者对模型精度要求较高的场景,Spark将难以胜任。
原创
发布博客 2024.03.17 ·
1313 阅读 ·
23 点赞 ·
0 评论 ·
23 收藏

(三)PySpark3:SparkSQL40题

SQL笔试经典40题,使用PySpark SQL代码实现。
原创
发布博客 2024.03.15 ·
1386 阅读 ·
23 点赞 ·
0 评论 ·
27 收藏

Python对头发二维建模(考虑风力、重力)

数值方法被用于创建电影、游戏或其他媒体中的计算机图形。例如,生成“逼真”的烟雾、水或爆炸等动画。本文内容是对头发的模拟,要求考虑重力、风力的影响。3、作用在每根头发上的力包括重力(在-z方向上)和恒定的风力(在+x方向上)。1、人的头部是一个半径为10厘米的球体。2、每根头发都与球体的表面垂直相交。
原创
发布博客 2024.03.11 ·
479 阅读 ·
9 点赞 ·
0 评论 ·
8 收藏
加载更多