百度paddlepaddle《青春有你2》技术打卡五天学习总结与创意赛参加

最新推荐文章于 2024-04-01 20:46:23 发布

coder learner

最新推荐文章于 2024-04-01 20:46:23 发布

阅读量880

点赞数 2

文章标签：深度学习数据挖掘机器学习神经网络 python

本文链接：https://blog.csdn.net/weixin_43897319/article/details/105856013

版权

本文是作者参加百度PaddlePaddle训练营的心得体会，分享了五天学习的收获，包括Python基础、数据爬取、选手信息分析、图像分类以及评论数据词频统计。通过实战项目，作者运用深度学习和Python进行数据处理和图像识别，体验了PaddleHub在图像分类任务中的应用。

摘要由CSDN通过智能技术生成

1. 心得

这是我第一次参加百度打卡训练营，之前对python稍有一些了解，因为此前包括现在的研究生硕士阶段一直常用Matlab，但现今python同样作为主要编程软件，尤其在人工智能领域，我希望能多一份python方面的学习。
整个过程一周左右，我很喜欢训练营的学习氛围和形式，助教们在媒体平台进行直播、答疑、互动等，在AI Studio进行练习实践，遇到问题我们可以在微信讨论群里问津，在AI Studio讨论区畅所欲言，所有的模式都让我觉得很舒适，节奏不快不慢，每一天的学习都是循序渐进的，适合我这类有一些基础或者是没有基础的其他同学。

在学习之后，我联想到的自己海外好朋友poly，她是一个俄罗斯女孩，在中国留学期间去过一些中国的城市，但时光荏苒，去年她毕业回国了。通过图像处理技术，我们一起游玩了其他一些城市。快看看吧。
在这里插入图片描述

哪张图片是原图呢？你能猜出来吗？
Paddlehub帮助Poly去了更多的地方，比如故宫。
快来我的AI Studio主页，看看如何实现这些美妙的旅程吧。
https://aistudio.baidu.com/aistudio/projectdetail/457015

2. 五天的学习

对数据的提取，画图呈现是十分基本、重要的内容，python在这些方面有着极高的效率，我们通过爬取，提取青春有你选手的体重信息分布，并绘制饼状图，如：
q青春有你选手体重分布信息
也通过爬取某视频软件中青春有你某一期节目的评论热词云图，热词频率图等。
在这里插入图片描述
Day1-Python基础练习

深度学习离不开数学分析（高等数学）、线性代数、概率论等知识，更离不开以编程为核心的动手实践。

无论是在机器学习还是深度学习中，Python 已经成为主导性的编程语言。而且，现在许多主流的深度学习框架都提供Python接口，Python被用于数据预处理、定义网络模型、执行训练过程、数据可视化等

熟悉 Python 的基础语法，并掌握 NumPy，Pandas 及其他基础工具模块的使用对深度学习实践是非常重要的！

例如我们去查找特定名称文件遍历”Day1-homework”目录下文件；找到文件名包含“2020”的文件；将文件名保存到数组result中；按照序号、文件名分行打印输出。应当怎么做呢？

`#首先需要导入OS模块
import os
#待搜索的目录路径
path = "Day1-homework"
#待搜索的名称
filename = "2020"
#定义保存结果的数组
result = []

def findfiles():
    i = 1
    for root, dirs, files in os.walk(path):
        for iter_file in files:
            if iter_file.find(filename) !=-1:
                result.append(i)
                result.append(os.path.realpath(iter_file))
                print(result)
                i += 1
        result = []
    return 'done searching!'
    
if __name__ == '__main__':

Day2-《青春有你2》选手信息爬取

任务描述
本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。数据获取：https://baike.baidu.com/item/青春有你第二季

1.上网的全过程:普通用户:

打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。

爬虫程序:

模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。
爬虫的过程：1.发送请求（requests模块）

2.获取响应数据（服务器返回）

3.解析并提取数据（BeautifulSoup查找或者re正则）

4.保存数据

本实践中使用以下两个模块，首先对这两个模块简单了解以下：
request模块：requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/

requests.get(url)可以发送一个http get请求，返回服务器响应内容。

BeautifulSoup库：BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml，
BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”)，推荐使用lxml作为解析器,因为效率更高。

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os

#获取当天的日期,并进行格式化,用于后面文件命名，格式:20200420
today = datetime.date.today().strftime('%Y%m%d')    
def crawl_wiki_data():
    """
    爬取百度百科中《青春有你2》中参赛选手信息，返回html
    """
    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    url='https://baike.baidu.com/item/青春有你第二季'                         
    try:
        response = requests.get(url,headers=headers)
        print(response.status_code)
        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
        soup = BeautifulSoup(response.text,'html.parser')     
        #返回的是class为table-view log-set-param的<table>所有标签
        tables = soup.find_all('table',{'class':'table-view log-set-param'})
        crawl_table_title = "参赛学员"
        for table in  tables:           
            #对当前节点前面的标签和字符串进行查找
            table_titles = table.find_previous('div').find_all('h3')
            for title in table_titles:
                if(crawl_table_title in title):
                    return table       
    except Exception as e:
        print(e)

二、对爬取的页面数据进行解析，并保存为JSON文件

 def parse_wiki_data(table_html):
    '''
    从百度百科返回的html中解析得到选手信息，以当

最低0.47元/天解锁文章

coder learner

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度paddlepaddle《青春有你2》技术打卡五天学习总结与创意赛参加

1. 心得是我第一次参加百度打卡训练营，之前对python稍有一些了解，因为此前包括现在的研究生硕士阶段一直常用Matlab，但现今python同样作为主编程软件，我希望能多一份python方面的学习。整个过程一周左右，我很喜欢训练营的学习氛围和形式，助教们在媒体平台进行直播、答疑、互动等，在AIstudio进行练习实践，遇到问题我们可以在微信讨论群里问津，在AIstudio讨论区畅所欲言，所...
复制链接

扫一扫