百度paddlepaddle《青春有你2》技术打卡五天学习总结与创意赛参加

本文是作者参加百度PaddlePaddle训练营的心得体会,分享了五天学习的收获,包括Python基础、数据爬取、选手信息分析、图像分类以及评论数据词频统计。通过实战项目,作者运用深度学习和Python进行数据处理和图像识别,体验了PaddleHub在图像分类任务中的应用。
摘要由CSDN通过智能技术生成

1. 心得

这是我第一次参加百度打卡训练营,之前对python稍有一些了解,因为此前包括现在的研究生硕士阶段一直常用Matlab,但现今python同样作为主要编程软件,尤其在人工智能领域,我希望能多一份python方面的学习。
整个过程一周左右,我很喜欢训练营的学习氛围和形式,助教们在媒体平台进行直播、答疑、互动等,在AI Studio进行练习实践,遇到问题我们可以在微信讨论群里问津,在AI Studio讨论区畅所欲言,所有的模式都让我觉得很舒适,节奏不快不慢,每一天的学习都是循序渐进的,适合我这类有一些基础或者是没有基础的其他同学。

在学习之后,我联想到的自己海外好朋友poly,她是一个俄罗斯女孩,在中国留学期间去过一些中国的城市,但时光荏苒,去年她毕业回国了。通过图像处理技术,我们一起游玩了其他一些城市。快看看吧。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
哪张图片是原图呢?你能猜出来吗?
Paddlehub帮助Poly去了更多的地方,比如故宫。
快来我的AI Studio主页,看看如何实现这些美妙的旅程吧。
https://aistudio.baidu.com/aistudio/projectdetail/457015

2. 五天的学习

对数据的提取,画图呈现是十分基本、重要的内容,python在这些方面有着极高的效率,我们通过爬取,提取青春有你选手的体重信息分布,并绘制饼状图,如:
q青春有你选手体重分布信息
也通过爬取某视频软件中青春有你某一期节目的评论热词云图,热词频率图等。
在这里插入图片描述
Day1-Python基础练习

深度学习离不开数学分析(高等数学)、线性代数、概率论等知识,更离不开以编程为核心的动手实践。

无论是在机器学习还是深度学习中,Python 已经成为主导性的编程语言。而且,现在许多主流的深度学习框架都提供Python接口,Python被用于数据预处理、定义网络模型、执行训练过程、数据可视化等

熟悉 Python 的基础语法,并掌握 NumPy,Pandas 及其他基础工具模块的使用对深度学习实践是非常重要的!

例如我们去查找特定名称文件遍历”Day1-homework”目录下文件;找到文件名包含“2020”的文件;将文件名保存到数组result中;按照序号、文件名分行打印输出。应当怎么做呢?

`#首先需要导入OS模块
import os
#待搜索的目录路径
path = "Day1-homework"
#待搜索的名称
filename = "2020"
#定义保存结果的数组
result = []

def findfiles():
    i = 1
    for root, dirs, files in os.walk(path):
        for iter_file in files:
            if iter_file.find(filename) !=-1:
                result.append(i)
                result.append(os.path.realpath(iter_file))
                print(result)
                i += 1
        result = []
    return 'done searching!'
    
if __name__ == '__main__':

Day2-《青春有你2》选手信息爬取

任务描述
本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。数据获取:https://baike.baidu.com/item/青春有你第二季

1.上网的全过程:普通用户:

打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。

爬虫程序:

模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。
爬虫的过程:1.发送请求(requests模块)

2.获取响应数据(服务器返回)

3.解析并提取数据(BeautifulSoup查找或者re正则)

4.保存数据

本实践中使用以下两个模块,首先对这两个模块简单了解以下:
request模块:requests是python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/

requests.get(url)可以发送一个http get请求,返回服务器响应内容。

BeautifulSoup库:BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml,
BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”),推荐使用lxml作为解析器,因为效率更高。

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os

#获取当天的日期,并进行格式化,用于后面文件命名,格式:20200420
today = datetime.date.today().strftime('%Y%m%d')    
def crawl_wiki_data():
    """
    爬取百度百科中《青春有你2》中参赛选手信息,返回html
    """
    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    url='https://baike.baidu.com/item/青春有你第二季'                         
    try:
        response = requests.get(url,headers=headers)
        print(response.status_code)
        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
        soup = BeautifulSoup(response.text,'html.parser')     
        #返回的是class为table-view log-set-param的<table>所有标签
        tables = soup.find_all('table',{'class':'table-view log-set-param'})
        crawl_table_title = "参赛学员"
        for table in  tables:           
            #对当前节点前面的标签和字符串进行查找
            table_titles = table.find_previous('div').find_all('h3')
            for title in table_titles:
                if(crawl_table_title in title):
                    return table       
    except Exception as e:
        print(e)

二、对爬取的页面数据进行解析,并保存为JSON文件

 def parse_wiki_data(table_html):
    '''
    从百度百科返回的html中解析得到选手信息,以当
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值