1. 心得
这是我第一次参加百度打卡训练营,之前对python稍有一些了解,因为此前包括现在的研究生硕士阶段一直常用Matlab,但现今python同样作为主要编程软件,尤其在人工智能领域,我希望能多一份python方面的学习。
整个过程一周左右,我很喜欢训练营的学习氛围和形式,助教们在媒体平台进行直播、答疑、互动等,在AI Studio进行练习实践,遇到问题我们可以在微信讨论群里问津,在AI Studio讨论区畅所欲言,所有的模式都让我觉得很舒适,节奏不快不慢,每一天的学习都是循序渐进的,适合我这类有一些基础或者是没有基础的其他同学。
在学习之后,我联想到的自己海外好朋友poly,她是一个俄罗斯女孩,在中国留学期间去过一些中国的城市,但时光荏苒,去年她毕业回国了。通过图像处理技术,我们一起游玩了其他一些城市。快看看吧。
哪张图片是原图呢?你能猜出来吗?
Paddlehub帮助Poly去了更多的地方,比如故宫。
快来我的AI Studio主页,看看如何实现这些美妙的旅程吧。
https://aistudio.baidu.com/aistudio/projectdetail/457015
2. 五天的学习
对数据的提取,画图呈现是十分基本、重要的内容,python在这些方面有着极高的效率,我们通过爬取,提取青春有你选手的体重信息分布,并绘制饼状图,如:
也通过爬取某视频软件中青春有你某一期节目的评论热词云图,热词频率图等。
Day1-Python基础练习
深度学习离不开数学分析(高等数学)、线性代数、概率论等知识,更离不开以编程为核心的动手实践。
无论是在机器学习还是深度学习中,Python 已经成为主导性的编程语言。而且,现在许多主流的深度学习框架都提供Python接口,Python被用于数据预处理、定义网络模型、执行训练过程、数据可视化等
熟悉 Python 的基础语法,并掌握 NumPy,Pandas 及其他基础工具模块的使用对深度学习实践是非常重要的!
例如我们去查找特定名称文件遍历”Day1-homework”目录下文件;找到文件名包含“2020”的文件;将文件名保存到数组result中;按照序号、文件名分行打印输出。应当怎么做呢?
`#首先需要导入OS模块
import os
#待搜索的目录路径
path = "Day1-homework"
#待搜索的名称
filename = "2020"
#定义保存结果的数组
result = []
def findfiles():
i = 1
for root, dirs, files in os.walk(path):
for iter_file in files:
if iter_file.find(filename) !=-1:
result.append(i)
result.append(os.path.realpath(iter_file))
print(result)
i += 1
result = []
return 'done searching!'
if __name__ == '__main__':
Day2-《青春有你2》选手信息爬取
任务描述
本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。数据获取:https://baike.baidu.com/item/青春有你第二季
1.上网的全过程:普通用户:
打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。
爬虫程序:
模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。
爬虫的过程:1.发送请求(requests模块)
2.获取响应数据(服务器返回)
3.解析并提取数据(BeautifulSoup查找或者re正则)
4.保存数据
本实践中使用以下两个模块,首先对这两个模块简单了解以下:
request模块:requests是python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/
requests.get(url)可以发送一个http get请求,返回服务器响应内容。
BeautifulSoup库:BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml,
BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”),推荐使用lxml作为解析器,因为效率更高。
import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os
#获取当天的日期,并进行格式化,用于后面文件命名,格式:20200420
today = datetime.date.today().strftime('%Y%m%d')
def crawl_wiki_data():
"""
爬取百度百科中《青春有你2》中参赛选手信息,返回html
"""
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
url='https://baike.baidu.com/item/青春有你第二季'
try:
response = requests.get(url,headers=headers)
print(response.status_code)
#将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
soup = BeautifulSoup(response.text,'html.parser')
#返回的是class为table-view log-set-param的<table>所有标签
tables = soup.find_all('table',{'class':'table-view log-set-param'})
crawl_table_title = "参赛学员"
for table in tables:
#对当前节点前面的标签和字符串进行查找
table_titles = table.find_previous('div').find_all('h3')
for title in table_titles:
if(crawl_table_title in title):
return table
except Exception as e:
print(e)
二、对爬取的页面数据进行解析,并保存为JSON文件
def parse_wiki_data(table_html):
'''
从百度百科返回的html中解析得到选手信息,以当