本周因为要考四级所以在实验室的事情也没做太多!最主要就是学习了几大库的一些功能,然后就是爬虫项目的学习!
自己爬取了西华的主页:
代码如下:
#xhu.py
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen('http://www.xhu.edu.cn/18/list.htm')
bs_obj=BeautifulSoup(html.read(),'html.parser')
text_list=bs_obj.find_all("div","column-news-con")
for text in text_list:
print(text.get_text())
html.close()
爬取页面如下:
虽然爬取了西华官网的通告但是有很多做的不好的地方!首先自己是直接套用现成的框架,再对比实验室学长的代码自己确实差的太远了,自己的python知识掌握与运用以及对库的学习都还不不好!
第二:自己保存的文件全是python文件,无法直接打开文件看到自己爬取内容。需要通过powershell看爬取内容或者放在sublime text3上运行看。老师交代的是以文件格式发出来,自己这方面还没能做到。我在CSDN找到文章好像是要编写专门的函数运行,自己这方面还没有学习到!
未来的打算:自己在之后系统学习会把自己CSDN总结分成几个类大概分为生活总结,python爬虫方面,MATLAB方面以及C语言,不断总结自己,不断提升自己!