(三)数据的获取与表示

目录

本地数据的获取

上下文管理器

打开文件

写文件

 读文件

读写文件

网络数据的获取

抓取

解析


本地数据的获取

上下文管理器

        在python中,我们可以使用with语句来定义和控制代码块执行前的准备动作及执行后的收尾动作,语法为with open('d:\\test\\a.txt','w') as f:,将打开后的文件对象赋值给f,再进行之后的操作。

打开文件

        一般使用open函数打开文件,语法为open(filename, mode='r' , buffering=-1, …),filename表示文件名或路径,一般使用'd:\\infile.txt'、r'd:\outfile.txt'和'record.txt'这三种形式作为参数;mode表示为打开方式,具体功能如下:

mode功能
r以读模式打开
w以写模式打开(清空原内容)
r以写模式打开,若文件已存在则失败
a以追加模式打开(从EOF开始,必要时创建新文件)
r+以读写模式打开
w+以读写模式打开(清空原内容)
a+以读和追加模式打开
rb以二进制读模式打开
wb以二进制写模式打开(参见w)
ab以二进制追加模式打开(参见a)
rb+以二进制读写模式打开(参见r+)
wb+以二进制读写模式打开(参见w+)
ab+以二进制读写模式打开(参见a+)

        buffering也为可选参数,默认值为-1(0代表不缓冲,1 或大于1的值表示缓冲一行或指定缓冲区大小)。

        open的返回值是一个文件对象(设为f),此时,可用一些文件相关函数来操作这个对象,如f.read(), f.write(), f.readline(), f.readlines(), f.writelines(),f.close(),f.seek()等等。

写文件

         主要使用f.write()和 f.writelines()函数,f.write()写入一个字符串,f.writelines()写入一系列字符串,代码实现如下:

with open(r'd:\test\a.txt', 'w') as f:
    f.write('Hellow World!\n')
    f.writelines(['Hellow World!\n', 'Hellow\n', 'World\n'])
    f.close()

运行结果

图 1 运行结果

 读文件

        主要使用f.read()、 f.readline()和f.readlines()函数,f.read()写入一个字符串,带参数说明从文件中至多读出size字节数据,返回一个字符串,不带参数就是读文件直到文件结束,返回一个字符串;f.readlines()读出所有的字符串,返回一个列表;f.readline()读出一行字符串,返回一个字符串,代码实现如下:

with open('d:\\test\\a.txt') as f:
    p1 = f.read(8)
    f.seek(0)        #功能和用法的讲解在本小节末尾
    p2 = f.read()
    f.close()
print(p1)
print(p2)

#输出结果如下所示
#Hellow W
#Hellow World!Hellow World!
#Hellow
#World

图  2  b.txt 内容

with open('d:\\test\\b.txt') as f:
    p1 = f.readlines()
    f.seek(0)
    p2 = f.readline()
    f.close()
print(p1, type(p1))
print(p2, type(p2))

#运行结果如下
#['    A\n', '   ABC\n', '  ABCDC\n', ' ABCDEDC\n', 'ABCDEFEDC\n'] <class 'list'>
#    A                           #文件里带有一个换行符
# <class 'str'>
file_name = 'd:\\test\\b.txt'        #使用异常处理机制来判断文件有多少行
try:
    with open(file_name) as f:
        date = f.readlines()
except FileExistsError:
    print(file_name + 'does not exist')
lens = len(date)
print('b.txt' + ' has ' + str(lens) + ' line')

#输出结果如下:
#   b.txt has 5 line

        除此之外,还可以同时处理多个文件,代码如下所示:

def countLines(fname):
    try:
        with open(fname) as f:
            date = f.readlines()
    except FileExistsError:
        print(fname + ' does not exist')
    lens = len(date)
    print(fname + ' has ' + str(lens) + ' line')

files = ['d:\\test\\a.txt', 'd:\\test\\b.txt', 'd:\\test\\c.txt']
for fname in files:
    countLines(fname)

#运行结果为
#   d:\test\a.txt has 3 line
#   d:\test\b.txt has 5 line
#   d:\test\c.txt has 5 line

        还可以统计一个目录下所有txt文件的行数,代码如下所示:

import os
import shutil
def countLines(fname):
    try:
        with open(fname) as f:
            date = f.readlines()
    except FileExistsError:
        print(fname + ' does not exist')
    lens = len(date)
    print(fname + ' has' + str(lens) + ' line')

path = 'd:\\test'
for fname in os.listdir(path):
    if fname.endswith('.txt'):
        file_path = os.path.join(path, fname)
        countLines(file_path)

#运行结果为
#   d:\test\a.txt has 3 line
#   d:\test\b.txt has 5 line
#   d:\test\c.txt has 5 line

:判断文件是否可读,可用f.readable()来判断

读写文件

        对于文件操作,往往需要对文件同时进行读和写,具体实现代码如下:

with open('d:\\test\\b.txt') as f1:
    cName = f1.readlines()
    f.close()
for i in range(0,len(cName)):
    cName[i] = str(i+1) + ' ' +cName[i]
with open('d:\\test\\c.txt','w') as f2:
    f2.writelines(cName)
    f.close()

 图 3 运行结果(c.txt文件)

        除了读写函数之外,文件操作里面还有一个特别重要的函数f.seek()函数,语法如下:f.seek(offset , whence=0),主要功能就是在文件中移动文件指针,从 whence(0表示文件头部,1表示 当前位置,2表示文件尾部)偏移offset个字节,whence参数可选,默认值为0,已在前面代码中使用过,此处就不再叙述了。

网络数据的获取

        本文目前只介绍一下简单的网络数据获取方式,更深入一点的在日后进行补充。

抓取

        实现抓取网页内容有许多种方法,目前只介绍使用Requests第三方库来进行抓取(首先要查看爬虫协议),可直接在命令提示符下输入pip install requests 来获取,或者使用Anaconda来导入第三方库,在此就不介绍具体方法,实现代码如下:

import requests
r = requests.get("https://www.baidu.com/")
print(r.status_code)
r.encoding = 'utf-8'
print(r.text)

        获取到的代码如下所示:

        运行结果如图所示:

 图 4 代码运行结果

解析

        对网页进行爬取之后,有时候要进行代码的解析,来获得我们所需要的信息,本文主要使用Beautifu Soup第三方库来解析代码,具体代码实现如下所示:

import requests
from bs4 import BeautifulSoup
import re

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/78.0.3904.108 Safari/537.36'}
# 有些网站抓取时需要增加headers属性,将自己的浏览器信息告诉服务器

r = requests.get('https://book.douban.com/subject/1084336/comments/', headers=headers)
soup = BeautifulSoup(r.text, 'lxml')
pattern = soup.find_all('span', 'short')
for item in pattern:
    print(item.string)
pattern_s = re.compile('<span class="user-stars allstar(.*?) rating"')
p = re.findall(pattern_s, r.text)
s = 0
for star in p:
    s += int(star)
print(s)    # 统计评分总数
print(p)    # 查看每个评分数

        运行代码如下所示:

 图 5 代码运行结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值