Python 轻松学会写程式笔记-第4节55-留言分析程序

最新推荐文章于 2023-01-31 15:30:30 发布

???⃝?

最新推荐文章于 2023-01-31 15:30:30 发布

阅读量217

点赞数

分类专栏： Python python轻松学会写程式笔记

本文链接：https://blog.csdn.net/weixin_45775044/article/details/103635488

版权

Python 同时被 2 个专栏收录

67 篇文章 3 订阅

订阅专栏

python轻松学会写程式笔记

56 篇文章 1 订阅

订阅专栏

data = []
count = 0
with open('reviews.txt', 'r') as f:
	for line in f:
		data.append(line)
		count += 1 # count = count + 1
		if count % 1000 == 0:
			print(len(data))
print('档案读取完了，总共有', len(data), '笔资料')


length = 0
with open('reviews.txt', 'r') as f:
	for line in f:
		length = length + len(line)
arg = length / 1000000
print(arg)


sum_len = 0
for d in data:
	sum_len += len(d) # sum_len = sum_len + len(d)
print('留言的平均长度为', sum_len/len(data))

在这里插入图片描述

建立GitHub专案

一样先到GitHub建立专案
每一次我们要写新的程式的时候我们一定都从GitHub开始
那我到GitHub
那这个专案呢我们把他取叫做留言分析的程式 Reviews analytics留言分析
建立
建立完之后呢我到桌面建立新资料夹我取一样的名字好了Reviews analytics 留言分析的意思
cd到这个资料夹裡面
好 cd进来之后呢我们就开始执行这些指令

下载Reviews.txt档就是我们留言的数据档
我们把他移进去 Reviews点analytics这个资料夹这就是我们刚刚建立GitHub的资料夹
我把这个Reviews档丢进来了
但是因为Reviews.txt这个档案容量太大了350MB 所以呢我们就不会把他上传到GitHub
因为GitHub有限制
他每一个档案最大容量是150MB

写程序读取留言文档

我们可以开始写程式来读取我们的留言档了
我先开一个新的档案先存档我存到桌面的这个Reviews analytics
叫做read好了 Read.py 记得要点py
存档

这部分的程式码跟前面的影片档案读取的部分是一模一样的
那我现在很快的把它打出来

with open('reviews.txt', 'r') as f:
	for line in f:

with open
那我们要读取的档案是reviews.txt档
然后r就代表read 读取模式
as f 当作f
然后这边要写一个for loop
for line in f
因为我们每一次读取的时候是读取一行
那我就把这个变数命名成line 可以贴切一点
每次都读取一行

data = []
with open('reviews.txt', 'r') as f:
	for line in f:
		data.append(line)

那读取之后呢我们要把它装进一个清单嘛通常都是这样做
那我现在这个with的外面
我建立一个空清单叫做data
那每一行我就把它加进去data裡面
我把line append进去data裡面
data是个空清单嘛

处理完读取档案的部分之后呢
我们最后就印出data的长度好了
len data 就data的长度嘛
len可以去求字串的长度也可以去求清单的长度
看看它裡面装多少东西

在这里插入图片描述

执行（测试印出data清单）

在这里插入图片描述
python read.py
读取完了一百万笔我们真的有读到一百万笔的留言那读取还蛮快的
如果我把这整个data清单印出来会不会不得了因为它裡面装著一百万笔的留言欸每一个留言可能很长欸别人可能写很多内容没关係我们一样我们先印出来看看到底会发生什么事情

好执行
现在在读取现在没有印出
哇它把一百万笔的留言现在疯狂的印出来大家有没有看到会非常的长我们根本不可能看得完一百万笔的留言

print(data[0])

只印出第一笔（第0笔）留言

可以这样写中括号0 就是印出清单的第0个位置
清单都是从0开始
我们在电脑裡面呢数字都是从0开始
譬如说这是一个清单那裡面有装了三个东西这个就是第0个位置这是第一个位置这第二个位置
这是个清单裡面有0 1 2 的这个索引标籤

我们现在印出data 中括号0 等于印出第一笔的意思
你也可以想像成第0笔反正就是第一个数据
好那我先印出第一笔就好了

我不要一次印一百万笔
好我存档
还在印可能会印很久
那我就ctrl C把它中断掉
ctrl C = 强制中断程序
KeyboardInterrupt 键盘阻断
好我画面清掉输入cls
⚠️注：Mac为cammand+k 或者输入clear

再执行

执行
它现在又重新读一百万笔了这边它印出第一笔留言你看才光第一笔就这么长了欸

譬如说我随便印个分行好了然后我这边再印出第二笔 data 1
在这里插入图片描述

再执行

再执行
我只是要让你看看我们怎么使用这个索引标籤
中括号然后你给一个索引标籤 0啊或1 来来取它的位置
你看这边第一笔嘛然后我中间印了这个一堆减号来做区隔视觉上的区隔
然后如果这边印出第二笔就data1

读取文档的过程中，印出len(data)才知道读取进度

一个小小的延伸功能
刚刚在读取数据档的时候是不是一百万笔全部读完我们才印出一百万笔
那中间他读到多少我们都不知道进度或状况怎么样
那这边有个for loop 就是一行一行读我们的数据档
那是不是只要他每读一行就把现有长度印出来就好了
在这里插入图片描述
我就可以看得出来那个len data增加的有多快

执行

我们现在读到一千笔了两千笔了三千笔了四千笔了
你知道为什么现在读的比刚刚那个一百万笔慢很多
我们刚刚没有印这个的时候他大概两秒左右就全部一百万笔读完了
可是我们现在有印进度你看变这么慢现在才读到十七万至十八万

为什么？
因为print很花时间
要印到cnd的萤幕上面是一个蛮花时间的功能
所以在程式的运作上面如果希望他运作的非常的快的话当然不应该这样子不断的print
我们现在等于进行了一百万笔的print 所以就会很慢

那么怎么改善这个功能呢

我让他每读一千笔印一次

我这边写一个计数器count来记一个变数来记数
刚开始是0 就一笔都还没读
然后每读一笔我就把他加1

Count加等于1记得吧这是快写法这个完全相当于 Count等于Count加1
要存回Count

count = 0
		count += 1 # count = count + 1

Count现在有记数之后呢

求余数=%

我要怎么样让他每读一千笔印出来
如果Count跟一千的馀数是 0
我才把你印出来
这个% 这是你第一次看到这个符号
它没有很重要只是在Python中一种运算符号
这个就是求馀数

把Count跟一千去求馀数
如果Count是1001 你去跟一千求馀数馀数就会等于1
如果你是1002你去跟一千求馀数馀数就是2

那我写这个if就等于说
如果你跟一千去求馀你要是0
就表示你是一千的倍数
你如果是一千的倍数
我才把你印出来

所以呢这边就是如果count跟一千的馀数是0 我才把你印出来
那数学上的意思其实就是如果count是一千的倍数我就把你印出来

此处注意错误：少写冒号
在这里插入图片描述

执行

我们现在每一千才印一次了少印很多了所以快很多
有没有快很多
好印完了
这只是一个小小的延伸功能让你体会到说我们可以透过记数来知道我们的状态印多少了

建立版本上传github

先把这个版本上传到GitHub好了
那我这边我就打git add read档 read.py
然后我建立版本 Git commit 减m 就是给一个版本讯息我的版本讯息叫做add basic
基本的read.py好了
git push origin master 让他上传一下下
好上传好了
在这里插入图片描述
那么再来呢
刚刚印出第一笔留言印出第二笔只是他的索引是0跟1
好这我先不要我全部砍掉
我不要印出留言我这边就只有读取就好了
我这边再补充一下
档案读取完了总共有 Len data 笔资料
档案读取完了总共有逗点然后印出一个整数（len data算出来是一个整数）然后再逗点笔资料
所以这裡印了一个字串然后印了一个整数然后印了一个字串
中间你记得一定要有这个逗点非常多人刚开始写的时候很容易忘了写这种逗点
好存档

执行

先清掉然后读取
好每读取一千笔印出一个数字对不对
好档案读取完了
总共有一百万笔资料
在这里插入图片描述

那么我现在给大家一个挑战

算出这一百万笔的留言的平均长度

每一个字串都有长度那我要怎么知道这一百万笔的留言总平均长度是多少
你可以按暂停
我自己写的：（用文档去取）
在这里插入图片描述
结果：

366.84585

老师的写法：（用清单去取和算）
在这里插入图片描述

一定要用到for loop来一笔一笔读data裡面的资料

然后你再想想看怎么样算出他的平均长度
好那么我来写给你看
我知道对初学者来讲第一次写这种求平均长度是满有挑战性的我完全可以理解
你用看的反而会学很快

For d in data
每一笔资料我就把你叫做d
data是我们的清单装著一百万笔的字串每一笔字串就是一个留言
那我现在把每一笔资料呢命名为d
所以每一个d是一个字串那么字串可以求长度
我们前几个影片有讲字串可以当成像清单一样我们可以用len去求他的长度
好每一笔留言我都可以用len d 来求你的长度
那就等于说我有所有的留言的长度了
那我有所有留言的长度我要怎么知道他们的平均？
加总
Sum就是加总 Sum len 刚开始先给他0 然后每一笔留言的长度我都把你加上去

sum_len += len(d) 
# sum_len = sum_len + len(d)

加等于
现在我们就在把每一笔留言的长度
跟目前的总数加在一起
然后存回目前的总数
读第二笔的时候我们又把他的长度算出来留言的长度算出来然后呢加到目前的总数再存回去
读第三笔把他的长度算出来加上目前的总数再存回去
所以这个sum len 就会一直累积每一笔留言的长度一直加一直加他越来越大

那我们把他印出来好了看看他到底变化的怎么样
每一次加上去我就把他（sum len）印出来

执行

他（sum len）变得很夸张大因为我们把每一笔留言的长度都加起来所以我们长度会变成非常夸张大而且他要印很久因为他要印一百万笔

平均不就是把总长除以你有几笔留言几笔留言就len data 就一百万笔
总长度除以data的长度每一笔留言的平均长度
储存

再执行

所以全部加总原来这么大总共有3.6亿个字
这一百万笔资料裡面总共有3.6亿个字
留言的平均长度为366个字

上传到github

我们先把他上传到GitHub 成为我们的第二个版本
Git add read.py
Git commit 减m 这个版本叫做calc 就计算的意思 calculate就计算计算avg平均长度 Avg length of reviews
git push origin master
版本讯息你都不用跟我一样你可以自由发挥