使用Python3和BeautifulSoup4处理本地html文件

在制作微信小程序时,作者需要处理大量法语单词数据,选择使用Python3和BeautifulSoup4来自动化处理。文章介绍了遇到的问题,如清理HTML标签,使用正则表达式,以及BeautifulSoup4的基本用法,包括安装、读取HTML文件和数据提取。最终,作者通过这些工具将数据整理并保存到Excel表格。
摘要由CSDN通过智能技术生成

我的博客地址:https://hxd.red
原文链接https://hxd.red/2019/08/06/python3-beautifulsoup4-html-190805/
我的微信公众号:不淡定的实验室(hxdred)

遇到的问题

在制作第三个微信小程序“法语背单词记忆小助手”时,我需要处理大量单词有关的数据,为了一劳永逸解决单词释义、单词例句等种种方面的问题,我打算提取mdx词典数据,将词典里面所有单词的数据做成数据表,并上传至云开发。这样的话,另一个小程序“法语动词变位记忆小助手”也能共享成果。

作为一个懒人,肯定不会手动去处理这么多数据(提取mdx之后有60万行数据,去除对我来说没用的动词变位数据,还有15万行,共计12000余个单词)。所以打算使用python和Beautiful Soup(以下可能简称BS)进行数据处理。引用官方文档的说法:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。
在这里插入图片描述

初始需要处理的文本

初始文本如下,下面仅选取两个单词的详情页作为示例:

<zidingyi>
abandonner
<h1 class="Adresse" >abandonner</h1><br /><span class="CategorieGrammaticale" >verbe transitif </span><br />
<span class="Indicateur">(déserter) </span><br />
<div class="Traductionchinois" >擅离</div>
<span class="Locution2" id="48" >abandonner son poste</span> 
<div class="Traduction2chinois" >擅离职守</div Traduction2>
</td></tr></table>
<span class="Indicateur">(laisser) </span><br />
<div class="Traductionchinois" >抛弃</div>
<span class="Locution2" id="49" >abandonner un animal</span> 
<div class="Traduction2chinois" >丢弃一只动物</div Traduction2>
 <span class="Locution2" id="50" >partir en abandonnant femme et enfants</span> 
  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值