目录
也可以直接下载py文件进行尝试:
https://download.csdn.net/download/weixin_49492286/87806851
1;pycharm编写代码
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html =''' 从网站复制的网站源码 ''''
result = extractor.extract(html)
print(result)
2:我们去到这个网站,看到新闻文章
3:然后我们复制网站源码
<div class="article" id="article">
<p> 每加仑5美元的汽油价格之际,拜登政府高层官员正在考虑对成品油出口加以限制。</p>
<p> 知情人士透露,在拜登更大力地批评石油公司利润暴增之际,有关限制汽油和柴油出口的讨论最近几天有所升温。据悉,正考虑的限制措施将不会完全禁止出口成品油。根据美国能源信息管理局的数据,今年到目
、
、
、
、
自己复制上去在这里
、
、
、
、
、
、</p>
4:然后在pycharm中,输入以下全部代码:
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '''<div class="article" id="article">
<p> 彭博6月17日消息,在白宫难以平抑已超过每加仑5美元的汽油价格之际,拜登政府高层官员正在考虑对成品油出口加以限制。</p>
、
、
、
、
、
自己复制在这里
、
、、
、
、
、
、
、</p>
'''
result = extractor.extract(html)
print(result)
5:我们可以看到结果
6:结果可以看到含有
{'title': '', 'author': '', 'publish_time': '6月17日', 'content': '。。。。。。', 'images': []}
{'title': '', 'author': '', 'publish_time': '6月17日', 'content': '彭博6月17日消息,在白宫难以平抑已超过每加仑5美元的汽油价格之际,拜登政府高层官员正在考虑对成品油出口加以限制。\n知情人士透露
、
、
、
、
、
、
、
、
', 'images': []}
7:我们在那个网站,把全部源码复制在代码上去
全部代码如下:
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '''
<!DOCTYPE html>
<!-- [ published at 2022-06-17 13:48:45 ] -->
<!-- LLTJ_MT:name ="界面新闻" -->
<!-- LLTJ_ZT:url=""; name="今日国际热闻0617,gjrw0617";type="ZW"; -->
<html>
<head>
;;;;;;;
</body>
</html>
'''
result = extractor.extract(html)
print(result)