让你熟悉 from gne import GeneralNewsExtractor是怎么样的

目录

也可以直接下载py文件进行尝试:

1;pycharm编写代码

2:我们去到这个网站,看到新闻文章

3:然后我们复制网站源码

4:然后在pycharm中,输入以下全部代码:

5:我们可以看到结果

6:结果可以看到含有

7:我们在那个网站,把全部源码复制在代码上去

结果:

完毕


也可以直接下载py文件进行尝试:

https://download.csdn.net/download/weixin_49492286/87806851

1;pycharm编写代码

from gne import GeneralNewsExtractor


extractor = GeneralNewsExtractor()

html =''' 从网站复制的网站源码      ''''

result = extractor.extract(html)
print(result)

2:我们去到这个网站,看到新闻文章

3:然后我们复制网站源码

			<div class="article" id="article">
				<p>  每加仑5美元的汽油价格之际,拜登政府高层官员正在考虑对成品油出口加以限制。</p>
<p>  知情人士透露,在拜登更大力地批评石油公司利润暴增之际,有关限制汽油和柴油出口的讨论最近几天有所升温。据悉,正考虑的限制措施将不会完全禁止出口成品油。根据美国能源信息管理局的数据,今年到目
、
、
、
、


自己复制上去在这里
、
、
、
、
、
、</p>
	

4:然后在pycharm中,输入以下全部代码

from gne import GeneralNewsExtractor



extractor = GeneralNewsExtractor()
html = '''<div class="article" id="article">
				<p>  彭博6月17日消息,在白宫难以平抑已超过每加仑5美元的汽油价格之际,拜登政府高层官员正在考虑对成品油出口加以限制。</p>

、
、
、
、
、

自己复制在这里

、
、、
、
、
、
、
、</p>
'''
result = extractor.extract(html)
print(result)

5:我们可以看到结果

6:结果可以看到含有

{'title': '', 'author': '', 'publish_time': '6月17日', 'content': '。。。。。。', 'images': []}
 

{'title': '', 'author': '', 'publish_time': '6月17日', 'content': '彭博6月17日消息,在白宫难以平抑已超过每加仑5美元的汽油价格之际,拜登政府高层官员正在考虑对成品油出口加以限制。\n知情人士透露
、
、
、
、
、
、
、
、
', 'images': []}

7:我们在那个网站,把全部源码复制在代码上去

全部代码如下:

from gne import GeneralNewsExtractor



extractor = GeneralNewsExtractor()
html = '''


<!DOCTYPE html>
<!-- [ published at 2022-06-17 13:48:45 ] -->
<!-- LLTJ_MT:name ="界面新闻" -->
<!-- LLTJ_ZT:url=""; name="今日国际热闻0617,gjrw0617";type="ZW"; -->
<html>
<head>
;;;;;;;

</body>
</html>

'''
result = extractor.extract(html)
print(result)



结果:

完毕

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值