1.就是头文件的header的问题
一般都要加header
2.就是格式不对
(1).是空格问题
(2).返回值没有对齐
3.编码的问题
首先看清楚原文章的编码,确定需不需要更改编码方式,如果是utf-8就不需要更改
4.整体思路
首先获取新闻列表的url,然后通过对格式比配,确定出每个正文对应的url,在提取出正文,最后对应的是存储
5.如何快速找到对应的代码段,ie是个不错的选择
6.正则表达式还需要加强
7.
url = re.findall(findURL, info)[0]
IndexError: list index out of range
解决 方法:
url = re.findall(findURL, info)