- 博客(7)
- 收藏
- 关注
原创 TypeError: string indices must be integers
在获取相应的内容后,内容的呈现方式为字典,但采用键的方式报错,在网上查了几种方法,都没有解决,后来发现r.json()这一用法,可以将获得内容转换为字典格式,之后再用键查找就不会报错了page = requests.get(url, headers=headers)data=page.json()['data']...
2022-03-14 15:07:15
772
原创 SQL语句查询重复语句并进行标记和更新
SELECT * from (select *,Row_Number() OVER(PARTITION BY "Full Journal Title" ORDER BY "Full Journal Title") as row_num --开窗函数对于重复数据进行排序from tmp_journal_if_from_sci_copy1) as foowhere foo.row_num>1 --筛选出重复数据使用开窗函数,可对重复的数据量进行排序,筛选出序列为2及以上的数据,即为重.
2022-02-18 14:00:33
2602
原创 使用xlwt库创建表格并存储数据
在存储数据时,可供使用的库较多,我常用的库是xlwt库,但每次用了一遍之后,下次再写比较麻烦,所以直接写成一段代码,如果以后有需要,可以直接复制粘贴再修改使用。import xlwtdef sav_xls(info): #info是传的参数,info是一个列表,存储着信息。 book=xlwt.Workbook() #创建excel表 sheet=book.add_sheet('sheet1') #创建工作表 title=['url','info'] #第一行的标题
2022-02-17 09:53:43
628
原创 爬虫和存储过程中遇到的问题
昨天写了个爬虫程序,中间遇到了各种可能遇到的问题,现在将问题写下来,希望以后不再2犯同样的错误。这一个代码块用于读取txt文件,并将其转换成列表,文件中存储的为url。但在实际转换为列表之后再输出,发现多了一个"\n",因此导致输出的url错误,对此,可在实际爬取url时候,将“\n”去掉。def read_txt(): f = open('url.txt') #打开存储的txt文件 url_list = list(f) #将文件转换成列表 # print(url_lis
2022-02-17 09:38:32
213
原创 xpath取空标签里面的内容
这几天爬虫遇到一个问题,有标签之间的内容为空,如下图:最后一个td标签是没有内容的,如果直接用xpathtiq
2022-02-15 09:25:23
1260
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人