不登录获取360Doc文字内容

素焱燚-玄素

于 2020-04-27 08:24:04 发布

阅读量324

点赞数 1

分类专栏：程序语言文章标签： python tkinter xpath

本文链接：https://blog.csdn.net/yanyibbs/article/details/105782521

版权

程序语言专栏收录该内容

12 篇文章 0 订阅

订阅专栏

之前搜索某些内容时候需要复制某些内容，但是360Doc需要登录。但是又不想注册和登录就用python爬虫原理获取内容。虽然不完善，但能满足个人需求。有需要的可以自行完善功能。

# -*- coding: utf-8 -*-
# @Time: 2018/12/26 8:20
# @Author: 素还真
# @File: get360DocContentGUI.py
# @SoftWare: PyCharm
from tkinter import *
import tkinter.messagebox
import requests
import json
from lxml import etree
import sys
root=Tk()
root.title("获取360Doc内容")
Label(root,text="请输入网址").grid(row=0,column=0,sticky=W)
v1=StringVar()
e1=Entry(root,textvariable=v1,width=80,)
e1.grid(row=0,column=0,padx=80,pady=5,sticky=W)
sb=Scrollbar(root,orient=VERTICAL)
sb.grid(row=2,column=2,columnspan=4,padx=5,pady=5,sticky=NS)
lb = Listbox(root,width=125,height=40,yscrollcommand=sb.set,setgrid=True,selectmode=EXTENDED)
lb.grid(row=1,column=0,padx=8,pady=5,columnspan=5,sticky=W)
sb.config(command=lb.yview)
root.geometry("25x37+800+100")
def writeTXT(contents):
    f=open("360doc.txt","a+",encoding='gbk', errors='ignore')
    f.write(contents)
    f.close()
def get360DocContent():
    txt = v1.get()
    # if len(txt.split("."))<3 and txt.split(".")[1] == '360doc':
    if  txt!="" and txt.split(".")[1] == '360doc':
        header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
        ret = requests.get(txt, headers=header)
        data = ret.text
        html = etree.HTML(data)
        pcontents = html.xpath('//div//*//p//text()')
        for pcontent in pcontents:
            lb.insert(END,pcontent)
    else:
        tkinter.messagebox.showinfo("请输入", "请输入360doc网址")

def removeData():
    lb.delete(0,END)
    e1.delete(0,END)
Button(root,text="获取数据",width=10,command=get360DocContent).grid(row=0,column=0,padx=660,pady=5,sticky=W)
Button(root,text="清除",width=7,command=removeData).grid(row=0,column=0,padx=760,pady=5,sticky=E)
mainloop()

在这里插入图片描述

素焱燚-玄素

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
不登录获取360Doc文字内容

之前搜索某些内容时候需要复制某些内容，但是360Doc需要登录。但是又不想注册和登录就用python爬虫原理获取内容。虽然不完善，但能满足个人需求。有需要的可以自行完善功能。# -*- coding: utf-8 -*-# @Time: 2018/12/26 8:20# @Author: 素还真# @File: get360DocContentGUI.py# @SoftWare: PyC...
复制链接

扫一扫