不登录获取360Doc文字内容

之前搜索某些内容时候需要复制某些内容,但是360Doc需要登录。但是又不想注册和登录就用python爬虫原理获取内容。虽然不完善,但能满足个人需求。有需要的可以自行完善功能。

# -*- coding: utf-8 -*-
# @Time: 2018/12/26 8:20
# @Author: 素还真
# @File: get360DocContentGUI.py
# @SoftWare: PyCharm
from tkinter import *
import tkinter.messagebox
import requests
import json
from lxml import etree
import sys
root=Tk()
root.title("获取360Doc内容")
Label(root,text="请输入网址").grid(row=0,column=0,sticky=W)
v1=StringVar()
e1=Entry(root,textvariable=v1,width=80,)
e1.grid(row=0,column=0,padx=80,pady=5,sticky=W)
sb=Scrollbar(root,orient=VERTICAL)
sb.grid(row=2,column=2,columnspan=4,padx=5,pady=5,sticky=NS)
lb = Listbox(root,width=125,height=40,yscrollcommand=sb.set,setgrid=True,selectmode=EXTENDED)
lb.grid(row=1,column=0,padx=8,pady=5,columnspan=5,sticky=W)
sb.config(command=lb.yview)
root.geometry("25x37+800+100")
def writeTXT(contents):
    f=open("360doc.txt","a+",encoding='gbk', errors='ignore')
    f.write(contents)
    f.close()
def get360DocContent():
    txt = v1.get()
    # if len(txt.split("."))<3 and txt.split(".")[1] == '360doc':
    if  txt!="" and txt.split(".")[1] == '360doc':
        header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
        ret = requests.get(txt, headers=header)
        data = ret.text
        html = etree.HTML(data)
        pcontents = html.xpath('//div//*//p//text()')
        for pcontent in pcontents:
            lb.insert(END,pcontent)
    else:
        tkinter.messagebox.showinfo("请输入", "请输入360doc网址")

def removeData():
    lb.delete(0,END)
    e1.delete(0,END)
Button(root,text="获取数据",width=10,command=get360DocContent).grid(row=0,column=0,padx=660,pady=5,sticky=W)
Button(root,text="清除",width=7,command=removeData).grid(row=0,column=0,padx=760,pady=5,sticky=E)
mainloop()

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值