python爬取网页源代码并存储到本地实例

这里要用到urllib库
所以首先要安装库
1、windows+r
2、cmd
3、pip install urllib
4、运行下面代码
5、存储完成后,就可以在没有联网的情况下,也能在本地打开该网页

import urllib.request

def getHtml(url):
    h = urllib.request.urlopen(url).read()
    return h
 
def saveHtml(file_name,file_content):  
#    注意windows文件命名的禁用符,比如 /  
    with open (file_name,"wb") as f:
#   写文件用bytes而不是str,所以要转码  
        f.write( file_content )  
		
h=getHtml('https://blog.csdn.net/sinat_38052999/article/details/78571416')
saveHtml('C:/Users/ASUS/Desktop/text1.html',h)
 
print ("结束")

其它方法:

import requests #调用requests库
res = requests.get('https://kns.cnki.net/KCMS/detail/50.1044.N.20200619.1019.002.html')
#获取网页源代码,得到的res是Response对象
html = res.text #字符串
html = html.encode() #把str转化成byte
with open('C:/Users/ASUS/Desktop/wenjian.html','wb') as f:
    f.write(html)
    f.close()
print('完成')
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要使用Python爬取企查查数据,可以按照以下步骤进行操作: 1. 导入所需的Python,如requests、beautifulsoup和pandas。 ``` import requests from bs4 import BeautifulSoup import pandas as pd ``` 2. 构造请求URL,可以通过企查查网站检索得到相应公司的URL,或者直接拼接URL。 ``` url = "https://www.qichacha.com/company_search?key=关键词" ``` 3. 发送HTTP请求,获取网页内容。 ``` headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} response = requests.get(url, headers=headers) ``` 4. 使用BeautifulSoup解析网页内容,提取所需数据。 ``` soup = BeautifulSoup(response.text, 'html.parser') # 定位到要提取的数据HTML标签 data = soup.find_all('div', class_='search_list')[0].find_all('tr') ``` 5. 将提取的数据存储到DataFrame中,方便后续处理和分析。 ``` records = [] for tr in data: record = [] for td in tr.find_all('td'): record.append(td.text.strip()) records.append(record) df = pd.DataFrame(records) ``` 6. 对DataFrame进行必要的数据清洗和处理。 ``` df.columns = df.iloc[0] # 将第一行作为列名 df = df[1:] # 去除第一行数据 ``` 7. 可以选择将处理后的数据保存到本地文件,或者进行进一步的分析和可视化展示。 ``` df.to_csv('企查查数据.csv', index=False) ``` 注意:爬取网站数据要遵守相关法律法规和网站的使用条款,尊重网站规则并使用爬虫技术进行合法合规的数据获取。 ### 回答2: Python可以使用多种进行网页数据爬取,其中比较常用的是BeautifulSoup和Selenium。 首先,我们需要安装相应的,可以使用pip install进行安装。 ```python pip install beautifulsoup4 pip install selenium ``` 然后,我们需要导入所需的。 ```python from selenium import webdriver from bs4 import BeautifulSoup import time ``` 接着,我们需要设置webdriver的路径,并实例化一个浏览器对象。 ```python # 设置webdriver的路径 driver_path = "chromedriver_path/chromedriver" # 实例化一个浏览器对象,这里以Chrome为例 browser = webdriver.Chrome(executable_path=driver_path) ``` 接下来,我们需要打开企查查的网页进行相关操作,这里以搜索公司信息为例。 ```python # 打开企查查网页 url = "https://www.qcc.com" browser.get(url) # 找到搜索框并输入关键词 search_input = browser.find_element_by_id("headerKey") search_input.send_keys("公司名") # 找到搜索按钮并点击 search_button = browser.find_element_by_id("index-getData") search_button.click() # 等待页面加载 time.sleep(5) ``` 页面加载完成后,我们可以通过BeautifulSoup来解析所需的数据。 ```python # 获取页面源代码 page_source = browser.page_source # 使用BeautifulSoup解析数据 soup = BeautifulSoup(page_source, "html.parser") # 找到所需的数据,并进行相应的处理 data = soup.find_all("div", class_="result-list") ``` 最后,我们需要关闭浏览器。 ```python browser.quit() ``` 这样,我们就完成了使用Python爬取企查查数据的过程。可以根据需求对代码进行相应的修改和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值