小篆汉字对比数据库
骨刻文字数字化识别与归类系统项目
前言
本次项目实训的内容是骨刻文字数字化识别与归类系统,第一个任务是建立小篆和甲骨文的汉字对比数据库为后续骨刻文字识别归类提供基础
提示:以下是本篇文章正文内容,下面案例可供参考
一、小篆汉字对比库来源及提取思路
使用篆书在线转换器https://www.zhuanshuti.cn/
使用Selenium+Chromedriver模拟浏览器操作浏览网页,同时检查网页代码了解页面结构,模拟选中方正小篆体,按字典顺序输入现代汉字,缓存生成图片到本地mysql,存储成为现代汉字的属性
二、具体实现步骤及代码
1.引入库
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
2.打开无头浏览器
:
browser = webdriver.Chrome(executable_path=r'D:\Google\Chrome\Application\chromedriver.exe') #如果打开这行浏览器就说明驱动成功了
browser.get('https://www.zhuanshuti.cn/')
这里犯了一个错误,起初()里未填路径使用了默认参数,导致报错只能使用84版本的Chrome,结果下载了多个版本的Selenium才发现是执行路径参数问题
3.模拟,自动化爬取
#导入库
import time
import win32api
import win32con
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
#创建浏览器对象, 同时打开浏览器
browser = webdriver.Chrome(executable_path=r'D:\Google\Chrome\Application\chromedriver.exe') #如果打开这行浏览器就说明驱动成功了