数字图像处理大作业——甲骨文图像校正与文字识别（二）

最新推荐文章于 2025-04-09 17:19:09 发布

原创最新推荐文章于 2025-04-09 17:19:09 发布

· 979 阅读

12 ·

版权

文章标签：

#人工智能

甲骨文文字处理专栏收录该内容

3 篇文章

订阅专栏

一、摘要

本研究针对甲骨文图像处理展开研究，详细阐述了相关实验过程与成果。实验涵盖图像校正、噪声去除、多边形拟合、文字提取与分割等内容。在图像预处理阶段，通过灰度化、二值化、连通域分析等操作去除背景噪声，增强文字清晰度。利用霍夫变换检测直线并旋转图像实现校正，以质心为原点建系，再经腐蚀、膨胀优化图像。多边形拟合采用bwboundaries函数得到甲骨外轮廓。文字提取经多种方法尝试，确定先膨胀再提取文字，按连通域面积排序后重新排列。

二、实验思路分析

（一）第(1)、(2)问的处理

该任务的主要目标是实现对图像的处理，包括求取图像的质心、对图像进行整体校正，以及将图像中的文字调整为垂直和水平走向。在实际处理图像的过程当中，发现原始图像中甲骨外部的白色区域是无关紧要的部分，这些区域可以视为背景噪声，不仅对任务无帮助，还可能干扰文字的识别和校正效果。因此，我设想在去除背景噪声的同时，尝试提升甲骨文上文字的清晰度，以便更准确地识别文字的走向信息。在去噪和增强文字后，我计划利用Hough变换对图像中的文字走向进行检测，提取其方向信息，并依据这一信息对图像进行校正，确保文字走向变为标准的垂直和水平。这一处理流程将帮助顺利完成实验中的(1)、(2)两个问题，为后续研究奠定基础。

（二）第(3)问的处理

该任务的核心目标是对甲骨外部轮廓进行精确拟合，以便为后续的研究与分析提供可靠的形状信息。为实现这一目标，首先需要通过边缘检测算法对图像进行处理，提取甲骨的边缘轮廓。边缘检测是一种常用的方法，可以有效地找到图像中显著的边界信息。在获取到甲骨的边缘后，可以进一步利用多边形拟合的相关算法对这些边缘进行拟合处理，生成更加规则且简洁的轮廓表示。但是为了确保轮廓提取的准确性，在此之前需要结合(1)、(2)两问中涉及的图像预处理工作，例如去除背景噪声、提升图像清晰度以及对图像方向的校正等。这些前置处理能够显著改善边缘检测和拟合的效果，避免背景干扰或不准确的边缘检测导致的误差。基于此步骤，能够顺利解决实验中的第(3)问，为甲骨形状的进一步研究提供清晰且精确的轮廓数据。

（三）第(4)问的处理

该任务的主要目标是从图像中提取出甲骨文字符，并根据字符在图中的位置进行排列。这一过程需要在图像预处理的基础上进行进一步处理。在预处理阶段，我设想将甲骨内部的白色区域视为文字符号的轨迹，通过这一假设可以初步解决字符提取的问题。然而，在实际操作中发现甲骨内部存在裂缝、字符粘连等情况，这些问题会对提取效果产生干扰，导致提取结果不准确。因此，如果能够手动圈选出认为是干扰的区域并加以处理，将会显著提升字符提取的精度。为此了解到，RIO方法可以用于对特定区域进行定向处理。通过利用RIO对干扰区域进行标注和排除，干扰问题就能够得到有效解决。在完成干扰区域的处理后，就可以对图像中的字符进行提取。这一过程需要识别所有的连通区域，并确保能够清晰区分各连通区域之间的边界。由于题目要求是有序排列，可知任务要求提取出的文字需要按照一定的顺序进行排列，考虑可以通过对文字连通域的面积大小进行排序从而实现对文字的排序。进一步查阅资料后，我发现MATLAB中自带的bwlabel和regionprops函数可以很好地实现这一功能。其中，bwlabel用于标记连通区域，而regionprops则能提取每个连通区域的属性信息，如位置、形状等。通过这些工具，可以进一步有效地提取出图像中的甲骨文字符，并根据其原始位置进行合理排列，从而完成任务目标，这也是未来工作的一部分。

三、实验流程设计

（一）第1、2问的流程设计

这一部分任务的目标是对原始图像进行处理和校正，使图像中的甲骨文文字排列规范化，为后续的分析和识别提供支持。整个流程从原始图像的输入开始。首先，进行图像的预处理：将原始图像转化为灰度图像，减少颜色信息的干扰并突出主要特征；然后通过二值化操作简化为黑白二值图像，使图像中的甲骨文与背景得以清晰区分。为了进一步消除噪声，通过膨胀和腐蚀操作去除二值图中的细小噪声。接下来，通过连通域分析识别图像中彼此连通的区域，并对其进行编号处理，同时剔除噪声区域，仅保留与甲骨文相关的有效区域。这些连通域的主要部分会被提取出来，并进行质心计算，计算出的质心将被用作坐标原点，为后续的校正提供参考。在此基础上，使用Canny边缘检测方法提取图像中甲骨文字的边缘，通过霍夫变换检测出图像中的直线，并标注出最长的直线。通过最长线段的方向与默认的X轴之间的夹角，判断图像的整体倾斜角度，并进行旋转校正，从而使文字的方向与垂直或水平标准保持一致。这一流程通过图像预处理、连通域分析、噪声剔除、质心计算、直线检测与校正等步骤，逐步优化了甲骨文图像的排版方向。最终，系统完成对甲骨文的分割和标准化处理，确保输出的甲骨文图像具备良好的规范性和分析价值。

（二）第3问的流程设计

这个任务必不可少的肯定是将图像转化为灰度图，在对其进行二值化处理，然后利用膨胀和腐蚀清楚边缘处的小噪声，使得后续的边缘检测更加的准确。然后同样的利用连通区域分析，图片中有两个较大的连通区域，一个是图像的背景，一个是甲骨，背景的连通区域肯定比甲骨大，所以肯定选择连通区域面积第二大的作为甲骨区域。然后同样利用Canny边缘检测甲骨的边缘。获得其边缘后，使用bwboundaries函数来对其进行多边形拟合。

若是详细分析这个任务的具体内容，我的目标是利用多边形拟合算法提取甲骨的外轮廓，为此，我设计并执行了完整的图像处理流程。从一开始，我将甲骨的原始图像导入到系统中，这为整个过程提供了原始数据。随后，我对图像进行了预处理，首先将其灰度化，将原本复杂的彩色图像简化为单一的灰度值，这一步显著减少了不必要的信息干扰，同时保留了甲骨的形态特征。接着，我对灰度图像进行了二值化处理，将图像转化为黑白像素，从而更清晰地将甲骨与背景区分开来。这一步为后续的轮廓提取奠定了基础。

在完成图像预处理后，我开始着手对图像进行连通域分析。这一步是为了识别出图像中与甲骨相关的连通区域，同时剔除噪声和无关区域。通过连通域判断，我将目标区域提取出来，并对较小的无效区域进行了颜色反转，确保只保留甲骨的主要部分作为后续处理的对象。接下来，我对甲骨区域进行了图像形态学处理，包括膨胀和腐蚀等操作。这些处理步骤让我能够修复图像中的小缺陷，平滑甲骨边界，同时加强甲骨区域的完整性，为边缘检测做准备。在获取了形态处理后的图像后，我使用了Canny边缘检测算法。这一步让我能够准确提取甲骨的外轮廓，Canny算法的强大性能确保了边缘检测的精确性，即使甲骨表面可能存在一定的噪声或模糊区域，也可以得到清晰的边缘信息。通过边缘检测，我成功获得了甲骨的轮廓线，为外形拟合提供了必要的数据支撑。最后，在轮廓检测完成后，我使用多边形拟合算法bwboundaries对甲骨的外轮廓进行了拟合。我通过拟合方法将甲骨复杂的外形抽象成规则的多边形，从而更直观地表示甲骨的外部特征。在拟合过程中，我反复调整拟合参数，确保拟合的多边形既能贴合甲骨的实际形状，又不过度复杂化。我还对拟合结果进行了验证，确保拟合的多边形能够完整地覆盖甲骨的外轮廓，同时避免过拟合现象。

（三）第4问的流程设计

首先，我从原始甲骨文图像的导入开始，这是整个处理流程的基础。我将原始图像输入系统后，立即进入图像预处理阶段。在这一阶段，我通过灰度化操作将原始彩色图像转化为灰度图像，这一过程有效地减少了多余的颜色信息，同时突出甲骨文的主要特征，使文字的结构更加清晰可见。接着，我对灰度图像进行了二值化处理，将图像中的像素值转化为仅包含黑白两色的二值图，从而能够更好地分离甲骨文与背景。这一步的目的是明确区分目标区域（甲骨文文字）和无关区域（背景或噪声）。完成图像预处理后，我进入了连通域分析阶段。这一步至关重要，我通过连通域判断技术对图像中的连通区域进行分析，提取出甲骨文所在的主要连通区域，并对这些区域进行编号。与此同时，我剔除了小的噪声区域以及不相关的连通域，确保只保留真正与甲骨文文字相关的部分。通过这一操作，我有效地筛选出图像中与文字相关的核心区域，为后续的处理提供了可靠的数据基础。

在获得文字的主要连通域后，我开始处理文字的连通域区域。首先，我通过区域划分技术，将连通域中包含的多个字符进行分割，确保每个字符能够单独提取出来。这一步需要对每个区域的几何特性进行分析，例如面积、宽高比等，确保文字的分割是准确的。此外，我还利用区域间的距离等几何特性，进一步优化字符分割的效果。这一步的重点是将原本连在一起的文字块分割为独立的字符，同时保证每个字符的完整性和清晰度。在完成文字的分割后，我对分割得到的字符进行排序。为此，我设计了一套基于字符几何位置的有序规则。例如，根据甲骨文的书写规律，从上到下、从左到右的顺序，对所有分割后的字符进行重新排列，确保输出的符号是有序的。这一步不仅需要考虑字符的位置关系，还要结合甲骨文的实际书写习惯进行调整，确保最终输出的符号符合逻辑和规范。

这套有序的排列需要考虑怎么有序，可以是考虑连通域的面积大小，按照连通域面积大小进行排序；也可以按照位置从左到右从上到下进行排序，若是按照位置顺序进行排序，则有两种方式可以选择，可以选择质心排序法或者直线排序法，本文选用的是按照连通域面积大小进行有序排列方法。

（四）补充工作
补充工作部分可以自行寻找更加清晰的甲骨文图片，本任务所提供的甲骨文图片清晰度较差，导致最终得到的效果并不理想，然而方法是简单且高效的，后续实验结果表明，更换清晰度更好的甲骨文图片后文字分割的效果有了极大的改善。本部分考虑的思路与上述步骤相同，需要注意的是由于图片的形态及明暗部分并不相同，需要考虑使用自适应阈值法方可对图像进行更好的二值化处理。

四、第3问实验代码分析

close all;
clear;
clc;

% 假设输入的图像已经是二值图像
bw_img = imread('newer1.png');  % 直接读取二值化图像

% 形态学操作：膨胀后腐蚀清理图像
se = strel('diamond', 1);  % 使用菱形结构元素
dilated_img = imdilate(bw_img, se);  % 膨胀操作
se = strel('diamond', 8);  % 更大的菱形结构元素进行腐蚀
bw_img = imerode(dilated_img, se);  % 腐蚀操作

% 图像反转：将白色变为黑色，黑色变为白色
BW_inverted = max(bw_img(:)) - bw_img;

% 去除小的区域，保留较大的区域
im = bwareaopen(BW_inverted, 5000);  % 删除小区域

% 提取特定区域并进行标记
[labeled_img, num] = bwlabel(im);  % 标记连接区域
area_stats = regionprops(labeled_img, 'Area');  % 获取每个区域的面积

% 排序区域，根据面积选择最大的区域
[sorted_areas, sort_indexes] = sort([area_stats.Area], 'descend');  % 按照面积降序排序
largest_blob_index = sort_indexes(1);  % 选择最大区域

% 提取最大区域并生成图像
largest_blob_img = ismember(labeled_img, largest_blob_index);

% 使用Canny算子进行边缘检测
edges = edge(largest_blob_img, 'canny');  % 提取边缘

% 找到边缘的坐标
[edgeY, edgeX] = find(edges);  % 获取边缘像素的X和Y坐标

% 使用 bwboundaries 提取轮廓
B = bwboundaries(largest_blob_img);  % 提取轮廓

% 检查 B 是否包含足够的数据点
if ~isempty(B)
    figure;
    imshow(largest_blob_img);  % 显示二值图像
    hold on;
    
    % 遍历所有的轮廓并绘制
    for k = 1:length(B)
        boundary_points = B{k};  % 获取第k个轮廓的点
        
        % 绘制轮廓，B{k} 只返回二维点
        plot(boundary_points(:,2), boundary_points(:,1), 'g-', 'LineWidth', 2);  % 使用绿色线条绘制外轮廓
    end

    % 标记质心
    stats = regionprops(labeled_img, 'Centroid');  % 获取质心
    centroid = stats(largest_blob_index).Centroid;  % 获取最大区域的质心
    plot(centroid(1), centroid(2), 'ro', 'MarkerSize', 10, 'LineWidth', 2);  % 绘制质心位置
    legend('外轮廓', '质心');
    
    title('多边形拟合的外轮廓');
else
    disp('没有提取到任何轮廓');
end