SVM对文字识别的简单使用

【原文:http://www.cnblogs.com/justany/archive/2012/11/27/2789767.html

预备知识

下面两个都不是必备知识,但是如果你想了解更多内容,可参考这两篇文章。

OpenCV 2.4+ C++ SVM介绍

OpenCV 2.4+ C++ SVM线性不可分处理

SVM划分的意义

到此,我们已经对SVM有一定的了解了。可是这有什么用呢?回到上一篇文章结果图:

Training data and decision regions given by the SVM

这个结果图的意义在于,他成功从二维划分了分类的区域。于是如果以后,有一个新的样本在绿色区域,那么我们就可以把他当成是绿色的点。

由于这可以像更高维度推广,所以如果我们能对样品映射成高维度空间的点,当有足够多的样品时,我们同样可以找到一个高维度的超平面划分,使得同一类样品的映射点在同一区域,于是当有新样品落在这些区域是,我们可以把它当成是这一类型的样本。

通俗一点

可能我们能更加通俗一点。比如我们来识别男性和女性。

我们发现男性和女性可能头发长度不一样,可能胸围不一样,于是我们对样本个体产生这样的一种映射:

    人 —> (头发长度, 胸围)

于是我们将每个样品映射到二维平面,其中“头发的长度”和“胸围的长度”分别是x轴和y轴。我们把这些样品丢给SVM学习,则他会寻找出一个合理的x和y的区域来划分男性和女性。

当然,也有可能有些男的头发比女的还长,有的男性的胸围比女性还大,这些就是错分点,它们也影响着划分。

最后,当我们把一个人映射到这个二维空间时,SVM就可以根据以往的学习,猜一猜这个人到底是什么性别。

我们学到了什么呢?

好吧,特征要找准一点,否则可能遇到下面的悲剧……

如果这是老板,你可就死翘翘了……

简单的文字识别

当然计算机没那么厉害能看出你的胸围或者头发长短。他需要一些他能读懂的东西,特别计算机通常“看到”的是下面的这种东东……

A matrix of the mirror of a car

我们需要对文字找到他的特征,来映射到高维空间。

还记得小学时候练字的米字格么?这似乎暗示了我们,虽然每个人写的字千差万别,但是他们却具有一定的特点。

我们尝试这样做,取一个字,选取一个包含该字的正方形区域,将这个正方形区域分割成8*8个小格,统计每个小格中像素的数量,以这些数量为维度进行映射。

OK,明白了原理让我们开始吧。

被提醒了,那么补充一句:这个例子在实际中用来辨认是不可行的。

样本获取

由于通常文字样本都是白底黑字的,而手写也可以直接获取写入的数据而无视背景,所以我们并不需要对样本进行提取,但我们需要对他定位,并弄成合适的大小。

比如,你没法避免有人这么写字……

坑爹啊,好好的那么大地方你就躲在左上角……

开始定位

复制代码
void getROI(Mat& src, Mat& dst){
    int left, right, top, bottom;
    left = src.cols;
    right = 0;
    top = src.rows;
    bottom = 0;

    //得到区域
    for(int i=0; i<src.rows; i++)
    {
        for(int j=0; j<src.cols; j++)
        {
            if(src.at<uchar>(i, j) > 0)
            {
                if(j<left) left = j;
                if(j>right) right = j;
                if(i<top) top = i;
                if(i>bottom) bottom = i;
            }
        }
    }

    int width = right - left;
    int height = bottom - top;

    //创建存储矩阵
    dst = Mat::zeros(width, height, CV_8UC1);

    Rect dstRect(left, top, width, height);
    dst(dstRect);
}
复制代码

这段代码通过遍历所有图像矩阵的元素,来获取该样本的定位和大小。并把样本提取出来。

重新缩放

Mat dst = Mat::zeros(8, 8, CV_8UC1);
resize(src, dst, dst.size());

进行缩放,把所有样本变成8*8的大小。为了简便,我们把像素多少变成了像素的灰度值。

resize的API:

调整图片大小

C++:  void  resize (InputArray  src, OutputArray  dst, Size  dsize, double  fx=0, double  fy=0, int  interpolation=INTER_LINEAR  )
参数
  • src – 输入图像。
  • dst – 输出图像;它有一个dsize (当其不为0时) 或者这个size由 src.size(),fxfy算出dst的类型和src相同。
  • dsize –

    输出图像的大小,如果取值为0,则:

    \texttt{dsize = Size(round(fx*src.cols), round(fy*src.rows))}

    dsize或者fxfy必须有一种大小决定方法不为0。

  • fx –

    水平轴缩放因子,当取值为0时,则为:

    \texttt{(double)dsize.width/src.cols}

  • fy –

    垂直轴缩放因子,当取值为0时,则为:

    \texttt{(double)dsize.height/src.rows}

  • interpolation –

    插值方法

    • INTER_NEAREST - 最近邻值插入方法。
    • INTER_LINEAR - 双线性插值(默认方式)。
    • INTER_AREA - 使用象素关系重采样。当图像缩小时候,该方法可以避免波纹出现。当图像放大时,类似于 CV_INTER_NN 方法。
    • INTER_CUBIC - 立方插值。
    • INTER_LANCZOS4 - 8x8的Lanczos插入方法。

准备样本数据

复制代码
Mat data = Mat::zeros(total, 64, CV_32FC1);    //样本数据矩阵  
Mat res = Mat::zeros(total, 1, CV_32SC1);    //样本标签矩阵

res.at<double>(k, 1) = label;    //对第k个样本添加分类标签

//对第k个样本添加数据
for(int i = 0; i<8; i++)  {  
    for(int j = 0; j<8; j++)  {  
        res.at<double>(k, i * 8 + j) = dst.at<double>(i, j);  
    }  
}
复制代码

将刚刚的结果,输入样本,并加上标签。

训练

复制代码
CvSVM svm = CvSVM();   
CvSVMParams param;   
CvTermCriteria criteria;  
  
criteria= cvTermCriteria(CV_TERMCRIT_EPS, 1000,  FLT_EPSILON);   
param= CvSVMParams(CvSVM::C_SVC, CvSVM::RBF, 10.0, 8.0, 1.0, 10.0, 0.5, 0.1, NULL, criteria);   
  
svm.train(data, res, Mat(), Mat(), param);  
svm.save( "SVM_DATA.xml" );  
复制代码

开始训练并保存训练数据。

使用

CvSVM svm = CvSVM();   
svm.load( "SVM_DATA.xml" );
svm.predict(m);        //对样本向量m检测

 参考资料

 使用OPENCV训练手写数字识别分类器 . firefight . 2011-05-28

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 我可以为您提供一些有关如何编写Python图片文字识别程序的建议:1)使用Python图像处理库(如OpenCV)来读取和调整图像;2)使用Python自然语言处理库(如NLTK)来识别文字;3)使用深度学习技术(如CNN)来提取图像中的文字特征;4)使用机器学习技术(如SVM)来识别文字类别。 ### 回答2: 编写Python图片文字识别程序可以使用开源库Tesseract。以下是使用Tesseract进行图片文字识别的基本步骤: 1. 安装Tesseract:在终端中运行"pip install pytesseract"来安装pytesseract库。此外,还需从Tesseract官方网站下载并安装Tesseract OCR引擎。 2. 导入需要的库:在Python程序中导入必要的库,例如cv2(用于处理图像)、pytesseract(用于进行文字识别)等。 3. 读取图片:使用cv2库中的imread()函数读取图片,并将其转换为灰度图像以方便后续处理。 4. 图像预处理:对图像进行预处理操作,例如二值化、降噪等,以提高识别的准确度。 5. 调用Tesseract进行文字识别使用pytesseract库中的image_to_string()函数,将预处理后的图像作为输入,得到识别出的文字。 6. 输出识别结果:将识别出的文字输出到控制台或保存到文件中,以便后续使用。 7. 清理临时文件:完成文字识别后,应删除生成的临时文件,以避免占用额外的存储空间。 需要注意的是,文字识别的准确性受多种因素影响,例如图像质量、文字颜色、字体等。在实际应用中,可能需要针对特定的场景进行相应的优化和调整,以提高识别的准确性。 ### 回答3: Python图片文字识别程序编写可以使用第三方库tesseract来实现。以下是一个简单的示例代码: ```python import pytesseract from PIL import Image # 打开图像文件 image = Image.open('example.png') # 图片文字识别 text = pytesseract.image_to_string(image) # 输出结果 print(text) ``` 在上面的代码中,首先需要使用`pytesseract`库来进行图片文字识别。然后使用`PIL`库的`Image`模块打开待识别的图像文件。接下来,调用`image_to_string`函数来将图像中的文字转换成文本。最后,将识别结果进行输出。 在运行代码之前,需要先安装`tesseract` OCR引擎,并将其加入系统环境变量。此外,还需要安装`pytesseract`和`PIL`库。可以使用以下命令进行安装: ```bash pip install pytesseract pip install pillow ``` 需要注意的是,该程序的准确性和效果可能会受到图像质量、文字字体、背景干扰等因素的影响。所以对于不同的图片,可能需要进行一些预处理的操作,比如图像增强、二值化、去噪等,以提高文字识别的准确率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值