使用快速的基于区域的卷积神经网络进行古籍文字分割以及OCR

(整期优先)网络出版时间:2017-12-22
/ 2

使用快速的基于区域的卷积神经网络进行古籍文字分割以及OCR

姚宏

关键词:古籍OCR,卷积神经网络,R-CNN

1介绍

对中国古籍文字进行分割与识别时,传统的方法一般是首先进行列的切割,然后对于同一列再进行字的切割,最后对字进行识别。如图1:

在这个过程中会遇到很多现代书籍中不存在的困难。比如图1中文字大小不一致、文字出现交错和粘连。这使得传统的文字分割以及OCR准确率都比较低,需要大量人工校对。

最近发展出的基于区域的卷积神经网络算法([1],[2],[3]),对于一般图像分割与识别有了非常大的进步。我们尝试将这种神经网络应用到古籍文字切割与OCR上。这会带来很多好处:首先这种算法直接从图像中提取文字,不用再进行列的切割(如图2);对于字的相互交错和粘连也能很好处理;综合识别率提高很多。

分割和识别算法的关键问题首先是如何将需要识别的物体的区域准确分割出来。在之前应用各种区域选择模块时,我们发现由于文字颜色形状都很相似,这些模块例如SelectiveSearch很难准确的利用相似性进行区域提取。

FasterR-CNN其区域建议网络(RegionProposalNetworks)是和对象检测共享中间层,因此对象检测(对于文字也就是OCR)和区域建议共同训练并且相互影响,这种结合能很大程度上提高分割以及OCR正确率。

针对古籍文字特点,我们对模型进行了一些改进。由于文字的区域并不存在包含关系(可能会有部分重叠),因此我们在模型设计中,去掉同时又包含关系的AnchorBoxes.另外,当一个页面完成切割和识别后,我们获得文字大小,考虑到一个页面文字相对大小一致,因此我们会利用这部分信息,再次进行分割和识别。这个步骤能去掉大部分的区域选取的错误。

2训练网络

2.1训练区域建议网络

参照,我们使用的是随机梯度下降的bp网络。训练样本采用的是之前古籍数字化中积累的大量的采用传统方法识别以及人工校对的页面。通过这些页面,我们对网络输入大量正确的(positive)和错误的(negative)的样本进行训练。一个页面中我们控制anchor不超过300.为了避免大量错误样本造成的偏差过大。其正确的和错误的样本配比是大约1:1。

关于网络初始化,对于新创建的层,在初始化阶段我们随机赋予权重。对于其他层,虽然古籍图像不是通用的图片,但是我们仍然借用ImageNet已经训练好的模型。经过少量样本发现,用已经训练好的参数要好于随机给定初始参数。

学习速率是0.0001,一共进行3万的最小迭代。目前我们训练所使用的库是Tensflow。可能未来会使用MXNET,看看是否能加快训练速度。

2.2整个网络的训练

我们首先训练区域建议网络;然后将得到的建议训练R-CNN;把之后得到的网络再次用来训练区域建议网络,如此迭代(如下图)。

3实现细节

为了便于训练区域建议和OCR,根据我们原始图片的尺寸大小,我们将所有图像都调整到一个尺寸,其高度都在2000个像素。另外,我们发现图像是彩色或者灰度图像时,效果要好于二值图。所以我们采用原始的彩色和灰度扫描图像。

对于锚,根据汉字特点,经过实验,我们使用了3种比例1:1,2:1,1:1.5。这样的设定能使得训练收敛速度比原论文中建议的参数要快。

4试验结果

我们对照了500页的结果。之前传统的方法包括切割列线、将一列文字切成单个文字,最后进行OCR。而每一步都是在上一步校对后才进行的。因此,无法通过简单的乘积获得传统方法的实际正确率。因此我们打算给出两个数据:本文方法的正确率,以及通过实际校对比较,我们比较了二者的校对成本。

本文方法的区域提取的正确率是97.3%,在区域提取正确的情况下,文字识别正确率是98.5%。总的正确率是。而传统方法列线切割正确率是90.3%,单列文字切割正确率是94.0%,OCR正确率是93.7%,显然要大大低于本文的方法。

我们大致对校对成本进行估算,传统方法的校对成本和本文方法的成本比大约是19:1。可以看出本文方法能极大地降低成本。

参考文献

[1]RossGirshick,JeffDonahue,TrevorDarrell,JitendraMalik

Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation,

https://arxiv.org/abs/1311.2524

[2]RossGirshick

FastR-CNN

https://arxiv.org/abs/1504.08083

[3]ShaoqingRen,KaimingHe,RossGirshick,JianSun

FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks,

https://arxiv.org/abs/1506.01497

[4]JasperR.R.Uijlings,KoenE.A.vandeSande,TheoGevers,ArnoldW.M.Smeulders

SegmentationasSelectiveSearchforObjectRecognition,

https://www.koen.me/research/selectivesearch/