基于文字匹配和特征提取的合同防伪核心技术研究及应用

(整期优先)网络出版时间:2022-10-20
/ 2

基于文字匹配和特征提取的合同防伪核心技术研究及应用

杨凝

英迈(中国)投资有限公司,上海,200000

摘要:伴随当前印刷技术与相应扫描配套软硬件设备的迭代速度加快,各类机密文件、关键合同等文件被非法篡改的情况日益严重。现阶段大部分合同校验方式均采用的是人工验核,基于此本次研究把文字匹配技术引入到合同防伪过程中,采用文字分块的特征提取形式,在电子合同图像内添加防复印底纹,辨识形近字的篡改情况,该方法可极大降低人工审核的成本投入,在防伪测试应用层面有较大参考意义。

关键字:合同防伪;分块特征;篡改检测

1 引言

传统的纸质合同不仅签署流程繁琐,而且需要耗费一定人力成本,无法保证在传输环节中文本的可靠性与正确性。与此同时,关键性合同对于保密性以及防篡改性的要求较高,当前应用率较高的防伪方法主要是借助于防复印底纹技术,采用油墨或者是印刷纸张的防伪措施需要耗费较大经济成本。本次分析是在电子合同图像内添加防复印底纹,并借助于文字匹配技术方法,完成合同内容篡改辨识,在防伪测试应用层面有较大参考意义。

2形近字匹配技术

从形近字的概念上来分析,当人注意力不集中或者眼部出现疲劳状况前提下,极易被错误辨别的文字信息。针对于形近字篡改的有效辨识方法难度较大,文中采用字块分块特征提取的技术措施,在一定程度上细化特征参数的不同,作为篡改测定的研判依据。

2.1  文字分块特征

一般情况下,对于汉字的书写均是按照田字格规范,例如图1所示。从实际观测的角度而言,首先辨识到的应当是“廷”字。这两个字体的偏旁是最大区分点,而借助于田字格布局特征,可以将其执行二分块亦或是四分块的处理,自定义分块完成之后可提取各自特征,便于后续篡改测定与研判。

图1 相近字体田字格示意图

区域分块的先决条件是检索辨识出相应文字,并解析文字对象结构类型,在获取的文字骨架图像的基本架构上执行有效分块处理,并将需要比对研判的部分相互重合叠加,以放大其差异性表现。

2.2 篡改特征研究

2.2.1 字块相关系数分析

    在实现文字分割定位步骤之后,所导入的全部合同文字字块都会唯一映射与之匹配的字块内容。将3000常用字体作为分析对象集合,对其进行常规特征解析研究。图2即为导入的字块图像相关系数分布柱状图结果,下图2(a)用于表征篡改形近字相关系数柱状图,从图中横纵坐标对比可看出,参数区间大致在0.2至0.65内;而图2(b)中深色柱状结果代表未篡改文字相关系数分布结果,对应参数区间在0.7至0.9之间,浅色柱状图表征为篡改字体的系数分布图示,其参数范围在0.15至0.4之间,处于较低相关性水平。基于此可得知,可以选定相关系数结果作为字体篡改的基础判定依据。

(a)形近字篡改相关系数结果          (b) 一般文字相关系数结果

图2 相关系数分布柱状图

2.2.2 骨架特征研究

将分析对象字体的目标骨架进行提取,解析其覆盖率和面积差值结果定义为字体骨架特征。图3表示的是导入未篡改图像骨架面积结果,从定量角度分析,骨架面积参数差异小,初始合同内统计面积值为171.125,扫描后的统计结果是172.125。

     

(a)篡改文字骨架            (b)未篡改文字骨架

图3 骨架面积统计结果

下表1为本次解析得到的骨架覆盖率数据结果,从表中所展示的数据值可得知参数结果具备明显区分特征,可以将其界定成文字匹配判定条件。

表1 骨架覆盖率分布数据结果

  1. 基于粗糙集技术理论的篡改判定研究

从理论分析层面来说,粗糙集内部囊括明确集合判定依据中的属于以及不属于定义。此概念对于研判对象的界定理念可通过图4进行表达:

图4 粗糙集分析示意模型

上图中的球用于表征没有篡改的字体对象集,该总集向三个规定方向投影显示,即可在不同方向的面中得到实心圆,圆形用以代表对应坐标系下特征参量总集。

按照上文所阐述的文字特征相关理论,综合粗糙集来搭建出一般性文字的通用判定条件:若计算得到的相关系数在0.7范围以内,那么可直接进入下述辨识流程,一种结果是导入的合同文本内出现了文字篡改问题,其次是所分析的字体受到信噪比过低或者扫描图像出现失真等影响,使得相关系数始终维持在0.7以下。文字判定先决条件的明确,应当以上述两类情况作为前提,假定所解析的文字信息一直在模糊区间内,那么能够直接将其判定成疑似篡改结果,为了保证最终结果的有效性,可以适当采用人工介入的方法,执行人工检验与校核流程。

4.结论

本文着重阐述了合同防伪中的文字匹配方法,首先有效检索并定位合同内字体,借助于视觉观测角度判定字体区别,并提取字块各项特征参量,采用粗糙集技术理论获取文字匹配判定结果。本文所提出的字体分块特征防伪判定方法在实际应用中基本一定参考意义。

参考文献

[1].  辛勇,戴俊萍.浅析防伪技术的发展[J].今日印刷, 2012(6): 55-57..

[2].  Choi S H, Cho J, Tai Y M, et al. Implementation of an image signal processor for reconfigurable processors[C]// IEEE International Conference on Consumer Electronics. 2014.

[3].  Gonzalez, Rafael C, Woods, Richard E. Digital image processing[M]// Digital Image Processing. 2010.

[4].  李建伟.  我国民法典合同法编分则的重大立法问题研究[J].  政治与法律, 2017(7): 14-24.

[5].  张岩,  吴超.  防复印技术及其研究进展[J].  安防科技, 2010(10): 15-18.

[6].  徐胜林.  隐形图文设计技术及其应用前景[J].  中国防伪报道, 2004(1): 15-16.

[7].  程越,  孙兆洋,  隋媛,  et  al.  浅谈电子合同信息化管理系统建设标准化[J].  中国标准化, 2016(6): 67-69.