結構模式識別是早期漢字識別研究的主要方法。其主要出發點是漢字的組成結構。從漢字的構成上講,漢字是由筆劃(點橫豎撇捺等)、偏旁部首構成的;還可以認為漢字是由更小的結構基元構成的。由這些結構基元及其相互關系完全可以精確地對漢字加以描述,就像一篇文章由單字、詞、短語和句子按語法規律所組成一樣。所以這種方法也叫句法模式識別。識別時,利用上述結構信息及句法分析的方法進行識別,類似一個邏輯推理器。
漢字的統計模式識別是將字符點陣看作一個整體,其所用的特征是從這個整體上經過大量的統計而得到的。統計特征的特點是抗干擾性強,匹配與分類的算法簡單,易于實現。不足之處在于細分能力較弱,區分相似字的能力差一些。常見的統計模式識別方法有:
(1)利用變換特征的方法。對字符圖象進行二進制變換(如Walsh, Hardama變換)或更復雜的變換(如Karhunen-Loeve, Fourier,Cosine,Slant變換等),變換后的特征的維數大大降低。但是這些變換不是旋轉不變的,因此對于傾斜變形的字符的識別會有較大的偏差。二進制變換的計算雖然簡單,但變換后的特征沒有明顯的物理意義。K-L變換雖然從最小均方誤差角度來說是最佳的,但是運算量太大,難以實用。總之,變換特征的運算復雜度較高,且有一定弱點。
(2) 模板匹配。模板匹配并不需要特征提取過程。字符的圖象直接作為特征,與字典中的模板相比,相似度最高的模板類即為識別結果。這種方法簡單易行,可以并行處理;但是一個模板只能識別同樣大小、同種字體的字符,對于傾斜、筆劃變粗變細均無良好的適應能力。
010-69584232