脫機(jī)手寫漢字識(shí)別
一、漢字識(shí)別概述
漢字已有數(shù)千年的歷史,也是世界上使用人數(shù)最多的文字,對(duì)于中華民族燦爛文化的形成和發(fā)展有著不可磨滅的貢獻(xiàn),并將繼續(xù)發(fā)揮重要的、其它文字形式難以取代的作用。然而,漢字是非字母化、非拼音化的文字,在當(dāng)今高度信息化的社會(huì)里,如何快速高效地將漢字輸入計(jì)算機(jī),已成為影響人—機(jī)交流信息效率的一個(gè)重要瓶頸,也關(guān)系到計(jì)算機(jī)能否真正在我國(guó)得到普及應(yīng)用。
圍繞這一問題,人們提出了各種解決方案。目前,漢字輸入主要分為人工鍵盤輸入和機(jī)器自動(dòng)識(shí)別輸入兩種。
 |
自動(dòng)識(shí)別輸入分為語(yǔ)音識(shí)別和字符識(shí)別兩種。漢字識(shí)別是模式識(shí)別的一個(gè)重要分支,也是文字識(shí)別領(lǐng)域最為困難的問題,它涉及模式識(shí)別、圖象處理、數(shù)字信號(hào)處理、自然語(yǔ)言理解、人工智能、模糊數(shù)學(xué)、信息論、計(jì)算機(jī)、中文信息處理等學(xué)科,是一門綜合性技術(shù),在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域,都有著重要的實(shí)用價(jià)值和理論意義。
漢字識(shí)別技術(shù)可分為印刷體漢字識(shí)別和手寫體漢字識(shí)別兩大類,后者又可分為聯(lián)機(jī)手寫漢字識(shí)別和脫機(jī)手寫漢字識(shí)別。
從識(shí)別的角度來(lái)看,手寫體識(shí)別難于印刷體識(shí)別,而脫機(jī)手寫識(shí)別又難于聯(lián)機(jī)手寫體識(shí)別?上驳氖,經(jīng)過(guò)科研人員的努力,我國(guó)已有印刷體漢字識(shí)別和聯(lián)機(jī)手寫漢字識(shí)別的商品出售,目前已形成百家爭(zhēng)鳴、百花齊放的局面,但是脫機(jī)手寫漢字識(shí)別還處于實(shí)驗(yàn)室研究階段。在脫機(jī)手寫漢字識(shí)別領(lǐng)域,非特定人脫機(jī)手寫漢字識(shí)別又難于特定人手寫漢字識(shí)別。
二、 手寫漢字識(shí)別中存在的問題及困難
手寫漢字識(shí)別是一種重要的、適用于把手寫文稿隨時(shí)輸入計(jì)算機(jī)的方法,也是機(jī)器字符識(shí)別最為困難的一個(gè)課題,這些困難和問題表現(xiàn)在:
1、漢字類別多。僅《康熙字典》中就包含了49000多個(gè)漢字,而常用的漢字就有4000多個(gè),因而漢字識(shí)別問題屬于大類別(或者稱為超多類)模式識(shí)別問題,在模式識(shí)別理論和方法研究方面有重大意義。
2、漢字字形結(jié)構(gòu)復(fù)雜。 漢字集合中相似字較多,有些漢字的差別僅為一點(diǎn)或一個(gè)筆畫,由于手寫變形的存在,使得手寫體中相似字的區(qū)分比印刷體要困難得多。因不同人書寫風(fēng)格的差異造成手寫漢字的變形很大,具體表現(xiàn)在以下幾個(gè)方面:
。1)基本筆畫變化。橫不平,豎不直,直筆變彎,折筆的拐角變成圓弧等。
。2)筆畫模糊,不規(guī)范,該連的不連,不該連的卻相連。
(3)筆畫與筆畫之間、部件與部件之間的位置發(fā)生變化。
。4)筆畫的傾斜角、筆畫的長(zhǎng)短、部件的大小發(fā)生變化。
。5)對(duì)于脫機(jī)手寫漢字,不同人使用不同的書寫筆可能造成筆畫的粗細(xì)變化。
其中,手寫漢字字形的變化是最難以解決的問題。
一般認(rèn)為,聯(lián)機(jī)手寫漢字識(shí)別比脫機(jī)手寫漢字識(shí)別相對(duì)容易些。聯(lián)機(jī)手寫漢字識(shí)別是一種人工實(shí)時(shí)地把漢字輸入計(jì)算機(jī)的方法,它利用書寫板把筆畫變?yōu)橐痪S電信號(hào),輸入計(jì)算機(jī)的是以坐標(biāo)點(diǎn)序列表示的筆尖移動(dòng)軌跡,因而被處理的是一維的線條(筆畫)串,這些線條串含有筆畫數(shù)目、筆畫走向、筆順和書寫速度等信息,而脫機(jī)手寫漢字識(shí)別處理的僅是二維的漢字點(diǎn)陣圖象,是漢字識(shí)別領(lǐng)域中最后一個(gè)十分困難的問題,目前仍然處于實(shí)驗(yàn)室研究階段。
由此可見,對(duì)非特定人脫機(jī)手寫漢字識(shí)別而言,如果對(duì)手寫漢字的書寫不加任何限制(即為自由手寫體漢字),則識(shí)別難度相當(dāng)大?茖W(xué)研究中人們總是遵循從易到難的規(guī)律,從簡(jiǎn)單的問題入手來(lái)尋求突破口。由于自由手寫漢字識(shí)別太難,人們提出了手寫印刷體漢字識(shí)別,這已成為目前脫機(jī)手寫漢字識(shí)別的主要研究對(duì)象。所謂手寫印刷體是指書寫工整的楷書手寫體,要求書寫者工整書寫,盡量少連筆。
三、展望
我們研究非特定人脫機(jī)手寫漢字識(shí)別的目的就是使識(shí)別系統(tǒng)能夠?qū)嵱没S汕迦A大學(xué)電子工程系圖象教研組 OCR(光學(xué)字符識(shí)別)實(shí)驗(yàn)室研制的THOCR-97綜合集成漢字識(shí)別系統(tǒng)于1997年3月22日通過(guò)了由國(guó)家教委組織的鑒定并獲得了高度評(píng)價(jià),其中的非特定人脫機(jī)手寫漢字文本識(shí)別子系統(tǒng),對(duì)于書寫較為工整的手寫漢字文本,正確識(shí)別率達(dá)95.8%,為該子系統(tǒng)走向?qū)嵱没於肆己玫幕A(chǔ)?梢詷酚^地預(yù)言,在今后的5年內(nèi),非特定人脫機(jī)手寫印刷體漢字識(shí)別文本系統(tǒng)將會(huì)有產(chǎn)品走向市場(chǎng)。然而,對(duì)于自由手寫體漢字識(shí)別而言,任重道遠(yuǎn),仍需要科研人員不懈的努力,但是我們不應(yīng)該就此悲觀,隨著計(jì)算機(jī)技術(shù)的突飛猛進(jìn)和人腦功能的進(jìn)一步揭示,可望在不遠(yuǎn)的將來(lái)發(fā)現(xiàn)人腦的識(shí)字機(jī)理,建立在此基礎(chǔ)上的手寫漢字識(shí)別的理論和方法將會(huì)有質(zhì)的飛躍。
[上一頁(yè)] [下一頁(yè)]
|