多媒體

  初識(shí)多媒體
  怎樣與多媒體打交道
  繽紛世界的背后
  來來往往多媒體
  多媒體時(shí)代的通行證
  如何把精彩留給自己
  新的世紀(jì)從多媒體開始

移動(dòng)通信

計(jì)算機(jī)網(wǎng)絡(luò)

智能網(wǎng)

光通信

微波通信

衛(wèi)星通信

交換網(wǎng)

接入網(wǎng)

電信管理網(wǎng)

 

    
  電信博物館 > 多媒體 > 怎樣與多媒體打交道 > 低眉信手續(xù)續(xù)彈

 


印刷體漢字識(shí)別系統(tǒng)

  一、文字識(shí)別概述

  從上一部分的介紹中我們可以知道,從識(shí)別技術(shù)的難度來說,手寫體識(shí)別的難度高于印刷體識(shí)別,而在手寫體識(shí)別中,脫機(jī)手寫體的難度又遠(yuǎn)遠(yuǎn)超過了聯(lián)機(jī)手寫體識(shí)別。到目前為止,除了脫機(jī)手寫體數(shù)字的識(shí)別已有實(shí)際應(yīng)用外,漢字等文字的脫機(jī)手寫體識(shí)別還處在實(shí)驗(yàn)室階段。

  與脫機(jī)手寫體和聯(lián)機(jī)手寫體識(shí)別相比,印刷體漢字識(shí)別已經(jīng)實(shí)用化,而且在向更高的性能、更完善的用戶界面的方向發(fā)展。因?yàn)樗兄鴱V泛的應(yīng)用前景。目前,辦公自動(dòng)化已成為信息社會(huì)不可避免的發(fā)展趨勢(shì)。雖然在計(jì)算機(jī)網(wǎng)絡(luò)飛速發(fā)展的今天,許多信息已經(jīng)電子化,世界各地出現(xiàn)了許多“電子版”的報(bào)紙、雜志等出版物,但是我們可以看到印刷材料的數(shù)量也大大地增加了,一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣;同時(shí),網(wǎng)絡(luò)信息資源的爆炸性增長(zhǎng)以及網(wǎng)絡(luò)傳輸容量的限制,都是方便、快速地獲取這些信息的制約因素。電子化與印刷文本材料如同一枚硬幣的兩面,互相補(bǔ)充、互相促進(jìn),在未來的十幾年或更長(zhǎng)的時(shí)間內(nèi)將不會(huì)出現(xiàn)一者被另一者取代的情況。

  二、印刷體文字識(shí)別的研究歷程

  印刷體文字的識(shí)別很早以前就是人們的夢(mèng)想,早在1929年,Taushek就在德國(guó)獲得了一項(xiàng)有關(guān)OCR(光學(xué)字符識(shí)別)的專利。歐美國(guó)家為了將浩如煙海、與日俱增的大量報(bào)刊雜志、文件資料和單據(jù)報(bào)表等文字材料輸入計(jì)算機(jī)進(jìn)行信息處理,從50年代就開始了西文OCR技術(shù)的研究,以便代替人工鍵盤輸入。

  印刷體漢字的識(shí)別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了1,000個(gè)印刷體漢字。70年代以來,日本學(xué)者做了許多工作,其中有代表性的系統(tǒng)有1977年東芝綜合研究所研制的可以識(shí)別2000個(gè)漢字的單體印刷漢字識(shí)別系統(tǒng);80年代初期,日本武藏野電氣研究所研制的可以識(shí)別2300個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng),代表了當(dāng)時(shí)漢字識(shí)別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識(shí)別系統(tǒng)。這些系統(tǒng)在方法上,大都采用基于數(shù)字變換的匹配方案,使用了大量專用硬件,其設(shè)備有的相當(dāng)于小型機(jī)甚至大型機(jī),價(jià)格極其昂貴,沒有得到廣泛應(yīng)用。

  我國(guó)對(duì)印刷體漢字識(shí)別的研究始于70年代末80年代初,大致可以分為三大階段:
  (1) 第一階段從70年代末期到80年代末期,主要是算法和方案探索。
  (2) 第二階段是90年代初期,中文OCR由實(shí)驗(yàn)室走向市場(chǎng),初步實(shí)用。
  (3) 第三階段也就是目前,主要是印刷體漢字識(shí)別技術(shù)和系統(tǒng)性能的提高,包括漢英雙語混排識(shí)別率的提高和穩(wěn)定性的增強(qiáng)。

  同國(guó)外相比,我國(guó)的印刷體漢字識(shí)別研究起步較晚。但由于我國(guó)政府對(duì)漢字自動(dòng)識(shí)別輸入的研究從80年代開始給予了充分的重視和支持,經(jīng)過科研人員十多年的辛勤努力,印刷體漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用,有了長(zhǎng)足進(jìn)步:從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體混排的多體識(shí)別,從中文印刷材料的識(shí)別發(fā)展到中英混排印刷材料的雙語識(shí)別。各個(gè)系統(tǒng)可以支持簡(jiǎn)、繁體漢字的識(shí)別,解決了多體多字號(hào)混排文本的識(shí)別問題,對(duì)于簡(jiǎn)單的版面可以進(jìn)行有效的定量分析,同時(shí)漢字識(shí)別率已達(dá)到了98%以上。

  清華大學(xué)電子工程系、中國(guó)科學(xué)院計(jì)算所智能中心、北京信息工程學(xué)院、沈陽自動(dòng)化研究所等單位分別研制開發(fā)出實(shí)用化的印刷體漢字識(shí)別系統(tǒng)。尤其是由清華大學(xué)電子工程系研制的清華TH-OCR產(chǎn)品,始終處于技術(shù)與產(chǎn)品發(fā)展的最前沿,并占據(jù)著最大的市場(chǎng)份額,代表著中文OCR技術(shù)發(fā)展的潮流。

  這一成就,是對(duì)中華文化寶貴遺產(chǎn)的繼承和發(fā)揚(yáng),在世界電腦發(fā)展史上,必將留下光輝的一頁,同時(shí),這也是造福子孫千秋萬代的大事。國(guó)家高技術(shù)研究發(fā)展“863"計(jì)劃、國(guó)家重點(diǎn)科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金和軍事基礎(chǔ)研究基金都對(duì)這一研究課題予以極大的重視和大力的支持。

  三、結(jié)論與展望

  總體來說,近幾年來國(guó)內(nèi)對(duì)印刷體漢字識(shí)別的研究還是相當(dāng)深入的,也取得了很大成績(jī),使系統(tǒng)的識(shí)別率不斷上升。目前印刷體漢字識(shí)別系統(tǒng)的應(yīng)用已經(jīng)相當(dāng)成熟。例如,剛剛通過國(guó)家教委鑒定的清華TH-OCR97綜合集成漢字識(shí)別系統(tǒng),對(duì)中等質(zhì)量的樣本,識(shí)別率已經(jīng)可以達(dá)到99%左右或更高。不過,這些系統(tǒng)還存在著一些可改進(jìn)之處:

  1、從識(shí)別角度
  (1) 漢字識(shí)別率總是漢字識(shí)別中最重要的指標(biāo),應(yīng)該達(dá)到更新的高度,從而最大程度地減少用戶校對(duì)、修改的工作量。
  (2) 印刷體漢字識(shí)別的魯棒性(Robustness)還不夠強(qiáng)。Robust在英文中是“健壯的”或“強(qiáng)的”之意。魯棒性可以理解為識(shí)別系統(tǒng)對(duì)于不同質(zhì)量、不同字號(hào)、不同字體的文本圖象表示出來的適應(yīng)性。在文字識(shí)別中,識(shí)別系統(tǒng)的魯棒性尤其反應(yīng)在隨著印刷質(zhì)量的下降,系統(tǒng)誤識(shí)率的上升趨勢(shì)上。
  目前的OCR系統(tǒng)都對(duì)掃描圖象的質(zhì)量有一定要求,掃描亮度不能太暗也不能太亮,保證文字的圖象即不會(huì)暗成一個(gè)黑塊也不會(huì)亮得筆畫發(fā)生很多斷裂。這就對(duì)用戶的使用提出了較高要求。
  印刷文本的質(zhì)量可能千差萬別,一般用戶對(duì)掃描儀的操作也可能不夠合適,這往往造成識(shí)別圖象的質(zhì)量不佳,為使任何未經(jīng)訓(xùn)練的用戶都能用好OCR系統(tǒng),系統(tǒng)的魯棒性必須不斷提高。
  (3) 漢英混排文本的切分仍不夠成熟。與識(shí)別技術(shù)相比,對(duì)切分的理論和方法還缺乏系統(tǒng)的研究和有效的成果。隨著漢字識(shí)別率的上升以及漢英混排文本的增多,切分錯(cuò)誤在所有錯(cuò)誤中所占的比重不斷上升,怎樣使文字正確分割變成了另一個(gè)還未很好解決的問題。

  2、用戶界面和自動(dòng)化程度方面
  (1) 掃描儀自動(dòng)亮度調(diào)節(jié),無須用戶選擇門限,自動(dòng)隨文本種類、印刷質(zhì)量不同選擇合適的掃描儀亮度門限,以保證識(shí)別率。
  (2) 版面的自動(dòng)分析,無需人工干預(yù),可以將印刷文本材料,如報(bào)紙、雜志等,上面有各種插圖、表格、花邊,且同時(shí)存在橫、豎版面等加以區(qū)分和作相應(yīng)的標(biāo)記,以便分別處理。
  (3) 中文印刷表格的自動(dòng)錄入,對(duì)于中文印刷表格,可以進(jìn)行框線的自動(dòng)檢測(cè)、欄目自動(dòng)切分,直至將各欄目中的內(nèi)容識(shí)別出來,并且可以和數(shù)據(jù)庫直接相連,完成印刷表格自動(dòng)錄入至數(shù)據(jù)庫的任務(wù)。
  (4) 版面自動(dòng)恢復(fù),僅有文字識(shí)別往往不能滿足實(shí)際需要。能夠保持原來的排版形式、字體信息、表格和插入的圖形圖象,以便在Word、北大方正等排版軟件中直接修改,一直是許多用戶的夢(mèng)想。
  (5) 系統(tǒng)提供用戶自學(xué)習(xí)功能,使用戶自由地?cái)U(kuò)大專業(yè)識(shí)別字符集;以及適用于各種應(yīng)用環(huán)境的漢字識(shí)別系統(tǒng)。例如:MS-DOS環(huán)境、Windows環(huán)境和UNIX環(huán)境下中文OCR版本,滿足不同用戶的需求。

  3、其它方面
  (1) 系統(tǒng)總體性能的進(jìn)一步提高。解決像報(bào)紙這種欄目多而位置排列復(fù)雜的印刷文本材料的版面自動(dòng)理解;利用自然語言理解知識(shí)進(jìn)行識(shí)別后處理;進(jìn)一步提高英文的識(shí)別率和適應(yīng)性,降低系統(tǒng)的誤識(shí)率,等等。
  (2) Internet/Intranet上的網(wǎng)絡(luò)版本。充分利用網(wǎng)絡(luò)上的資源及計(jì)算能力,提高系統(tǒng)的性能,使用戶能夠更方便地協(xié)同工作。
  (3) 系統(tǒng)固化以及系統(tǒng)各部分的質(zhì)量和性能的穩(wěn)定提高。
  (4) 擴(kuò)大OCR核心技術(shù)的應(yīng)用范圍,開發(fā)更多的應(yīng)用系統(tǒng),并將研究成果迅速轉(zhuǎn)化為產(chǎn)品,提高軟件的商品化水平,使之能大量地走出國(guó)門,走向全世界。
  這些都是漢字識(shí)別系統(tǒng)急待解決的問題,也是漢字識(shí)別技術(shù)今后努力發(fā)展的重要方向。

[上一頁] [下一頁]

 

 
韩国日本在线看片,国产免费99热精品,国产精品码一区二区,色老久久精品偷偷鲁偷偷鲁