|
|
電信博物館 >
多媒體 > 怎樣與多媒體打交道
>
低眉信手續(xù)續(xù)彈
聯(lián)機(jī)手寫漢字識別系統(tǒng)
一、問題的由來和意義
漢字如何進(jìn)入計(jì)算機(jī),一直是中國人使用電腦的一大難題。自從漢字編碼的方案發(fā)明以來,熟記編碼、鍵盤敲入,曾一度成為漢字輸入的唯一模式。但是,漢字編碼,包括音碼、形碼及其混合類型對于一般的老百姓來說,有一定的問題:音碼雖然容易掌握,但對于發(fā)音不準(zhǔn)的人,輸入常會出錯,且重碼率太高,不會讀音的字更是無法輸入;形碼可以高速輸入,特別適合于看稿輸入,對于無稿輸入的人用來就有一定的不便,F(xiàn)在形碼無一定的標(biāo)準(zhǔn),種類繁多,且都需要強(qiáng)記大量拆分方案,對于普通人來說,學(xué)習(xí)起來有困難。另外,不管音碼還是形碼,都是基于鍵盤輸入的,現(xiàn)在一些微機(jī),袖珍到容不下鍵盤的程度(如掌上電腦PDA),編碼輸入就沒有用武之地了。
隨著計(jì)算機(jī)技術(shù)的發(fā)展和大眾化的趨勢,在越來越強(qiáng)的呼聲下,一種新的漢字輸入方法――聯(lián)機(jī)手寫漢字識別的輸入法誕生了。這種輸入方法,是完全以平常的習(xí)慣,把要輸入的漢字寫在一塊叫書寫板的設(shè)備上(實(shí)際上是一種數(shù)字化儀,現(xiàn)在有的與屏幕結(jié)合起來,可以顯示筆跡),這種設(shè)備將筆尖走過的軌跡按時間采樣后發(fā)送到計(jì)算機(jī)中,由計(jì)算機(jī)軟件自動完成識別,并用機(jī)器內(nèi)部的方式保存、顯示。
這種漢字輸入方法,具有不需要記憶編碼方案、不需要鍵盤操作的優(yōu)點(diǎn),特別適合于普通人使用,有著極大的市場潛力。但是,這種輸入方法能否最終為人們接受,主要取決于識別技術(shù)是否能夠滿足人們的需要,具體地說,就是對使用者的限制要小,識別準(zhǔn)確率要高。而就目前這一技術(shù)的發(fā)展?fàn)顩r來看,還沒有達(dá)到成熟的程度,特別是對自然書寫的識別率方面還不能達(dá)到實(shí)用要求。
二、聯(lián)機(jī)手寫漢字識別技術(shù)的發(fā)展及現(xiàn)狀
聯(lián)機(jī)手寫字符識別的發(fā)展歷史可以追溯到本世紀(jì)五十年代,伴隨著手寫板硬件(一種捕捉筆尖軌跡的數(shù)字化儀)的出現(xiàn),人們開始研究聯(lián)機(jī)手寫字符識別技術(shù)。隨著半導(dǎo)體和計(jì)算機(jī)技術(shù)的發(fā)展以及模式識別領(lǐng)域理論和方法研究的不斷深入和完善,到八十年代后期,聯(lián)機(jī)手寫字符識別技術(shù)的研究已經(jīng)朝著實(shí)用的方向努力,特別是英文,已經(jīng)開始研究完全無限制的整句識別技術(shù)。
聯(lián)機(jī)手寫漢字識別技術(shù)相對起步較晚。1981年,IBM公司E.F.Yhap等推出了第一套較為成熟的聯(lián)機(jī)手寫漢字識別系統(tǒng)。該系統(tǒng)是基于對漢字進(jìn)行筆劃、字根編碼的思想進(jìn)行識別的。系統(tǒng)中每個漢字用72種字根拼成,而每個字根又可分解為42 種筆劃的組合,通過對筆劃和字根的判定識別所輸入的漢字。而對字根進(jìn)行的編碼樹表示又使得系統(tǒng)對通常的筆順變化具有一定容忍能力。當(dāng)時對920個漢字的實(shí)驗(yàn)結(jié)果時正確率91.1%,對2260個測試,識別率為79 .9%(第一次使用)。書寫者要求使用工整楷書。
1988年我國劉迎建等人提出利用筆段為基元的聯(lián)機(jī)手寫漢字識別技術(shù)。該方法把漢字分為筆段、筆劃、字根、單字和詞組五個層次,分別用模糊屬性文法進(jìn)行描述,以啟發(fā)式模板引導(dǎo)匹配。該系統(tǒng)采用了對筆段進(jìn)行基于位置關(guān)系的排序方法,擺脫了對筆順的依賴。識別字典可達(dá)到6763~12000字。對于手寫正楷漢字,熟練用戶的識別率可達(dá)95%以上,已經(jīng)具有了一定的實(shí)用性。目前,劉迎建等人仍在進(jìn)行聯(lián)機(jī)手寫漢字識別技術(shù)的研究與開發(fā),其產(chǎn)品“漢王九九”聯(lián)機(jī)手寫識別系統(tǒng)在國內(nèi)的市場占有率目前占據(jù)首位。
臺灣也正在進(jìn)行聯(lián)機(jī)手寫漢字識別方法的研究。由于采用不同的思路,臺灣的產(chǎn)品在連筆處理方面具有一定的優(yōu)勢,而對于筆順的限制相對比較嚴(yán)格。從有限的一些資料來看,它們大致是基于筆段串的動態(tài)規(guī)劃方法的。目前大陸市場上的“博士筆”、“精品識別系統(tǒng)”等,其技術(shù)都來自臺灣的公司。
值得注意的是,國外一些大公司也開始注意聯(lián)機(jī)手寫漢字識別這一領(lǐng)域。Motorala、Microsoft、Apple 等大公司均已經(jīng)投資于該方向的研究。由于資金雄厚,并且具有很強(qiáng)的軟、硬件優(yōu)勢,其勢頭不可小視。國內(nèi)研究人員應(yīng)該奮起努力,把這一具有濃厚文化特色的研究課題的主流掌握在中國人自己手中。
[上一頁] [下一頁]
|
|
|