<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 蘋果推高精度手寫識別系統(tǒng),可準確識別3萬字符集

          蘋果推高精度手寫識別系統(tǒng),可準確識別3萬字符集

          作者: 時間:2017-09-28 來源:量子位 收藏

            在手機、平板和可穿戴設備不斷普及的今天,比以往任何時候都重要。但這并非易事,拿漢字來說,讓移動設備識別大量手寫漢字字符還是個挑戰(zhàn)。

          本文引用地址:http://www.ex-cimer.com/article/201709/364988.htm

            今天,機器學習博客發(fā)表文章《Real-Time Recognition of Handwritten Chinese Characters Spanning a Large Inventory of 30,000 Characters》,介紹了如何在iPhone、iPad和Apple Watch的Scribble模式中解決上述問題。

            這套基于深度學習的識別系統(tǒng),能準確處理多達3萬個字符。為了提高準確性,研究人員還特別注意了數據的收集環(huán)境、典型字體和訓練方案。他們發(fā)現,這套系統(tǒng)還能支持更大的字符庫。

            蘋果研究人員的實驗表明,只要訓練數據集的數量夠大質量夠好,準確率只會隨著字符量的增加緩慢下降。量子位將這篇博客中的要點翻譯整理,與大家分享——

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

           

            簡介

            能夠提高用戶在移動設備上的體驗,尤其適用于漢字這種相對復雜文字的使用者。由于漢字數量和書寫樣式多,確實是個大挑戰(zhàn)。

            字母類的語言也就涉及到100多個字母的排列順序,但在中國國家標準GB 18030-2005《信息技術中文編碼字符集》中就收錄了27533個字符。

            日常生活中,人們只用得到最具代表性的一小部分。因此,國標GB2312-80《信息交換用字符編碼字符集·基本集》中僅包含6763個字符。中科院自動化研究所創(chuàng)建的CASIA數據庫中所用字符有6763個,其中一級字符(常用字)3755個,二級字符(非常用字)3008個。

            然而,早期識別算法主要依賴分析筆畫的構造。后來,研究人員對研究漢字整體結構的方法產生了興趣。由于眾多漢字具有相似性,漢字識別的難度加大,研究人員通過分類降低錯誤識別。

            在MNIST數據集的拉丁文任務中,卷積神經網絡(CNN)嶄露頭角。因為訓練數據足夠大,根據需要補充合成樣例,CNN無疑是最好的方法。美中不足的是,這些研究中分的類別很少。

            當我們開始研究漢字的大規(guī)模識別時,CNN似乎是個不錯的選擇。但這種方法需要將CNN擴展至約3萬個字符,并且在嵌入設備上實時保持性能。

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

           

            系統(tǒng)結構

            我們采用的是CNN通用架構,類似于之前在MNIST上手寫識別實驗中的架構。系統(tǒng)結構如圖所示:

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

            △典型的CNN架構

            出于性能原因,我們將輸入設定為一個中等分辨率的圖像(48x48像素),這是普通手寫漢字的大小。之后我們將它輸入至特征提取層,交替進行卷積和子采樣。最后一個特征提取層通過全連接層輸出。

            從一個卷積層到下一個卷積層,我們選擇了kernel的大小和特征映射的數量得出粗粒度特征。通過用2x2 kernel,我們對最大池化層進行了采樣,每個輸出層都有一個節(jié)點。

            下圖展示了使用CNN的運行結果,其中“Hz-1”指的是一級字符庫(3755個字符),“CR(n)”表示輸入法界面排序為n的可能字符的準確度。除了常見的“最可能字”(top-1)和top-10的準確性外,我們也特意提到了top-4的準確性,因為輸入法界面一開始會顯示4個可能漢字,而top-4的準確性是用戶體驗提升的重要指標。

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

            △在CASIA在線數據庫3755個字符上的運行結果

            除此以外,我們對在iOS設備內部收集的額外訓練數據感興趣。此數據涵蓋了更多字體樣式,并包含每個字符大量的訓練實例。在同一個有3775個字符測試集的訓練結果如下:

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

           

            這次訓練準確度有些許提高,總體來說,在測試集中出現的大多數漢字書寫風格已經在CASIA訓練集中得到了很好覆蓋,也表明折疊訓練數據不會使準確性下降,附加樣式在對底層模型沒有負影響。

            擴展至3萬字

            我們想為用戶提供從印刷體到草書等各種可能的輸入字體。為了盡可能多涵蓋不同的漢字書寫風格,我們從中國幾個地區(qū)找到了一些書法家的數據。讓我們驚訝的是,大多數用戶表示沒有見過這些罕見的漢字。

            因此,我們又收集了不同年齡段、性別和不同教育背景的用戶數據,發(fā)現了各種各樣的書寫風格。下圖顯示了樣例中“花”字在楷書、草書和“隨便畫幾筆”風格下的樣本。

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

           

            事實上,在日常生活中,用戶輸入經常是“隨便畫幾筆”,出現一種非常不相似的曲線變化。有時也會讓系統(tǒng)混淆成其他字符。下圖展示了我們在數據中觀察到的一些具體例子。需要注意的是,有足夠的訓練數據能區(qū)分像Figure 7這樣的草書變化很重要。

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

           

            用這種方法,我們收集了大量漢字,將可識別字符從3755增加到大約3萬。

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

            △30000個字符在CASIA在線數據庫的結果

            為了解系統(tǒng)如何支持30000個手寫字符識別,我們還在許多不同測試集上對其進行評估,這些測試集支持所有字體的字符。平均測試結果如下:

            

          蘋果推出高精度手寫識別系統(tǒng),可準確識別3萬字符集

            △不同字體的30000個字符在多個內部測試集的平均結果

            當然,上面兩張圖的結果不能直接比較,因為它們屬于不同的測試集上。但我們能發(fā)現,top-1和top-4的準確性相當,top-4達到了95.1%的準確率,結果尚好。

            綜上所述,我們在嵌入式設備上構建了覆蓋3萬個字符的高精度手寫識別系統(tǒng)。只要有足夠數量和質量的訓練數據,識別準確度就不會大幅降低。未來,我們能精確識別的漢字字符還會更多。



          關鍵詞: 蘋果 手寫識別

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();