<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 業(yè)界動態(tài) > 人工智能：破解梵蒂岡神秘卷宗之謎

人工智能：破解梵蒂岡神秘卷宗之謎

作者：時間：2018-05-14 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　這個 AI 認識中世紀手寫拉丁文

本文引用地址：http://www.ex-cimer.com/article/201805/379837.htm

　　“以后青銅銘文也交給 AI 來識別好了!”

　　AI 識別文字已經(jīng)不算是什么難事，但是如果字體是手寫，而且還是古文呢?

　　這似乎聽起來具有相當?shù)碾y度!

　　梵蒂岡秘密檔案館(Vatican Secret Archives)可謂全球最偉大的歷史藏品之一，但其珍藏的許多文件從未轉(zhuǎn)錄。近日，一個名為 Codice Ratio 項目，利用人工智能與光學字符識別(簡稱 OCR)軟件的組合重現(xiàn)這些被忽視的文本，并將其重新呈現(xiàn)在世人面前。

　　這座恢宏的建筑坐落在梵蒂岡城墻之內(nèi)，毗鄰使徒圖書館、位于西斯廷大教堂北側(cè)，擁有著可追溯于1200年之前的總長達53英里的書架。除了將Martin Luther逐出教會的《教皇詔書》之外，其中還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。在規(guī)模與范圍方面，其中的收藏幾乎著稱無與倫比。

人工智能：破解梵蒂岡神秘卷宗之謎，以后青銅銘文也交給 AI 來識別好了！

　　然而，梵蒂岡秘密檔案館對現(xiàn)代學者卻沒多大現(xiàn)實意義。因為在這長達53英里的書架當中，只有極少數(shù)書頁經(jīng)過掃描以提供在線版本，這當中的一小部分轉(zhuǎn)錄為計算機文本以供內(nèi)容搜索。如果我們打算閱讀其它任何內(nèi)容，則必須申請?zhí)厥獾脑L問權(quán)限，一路前往羅馬，并親自動手翻開這些古籍。

　　傳統(tǒng) OCR 技術(shù)只適用于經(jīng)過嚴格排版的文字，而對于字母之間缺少間隔空間(即臟分割)的手寫卷宗形式則無法識別。對此， Codice Ratio 項目利用拼圖分割法將單詞理解為一種單筆筆劃，軟件只需要知曉哪些組塊代表真實的字母，而哪些只是連筆造成的假象即可。該軟件的手寫字母判斷準確率已經(jīng)高達96%。如果成功，這項技術(shù)還將被用于處理世界各地其它歷史檔案庫當中數(shù)不勝數(shù)的其它記錄文件。

人工智能：破解梵蒂岡神秘卷宗之謎，以后青銅銘文也交給 AI 來識別好了！

　　利用拼圖分割法讓 OCR 識別連體字

　　由于傳統(tǒng)OCR技術(shù)是把單詞分割成一個個字母來識別的，所以對于這類連體字，OCR無法識別字母。有人想出了一個方案，直接讓OCR去識別一個個的單詞，但是，如何讓OCR掌握成千上萬的拉丁文單詞呢?大概需要一個排的中世紀拉丁文專家來辨認不同單詞的圖形。

　　除了請專家辨認單詞外，還有更簡單的方法幫助OCR識別手寫字母，只要找實習生就可以搞定了。

　　我們知道，無論中文還是英文，連體字中粗的部分是筆畫，細的部分是筆尖移動造成的虛線，并不是筆畫的一部分。根據(jù)這個原則，In Codice Ratio的專家們發(fā)明了新的方法——拼圖分割法。拼圖分割法改變了傳統(tǒng)OCR把單詞分成字母的傳統(tǒng)方式，而是是把連在一起的單詞按照筆畫分隔開，在此之后，該軟件會進一步進行字母繪制，并最終生成以下一系列拼圖碎片：

　　

人工智能：破解梵蒂岡神秘卷宗之謎，以后青銅銘文也交給 AI 來識別好了！

　　這些拼圖碎片本身作用不大，但該軟件能夠?qū)⑵渫ㄟ^多種方式組合起來以生成可能的字母。具體來講，軟件只需要知曉哪些組塊代表真實的字母，而哪些只是連筆造成的假象即可。

　　為了教會軟件這項能力，研究人員們選擇了不同尋常的導師——高中生。該團隊在意大利的24所學校當中招募了一批高中生用于建立項目的記憶庫。學生們在登錄相關(guān)網(wǎng)站后，會看到如下圖所示的三分屏幕界面：

　　

人工智能：破解梵蒂岡神秘卷宗之謎，以后青銅銘文也交給 AI 來識別好了！

　　之后，就要讓識別系統(tǒng)判斷對錯：識別出的字母，哪些是真正的字母，哪些是虛線的誤判。

　　通過一次次點擊，學生們努力教授該軟件如何識別22個中世紀拉丁字母(a-i，l-u，以及s與d的某些替代形式)。 22個中世紀拉丁文字母都學會之后，這個識別系統(tǒng)就成為了一個能認識手寫體中世紀拉丁文的AI。

　　當然，最終學生們也不再需要參與其中。當訓練進行到一定階段之后，該軟件即可獨立拼圖，并自行判斷字母的具體位置。這，正是人工智能的價值所在。

　　在另一方面，這也證明單靠拼圖碎片還不足以組合出正確的字母。計算機仍然需要額外的幫助才能破解手寫文本的秘密。想象一下，大家正在讀信，并在其中看到下面這句：

人工智能：破解梵蒂岡神秘卷宗之謎，以后青銅銘文也交給 AI 來識別好了！

　　中間的單詞到底是“clear”還是“dear”?很難判斷，因為“d”與“cl”的筆畫構(gòu)成實際上完全相同。OCR軟件也面臨著同樣的問題，特別是在處理高度風格化的文本時更是如此。以下圖為例：

人工智能：破解梵蒂岡神秘卷宗之謎，以后青銅銘文也交給 AI 來識別好了！

　　在經(jīng)過不同的拼圖組合之后，OCR認為可能的選項包括aimo、amio、aniio、aiino甚至是aiiiio。但這個詞實際上是anno，也就是拉丁語中的年。該軟件認準了a和o，但卻弄不清中間的四個豎到底該如何劃分。

　　為了解決這個問題，Codice Ratio團隊不得不為自己的軟件提供一些常識性的知識。他們建立起一套包含150萬個經(jīng)過數(shù)字化的拉丁詞匯語料庫，并對其中的雙字母與三字母組合進行了檢查。通過這種方式，他們確定了哪些字母組合較為常見，而哪些永遠不會出現(xiàn)。通過將這些統(tǒng)計信息提供給OCR軟件，其能夠了解到不同字符串的具體出現(xiàn)概率，從而意識到nn比iiii的可能性高得多。

　　隨著這樣的改進，OCR終于能夠自行閱讀部分文本了。該團隊決定為其提供一些來自梵蒂岡秘密歸案館的資料。這是一份超過18000頁的檔案集合，其中包括寫給歐洲國王的信件、關(guān)于法律問題的裁決以及其它信件。

　　最初的結(jié)果有好有壞。在迄今為止的全部轉(zhuǎn)錄文本中，有三分之一文檔中包含一處或多處拼寫錯誤——意味著OCR作出了錯誤的判斷。然而，該軟件仍然帶來了高達96%的手寫字母判斷準確率。Merialdo表示，即使是“不完美的轉(zhuǎn)錄結(jié)果，亦可提供關(guān)于手稿內(nèi)容及背景的大量有價值信息。”

　　經(jīng)過對AI更專業(yè)的訓練后，它可以識別各大文明的古代文獻并電子化。

　　所以，為了給AI提升難度，青銅銘文了解一下?

人工智能：破解梵蒂岡神秘卷宗之謎，以后青銅銘文也交給 AI 來識別好了！

　　梵蒂岡秘密檔案館(Vatican Secret Archives)：由教皇保羅五世(Pope Paul V)主導創(chuàng)立，是歐洲教會中收藏檔案最豐富，最古老的檔案館。梵蒂岡秘密檔案館擁有著可追溯于1200年之前的總長達53英里的書架，其中保存著各種古籍、歷史事件檔案、教皇的私人信件以及一些有關(guān)超自然現(xiàn)象和神秘學的資料。梵蒂岡秘密檔案館收錄了許多重要史料，除了將 Martin Luther 逐出教會的《教皇詔書》之外，還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 人工智能

評論

相關(guān)推薦

借助電源完整性測試提高人工智能數(shù)據(jù)中心的能效

測試測量電源完整性測試人工智能數(shù)據(jù)中心 | 2024-07-19

人工智能與機器人

視頻物聯(lián)網(wǎng) 可穿戴設(shè)備智能硬件高峰論壇機器人人工智能 | 2015-01-19

簡單人工智能的溫度控制電路

設(shè)計方案簡單人工智能溫度控制 | 2009-07-06

東南大學人工智能03

資源下載人工智能計算機科學聲音識別 | 2007-04-20

東南大學人工智能01

資源下載人工智能語言識別圖像識別自然語言處理專家系統(tǒng) | 2007-04-20

傳蘋果智能將錯過iOS 18 9月份大升級推遲1個月發(fā)布

手機與無線通信蘋果智能 iOS 18 推遲人工智能 iPhone iPad Apple Intelligence | 2024-07-29

微軟X英特爾黑客松大賽

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-27

工信部人工智能標準化技術(shù)委員會籌建方案公示

智能計算工信部人工智能 | 2024-07-03

機器里的大腦：一位“隱士”開發(fā)者的人工智能夢（上篇）

隨風搖擺 | 2015-11-09

STC-人工智能二維生命探測儀

renazan2000 | 2013-01-14

推動電動汽車發(fā)展：利用機器視覺和人工智能提升鋰離子電池質(zhì)量

智能計算電動汽車機器視覺檢測人工智能 | 2024-07-18

個人-口罩識別系統(tǒng)項目采訪

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-28

具有人工智能的溫度控制電路設(shè)計

設(shè)計方案具有人工智能溫度控制電路設(shè)計 | 2012-07-24

有簡單人工智能的溫度控制電路

設(shè)計方案簡單人工智能溫度控制 | 2009-09-01

本科畢業(yè)設(shè)計：一種基于發(fā)育思想的語音識別系統(tǒng)實現(xiàn)

資源下載語音識別人工智能自主式機器發(fā)育思想自組織映射網(wǎng)絡(luò) 簡單反饋神經(jīng)網(wǎng)絡(luò) | 2007-04-19

人工智能歷史

Lamborghini | 2011-03-15

馬斯克詢問網(wǎng)友：特斯拉向xAI投50億美元行不行

智能計算馬斯克特斯拉 xAI 人工智能 | 2024-07-25

新一代語音識別：可徹底改變車內(nèi)體驗的技術(shù)

汽車電子語音識別生物識別人工智能 | 2024-07-18

東南大學人工智能02

資源下載人工智能大規(guī)模集成電路自適應能力 | 2007-04-20

機器里的大腦：一位“隱士”開發(fā)者的人工智能夢（下篇）

隨風搖擺 | 2015-11-16

ADI公司：工業(yè)4.0——人工智能的端

視頻 ADI 人工智能工業(yè)4.0 | 2019-11-08

革新企業(yè)數(shù)據(jù)管理，邁向“真正的”混合云時代

人工智能 AI | 2024-07-03

未來的人工智能世界：技術(shù)與人文的和諧還是斗爭？

藍盒子 | 2007-09-11

OpenAI陷入安全危機：攻擊者成功入侵內(nèi)部消息系統(tǒng)

OpenAI 人工智能 | 2024-07-08

個人-窗口衛(wèi)士項目采訪

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-28

AMD斥資6.65億美元收購芬蘭AI公司 Silo AI

智能計算 AMD silo AI 人工智能 | 2024-07-15

仿人機器人

資源下載仿人機器人傳感器人工智能 | 2007-04-19

ST Edge AI Suite人工智能開發(fā)套件正式上線快采用意法半導體技術(shù)的AI產(chǎn)品開發(fā)速度

智能計算 ST Edge AI Suite 人工智能意法半導體 AI | 2024-07-08

有簡單人工智能的溫度控制電路圖

設(shè)計方案簡單人工智能溫度控制電路圖 | 2010-09-01

具有人工智能的溫度控制電路圖

設(shè)計方案具有人工智能溫度控制電路圖 | 2012-07-24

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();