<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費電子 > 設計應用 > 3D手勢識別背后的技術(shù)

          3D手勢識別背后的技術(shù)

          作者: 時間:2016-10-15 來源:網(wǎng)絡 收藏

          隨著觸摸屏技術(shù)的不斷推廣,用戶已經(jīng)適應并逐漸熟悉了與機器的互動?,F(xiàn)在,人機互動技術(shù)已邁上了更高的臺階,進入了時代,不過這也并不是一帆風順的。現(xiàn)已在娛樂及游戲市場出現(xiàn),然而這種技術(shù)將對我們的日常生活產(chǎn)生怎樣的影響呢?不妨假想一下,有人坐在沙發(fā)上,只需一揮手就能操控燈光和電視,或者汽車自動檢測附近是否有行人。隨著技術(shù)支持人機互動的不斷深入發(fā)展,這些及其它功能將很快得以實現(xiàn)。手勢識別技術(shù)長期以來一直采用 2D 視覺進行研究,但隨著 3D 傳感器技術(shù)的出現(xiàn),其應用將日益廣泛并多樣化。

          本文引用地址:http://www.ex-cimer.com/article/201610/307147.htm

          2D視覺的局限

          計算機視覺技術(shù)一直在努力向堪比人類智慧的智能方向發(fā)展,以更好地了解場景。如果不能解釋周圍的世界,計算機就無法與人實現(xiàn)自然交流對接。計算機在了解周圍場景方面面臨的主要問題包括細分、對象表征、機器學習與識別等。由于 2D 場景表征本身存在局限性,手勢識別系統(tǒng)必須應用其它各種提示信息才能得到包含更有用信息的更好結(jié)果。在可能性信息包含整個身體跟蹤時,盡管將多種提示信息整合在一起,單靠 2D 表征也很難獲得超越手勢識別的任何信息。

          z”(深度)創(chuàng)新

          向 3D 視覺及手勢識別發(fā)展過程中的挑戰(zhàn)一直都是第三坐標 —z 軸坐標的獲取。人眼能看到 3D 對象,能自然識別 (x,y,z) 坐標軸,從而能夠看到一切事物,而后大腦能夠以 3D 影像的形式表達這些坐標軸。機器無法獲得 3D 視覺的一大挑戰(zhàn)就在于影像分析技術(shù)。目前有 3 種應對 3D 采集問題的常見解決方案,每種方案都有其獨特的功能與特定的用途。這三種方案分別為:立體視覺、結(jié)構(gòu)光模式以及渡越時間 (TOF)。有了這些技術(shù)提供的 3D 影像輸出,就可實現(xiàn)手勢識別技術(shù)。

          立體視覺

          立體視覺系統(tǒng)可能是最為人所熟知的 3D 采集系統(tǒng)。該系統(tǒng)使用 2 個攝像機獲得左右立體影像,該影像有些輕微偏移,與人眼同序。計算機通過比較這兩個影像,就可獲得對應于影像中物體位移的不同影像。該不同影像或地圖可以是彩色的,也可以為灰階,具體取決于特定系統(tǒng)的需求。立體視覺系統(tǒng)目前通常用于 3D 電影,能帶來低成本而又震撼人心的娛樂體驗。

          結(jié)構(gòu)光模式

          結(jié)構(gòu)光模式可用來測量或掃描 3D 對象。在該類系統(tǒng)中,可在整個對象上照射結(jié)構(gòu)光模式,光模式可使用激光照明干擾創(chuàng)建,也可使用投影影像創(chuàng)建。使用類似于立體視覺系統(tǒng)的攝像機,有助于結(jié)構(gòu)光模式系統(tǒng)獲得對象的 3D 坐標。此外,單個 2D 攝像機系統(tǒng)也可用來測量任何單條的移位,然后通過軟件分析獲得坐標。無論使用什么系統(tǒng),都可使用坐標來創(chuàng)建對象外形的數(shù)字 3D 圖形。

          3D手勢識別背后的技術(shù)

          渡越時間 (TOF)

          渡越時間 (TOF) 傳感器是一種相對較新的深度信息系統(tǒng)。TOF 系統(tǒng)是一種光雷達 (LIDAR) 系統(tǒng),同樣可從發(fā)射極向?qū)ο蟀l(fā)射光脈沖。接收器則可通過計算光脈沖從發(fā)射器到對象,再以像素格式返回到接收器的運行時間來確定被測量對象的距離。

          TOF 系統(tǒng)不是掃描儀,因為其不支持點對點測量。TOF 系統(tǒng)可同時獲得整個場景,確定 3D 范圍影像。利用測量得到的對象坐標可創(chuàng)建 3D 影像,并可用于機器人、制造、醫(yī)療技術(shù)以及數(shù)碼攝影等領域的設備控制。

          實施 TOF 系統(tǒng)所需的半導體器件現(xiàn)已開始供貨。目前的器件支持實現(xiàn) TOF 系統(tǒng)所需的處理性能、速度與帶寬。

          3D 視覺技術(shù)的比較

          不同的應用或市場適用于不同的 3D 視覺技術(shù)。圖 1 顯示了不同 3D 視覺技術(shù)的比較及其相關響應時間、軟件復雜性、成本及準確性的相對優(yōu)缺點。

          立體視覺技術(shù)需要極高的軟件復雜性才能獲得高精度 3D 深度數(shù)據(jù),其通常可通過數(shù)字信號處理器 (DSP) 或多內(nèi)核標量處理器進行處理。立體視覺系統(tǒng)支持小巧的外形與低成本,是移動電話等消費類設備的良好選擇。不過,立體視覺系統(tǒng)的精確度與響應時間不及其它技術(shù),因此對于制造質(zhì)量控制系統(tǒng)等要求高精度的系統(tǒng)來說不太理想。

          結(jié)構(gòu)光技術(shù)是包括 3D 計算機輔助設計 (CAD) 系統(tǒng)在內(nèi)的 3D 對象掃描的良好解決方案。這些系統(tǒng)的相關軟件復雜性可通過硬接線邏輯解決(如 ASIC 與 FPGA 等),其需要高昂的開發(fā)及材料成本。此外,該計算復雜性還可導致較慢的響應時間。在實現(xiàn)微觀層面上的高精度方面,結(jié)構(gòu)光模式技術(shù)優(yōu)于其它 3D 視覺技術(shù)。

          TOF 系統(tǒng)取得了性能與成本的平衡,非常適用于需要快速響應時間的制造與消費類電子設備等應用領域的設備控制。TOF 系統(tǒng)軟件復雜程度通常較低,不過這些系統(tǒng)需要昂貴的照明部件(LED、激光二極管)以及高速接口相關部件(快速 ADC、快速串行/并行接口、快速 PWM 驅(qū)動器),這將提升材料成本。圖 1 顯示了這三種 3D 傳感器技術(shù)的對比情況。

          “z”(深度)如何影響人機界面

          隨著“z”坐標的加入,顯示與影像更接近自然,更貼近人類。人們在顯示屏上能看到人眼從周邊環(huán)境所看到的逼真事物。增加這第三維坐標改變了可使用的顯示與應用類型。

          顯示

          立體顯示屏

          立體顯示屏通常需要用戶佩戴 3D 眼鏡。這種顯示屏為左右眼提供不同的影像,兩眼看到的影像不同,讓大腦誤以為看到了 3D 影像。這種顯示屏目前廣泛用于眾多 3D 電視與 3D 電影院。

          多視點顯示屏

          多視點顯視屏不同于立體顯示屏,無需佩戴特殊眼鏡。這些顯示屏可同時投射多個影像,每個影像稍微有些位移,形成適當?shù)慕嵌?,讓用戶可在每個視點角度看到相同對象的不同投射影像。這些顯示屏支持全息攝影效果,在不久的將來將實現(xiàn)全新的 3D 體驗。

          檢測與應用

          處理并顯示“z”坐標的功能將實現(xiàn)全新的應用,其中包括游戲、制造控制、安全、互動數(shù)字標牌、遠程醫(yī)療、汽車以及機器人視覺等。圖 2 是身體骨架與深度映射傳感技術(shù)所支持的某些應用領域視圖。

          人類手勢識別(消費類)

          人類手勢識別是一項深受歡迎的新技術(shù),可為游戲、消費類以及移動產(chǎn)品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設備進行互動,從而可促進產(chǎn)品推廣。這些人類手勢識別產(chǎn)品包括從 160 x 120 像素到 640 x 480 像素,30 到 60 fps 的各種分辨率的 3D 數(shù)據(jù)。原始數(shù)據(jù)到z深度解析、雙手跟蹤以及全身跟蹤等軟件模塊需要數(shù)字信號處理器 (DSP) 對 3D 數(shù)據(jù)進行高效快速處理,才能實現(xiàn)實時游戲與跟蹤。

          工業(yè)

          工業(yè)與制造傳感器等大多數(shù) 3D 視覺工業(yè)應用都采用至少 1 像素至數(shù) 100k 像素的影像系統(tǒng)。3D 影像可使用 DSP 技術(shù)進行控制分析,確定制造瑕疵或者從部件集中選擇正確的部件。

          互動數(shù)字標牌(精確定位的市場營銷工具)

          每天我們都在遭受廣告的轟炸,無論是看電視、開車還是在機場登機都是如此。有了互動數(shù)字標牌,企業(yè)就可通過精確定位的市場營銷工具提供適合每位消費者的內(nèi)容。例如,有人走過一個數(shù)字標牌,標牌上可能就會馬上顯示額外的消息確認該客戶。如果客戶停下來閱讀信息,該標牌可能會理解為客戶對產(chǎn)品感興趣,并提供更有針對性的消息。麥克風則將讓廣告牌檢測并識別關鍵短語,進一步精確定位所提供的消息。

          這些互動數(shù)字標牌系統(tǒng)將需要 3D 傳感器進行全面的身體跟蹤,2D 傳感器進行面部識別,并需要麥克風進行語音識別。這些系統(tǒng)的軟件將運行在更高級的 DSP 及通用處理器 (GPP) 上,不但可實現(xiàn)面部識別、全面的身體跟蹤以及 Flash 媒體播放器等應用,而且還可提供諸如 MPEG4 視頻解碼等功能。

          醫(yī)療(無故障虛擬/遠程護理)

          3D 視覺將為醫(yī)療領域帶來前所未有的全新應用。醫(yī)生無需跟患者共處一室就可問診。遠程虛擬護理采用高精度 3D 傳感器支持的醫(yī)學機器人視覺系統(tǒng),可確保為每一位患者提供最優(yōu)質(zhì)的醫(yī)療護理,無論他們身處何方。

          汽車(安全)

          近期,汽車應用在交通信號、車道以及障礙檢測方面使用 2D 傳感器技術(shù)取得了長足發(fā)展。隨著 3D 傳感技術(shù)的到來,3D 傳感器的“z”數(shù)據(jù)將大幅提升場景分析的可靠性。汽車通過使用 3D 視覺系統(tǒng),現(xiàn)已有了預防事故的新途徑,無論白天還是夜間都非常適用。采用 3D 傳感器,車輛能可靠檢測并解讀周邊環(huán)境,確定對象是否對車輛及車內(nèi)乘客構(gòu)成安全威脅。這些系統(tǒng)要求軟硬件支持 3D 視覺系統(tǒng),并需要密集型 DSP 及 GPP 處理性能在極短時間內(nèi)解讀 3D 圖形,避免事故。

          視頻會議

          視覺會議技術(shù)經(jīng)過多年發(fā)展,已經(jīng)從間斷脫節(jié)傳輸影像發(fā)展成當前的高清系統(tǒng)。未來增強型視頻會議將充分發(fā)揮 3D 傳感器的優(yōu)勢,提供更真實、更具互動性的視頻會議體驗。該增強型視頻會議系統(tǒng)具有集成型 2D 傳感器以及 3D 傳感器及麥克風組合,將能夠與其它增強型系統(tǒng)連接,實現(xiàn)高質(zhì)量的視頻處理、面部識別、3D 影像、噪聲消除以及內(nèi)容播放器(Flash 等)等應用。隨著這種密集型音視頻處理需求的出現(xiàn),需要具備最佳性能及外設組合的 DSP。

          3D手勢識別背后的技術(shù)

          技術(shù)處理步驟

          對許多應用而言,需要同時具備 2D 和 3D 攝像機系統(tǒng)才能充分實現(xiàn)應用技術(shù)。圖 3 顯示了這些系統(tǒng)的基本數(shù)據(jù)路徑。從傳感器獲取數(shù)據(jù),然后進行視覺分析,這并不像數(shù)據(jù)路徑示意圖看上去那么簡單。具體而言,TOF 傳感器需要的帶寬相當于 2D 傳感器的 16 倍之多,這可導致高輸入/輸出 (I/O) 問題。另一個瓶頸則存在于原始 3D 數(shù)據(jù)向 3D 點云轉(zhuǎn)換的處理過程中。通過正確的軟硬件組合解決這些問題,對于手勢識別及 3D 的成功應用至關重要。當前數(shù)據(jù)路徑可通過DSP/GPP 處理器組合加上分立式模擬組件及軟件庫實現(xiàn)。

          3D 視覺嵌入式系統(tǒng)的挑戰(zhàn)

          輸入挑戰(zhàn)

          如前所述,輸入帶寬限制對 3D 視覺嵌入式系統(tǒng)提出了極大的挑戰(zhàn)。此外,輸入接口也沒有標準化。設計人員可為 2D 傳感器與通用外部存儲器接口選擇采用不同的輸入選項,其中包括串行與并行接口。在支持最佳帶寬的標準輸入接口出現(xiàn)之前,設計人員只能使用現(xiàn)有的接口。

          兩種不同的處理器架構(gòu)

          圖 3 所示的 3D 深度映射處理可分為兩類:一是以數(shù)據(jù)為中心的視覺專用處理,二是應用上層處理。以數(shù)據(jù)為中心的視覺專用處理需要處理器架構(gòu)能夠執(zhí)行單指令多數(shù)據(jù) (SIMD) 快速浮點乘法及加法運算,以及快速搜索算法。DSP 是快速可靠執(zhí)行這種處理功能的完美選擇。對于應用上層處理而言,高級操作系統(tǒng) (OS) 及協(xié)議棧則可提供任何應用上層所需的必要特性集。

          根據(jù)兩種處理器架構(gòu)要求,提供高數(shù)據(jù)速率 I/O GPP+DSP+SIMD 處理器的片上系統(tǒng) (SoC) 非常適合 3D 視覺處理,其可支持必要的數(shù)據(jù)及應用上層處理。

          缺乏標準中間件

          3D 視覺處理領域的中間件是多種來源的眾多不同組件的整合,包括開源(如 OpenCV)與專有商業(yè)源等。商業(yè)庫主要針對身體跟蹤應用,這是一種特定的 3D 視覺應用。目前尚未開發(fā)出針對所有不同 3D 視覺應用標準化的中間件接口。

          “z”(深度)之后會有什么精彩?

          沒有人質(zhì)疑 3D 視覺的誘人因素。工程師早已在期待未來的應用發(fā)展。那么不久的將來會出現(xiàn)哪些最新技術(shù)?研究人員已經(jīng)在開發(fā)針對人和對象的各種視覺技術(shù)了。全球研究人員正在使用多路徑光分析技術(shù),探索實現(xiàn)轉(zhuǎn)角視覺或繞開對象的視覺途徑。透明研究將帶來可透視對象和材料的系統(tǒng),而運動檢測系統(tǒng)則將帶來查看人類大腦內(nèi)部的應用,從而可檢驗一個人是否在撒謊。

          3D 視覺與手勢識別技術(shù)的發(fā)展會帶來無盡的可能性。不過,如果沒有支持這些振奮人心的新技術(shù)所必須的硬件及中間件,該研究將沒有任務意義。提供 GPP+DSP+SIMD(通用處理器+數(shù)字信號處理器+單指令多數(shù)據(jù)流)架構(gòu)的 SoC(系統(tǒng)芯片)不斷發(fā)展,將提供處理性能、外設支持以及必要帶寬的完美組合,從而可實現(xiàn)這種振奮人心的技術(shù)與應用。



          關鍵詞: 手勢識別

          評論


          相關推薦

          技術(shù)專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();