先進AI視覺系統(tǒng)—以iToF解鎖3D立體空間
在整個AI產(chǎn)業(yè)中,視覺系統(tǒng)扮演極重要的角色。由于iToF對于距離與空間的重現(xiàn)具有高度的可靠度外,還有分辨率的優(yōu)勢。本文敘述iToF感測和技術(shù)的原理、組成組件、距離計算方式及成像技術(shù)的應(yīng)用。
人工智能(Artificial intelligence;AI)經(jīng)由ChatGPT生成式AI工具再度獲得世人的關(guān)注,但聊天機器人需要大量且快速的運算能力來處理復(fù)雜的AI模型以及數(shù)據(jù),而這些必須要獲得高階人工智能(AI)芯片才能支撐的運算工作。
可是在可看見的未來,AI應(yīng)用會更貼近人們的生活,它只需要一般運算力需求的AI芯片,就能達到自助與自動特定功能的工作。例如:只會開車的司機,送餐送貨的工人,門口的警衛(wèi),無人商店的店員,工廠的作業(yè)員,以及其他更多重復(fù)的工作內(nèi)容。
AI也是需要視覺系統(tǒng)讓虛擬的AI鏈接到現(xiàn)實環(huán)境。當AI裝上Camera攝影機,就像是人的眼睛一樣透過攝影機AI能精確的截取物體形狀、大小、顏色、深度距離的影像,甚至能傳輸?shù)皆贫?,運行算法進行分析辦識。有一句廣告詞「計算機嘛ㄟ撿土豆喔」,沒有視覺系統(tǒng)的AI計算機,如何撿土豆呢?可見視覺系統(tǒng),在整個AI產(chǎn)業(yè)中,扮演極重要的角色。除了傳統(tǒng)的影像以外,AI更是需要獲得深度或距離訊息。
iToF相機
人類的眼睛可以分辨顏色,形狀與空間但是距離總是用「想象的」。這就是籃球選手距離籃框越遠命中率越低的原因。 AI的視覺中,平面(2D)與顏色可以經(jīng)由一般的攝影機來達成,但距離要怎么辦呢? 那就需要另一只眼睛。它可以是一般的攝影機(image)或Depth傳感器來協(xié)助并透過算法得到精確的距離。
偵測距離或深度的方案 :
1.采用立體視覺(Stereo Vision)
2.結(jié)構(gòu)光(structured light)的方案
3.Depth傳感器的種類如下:光達Lidar、iToF(Indirect Time-of- Fligh)/dToF(Direct-Time-of-Fligh)、FMCW(Frequency Modulated Continuous Wave)、超聲波(Ultrasound)及雷達(Radar)
而其中iToF對于距離與空間的重現(xiàn)有者高度的可靠度外,還有分辨率的優(yōu)勢。
以下我們就原理、組成組件、距離計算方式、成像技術(shù)的應(yīng)用來了解一下iToF感測和技術(shù)。
飛行測距(ToF)原理
ToF(Time of Flight;飛行測距)相機透過測量光源發(fā)送到場景中,并經(jīng)由物體反射到感測組件來獲取深度信息,若是透過發(fā)射波形和反射接收的時間差是dToF(Direct Time of FLY)而測量的是發(fā)射波形和反射接收波形之間的相位移則是iToF(圖一)。
圖一 : ToF相機透過測量光源發(fā)送到場景中,并經(jīng)由物體反射到感測組件來獲取深度信息。
dToF和iToF在傳感器原件上的區(qū)別是iToF使用CMOS工藝開發(fā)的CIS傳感器(Camera Image Sensor),而dToF需要使用單光子雪崩二極管(single-photon avalanche diode,SPAD)傳感器。雖然dToF有長距離與抗干擾性的特點較適用長距離的量測。而iToF在成本與空間圖像分辨率的優(yōu)勢很適合AI應(yīng)用。
iToF感測組件
外觀與一般圖像傳感器(image sensor)無異。只是周邊的邏輯電路變更讓儲存數(shù)據(jù)內(nèi)容不同如下圖(二)。
圖二 : iToF感測組件/圖像傳感器(Image Sensor)外觀
以onsemi的iToF感測組件(AF0130/AF0131)為例:
? 背照式(BSI)CMOS工藝
? 1280 X 960像素
? Global Shutter
? 3.5 um 像素大小
? 1/3.2 傳感器大小
? AF0130 內(nèi)建深度計算處理器(Depth Processing)
Image Sensor(圖像傳感器):連續(xù)時間內(nèi)累積的能量(顏色或亮度)。
iToF depth傳感器:在不同時間(frame)內(nèi)量測到的反射能量(光發(fā)射后的飛行軌跡),并透過計算這些軌跡得到「光」飛行時間/距離。
既然iToF Depth有計算前的能量與處理后的距離(深度)。所以除了距離的訊息外,它還能以成像的方式來表現(xiàn)。而解度高的depth傳感器,甚至可以描繪出具有細節(jié)的輪廓。
iToF核心組件與架構(gòu):雷射驅(qū)動 / 激光器或LED / 發(fā)射端光學(xué) / 接收端光學(xué) / 接收傳感器CMOS / 深度計算
系統(tǒng)架構(gòu)(圖三)
雷射或LED(Vertical Cavity Surface Emitting Laser:VCSE或(Edge Emitting Laser : EEL)
? 發(fā)射端光學(xué)鏡頭(Lens)
? 雷射或LED驅(qū)動(Laser/LED Driver)
? 接收端光學(xué)鏡頭(Lens)
? 傳感器CMOS iToF sensor
? 深度計算單元
圖三 : iToF模塊圖
目前市售的ToF應(yīng)用大都選擇850nm和940nm,主要是這兩個波長的發(fā)光源器件可以使用VCSEL實現(xiàn)但再長的波長可能需要EEL,另一方面接收端傳感器對850nm是最敏銳的,就是對該光譜的響應(yīng)率最高.可以得到最佳的信噪比,940nm的感度會比850nm低,但對人眼的干擾較低。
如果波長要更長,傳感器的制造會更難,在電子消費品中很少選擇使用,可是在眼球保護(Eyesafe)法規(guī)下,或許不久以后,就會其他發(fā)光源器件與iToF sensor問世。
感測與計算
幀率(frame rate)是每秒可以更新距離訊息次數(shù),所以對于移動的物體iToF 傳感器具有高幀率與計算單元可以減小物體移動時間誤差。一般認定每秒超過60幀(frame)為高幀率。
另外,由于計算單元需要不斷計算實時相位偏移信息來獲得當下的探測距離,若iToF傳感器沒有內(nèi)建Depth Mapping處理器與記憶儲存空間,那數(shù)據(jù)就需要傳送所有的相位差數(shù)據(jù)到計算單元,這樣就延遲了距離偵測的時效性,所以感測與計算在同一組件是最佳的方式。
iTof探測距離
indirect time of flight,非直接測量TOF,方法是測量發(fā)射端的正弦波或脈沖信號與接收端的正弦波或脈沖信號的相位差的透過算法計算出時間,也稱為「phase-based ToF」。在iToF系統(tǒng)中,相位差的函數(shù)是測量光強度而不是時間,這是iToF的硬件使用普通的圖像傳感器架構(gòu)的緣由,圖像傳感器的特點就是在一個固定時間收集光子,然后轉(zhuǎn)化成電信號輸出。
iTof傳感器輸出的是接收到的光強還有計數(shù)后的時間函數(shù),通過對比函數(shù)與光強,計算出飛行時間。
iToF可以按發(fā)射光波的方式分成連續(xù)波調(diào)制(CW-iToF)和脈沖調(diào)制(Pulsed-iToF)。
連續(xù)波(CW)調(diào)變與調(diào)頻連續(xù)波(FMCW)
連續(xù)波iToF的基本原理是將光調(diào)制為固定或多個頻率f的正弦波,發(fā)射端依照頻率f發(fā)射正弦波,當采集返回的光能量時,連續(xù)波iToF會根據(jù)不同的相位打開多個窗口(frame),對多個窗口相位的數(shù)據(jù)進行采樣,分析該時期內(nèi)發(fā)射和接收的相位差信息,然后通過公式得到距離信息。需要注意的是距離偵測(Depth)精度與頻率f成正比,可檢測最大距離與頻率f成反比。
iToF 4個相位差資料測量
iToF是針對相位差數(shù)據(jù)來計算距離,相位分別是 0 、90 、180、270 。
但是誤差存在于每個系統(tǒng),因此距離偵測計算每次大概需要是4~8 frame的4個相位數(shù)據(jù)來確認相位偏移正確性(圖四)。
圖四 : 連續(xù)波(CW)調(diào)變相位差數(shù)據(jù)與計算
iToF雙頻測量
透過發(fā)射兩個頻率的光譜得到的相位差數(shù)據(jù)與計算用于長距離消除相位模糊
圖五 : 雙頻測量
若是調(diào)頻連續(xù)波(FMCW)方法為基礎(chǔ)的LiDAR傳感器,可提供深度、速度和極化強度的數(shù)據(jù)。而FMCW是被廣泛應(yīng)用于都普勒(coherent Doppler)架構(gòu)為基礎(chǔ)的技術(shù);FMWC持續(xù)發(fā)射脈沖弦波,在訊號返回時計算發(fā)射和接收端的相位差。由于都普勒效應(yīng),該偏移是偵測物體距離和速度的函數(shù)。
脈沖式iToF
由于多個調(diào)制頻率下進行四次相關(guān)函數(shù)采樣。對于較長距離的測量,或場景中環(huán)境光較強時,對連續(xù)輸出功率要求較高,會影響加熱和穩(wěn)定性。
而功率高對人眼安全相關(guān)法規(guī)也是不利的。因此可透由改變發(fā)射脈沖模式或選擇更長奈米波長的光(>950奈米波長),來達到更長距離的目標偵測。例如:功率提高到30W但調(diào)制頻率由100Mhz降為10Mhz(圖六)。
圖六 : 脈沖式iToF調(diào)變與功率示意圖
iToF相機應(yīng)用: 「3D/4D」的空間地圖與對象識別
從現(xiàn)實與虛擬的AR/VR到人臉或手勢辨識 AI可以認知將為某人提供適合的服務(wù)。AI自主移動機器或機器手臂可以知道在倉庫移動與搬運對的物品,甚至可以應(yīng)用在汽車的自動駕駛與安全輔助。
iToF相機優(yōu)勢
1. 內(nèi)建Depth Mapping處理器與記憶模塊(Memory)。
2. 百萬像素(Mage)等級的像素分辨率。
3. 低動態(tài)拖影(Low Motion Artifacts) & 高幀率(Hight frame)。
4. 長景深距離與高環(huán)境光抑制。
5. 短距離與人眼保護—奈米波長與頻率響應(yīng)(Quantum Efficiency)。
機器視覺的方案經(jīng)由各種的傳感器搭配且要有快速及高更新率,來維持實時且準確的空間地圖。然后,以AI為基礎(chǔ)的智能產(chǎn)品,才能透過最精確的訊息以達成任務(wù)。
所以,綜合以上iToF相機的優(yōu)勢是實現(xiàn)「3D/4D」的AI視覺—空間地圖與定位的最佳方案。
運動偽影
當要辨別運動的物體或手勢往往是一個瞬間發(fā)生的動作若相機沒有高效率與高幀率(Hight frame) 常常會造成拖影或辨識錯誤,像機器手臂或自主移動機器人就需要高效率與高幀率的特性。
圖七 : 運動偽影及應(yīng)用
百萬像素的像素分辨率
而百萬像素(Mage pixel)等級的像素分辨率,如同讓人一眼就看出真假與辨識出特征,就尤其在人臉的識別上是不可或缺的特點。
不受人工或自然的光源干擾
COMS Sensor具有高量子效率(Quantum Efficiency;QE)能對入射光子400~1100nm波長的光譜能量,能夠更有效率轉(zhuǎn)換成電子的訊號。這就是先前提到為何光源可以選擇850nm~940nm波長的不可見光,并透過控制雷射或LED驅(qū)動,讓偵測做彈性的變化且搭配波長的不可見光,不管室內(nèi)室外都不會被人工或自然的光源所干擾。
圖八 : 不受人工或自然的光源所干擾
長短距離偵測
1. 短距離 : 發(fā)出能量低的光譜搭配較高的頻率以提高精確度。
2.長距離 : 提高雷射或LED能量但搭配較低頻率,除了延長有效測距的范圍外還可以抑制發(fā)射端功耗降低散熱問題。
圖九 : 長度離延伸及室內(nèi)室外的應(yīng)用
結(jié)論
ToF應(yīng)用非常多,電子消費領(lǐng)域有人臉辨識、照相機輔助對焦、接近傳感器、體感互動、手勢識別、AR、機器人/無人機避障與3D/4D場景掃描等等;工業(yè)和安防應(yīng)用可以用于工業(yè)自動化機器人、人數(shù)統(tǒng)計、智能停車場、智能交通、自動化倉儲管理、電子圍籬及距離測量等;汽車領(lǐng)域則可以用于智慧駕駛輔助、哨兵模式或自動停車。
若是導(dǎo)入以AI為基礎(chǔ)算法,上述應(yīng)用則會進一步智能化,AI能根據(jù)視覺系統(tǒng)反饋的訊息重現(xiàn)空間并進行對象識別,除了距離(depth)外 AI 還可以經(jīng)由幀(frame)與幀的訊息差異進行移動物體的速度計算。因為AI可以確切了解目標物,并控制自身的行動速度及高精確度,如此可以推算正確的指令。
未來AI更會搭配ToF與影像系統(tǒng)深入各種消費、信息安全、工業(yè)自動化、自主機器人與汽車安全的應(yīng)用,讓每個產(chǎn)品都像個可靠的AI機器人,這需要高解析深度成像技術(shù)的iToF與影像視覺系統(tǒng)的空間與定位來給與達成決各種任務(wù)的眼睛。
隨著應(yīng)用提升CPU任務(wù)繁重可想而知,從單純的距離感知到自主行動最終達到AI互動的能力。因此就近傳感器進行數(shù)據(jù)處理的必要性;如果可能,應(yīng)該所有預(yù)處理、清理和AI強化都必要在傳感器的位置進行,以減輕CPU的負擔。就像人類的神經(jīng)反應(yīng)一樣,不需要每個動作都要經(jīng)過大腦思考。目前已有直接距離計算的能力的產(chǎn)品,所以對于距離,事實上可以直接反應(yīng)只是「運算」能力如何附加與克服附加之后的散熱問題。
(本文作者李明杰為茂綸公司應(yīng)用工程經(jīng)理)
評論