全景視頻為VR/AR帶來技術(shù)挑戰(zhàn)
摘要:VR/AR面臨許多巨大挑戰(zhàn),包括Cameras(相機)、環(huán)境交互以及網(wǎng)絡(luò)等,并且這項技術(shù)需要軟硬件的整體解決方案。
本文引用地址:http://www.ex-cimer.com/article/201605/291753.htmVR為何忽然變得有意思?
首先,我們看到有一些東西在今天這個時代跨過了門檻,諸如人類歷史上第一次可以在一張硬盤上存儲一輩子所有聽過的音樂,可以存儲這輩子所有拍攝過的照片,而且成本非常低廉。慢慢地,我們到達了另一個門口,就是存儲這輩子所有看過的視頻。其次,每一個人都有一個攝像機,包括手機等便攜設(shè)備。第三,未來越來越多的人可以無處不在地上網(wǎng),企業(yè)用戶和老板可以隨時找到你。
我們來想象一下,假如這是媒體實驗室在做的事情,它的口號是:Never Lose a memory。將來老師給學生們講課,不需要描述,可以放給他們看。包括我們給年輕人講文革、過去的時代,我們可以放給他們看。
VR的三大技術(shù)挑戰(zhàn)
VR有很多技術(shù)的挑戰(zhàn),很多基本技術(shù)問題至今沒有解決。包括幾大核心。第一是Cameras,有大量人做了大量的Camera,但是離我們需要的還有距離。假如你可以控制Camera當中每一個內(nèi)容,你可以想象做什么東西?第二是需要知道什么地方看什么,如何跟周圍環(huán)境去交互,包括如何去實現(xiàn)這些技術(shù)。當然還包括在移動設(shè)備上展現(xiàn)和捕捉全景的視頻,即多媒體信息的融合以及多媒體信息的處理和增強。第三是網(wǎng)絡(luò),今天網(wǎng)絡(luò)無處不在,我們設(shè)想很多云計算美麗的場景。不過,很多知名的企業(yè)把基礎(chǔ)設(shè)施放在亞馬遜上,當亞馬遜出現(xiàn)問題的時候怎么辦?另外,VR需要大量服務(wù)器,這會耗費大量能源,并且需要高速的網(wǎng)絡(luò)做連接。同時,在VR中做高速的數(shù)據(jù)處理也有很多挑戰(zhàn)。
挑戰(zhàn)之一:Camera
在展會上可見各種各樣丑八怪的VR原型。假如VR像我們期望的那樣變成現(xiàn)實、變成娛樂的主流,VR的主流設(shè)備最后一定不是丑八怪。
VR像素會是多少?很多人覺得這不是問題,我們今天可以做2000萬、6000萬像素的相機。實際上攝像頭做得越來越小的時候,像素感光能力越來越弱。另外是艱苦的拍攝環(huán)境,比如高動態(tài)范圍環(huán)境以及弱光環(huán)境,如何保證高的質(zhì)量?今天我還沒有看到一個相機真正能夠模擬電影膠片的水平。
第二個問題是如何保證全景的相機?不同的相機之間或者不同像素以及不同位置如何保持一致性?比如快門是不是同步,曝光能不能做融合,高速運動時是不是會有一些變形等。
第三是我們的相機有沒有景深?喜歡攝影的人知道萊卡相機的內(nèi)容做出來很漂亮,我們能不能提供這些給藝術(shù)家?我們認為最終需要把最好的軟件和硬件結(jié)合起來,而這恰恰是今天沒有很多人去做的,我們看到各種各樣的全景相機,但是大部分是垃圾。
例如,圖1是我們今天看到的VR真實的場景和分辨率。為什么說真實?我們把演員4m以外拍攝的場景放在不同的1K、2K哪怕4K Plus上的分辨率,4m以外看到她的臉和在頭盔上顯示質(zhì)量差距過大,相信沒有人愿意付費。所以分辨率是非常大的瓶頸。
從技術(shù)角度,要真正支持我們所熟知的娛樂界的最低門檻的分辨率。在全景狀態(tài),攝像機至少要達到5K×5K,也就是比今天的4K有一個數(shù)量級以上的分辨率提高,才可以滿足我們最基本的需求。
挑戰(zhàn)之二:編/解碼
假如我們用今天熟悉的手機分辨率,實際上需要有20K×10K的分辨率,要比今天家里4K的顯示器大概有一到兩個數(shù)量級的提高。這么高的分辨率下如何編碼和傳輸?這是非常大的挑戰(zhàn)。因為今天藍光4K已經(jīng)用非常高的帶寬。
其中一個問題是Encoding(編碼)。做技術(shù)的人總喜歡做美好的預測,例如今年H.265的編碼會全面占領(lǐng)市場,4K的內(nèi)容會全面占領(lǐng)家庭,但實際上沒有這么快。原因首先是系統(tǒng)很復雜。第二系統(tǒng)跟二十年前剛開始做的時候是不一樣的。很多人認為可能比上一代提高了50%的效率,但是成本非常高,包括步數(shù)、解碼器和專利的成本等,有一些甚至需要付出上億元的成本。即使?jié)M足了這些條件,實際上離我們真正做到高質(zhì)量VR的要求還是有很大的差距。
另外一個問題:有沒有什么事情是我們現(xiàn)在可以做的,可以規(guī)避這些問題的?答案是有的。我們不是在這里解釋技術(shù)的細節(jié)。業(yè)界告訴你或者所謂專家告訴你,做高清一定要H.265,其實不用。用H.264可以達到一樣的效果??吹娇萍脊竞颓迦A實驗室的編碼器得到了美國一家大型市場調(diào)查機構(gòu)編碼器領(lǐng)域的大獎,因為我們有很好的H.264的編碼器。
要把視頻編碼真正用到VR上要應(yīng)用很多場景。比如做360°的視頻,用各種巧妙的辦法拼接成平面的樣子,然后想辦法去降低其動態(tài)分辨率和成本,用整體上比較低的碼率去傳輸VR的內(nèi)容。但即使這樣,我們離真正的視頻編碼還有很遠的距離。以下會講我們?nèi)绾稳プ鲞@件事情。
主要的思路是:第一我們需要擺脫傳統(tǒng)視頻編碼的做法,過去我們做一個標準需要十年,在中間有很多IP來解決各種各樣的問題?,F(xiàn)在我們希望做的標準是一個通用的標準,跟應(yīng)用無關(guān),但是最終的解決方案一定是需要針對VR去做很多優(yōu)化的。
第二個問題是網(wǎng)絡(luò)。我們有了內(nèi)容,如何把內(nèi)容傳遞給用戶。我們有3G、4G等高速網(wǎng)絡(luò)。但是除了網(wǎng)絡(luò)基礎(chǔ)以外,還有一個問題是如何使用網(wǎng)絡(luò)。比如90%的是用TCP協(xié)議(如圖2)。視頻當中也多用TCP協(xié)議。其實TCP不是一個好的做視頻的協(xié)議,因為TCP有一個很大的問題:在設(shè)計的時候會認為只要你丟包,是因為你發(fā)得太快,所以會把發(fā)送的速度降慢。實際上,在復雜的無線網(wǎng)絡(luò)情況下,你用最慢的速度發(fā)一樣可能會丟包(如圖3)。解決辦法是設(shè)計更好的算法針對你應(yīng)用的場景。這里我們提出一個算法:TCP-FIT,相比其他算法,TCP-FIT最高可以在相同網(wǎng)絡(luò)情況下提高7倍的吞吐率,華為和中興已是我們的客戶。
有很多問題是OLDI(Online Data-intensive),比如在淘寶購物或者做大量數(shù)據(jù)挖掘工作時,做視頻編碼需要高速的服務(wù)器做連接,各層之間延時非常小,才能保證流暢的體驗。但有時會突然發(fā)現(xiàn)整個網(wǎng)絡(luò)的吞吐率瞬間降到零,這也是需要解決的問題。針對這些問題,我們也有在不更換設(shè)備情況下的解決方案。
最后強調(diào)一點,網(wǎng)絡(luò)方還需要根據(jù)應(yīng)用對整個系統(tǒng)做優(yōu)化。例如網(wǎng)上流媒體觀看,比如愛奇藝等。通常采用自適應(yīng)技術(shù),通過帶寬不斷地推碼率,帶寬高的時候推得高一點,帶寬低時會推得低一些。但是有一個問題,你觀看的時候視頻質(zhì)量會變化,例如圖4,開始時圖4的人臉很清晰,背后突出出現(xiàn)水柱后,會發(fā)現(xiàn)人臉的清晰度大幅下降。在中國這種情況不是特別多,因為原本推的就是質(zhì)量較差的視頻流。如何解決這個問題?你可以鋪更多CND,可以想辦法做編碼。但是今天推流的時候你會發(fā)現(xiàn)一個很有意思的現(xiàn)象,可能視頻是用手機拍的。每個用戶手機的拍攝像素不同,因此視頻質(zhì)量不同;另外帶寬質(zhì)量也不同,我們可以用較低的成本大幅度地提高/增強圖像精細度。
我們針對應(yīng)用去重新審視我們系統(tǒng)中的假設(shè)。傳統(tǒng)的假設(shè)是像廣電一樣,解碼器很便宜,編碼器很貴,實際應(yīng)用中可能解碼器很貴,編碼器很貴。
小結(jié)
VR前景很美好,但現(xiàn)實很骨感。到美好的全景視頻中間需要解決很多問題。此外,還有怎么做有意思的節(jié)目的問題。VR終極的節(jié)目是不是游戲?不一定。
技術(shù)上,第一,今天的質(zhì)量原因是你需要容納全景信息。第二,我們需要系統(tǒng)化的解決方案,未來的VR未必是做很便宜的全景相機的一幫人,然后把內(nèi)容放到現(xiàn)在大家知道的視頻平臺上,用標準的模具生產(chǎn)的眼鏡或者其他裝置去觀看。未來一定有一個端到端想清楚的解決方案,從拍攝到編碼、傳輸、存儲,一定是系統(tǒng)的。第三是我們需要重新審視原來做各個技術(shù)的認為習以為常的假設(shè),這些假設(shè)是不是適合我們應(yīng)用的環(huán)境,比如編碼、推送和消費,只有整體的推進才能帶來數(shù)量級的性能提升。所以VR的用戶體驗是從多維度來衡量的,比如質(zhì)量、延時等等,需要軟件和硬件工程師一起來提出一個整體的解決方案,硬件和軟件協(xié)同做優(yōu)化。
最后是需要藝術(shù)家和技術(shù)專家更好的融合做事情,在VR這里面會有一個非常明顯的展現(xiàn)。(注:改編自“2016全球VR/AR趨勢論壇”上的講演。此論壇由IDG主辦,2016年4月20日,深圳CE China展覽期間舉行)
本文來源于中國科技期刊《電子產(chǎn)品世界》2016年第5期第12頁,歡迎您寫論文時引用,并注明出處。
評論