基于 KeyStone DSP 的多核視頻處理技術(shù)
2.4 多內(nèi)核間的協(xié)作與同步
當(dāng)多個(gè)內(nèi)核處理同一視頻通道時(shí),這些內(nèi)核之間必須相互通信,才能實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的同步、分離或共享,合并輸出數(shù)據(jù)或者在處理過(guò)程中交換數(shù)據(jù)。附錄 A - 解碼器性能依賴闡述了將視頻處理功能劃分成多個(gè)內(nèi)核的幾種算法。本文引用地址:http://www.ex-cimer.com/article/166063.htm
并行處理法和流水線處理法是兩種常用的分區(qū)算法。并行處理的范例是兩個(gè)或兩個(gè)以上的內(nèi)核可以處理同一輸入通道。必須有一個(gè)不受競(jìng)態(tài)條件影響的機(jī)制在多個(gè)內(nèi)核之間共享信息。可將信號(hào)標(biāo)用來(lái)保護(hù)全局區(qū)域免受競(jìng)態(tài)條件的干擾。硬件需要支持阻塞性和非阻塞性信號(hào)標(biāo),以有效消除競(jìng)態(tài)條件,即消除兩個(gè)內(nèi)核同時(shí)占用同一存儲(chǔ)器地址的可能性。
如果使用流水線算法,一個(gè)或一個(gè)以上的內(nèi)核可執(zhí)行運(yùn)算的第一部分,然后再將中間結(jié)果傳遞第二組內(nèi)核繼續(xù)處理。由于視頻處理負(fù)載取決于處理的內(nèi)容,因而這種傳遞機(jī)制可能面臨如下問(wèn)題:
• 如果一個(gè)以上的內(nèi)核處理流水線的第一階段,那么第 N+1 幀可能先于第 N 幀被處理好。因此該傳遞機(jī)制必須能夠?qū)敵?輸入進(jìn)行排序。
• 即使流水線上的各內(nèi)核總體是均衡的(在處理負(fù)載方面),但個(gè)別幀未必如此。該傳遞機(jī)制必須在不同的流水線階段之間提供緩沖,以使內(nèi)核沒(méi)完成工作時(shí)不至于影響其他內(nèi)核停滯等待。
• 如果算法要求流水線的兩個(gè)階段間能穩(wěn)固實(shí)現(xiàn)緊密的鏈接(例如,為解決依賴性的問(wèn)題),則該機(jī)制就必須能夠支持緊密鏈接與松散鏈接。
2.5 多芯片系統(tǒng)
實(shí)時(shí)處理超級(jí)視頻 (SVGA)、4K 及更高分辨率,或處理 5 級(jí) H.264HP可能需要不止一個(gè)芯片一起協(xié)作。要構(gòu)建一個(gè)具有超高處理能力的雙芯片系統(tǒng),擁有可連接兩個(gè)芯片的超快速總線至關(guān)重要。
第三部分描述了可滿足上述所有要求及難題的 KeyStone系列 DSP架構(gòu)。
3.KeyStone DSP – TI 最新多內(nèi)核處理器
TI KeyStone 架構(gòu)描述了廣泛應(yīng)用于視頻處理等要求高性能和高帶寬的系列多內(nèi)核設(shè)備。圖 2 對(duì) KeyStone DSP進(jìn)行了概括性描述。本章針對(duì)在第二部分中闡述的視頻處理硬件要求對(duì) KeyStone DSP 特性進(jìn)行了介紹。
圖 2 KeyStone DSP 方框圖
特性 新 C6x 內(nèi)核 - 頻率為 1GHz 的 8 個(gè)新型 C6x DSP 內(nèi)核 - 浮點(diǎn)處理能力 - 性能:256 GMAC、128 GFLOPS 存儲(chǔ)器 - 每個(gè)內(nèi)核配備32 KB L1PL1D - 每個(gè)內(nèi)核配備 512 KB 局域 L2 - 4MB 共享 L2 存儲(chǔ)器 分組加速器 開(kāi)關(guān)結(jié)構(gòu)和 EDMA3 外設(shè) -帶以太網(wǎng)轉(zhuǎn)換器的 2x SGMII(數(shù)據(jù)/控制)– 4x SRIO,速率為 5 Gbps – 2x PCIe,2x TSIP – 16/32/64b DDR3 – EMIF-16、SPI、I2C、UART、GPIO 系統(tǒng)監(jiān)控器 - JTAG -嵌入式跟蹤緩沖器-跟蹤端口 設(shè)備規(guī)格參數(shù)表 -功率:75 C 時(shí) 7.5 W ,105 C時(shí)為 9 W - 封裝尺寸:目標(biāo) 24x24 - 40 nm 引腳工藝 - 引腳數(shù)為 841(全陣列) - 內(nèi)核電壓:運(yùn)用 SmartReflex 技術(shù),1GHz時(shí) 1V;800MHz 時(shí) 0.9V。 |
多內(nèi)核視頻要求 | KeyStone 的功能特性能夠充分滿足要求 |
外部 I/O 接口 - 壓縮的視頻以太網(wǎng)接口 | 兩個(gè) SGMII 1G端口可支持適用于分包壓縮視頻的高比特率以太網(wǎng)接口。正如第二部分所述,典型的 HD 視頻需要高達(dá) 10 Mbps 的速率,以使以太網(wǎng)接口能夠支持多個(gè)壓縮視頻通道。此外,KeyStone DSP 還擁有分組加速器硬件子系統(tǒng),可支持多個(gè) IP 地址且能為每個(gè)內(nèi)核分擔(dān)分組處理負(fù)載。 |
外部 I/O 接口 - 原始數(shù)據(jù)接口 | KeyStone DSP 擁有兩個(gè)標(biāo)準(zhǔn)的PCI Express通道。假定總線利用率為 60%,每個(gè)通道需要承載 5G 字節(jié),這足以傳輸 YUV 域中 1080i60 的 4 到 5 個(gè)通道、D1 的 24 個(gè)通道,或 QCIF 30 fps 的超過(guò) 300 個(gè)通道。此外,KeyStone DSP 還擁有四個(gè) SRIO 通道,其中每個(gè)通道可傳輸 5G 比特,從而使總線利用率為 60% 時(shí),其連接性能是之前的四倍。 |
外部 I/O 接口 - 語(yǔ)音處理 | 兩個(gè)電信串行接口端口 (TSIP) 可提供足夠的帶寬(以每通道 32.768/16.384/8.192 Mbps 的傳輸速率以及最高 1024 DS0 支持 2/4/8 個(gè)通道)來(lái)支持與視頻應(yīng)用相關(guān)的語(yǔ)音處理。 |
處理能力 | 首次發(fā)布的 KeyStone DSP 擁有 8 個(gè)時(shí)鐘頻率為 1.25G 的內(nèi)核,因而可提供 8G 個(gè)周期。8 個(gè)功能部件并行工作,每秒可執(zhí)行 64G 次運(yùn)算(浮點(diǎn)、定點(diǎn)和數(shù)據(jù)移動(dòng))。此外,這個(gè) KeyStone DSP 的新型 C66x 內(nèi)核還可支持TI C64x+ DSP 內(nèi)核的所有指令、TI C67x core 內(nèi)核的所有指令,以及包含幾個(gè)支持四則運(yùn)算和兩則運(yùn)算的 SIMD 指令的其他指令。適用于操作矢量處理類型的理論操作數(shù)量是 128G甚或 256G。這些 SIMD 指令可顯著提高采用矢量處理的視頻處理算法(如運(yùn)動(dòng)估算、轉(zhuǎn)換和量化算法等)的效率。 |
存儲(chǔ)器考慮事項(xiàng) - 片上存儲(chǔ)器 | 每個(gè)內(nèi)核都擁有 32KB 的 L1 數(shù)據(jù)存儲(chǔ)器和 32KB 的 L1 程序存儲(chǔ)器。每個(gè)都可配置為純 RAM 或 L1 高速緩存,抑或二者的結(jié)合。 每個(gè)內(nèi)核均擁有 512KB 的 L2 專有存儲(chǔ)器,其中多達(dá) 256KB 可被配置為四通道的 L2 高速緩存。另外,KeyStone DSP 還擁有 4MB 的共享 L2 存儲(chǔ)器。 |
存儲(chǔ)器考慮事項(xiàng) - 外部存儲(chǔ)器 | 支持高達(dá) 8GB 的 DDR3,模式為 1×16、1×32 和 1×64,高達(dá) 1600 MHz 的頻率可提供每秒高達(dá) 12.8GB 原始比特率。 |
存儲(chǔ)器考慮事項(xiàng) - 多內(nèi)核共享存儲(chǔ)器控制器 | 2×56 比特直接連接至外部存儲(chǔ)器接口 (EMIF) DDR。 2×256 比特直接連接至各個(gè) DSP。 適用于程序和數(shù)據(jù)的多重預(yù)取媒體流。 |
存儲(chǔ)器考慮事項(xiàng) - DMA | 10 個(gè)傳輸控制器和 144 個(gè)增強(qiáng)型直接存儲(chǔ)器接入 (EDMA) 通道使得從外部存儲(chǔ)器讀寫數(shù)據(jù)具有高效的資源利用率。 |
內(nèi)核之間的同步與全局協(xié)作 | 全硬件支持 64 個(gè)獨(dú)立阻塞和非阻塞信號(hào)標(biāo),支持直接和間接請(qǐng)求。 |
內(nèi)核之間的緊密與松散鏈接、數(shù)據(jù)和消息傳輸 | 多內(nèi)核導(dǎo)航器是一個(gè)硬件隊(duì)列管理器,可控制 8,192 個(gè)隊(duì)列且擁有 6 個(gè)可傳輸消息的渠化 DMA 通道。導(dǎo)航器可支持?jǐn)?shù)據(jù)和消息在緊密或松散鏈接的內(nèi)核之間進(jìn)行傳遞。此外,導(dǎo)航器還能有助于提高數(shù)據(jù)從多個(gè)源傳輸至多個(gè)目的地的高效排序。 |
連接兩個(gè)芯片的快速總線 | 四通道超鏈接總線可提供高達(dá)每通道 12.5Gbps、總計(jì) 50Gbps 的傳輸速率。 |
表 1 KeyStone DSP 和視頻處理要求(第一部分,共兩部分)
評(píng)論