快手基于Alveo優(yōu)化大規(guī)模網絡直播和短視頻自動語音識別服務
快手成立于 2011年3月,總部位于北京,是全球用戶利用短視頻或者直播形式記錄和分享日常生活的領先內容社區(qū)和社交平臺,每天產生上千萬條原創(chuàng)新鮮視頻。
圖 快手 ASR 應用場景
項目概述
自動語音識別(ASR)是電子商務、短視頻、直播等眾多應用的核心技術之一。ASR 在快手有許多的應用場景,是快手 APP、直播、風控、游戲等眾多業(yè)務的核心功能,尤其是在直播和短視頻應用領域。 ASR流式自動語音識別,已經成為快手各種創(chuàng)新服務的核心技術之一。比如廣受主播們喜愛的直播間小快機器人 (語音助手),快手 APP 語音搜索、直播間語音輸入法、語音魔法表情、一甜相機實時字幕,以及最新上線的快影自動字幕服務等等,為全球數(shù)億用戶帶來了前所未有的各種創(chuàng)新體驗。
作為全球最受歡迎的直播和短視頻應用平臺之一,快手全球平均每天有 3 億活躍用戶通過各種終端在快手平臺記錄和分享他們的生活或體驗。面對如此龐大的規(guī)模用戶和應用場景,快手希望能夠優(yōu)化其 ASR 服務,滿足不斷增長的客戶需求,并為他們提供更好的用戶體驗。
用戶體驗最重要的性能指標,就是時延和并發(fā)路數(shù)。致力于“圍繞快手核心業(yè)務打造技術護城河”的快手異構計算中心,借助賽靈思Alveo?及相關工具套件,大幅提升了ASR 整體服務性能和用戶滿意度,成為國內大規(guī)模網絡直播和短視頻應用場景的ASR 典范。
項目挑戰(zhàn)
在快手之前基于CPU框架的處理流程中,特征提取等前處理模塊運行時間占比約為 5%~10%, TDNN+LSTM 聲學模型運行時間占比約為 60%~80%,而包含語言模型的解碼器部分運行時間占比約為 15%~30%??焓之悩嬘嬎阒行?,希望找到一個更合適的異構底層器件,將最耗時的TDNN+LSTM 聲學模型轉移到這個器件上并進行優(yōu)化。
快手異構計算中心團隊認為,以 TDNN+LSTM 為主結構的流式聲學模型優(yōu)化的關鍵痛點有三個,那就是時延(Latency)、實時率(RTF,Real Time Factor)和并發(fā)數(shù)(Concurrency),具體而言需要解決如下問題:
● 縮短時延,為用戶提供實時的流式語音識別ASR體驗;
● 提高并發(fā)數(shù),保障海量流式數(shù)據并發(fā)處理的帶寬需求;
● 提供靈活性及易用性,滿足現(xiàn)有多業(yè)務模型的特點。如可以同時運行多個模型,可以多模型實時任意切換,且能滿足未來模型的升級換代;
● 降低單位算力成本,實現(xiàn)更低總擁有成本;
● 滿足AI 算法的高精度需求。
此外,快手對GPU 進行了評估,發(fā)現(xiàn)其硬件使用率 (Utilization) 比較低,不能滿足RTF需求,SRAM 容量也無法滿足TDNN+LSTM模型高并發(fā)性的需求。至于主流的 ASIC,除了以上介紹的硬件使用率問題外,還存在不支持 Kaldi 框架,定點實際只有 12bit 等問題,很難滿足ASR優(yōu)化在精度上的需求。
綜上所述,快手技術團隊認為,滿足上述需求的理想的異構器件平臺,應當是一個可以全定制的專用平臺,可以通過軟硬件協(xié)同設計確保精度符合各種不同業(yè)務的標準。
解決方案
快手異構計算中心經過評估后,決定選用賽靈思的Alveo U50LV加速器卡來優(yōu)化 ASR 服務。
Alveo U50 數(shù)據中心加速器卡基于賽靈思高性能 UltraScale+ 架構,采用了高效的 75 瓦小型封裝,而且配備了 100 Gbps 網絡 I/O和高帶寬內存。這些特性為快手的 ASR 解決方案提供了關鍵的低功耗、高帶寬、大 SRAM 內存和小尺寸優(yōu)勢。而Alveo U50LV (Low Voltage)則是 U50 系列的低電壓版本,和標準電壓版本相比,功耗更低,散熱要求更少。
“我們認為理想的 ASR 加速解決方案,是可以支持高帶寬、大 SRAM 和定點推斷的硬件平臺,”快手異構計算中心總監(jiān)劉凌志博士表示:“賽靈思的 Alveo FPGA U50LV 完全符合我們的要求?!?/p>
圖 快手各種器件選型比較
結合公司自研的定點通用推理框架和定點 C 模型,快手基于Alveo U50LV 及賽靈思相關 Vitis HLS 高層次綜合及 Vitis Design Flow,從算法、系統(tǒng)、軟件和硬件等多個關鍵層面對ASR 系統(tǒng)進行了多方位的創(chuàng)新, 應用了多項最先進的優(yōu)化技術:
圖 ASR系統(tǒng)整體架構
算法層面:采用圖融合、圖優(yōu)化、圖同構、圖分割,以及不重訓的高精度量化技術,在保證精度的同時,有效的壓縮了模型,使之更有利于FPGA 計算效率的發(fā)揮;
系統(tǒng)層面:自研通用推理框架及適合FPGA的通用Host調度框架,支持多模型,模型可擴展,自動化部署,具有很強的易用性;
軟件層面:設計Batch機制,基于OpenCL的任務調度及負載均衡策略,實現(xiàn)了任務級的數(shù)據傳輸、kernel 計算等高效并行處理;
硬件層面:自定義基于超長指令字的指令集架構,設計編譯器,并基于 Vitis? HLS高層次綜合優(yōu)化技術,快速完成了高效的FPGA底層設計。和直接采用硬件描述語言(如 Verilog HDL)相比,HLS 技術在更高的抽象層次上使用 C/C++ 的語法描述硬件行為,不僅達到了和 Verilog 接近的效果,而且加速了各種優(yōu)化技術的實現(xiàn),將開發(fā)時間從 3 個月縮短到 6 周。
優(yōu)化后的系統(tǒng)整體架構如圖三所示:調度加速引擎的代碼框架 ( Host )接收輸入的語音數(shù)據,經過前處理、神經網絡推斷和后處理過程,生成識別后的文本。其中黃色部分的神經網絡推斷過程是卸載到Alveo 加速卡上來完成的。
成效
借助賽靈思 Alveo 加速卡及相關設計工具,快手最終實現(xiàn)了針對 TDNN+LSTM 聲學模型的全定點推理硬件加速方案,全面優(yōu)化了ASR 服務,實現(xiàn)了:
1.大幅減輕了CPU 的工作負載,將單臺服務器業(yè)務處理能力提升7.5倍;
2.大幅降低了端到端時延,平均縮短達37.67%;
3.大幅縮減了系統(tǒng)總成本,降至0.29 (相當于總成本銳減71% )。
4.大幅縮短了開發(fā)周期。通過采用OpenCL實現(xiàn)了與現(xiàn)有業(yè)務無縫集成,并借助 Vitis Design Flow將設計周期從3個月減少到6周。
這是 FPGA 在國內大規(guī)模直播及短視頻自動語音識別場景落地的首個成功案例,展示了快手各種創(chuàng)新應用背后技術團隊強大的實力。2021年中以來,優(yōu)化的ASR 服務已經在快手直播及短視頻應用平臺廣泛部署,目前有數(shù)億用戶正在享受其所帶來的前所未有的語音識別體驗。
評論