半導體產業(yè)應如何在大數據中淘金?
根據思科的數據,全球互聯(lián)網吞吐量在2016年為1.2ZB(1ZB相當于10億TB或1萬億GB),預計到2021年將增長到3.3ZB每年。洶涌上漲的數據洪流,波峰越來越高,在2016年,每天數據流量同比增長了32%,而流量最高的1小時數據吞吐量同比增長了51%。
當上述統(tǒng)計也不完整,實際上沒有人知道全球每天產生多少數據,因為并不是所有設備的數據都會連入互聯(lián)網。
數據量本身意義不大,如何量化數據的價值才是關鍵所在,但在如何應用數據,以實現其價值方面,當前還沒有行之有效的方法。
想挖掘數據的真正價值,就要對天量數字與模擬數據進行過濾,并充分考慮應用場景,這就像沙里淘金,大多數可能無功而返。不過,隨著計算力的提高以及大規(guī)模并行計算工具的成熟,數據過濾分析--即找到更好的應用數據方法--已經能夠創(chuàng)造出頗具市場前景的商業(yè)模式。
“眾多行業(yè)人士指出,不同數據應用方法與其器件和商業(yè)模式相互關聯(lián),并對其商業(yè)、市場以及商業(yè)模式產生影響,”Synopsys董事長兼共同CEO Aart de Geus說道,“如果你能夠從中找到捷徑,提升效率,或者全新的商業(yè)模式,那就會是非常大的影響。 ”這也意味著高利潤的可能,“你會看到,所有從事數據處理的人都在仔細聆聽,以解碼市場未來需求,或者自行判斷當前市場需求,”de Geus繼續(xù)說道,“或者更進一步,他們準備置身于數據通路之中,從而最靠近數據商業(yè)化的中心。”
這正是資本瘋狂涌入的原因,從數據挖掘到云端服務,從機器學習到工業(yè)物聯(lián)網,每一個數據應用場景都戰(zhàn)況激烈。
“誰擁有數據,具備數據分析及處理能力,誰就能把所有錢都賺走,”西門子Mentor事業(yè)部總裁兼CEO Wally Rhines這樣表示。
現在還難說數據應用是一個勝者通吃的游戲,不過確實有不少科技巨頭在這個領域跑馬圈地,奮勇爭先,例如亞馬遜、谷歌、微軟、Facebook和IBM等掰著手指頭就可以輸出來的大家伙。
“收集上來的物聯(lián)網數據中,包含了設備大量的性能、行為及應用數據,”IBM美洲區(qū)銷售主管Christophe Begue說道,“我們接下來會把收集到的數據丟給Watson(IBM人工智能平臺)去分析?!?/p>
現在的大問題是如何將這些數據變現,有哪些人愿意為數據付費。要將數據變現,首先要做到如下幾點:第一,行業(yè)里的公司要真正懂數據的價值;其次,公司要能夠快速應對數據變化,只要比別人快百分之一秒,券商就能夠以此牟利,但現在大公司應對數據變化的反應時間通常是幾天甚至幾周;第三,變現數據的價格要有競爭力,不能波動太大。
IBM正準備將全球供應鏈的數據商業(yè)化?!肮湐祿譃閮蓪樱盉egue說道,“第一層是零售與快速消費品(CPG)等數據,就是那些可能會影響到食品與飲料等銷售的數據。你可以在附近的一個商店收集天氣、交通或運動賽事等相關信息,并通過交通模式追蹤它。我們用Metro Pulse平臺來做數據分析,該平臺會覆蓋500個數據元素,用戶既可以購買數據用于深度學習或機器學習分析,也可以全部委托IBM來做分析。第二層即我們正在導入市場的概念:供應商風險。IBM將天氣與政局變化等諸多因素納入考慮,從數據中分析供應鏈的安全程度,并根據分析結果來提升供應鏈的安全。如果注意到15個因素有風險,那么你就會對這15個因素嚴密監(jiān)控。”
IBM的服務并不是值分析已有數據,還會給出建議,洞見未來?!拔覀兪占_與半公開數據,有些數據只在IBM內部使用,我們建立預測模型。當然,我們也意識到,在計劃和反應之間,仍然存在差距,‘決策室’概念有助于縮小計劃和行動之間的鴻溝?!?/p>
智能制造
并不只外部收集的數據才有用,工業(yè)生產中,內部產生的數據就很有價值。事實上,整個智能制造的概念(德國稱為工業(yè)4.0,也有人稱之為工業(yè)互聯(lián)網)就是如何把內部數據利用好。
“一言以蔽之,工業(yè)物聯(lián)網是為了提升生產效率,”O(jiān)ptimal+市場副總裁David Park說,“現在這些公司都偏愛流程分析和無庫存生產,但它們真正需要的是預測性分析。預測性分析可以讓工廠受益,不過受益最多的是品牌商,品牌商和工廠可不一定是一回事?!?/p>
風險在于,數據不一定都是正確的?;阱e誤數據而做出的決定,將導致結果難以預期。
“如果數據沒問題,那么可以把良率提高2%到3%,非常顯著的提高,”Park說道,“供應鏈上通過檢測的任何元器件的所有時間段數據都會被收集。當你拿到一些有劃痕的晶圓,根據數據就能查出在哪一個環(huán)節(jié)晶圓被劃破,你也可以查看元器件在現場的老化過程。如果汽車配備了預測性維護服務,那么你就能看到汽車在路上的相關數據。金融業(yè)同樣會受益,如果你手上有數十萬張發(fā)票,靠人工是捋不清發(fā)票之間的相互關系的?!?/p>
這種數據分析對于復雜供應鏈特別重要,半導體制造本身在數據分析與應用上先進,但整個半導體供應鏈對數據的應用,并不都能達到制造環(huán)節(jié)的水平。
“有效利用數據是智能制造顧問委員會(隸屬于SEMI)的一大主題,”SEMI協(xié)作技術平臺副總裁Tom Salmon說道,“獲取數據很重要,但現在問題不是我們獲取的數據量不夠,而是因為數據利用率只有10%左右。真正的挑戰(zhàn)在于我們應該問什么樣的問題,如何把數據應用于制造。所以可能會有可靠性問題,但不會有制程問題?!?/p>
找到關鍵數據,在預設參數下利用機器對數據規(guī)律進行外推,這就是機器學習的基礎。這種方法已經應用于汽車自動駕駛領域,機器學習系統(tǒng)將輔助并最終取代人類去駕駛汽車,自動駕駛系統(tǒng)做決策時,需要根據行駛場景給出多種預案。
在半導體設計與制造中,也會利用機器學習來提高質量、可靠性及良率。
“采用合適的比例來抽取數據做分析,就能應用于未來的設計,”eSilicon市場副總裁Mike Gianfagna說道,“如何將機器學習算法應用于新領域是關鍵,在過去7年中,我們在這方面積累了很多經驗,我們知道如何挖掘開發(fā)數據的價值。當你擁有大量數據時,怎么去抽取分析這些數據?如果抽取數據比例太高,你會迷失在大量數據中,如果抽取數據比例過低,又可能得不出結論?!?/p>
Gianfagna表示,在降低風險與增加效率的基礎上,實現數據變現是機器學習的目標。“要做到這一點,你需要從全局上來看待大數據分析?!?/p>
與很多由大云端服務商提供服務的大數據分析相比,半導體設計和測試行業(yè)產生的數據量很少,不過半導體設計與測試數據可能更復雜。
“當前主要任務是收集數據,”NI解決方案市場總監(jiān)George Zafiropoulos說道,“下一階段的目標是通過數據分析來給出改進方法。無須刻意尋找,你就能發(fā)現數據中的價值嗎?你要找的,是數據的趨勢和相關性,可以將機器學習應用于任何環(huán)節(jié)。如果軟件提示,本周四產線產出較低,為什么會產出低?或者特定溫度與特定電壓對產品性能的影響。(這些都可以用數據分析來指導)”
Zafiropoulos指出,可以將更好的芯片設計作為目標?!白鳛楣こ處?,我們圍繞設計來制定規(guī)則,但如果你想面面俱到,那么效率就不會高。如果在保證可靠性與性能基礎上,可以減少保護規(guī)則,那將會有很大價值。很多大數據分析都是針對多個數據采集點,一座城市可能有一萬個傳感器,每天產生大量數據,而亞馬遜的訂單更是數不勝數。半導體數據比個人能處理的數據顯然要多,但也遠達不到亞馬遜交易數據這個量級?!?/p>
然而,系統(tǒng)數據可能就比設計數據高幾個數量級了,特別是涉及多物理層仿真時?!拔覀冋J為,7納米將是首次導入機器學習和大數據分析的節(jié)點,數據量將會膨脹,處理速度也需要增加?!?ANSYS總經理兼副總裁John Lee說道,“你需要做同步熱分析。熱效應影響系統(tǒng)的可靠性,但如果數據量增大到當前技術無法解決,那么就要引入新的方法,所以我們需要大數據技術。最新的GPU有210億個晶體管,而且可應用于汽車,但這種規(guī)模的芯片發(fā)熱量巨大,(如果散熱設計不好),發(fā)熱時會增加對電路板的壓力,并可能導致板子彎曲,但要知道,車用芯片使用壽命長達十年?!?/p>
總結
大數據分析在半導體產業(yè)應用還處于中段(發(fā)展期)。一方面,為提高芯片的性能、效率和可靠性,半導體產業(yè)的數據量在增長,數據分析任務在增加;另一方面,半導體產業(yè)也在發(fā)展各種技術,以充分挖掘數據用途。
這為產業(yè)帶來了新的增長機會。Cadence 總裁兼CEO 陳立武表示,2015年全球聯(lián)網汽車市場規(guī)模為240億美元,到2020年,將發(fā)展到370億美元,與之相應,深度學習市場規(guī)模2020年將達100億美元(2015年為6億美元),云和數據中心市場規(guī)模將達800億美元(2015年650億美元)。“這將給半導體產業(yè)帶來機會,”他說道,“從優(yōu)化物聯(lián)網到云端,都將給半導體帶來很大的機會?!?/p>
現在的問題是,圍繞這些數據還能做些什么,以及到底如何去實現。這將是半導體產業(yè)的一個全新機會,也許會推動半導體產業(yè)發(fā)展登上一個新臺階。
評論