探索性數(shù)據(jù)分析(EDA),你會使用嗎?
本文引用地址:http://www.ex-cimer.com/article/113459.htm
還有人說:用一些傳統(tǒng)的圖形工具,比如折線圖、柱狀圖、餅圖等等來分析,不就可以進行數(shù)據(jù)探索了嗎?這種方法似乎是可行的,但這些數(shù)據(jù)中有不少類別變量,他們的分類水平很多(例如年份跨越7年,行業(yè)分為30個,國家有75個之多,公司名稱更是多達3505個),這樣一來,光作圖可能就讓我們筋疲力盡了,“數(shù)據(jù)探索”又從何談起?
表一 經(jīng)JMP軟件整理的福布斯2000強排行數(shù)據(jù)
什么方法才能很好地探索這些數(shù)據(jù),從中發(fā)現(xiàn)我們所期望的、甚至意想不到的重要信息呢?我們應(yīng)該從哪里著手分析才能找到這些信息呢?我們來嘗試運用現(xiàn)代EDA中的可視化技術(shù)“泡泡圖”來邊看邊想。在JMP軟件的幫助下,我們可以很快得到類似圖一的圖形,其中的橫軸代表公司的市值,縱軸代表公司的銷售額,泡泡的大小代表公司的利潤額,泡泡的顏色代表公司所屬的行業(yè)。最有意義的是,所有的泡泡并不是靜止不動的,它們的位置、大小等都會隨著年度的變化而動態(tài)變化。與此同時,整個變化的歷史軌跡線也會在圖中顯示出來。
這樣一來,我們就可以直觀地發(fā)現(xiàn)一些明顯的數(shù)據(jù)特征。就拿圖中標(biāo)識出來的兩家知名公司來說。我們會發(fā)現(xiàn)通用電氣General Electric的經(jīng)營業(yè)績比較穩(wěn)定,而??松梨贓xxon Mobil就相對顯得大起大落一些。雖然兩者有明顯不同,但自2008年起,市場價值均有顯著的回落,這應(yīng)當(dāng)與當(dāng)時席卷全球的經(jīng)濟危機有關(guān)。
圖一 基于JMP軟件生成的動態(tài)泡泡圖
評論