7 探索式資料分析| 資料科學與R語言 | data.table r
什麼是探索式資料分析探索式資料分析(ExploratoryDataAnalysis)的主要精神是運用視覺化、基本的統計等工具,反覆的探索資料特性,獲取資料所包含的資訊、結構和特點,因為在進行複雜或嚴謹的分析之前,必須要對資料有更多認識,才能訂定對的資料分析方向。探索式資料分析包括分析各變數間的關聯性,看是否有預料之外的有趣發現,或是觀察資料內容是否符合預期,若否,檢查資料是否有誤,最後檢查資料是否符合分析前的假設,由上述可知,探索式資料分析通常不需要嚴謹的假設和細節呈現,主要功能還是『觀察』資料的特性。在資料量大/雜...
什麼是探索式資料分析探索式資料分析 (Exploratory Data Analysis) 的主要精神是運用視覺化、基本的統計等工具,反覆的探索資料特性,獲取資料所包含的資訊、結構和特點,因為在進行複雜或嚴謹的分析之前,必須要對資料有更多認識,才能訂定對的資料分析方向。
探索式資料分析包括分析各變數間的關聯性,看是否有預料之外的有趣發現,或是觀察資料內容是否符合預期,若否,檢查資料是否有誤,最後檢查資料是否符合分析前的假設,由上述可知,探索式資料分析通常不需要嚴謹的假設和細節呈現,主要功能還是『觀察』資料的特性。在資料量大/雜的時候,探索式資料分析就非常重要,因為透過探索式資料分析,分析人員可以在複雜的統計計算與耗時的模型建立前,就先發現可能的錯誤,更重要的是,可以透過探索性分析來調整分析的方向,減少因分析方向錯誤所造成的時間浪費。
探索式資料分析分為:
圖形化Graphical 或 量化Quantitative 單變量Univariate 或 雙變量Bivariate 或 多變量Multivariate圖形化的分析方式包括做圖與列表,量化的分析方式則是資料初步統計,本章節著重於量化的分析方式,圖形化的分析方式請參考Ch 8。
以單變量分析來說,量化的分析方式可包含
計算集中趨勢 (維基百科) 平均值 Mean mean() 中位數 Median median() 眾數 Mode,R無內建函數,可直接用table()找出現次數最多的資料 [1] 計算資料分散程度 最小值 Min min() 最大值 Max max() 範圍 Range range() 四分位差 Quartiles quantile() 變異數 Variance var() 標準差 Standard deviation sd()以雙變量分析來說,分析方式可包括:
列聯表 Crosstabs table(), ftable(), prop.table() 共變數 Covariance cov() 相關性 Correlation cor()量化分析方式的測量值大多可用R的內建函數完成計算,但是在探索式分析時,常常需要遇到資料分組的分析情形(如觀察男性和女性的血壓差異、A隊與B隊的三分球命中率差異、中鋒和...