因為對於實驗設計沒什麼概念...
所以一開始先使用我在2013年上半年度的日常開銷為數據
當做這次資料探勘的背景(手邊沒其他資料了!)
做為統計學與資料處理的門外漢,R語言對新手來說是有點困難的。
好在它是一個Open source software, 使用在不但不需付費,
還可以享有許多前輩寫好的GUI(Graphical User Interface圖型化使用者介面)。
本篇要介紹的Rattle與Latticist就是其中兩款GUI的佼佼者。
透過Rattle, 快速的了解早餐的平均消費
最低消費(min.)是0元 平均數(mean)是13.88元
3rd Quantile 是30元 最高消費(max.)是90元
然後If Daily cost >100則是統計開銷超過100元的天數
False是38天 True是88天
Missing Value是0
上圖則是以圖示說明數據, 讓資料探勘者一眼就看出特定目標的消費模式
下圖是Latticist, 左邊的Date是以月為單位,右邊的Day是以週為單位作為變數
透過圖片可以發現幾個特點:
1.每個月的1~10號會傾向比較大筆的開銷, 但過了10號以後會逐日下降直至月底
(左圖紅線)。
(左圖紅線)。
2.左圖紫線以每日花費50~73.5元, 作為分析的標準線, 可發現在15號時與紅線交錯
逐日上升(換句話說,就是我在每個月的1~10號會開始鬆懈,對支出沒有節制)。
3.右圖紅線的高峰是在禮拜五,六,日, 顯示我在週末時會開始亂花錢。
(相反, 禮拜一~四就好像在為週末準備一樣, 每天的平均開銷都被壓在50~120元之間)
透過多種變數的交叉分析,還可以在不同時段量測到的空氣濕度,日照數,
風向去預測明天下雨的機率。
風向去預測明天下雨的機率。
透過顧客以往的購物行為,預測哪些廣告對他比較有效。
從最早的生物統計發展天演論
應用到農業上,可以分析肥料、水份對作物的影響。
應用到戰場上,可以預測敵方的戰車總數。
應用到釀酒業, 可以判斷每次釀酒要放多少酵母,才能使啤酒呈現最好的風味。
可以應用在風險評估, 也可以用來分析商業行為。
可以應用在日常生活, 或了解小習慣對一個人的影響。



沒有留言:
張貼留言