以往的統計科學礙於資料蒐集困難。
實驗設計者,往往在一開始就主觀的將"某些指標"當成重要參數去測量
雖然有取樣方便的好處,但其結果卻是在一開始就帶有強烈的偏見存在。
海量分析的理論有點像是以量制精準度。
透過高效的現代科技,將同一模組套用到成千上百個變數當中,
之後再透過其相關性,去找因果關係。
聽起來有點像亂槍打鳥...
所以接下來我要以160個國家與其中三個有趣的變數下去作配對
看看能擦出什麼驚人的火花!
上表就是實驗結果啦!
我以失業率,出口依存度與2009年的經濟成長率為目標
然後把顯著相關的項目以黃色標記出來(N>±0.4)
1.失業率與農夫佔比呈顯著相關
說明一個國家的農夫越多,其總體失業率就越高
若將此概念套用到非洲國家就能想到
農民越多的國家,通常也代表其工業不發達
沒有基礎設備,旅遊業當然也就發展不起來囉。
2.出口依存度與工業佔GDP呈顯著相關
工業產品與農產品是唯二能出口的東西
而其中,工業產品的附加價值又高於農業
所以出現這個結果也不算奇怪。
3.2009年經濟成長率與產業佔比的關聯性
2008~9發生了房地產泡沫與經濟衰退。
大部分已開發國家都受到了重大的打擊。
相反的,以傳統農業為經濟來源的國家,
卻因為與西方經濟的連結較少,在兩相比較之下,反而出現逆勢成長的趨勢。
以服務業(金融產業)為主的西方國家則呈現反比。
透過這次的實驗發現,利用Rattle進行相關性比較,
的確有助於資料探勘,並發現參數與參數間的相關性。
話雖如此,海量資訊分析還是有其缺點的,
例如變數過多,在實驗的過程會有ㄧ種資訊爆炸的感覺,很多工作都是在作白工。
或許這種感覺,會隨著操作者的經驗與對Rattle的熟習程度而有所改變也不一定。
唯一能確定的就是,線性相關的思考模式將在資訊領域遭到破解。

沒有留言:
張貼留言