Ceresus 觀點
不是資料不好用,是看你怎麼用

資料科學很常說 ''Garbage in, Garbage out",當你把沒有意義或是有錯誤的資料倒入模型或拿去分析,你得到的結果將沒有任何價值。但在實務上,沒有所謂「完美無瑕」的資料,大部分可以取得的資料,或多或少都有錯誤的部分。例如問卷漏填、填錯或輸入錯誤等等都十分常見。延思認為,所有的資料都有可用之處,重點在於如何從不完美中,將價值提煉出來。以統計的角度來說,我們本來就是盡可能的去推估我們有興趣的目標值是多少。理論上,我們永遠都不可能得到一個正確答案,只能去推估答案的落點以及潛在的可能範圍。

傳統的統計學告訴我們,透過收集夠多的樣本,理論上我們能夠逐漸接近真實答案,並減少資料產生的噪音。然而,很多時候我們得到的資料零碎且片面的,雖然無法主動改善既有資料的品質或完整度,但我們可以透過多種的計量工具,將每個資料中的訊號盡可能獨立出來,或是使用可信度較高的資料作為基礎,再根據比較零碎的資料去一步一步的逼近真實。就像瞎子摸象的故事一樣,每一份資料都只能透漏部分的訊息,但如果我們有系統性去整理、分析,最終我們還是能夠找出最接近的答案。

過去延思協助一家連鎖飯店業者,從凌亂的房客資料中,分析出顧客的 消費行為模式,以及找出重要指標,例如 #續住率等等。該業者內部資料面臨幾個問題:
1.會員系統與訂房紀錄系統並不一致,無法串聯。
2.員工紀錄資料時,沒有按照規定的格式輸入,導致每筆資料可能有遺漏或是重複。
3.房客每次提供的資料不一致,可能一個人有多張會員卡,不同的電話或email

原本業者是希望先找外部的資訊公司進行資料庫的重整,打造一個數據平台之後才進行分析。但是整個投資金額甚鉅,而且曠日廢時,無法滿足管理高層急迫的需求。延思的資料科學團隊在評估過業者現有資料內容後,發現其實只要經過資料清洗的過程,就已經足夠回答他們經營上的問題了。於是延思團隊在一個禮拜之內,利用演算法進行住房資料與會員紀錄的比對,並且成功的將原始資料中錯誤與重複的紀錄刪除後,利用「較乾淨」的數據,分析出集團旗下各飯店的顧客消費行為與回頭率,讓業者更了解重要客人的行為(頻率、平均金額等),以及對飯店的貢獻,同時也替各飯店設定合理的營運目標。

回文章列表