如何從少量樣本中挖掘重要信息
如何從少量樣本中挖掘重要信息
數(shù)據(jù)挖掘是一種從信息化社會(huì)的龐大數(shù)據(jù)中,挖掘?qū)毑氐姆椒ê统绦?,那么怎樣從少量樣本中挖掘重要信息?以下是學(xué)習(xí)啦小編為您帶來的關(guān)于從少量樣本中挖掘重要信息,希望對(duì)您有所幫助。
從少量樣本中挖掘重要信息
在面對(duì)許多數(shù)據(jù)時(shí),怎樣使用最佳的方法進(jìn)行分析至關(guān)重要;若沒有合適的數(shù)據(jù),則必須從收集數(shù)據(jù)著手。此時(shí),你會(huì)因?yàn)槭占嫶蟮臄?shù)據(jù)非常困難而放棄數(shù)據(jù)挖掘嗎?
首先,請(qǐng)大家檢驗(yàn)一項(xiàng)問卷調(diào)查的結(jié)果.有本書叫《日本的開關(guān)》 (慶應(yīng)義塾大學(xué)佐藤稚彥研究室著,每日新聞社,2004),其中記載了用手機(jī)收集的問卷調(diào)查的統(tǒng)計(jì)結(jié)果。此項(xiàng)調(diào)查利用手機(jī)詢問被調(diào)查者喜歡兩者中的哪一個(gè)(選擇),然后公布調(diào)查出來的比例。特點(diǎn)在于,利用手機(jī)快速傳遞信息的功能,在極短的時(shí)間內(nèi)免費(fèi)從2-3萬的龐大人群中獲得回答。
具體的調(diào)查內(nèi)容如下所示,請(qǐng)讀者也試著回答一下。
問題1:“日本”的讀音,你喜歡“NIHON”還是“NIPPON”?
有22936名回答者;其中,喜歡“NIHON”的占61%,喜歡“NIPPON”的占39%。使用回答者多達(dá)2-3萬人的“日本的開關(guān)”的調(diào)查問卷,詢問43名數(shù)據(jù)挖掘同仁的意見。那么,結(jié)果與“日本的開關(guān)”有沒有差異呢(如下圖1和圖2)? 關(guān)于“日本”讀音的問題,回答結(jié)果是,“NIlHON”=70%,“NIPPON”=30%(圖2No.2)?;卮鹫弑壤?3/02936,不足“日本的開關(guān)”的總體回答者的0.2%。但是,從回答結(jié)果看,兩者都是“NIHON”的比例居高,具有相同傾向。兩者的相對(duì)誤差都是15%。
對(duì)10項(xiàng)不同類別的內(nèi)容進(jìn)行問卷調(diào)查,請(qǐng)回答者從a、b中選擇其中一個(gè)。然后,比較樣本數(shù)很多(2萬件以上)與樣本數(shù)很少時(shí)(43件)的結(jié)果有何不同。
結(jié)果如圖2所示。只有43名樣本數(shù)的調(diào)查與“日本的開關(guān)”調(diào)查的選擇a、b的傾向是一致的。而且相對(duì)誤差比例都在20%以下。針對(duì)所有問題的回答情況,兩者沒有較大差異。也就是說,樣本數(shù)多時(shí)和樣本數(shù)少時(shí)的回答結(jié)果的傾向大致相同。當(dāng)然,收集數(shù)據(jù)時(shí)要特別注意不能出別偏差。如果使用隨機(jī)抽樣,可以判斷即使是少量樣本數(shù),與超過它500倍的龐大樣本數(shù)的結(jié)果具有相同傾向。因此,在沒有大量數(shù)據(jù)的情況下,可以把少量數(shù)據(jù)看做縮略圖,以此捕捉樣本傾向,進(jìn)行預(yù)測。
【圖1 】
【圖2】
大家是不是認(rèn)為數(shù)據(jù)挖掘一定需要收集大量數(shù)據(jù)呢?請(qǐng)先從用Excel分析身邊的數(shù)據(jù)開始吧,前提是清楚數(shù)據(jù)分析是做什么的!用少量樣本數(shù)分析,也可以把握傾向和類型。學(xué)會(huì)收集分析身邊的數(shù)據(jù)并加以靈活運(yùn)用非常重要。從筆者以往的經(jīng)驗(yàn)來看,即使只存在少量數(shù)據(jù),也叮從中得到十分有用的信息。
猜你喜歡:
1.挖掘自己這座寶藏
2.加強(qiáng)網(wǎng)絡(luò)安全意識(shí)的重要性
3.2017我們的節(jié)日活動(dòng)實(shí)施方案