統(tǒng)計(jì)方面博士論文
統(tǒng)計(jì)學(xué)是一個(gè)前景非常明朗的產(chǎn)業(yè),各行各業(yè)都在應(yīng)用統(tǒng)計(jì)學(xué)的技術(shù)。統(tǒng)計(jì)學(xué)的發(fā)展迅速,其發(fā)展方向也是令人關(guān)心的一個(gè)課題。下文是學(xué)習(xí)啦小編為大家搜集整理的關(guān)于統(tǒng)計(jì)方面博士論文的內(nèi)容,歡迎大家閱讀參考!
統(tǒng)計(jì)方面博士論文篇1
淺談統(tǒng)計(jì)調(diào)查及統(tǒng)計(jì)調(diào)查誤差的及特征
種類
摘 要:隨著社會的發(fā)展,統(tǒng)計(jì)調(diào)查作為各信息的來源勢必會越來越受到人們更多地關(guān)注,也勢必會有越來越多的人參與到統(tǒng)計(jì)調(diào)查活動中來。本文從統(tǒng)計(jì)調(diào)查的概念出發(fā),通過對統(tǒng)計(jì)調(diào)查和其它調(diào)查的區(qū)別解釋統(tǒng)計(jì)調(diào)查,并正確區(qū)分統(tǒng)計(jì)調(diào)查與非統(tǒng)計(jì)調(diào)查、理解統(tǒng)計(jì)調(diào)查的種類、統(tǒng)計(jì)調(diào)查誤差的種類及其特征和產(chǎn)生的原因,這些問題是參與和搞好統(tǒng)計(jì)調(diào)查、提高統(tǒng)計(jì)調(diào)查質(zhì)量的基本前提。
關(guān)鍵詞:統(tǒng)計(jì)調(diào)查;誤差;統(tǒng)計(jì)調(diào)查質(zhì)量
一、統(tǒng)計(jì)調(diào)查的概念
統(tǒng)計(jì)調(diào)查不僅要有明確的調(diào)查對象,而且調(diào)查對象是由具有某一或某些共同特征的許多個(gè)體構(gòu)成的總體,同時(shí)構(gòu)成總體的個(gè)體數(shù)要足夠地多,除此之外,還要求調(diào)查的個(gè)體單位數(shù)也要足夠地多。統(tǒng)計(jì)調(diào)查對構(gòu)成總體的許多獨(dú)立個(gè)體的調(diào)查不是目的,綜合與提煉許多獨(dú)立個(gè)體信息資料才是統(tǒng)計(jì)調(diào)查的真正目的。因此,統(tǒng)計(jì)調(diào)查所獲資料的真實(shí)、準(zhǔn)確與否,直接取決于個(gè)體提供的信息資料是否真實(shí)、準(zhǔn)確。而統(tǒng)計(jì)個(gè)體之所以有可能提供不真實(shí)、不準(zhǔn)確的個(gè)體信息資料,是因?yàn)榻y(tǒng)計(jì)個(gè)體擔(dān)心一旦提供了個(gè)體真實(shí)、準(zhǔn)確的信息資料可能會為自己、他人或相關(guān)部門帶來不必要的麻煩。不過,從統(tǒng)計(jì)調(diào)查的真實(shí)目的來看,統(tǒng)計(jì)個(gè)體的信息資料根本不是統(tǒng)計(jì)調(diào)查所關(guān)注的信息資料,個(gè)人信息資料只作為一種信息載體出現(xiàn),僅起到顯現(xiàn)總體一般屬性或數(shù)量特征的作用———從對個(gè)體信息資料進(jìn)行深入的加工、綜合中提煉出總體的一般屬性或數(shù)量特征。
二、統(tǒng)計(jì)調(diào)查的種類
眾所周知,信息化時(shí)代信息的主體是統(tǒng)計(jì)信息,統(tǒng)計(jì)信息的獲取建立在統(tǒng)計(jì)調(diào)查的基礎(chǔ)之上。統(tǒng)計(jì)調(diào)查搜集到的個(gè)體信息資料的真實(shí)、準(zhǔn)確與否將直接影響信息化時(shí)代信息的質(zhì)量。統(tǒng)計(jì)調(diào)查獲取個(gè)體信息資料的方式方法的不同決定了不同種類的統(tǒng)計(jì)調(diào)查獲取個(gè)體信息資料質(zhì)量的差異。
統(tǒng)計(jì)調(diào)查按是否對構(gòu)成總體的全部個(gè)體進(jìn)行調(diào)查,可以劃分為全面統(tǒng)計(jì)調(diào)查與非全面統(tǒng)計(jì)調(diào)查兩類。
全面統(tǒng)計(jì)調(diào)查指的是對構(gòu)成總體的所有個(gè)體進(jìn)行的調(diào)查,即要搜集總體中所有個(gè)體的個(gè)體信息資料的一種調(diào)查。再按對總體中個(gè)體信息資料收集方式的不同,全面統(tǒng)計(jì)調(diào)查又可以劃分為普查和全面統(tǒng)計(jì)報(bào)表兩種。普查通常通過調(diào)查員借助普查表直接向個(gè)體搜集其信息資料的一種調(diào)查方式。
非全面統(tǒng)計(jì)調(diào)查指僅從構(gòu)成總體的全部個(gè)體中選取部分個(gè)體進(jìn)行的調(diào)查。非全面調(diào)查又因從全部個(gè)體中所選部分個(gè)體的方式不同,分為抽樣調(diào)查和非抽樣調(diào)查。所謂抽樣調(diào)查指從構(gòu)成總體的所有個(gè)體中按照隨機(jī)性原則選取部分個(gè)體的調(diào)查。同時(shí),抽樣調(diào)查又根據(jù)隨機(jī)性原則在具體使用上的差異可以將抽樣調(diào)查劃分為簡單隨機(jī)抽樣、系統(tǒng)隨機(jī)抽樣、分層隨機(jī)抽樣、整群隨機(jī)抽樣以及多階段隨機(jī)抽樣等。另一方面,若從構(gòu)成總體的所有個(gè)體單位中沒有遵循隨機(jī)性原則而選取部分個(gè)體單位進(jìn)行調(diào)查,則這樣的統(tǒng)計(jì)調(diào)查稱之為非抽樣調(diào)查。生活中常用的非抽樣調(diào)查主要有重點(diǎn)調(diào)查、典型調(diào)查和滾雪球調(diào)查等。
因此,無論在抽樣調(diào)查的理論研究方面,還是在抽樣調(diào)查的實(shí)際應(yīng)用中,抽樣調(diào)查正越來越受到人們的重視。
三、統(tǒng)計(jì)調(diào)查誤差的種類及特征
1、統(tǒng)計(jì)調(diào)查誤差的概念。通常人們把由統(tǒng)計(jì)調(diào)查獲取個(gè)體信息并綜合得到的總體規(guī)律性與總體實(shí)際客觀規(guī)律性之間的差異稱之為統(tǒng)計(jì)誤差。這種統(tǒng)計(jì)誤差反映在統(tǒng)計(jì)調(diào)查指標(biāo)上,就是由調(diào)查個(gè)體所得總體指標(biāo)數(shù)值與總體實(shí)際指標(biāo)數(shù)值之間的差別。
2、登記性統(tǒng)計(jì)調(diào)查誤差、特征及其產(chǎn)生的原因。
統(tǒng)計(jì)誤差通常可以分為登記性統(tǒng)計(jì)誤差和代表性誤差兩大類。所謂登記性誤差就是指由于調(diào)查者或被調(diào)查者的主觀原因而導(dǎo)致調(diào)查所得總體指標(biāo)與總體實(shí)際指標(biāo)之間的差異。
登記性統(tǒng)計(jì)誤差具有如下兩大基本特征:一是登記性統(tǒng)計(jì)誤差從理論上而言是可以完全避免的,但是,在實(shí)際統(tǒng)計(jì)調(diào)查中,登記性統(tǒng)計(jì)誤差又不可避免。二是登記性統(tǒng)計(jì)誤差一旦產(chǎn)生,誤差的大小又不可以計(jì)量。
從理論上來說,只要被調(diào)查者提供了真實(shí)、準(zhǔn)確的個(gè)體信息資料,而且調(diào)查者能準(zhǔn)確記錄與整理分析這些個(gè)體信息資料,就可以避免登記性統(tǒng)計(jì)誤差的產(chǎn)生。事實(shí)上,統(tǒng)計(jì)總體中的個(gè)體可能會基于各種考慮或顧慮不愿提供真實(shí)、準(zhǔn)確的個(gè)體信息資料。根源在于被調(diào)查者可能根本不理解統(tǒng)計(jì)調(diào)查的真實(shí)目的,或者把統(tǒng)計(jì)調(diào)查混同于非統(tǒng)計(jì)調(diào)查。在我國當(dāng)前國民參與統(tǒng)計(jì)調(diào)查意識比較薄弱、基本統(tǒng)計(jì)常識比較缺乏以及保護(hù)統(tǒng)計(jì)個(gè)體信息資料的法律、法規(guī)還不健全的現(xiàn)實(shí)條件下,要避免這種登記性誤差幾乎是不可能的。
再者,即使調(diào)查總體中的個(gè)體主觀想提供真實(shí)、準(zhǔn)確的個(gè)體信息資料,但是由于被調(diào)查的個(gè)體缺少必要的數(shù)據(jù)記錄,或沒有相關(guān)數(shù)據(jù),或個(gè)人信息資料記憶有誤也可能無法提供真實(shí)、準(zhǔn)確的個(gè)人信息資料。如在我國農(nóng)村居民年收支情況的調(diào)查中,有些農(nóng)村居民不是不想告訴你某年收支的準(zhǔn)確數(shù)據(jù),而是有些農(nóng)村居民從來就沒有對自己的年收支核算過,也沒有詳細(xì)的收支記錄。
另一方面,即使被調(diào)查的個(gè)體提供了真實(shí)、準(zhǔn)確的個(gè)體信息資料,也可能因調(diào)查者數(shù)據(jù)記錄不熟練、責(zé)任心不強(qiáng)造成記錄錯誤,或者發(fā)生數(shù)據(jù)丟失以及分析、整理個(gè)體信息資料有誤等,也會產(chǎn)生登記性統(tǒng)計(jì)誤差。
最后,不論何種原因一旦導(dǎo)致了登記性誤差的產(chǎn)生,登記性統(tǒng)計(jì)誤差的大小是無法準(zhǔn)確計(jì)量的。這是因?yàn)楸徽{(diào)查者提供的個(gè)體信息資料中不真實(shí)、不準(zhǔn)確的程度有多大、調(diào)查記錄中有多少差錯、個(gè)體信息資料整理、分析中又有多大差錯等,在實(shí)際統(tǒng)計(jì)調(diào)查中均是不可測度的。
綜上所述,由于統(tǒng)計(jì)調(diào)查區(qū)別于非統(tǒng)計(jì)調(diào)查的特征之一就是要對構(gòu)成總體的個(gè)體進(jìn)行獨(dú)立地調(diào)查,因此不管是全面統(tǒng)計(jì)調(diào)查還是非全面統(tǒng)計(jì)調(diào)查、不管是抽樣調(diào)查還是非抽樣調(diào)查都會產(chǎn)生登記性統(tǒng)計(jì)調(diào)查誤差。
3、代表性統(tǒng)計(jì)誤差、特征及產(chǎn)生的原因。
所謂代表性統(tǒng)計(jì)誤差指僅對構(gòu)成總體的所有個(gè)體中部分個(gè)體進(jìn)行調(diào)查,且僅僅根據(jù)這部分個(gè)體提供的信息資料綜合提煉出關(guān)于這部分個(gè)體的一般數(shù)量特征(如部分個(gè)體的均值),并據(jù)此對總體實(shí)際均值做出判斷所產(chǎn)生的一種差異。
代表性統(tǒng)計(jì)誤差可以根據(jù)它是來自抽樣調(diào)查還是非抽樣調(diào)查區(qū)分為抽樣誤差(也稱隨機(jī)誤差)和系統(tǒng)性誤差兩類。由抽樣調(diào)查所產(chǎn)生的代表性誤差稱之為抽樣誤差,由非抽樣調(diào)查所產(chǎn)生的代表性誤差稱為系統(tǒng)性統(tǒng)計(jì)誤差。
抽樣誤差具有如下基本特征:從理論上來說抽樣誤差無法避免,但是,在實(shí)際抽樣調(diào)查中,抽樣誤差不僅可以采取一定手段加以防范和控制而且其大小也可以計(jì)算。一方面,代表性誤差產(chǎn)生的根源在于構(gòu)成總體的所有個(gè)體的普遍規(guī)律性不可能由其中的部分個(gè)體完全顯現(xiàn),否則,它就違背了部分與整體的基本哲學(xué)關(guān)系。另一方面,抽樣調(diào)查從總體中選取部分個(gè)體時(shí),盡管確保了每一個(gè)個(gè)體都有同等被選中的可能性,使得所選中的部分個(gè)體的構(gòu)成與總體中所有個(gè)體的構(gòu)成趨于一致,由此保證了選中的部分個(gè)體的數(shù)量特征能反映總體中所有個(gè)體的數(shù)量特征。然而,總體中的某個(gè)個(gè)體能否最終被選中又具有一定的隨機(jī)性,從而使得所選中的部分個(gè)體數(shù)量特征又不能完全反映總體中所有個(gè)體的數(shù)量特征。由此表明,抽樣誤差不可避免。
數(shù)理統(tǒng)計(jì)關(guān)于抽樣的原理已經(jīng)表明:只要采用適當(dāng)?shù)姆椒▽?gòu)成總體中的所有個(gè)體先做適當(dāng)?shù)木幣呕蚍纸M,然后再遵循隨機(jī)性原則抽選個(gè)體,就可以有效地降低抽樣誤差的大小。即在樣本容量一定的前提下,對同一現(xiàn)象總體分別采用分層隨機(jī)抽樣、系統(tǒng)隨機(jī)抽樣、整群隨機(jī)抽樣和簡單隨機(jī)抽樣,其抽樣誤差是有顯著差異的。另外,在其他條件相同的情況下,變重復(fù)抽樣為不重復(fù)抽樣也可以適當(dāng)減小抽樣誤差。系統(tǒng)性代表誤差具有如下基本特征:從理論上來說系統(tǒng)性代表誤差是完全可以避免的,但是,系統(tǒng)性代表誤差一旦產(chǎn)生其大小又是不可計(jì)量的。系統(tǒng)性代表誤差產(chǎn)生的根源在于:在從構(gòu)成總體的所有個(gè)體中選取部分個(gè)體時(shí)沒有遵循隨機(jī)性原則,而是主觀地、或部分主觀地從總體中選取個(gè)體作為調(diào)查單位。
因此,人們在實(shí)際統(tǒng)計(jì)調(diào)查中,如果能有意識地不受主觀因素的影響、自覺地遵循隨機(jī)性原則抽選部分個(gè)體,就可以避免系統(tǒng)性誤差的產(chǎn)生。
四、結(jié)語
隨著我國社會、經(jīng)濟(jì)改革開放程度的不斷深入和社會主義市場經(jīng)濟(jì)體系的不斷完善,社會各個(gè)階層及個(gè)人對信息的種類、數(shù)量和質(zhì)量的需求也在不斷改變。統(tǒng)計(jì)調(diào)查作為各種信息的根本來源勢必會越來越受到人們更多地關(guān)注,也勢必會有越來越多的人參與到統(tǒng)計(jì)調(diào)查活動中來。通過分析不同調(diào)查現(xiàn)象總體的具體特征,根據(jù)統(tǒng)計(jì)調(diào)查的實(shí)際需要選擇適當(dāng)?shù)恼{(diào)查方式方法,分析各種統(tǒng)計(jì)調(diào)查誤差產(chǎn)生的可能原因,就可以有針對性地采取必要的手段防范某些統(tǒng)計(jì)調(diào)查誤差的產(chǎn)生,從而實(shí)現(xiàn)在調(diào)查成本不變的情況下,有效地提高統(tǒng)計(jì)調(diào)查的數(shù)據(jù)質(zhì)量。
統(tǒng)計(jì)方面博士論文篇2
談統(tǒng)計(jì)方法在移動通信網(wǎng)絡(luò)優(yōu)化管理的應(yīng)用
當(dāng)前移動通信網(wǎng)絡(luò)優(yōu)化,各種運(yùn)行質(zhì)量評估體系并存,不同運(yùn)營商,不同設(shè)備商的設(shè)備和不同地區(qū)都可能形成自己的考核評估體系。這些考核評估體系大多是基于設(shè)備商對各種移動通信網(wǎng)絡(luò)的統(tǒng)計(jì),以及dt、cqt等場測數(shù)據(jù)綜合進(jìn)行分析得出,能一定程度上反映移動通信網(wǎng)絡(luò)的運(yùn)行性能與質(zhì)量。但是隨著網(wǎng)絡(luò)運(yùn)營管理向系統(tǒng)化、精細(xì)化發(fā)展,原有的評估體系在某些方面不能適應(yīng)當(dāng)前網(wǎng)絡(luò)優(yōu)化工作的需要,如:對于各地區(qū)kpi(關(guān)鍵質(zhì)量指標(biāo))縱、橫向比較的標(biāo)準(zhǔn)。較低的指標(biāo)使原有評估體系的局限性不斷顯現(xiàn)出來。要做到指標(biāo)“與時(shí)俱進(jìn)”的不斷提高,又要切合目前的網(wǎng)絡(luò)質(zhì)量狀態(tài),達(dá)到最終的高指標(biāo)、均衡化的目的,這就需要在指標(biāo)門限制定的過程中運(yùn)用統(tǒng)計(jì)學(xué)的若干方法。
聯(lián)合國的專門機(jī)構(gòu)國際電信聯(lián)盟已為電信標(biāo)準(zhǔn)化部門制定了t標(biāo)準(zhǔn)。在文獻(xiàn)[1]中,明確定義了(qos)的概念、目標(biāo)值等等。并且提到,在當(dāng)前存在的移動系統(tǒng)中,信道阻塞率一般為5%~10%,而公共陸地電話網(wǎng)絡(luò)到固定電路網(wǎng)絡(luò)的阻塞率設(shè)計(jì)為1%。itu給出的建議標(biāo)準(zhǔn)是一重要參考,但指標(biāo)最低門限是各運(yùn)營商根據(jù)實(shí)際經(jīng)驗(yàn)、設(shè)備商的建議和統(tǒng)計(jì)自行制定。
本文的主要工作在于:
1)應(yīng)用盒須圖模型模型中的穩(wěn)健統(tǒng)計(jì)量和異常值定義,對各種關(guān)鍵性能指標(biāo)的異常門限或等級門限的制定給出魯棒性強(qiáng),符合數(shù)理統(tǒng)計(jì)規(guī)律的指導(dǎo)性建議。并應(yīng)用盒須圖的可視化功能,直觀便捷的觀察指標(biāo)的統(tǒng)計(jì)規(guī)律,并對指標(biāo)進(jìn)行橫向比較。
2)尊重地區(qū)差異,應(yīng)用k-均值聚類的方法探索各不同地市之間在移動網(wǎng)絡(luò)優(yōu)化質(zhì)量評價(jià)中的恰當(dāng)分類。
1指標(biāo)異常門限與等級門限
1.1網(wǎng)絡(luò)均衡性
對用戶而言,在平時(shí)進(jìn)行通信時(shí),若在不同時(shí)間、空間下有著不同的通話質(zhì)量或者掉話率,就會引起用戶總體的感知度差。當(dāng)前由于移動通信話務(wù)統(tǒng)計(jì)指標(biāo)的海量數(shù)據(jù)中,如果采用平均值得方式考核,就會忽略了指標(biāo)的波動甚至異常。因此作為指標(biāo)門限的制定的目的,要使網(wǎng)絡(luò)kpi指標(biāo)時(shí)刻和任何地點(diǎn)都有相對比較均衡的表現(xiàn),并且要快速明顯的找出突發(fā)事故,發(fā)現(xiàn)和判別異常值。另外,排除異常值干擾后,要對各指標(biāo)設(shè)定門限等級進(jìn)行好中差的評價(jià)。符合統(tǒng)計(jì)規(guī)律、并且引領(lǐng)向好方向發(fā)展的管理評價(jià)才能使網(wǎng)絡(luò)優(yōu)化工作臻于至善。
1.2盒須圖模型
尋找合適的方法研究數(shù)據(jù)的合理范圍,發(fā)現(xiàn)和處理粗大的異常值是十分重要的.統(tǒng)計(jì)學(xué)為解決相關(guān)問題進(jìn)行了許多積極的有益的探討,對單個(gè)變量且樣本容量不大時(shí),已有許多較好的檢驗(yàn)方法,諸如:z-檢驗(yàn)、dixon檢驗(yàn)、grubbs檢驗(yàn)、nair檢驗(yàn)、偏度-峰度檢驗(yàn)等,它們都是以數(shù)據(jù)總體呈正態(tài)分布為前提[2]。然而對于由移動通信系統(tǒng)kpi指標(biāo)影響因素很多,數(shù)據(jù)分布未知且比較復(fù)雜。
根據(jù)中心極限定理和通信干擾統(tǒng)計(jì)的相關(guān)的研究[3],移動通信網(wǎng)絡(luò)指標(biāo)在受不同隨機(jī)因素影響的標(biāo)準(zhǔn)環(huán)境下,服從正態(tài)分布。然而在實(shí)際環(huán)境中,移動通信網(wǎng)絡(luò)呈各種不規(guī)則的偏態(tài)單峰分布,難于用已知分布去擬合所有指標(biāo)的數(shù)值分布情況。為此,本文采用盒須圖模型結(jié)合穩(wěn)健統(tǒng)計(jì)量的方法[4]。
圖1盒須圖模型
如圖1,盒須圖模型可以清晰地表示指標(biāo)數(shù)據(jù)的分布特征,通過數(shù)據(jù)樣本的計(jì)算能得出五個(gè)次序統(tǒng)計(jì)量:中位數(shù)、內(nèi)四分位距、偏態(tài)、最大/小觀測值和異常值。
1)中位數(shù):描述指標(biāo)樣本的數(shù)據(jù)中心位置。
2)四分位數(shù):第一四分位數(shù)(q1),又稱“下四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。第二四分位數(shù)(q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。第三四分位數(shù)(q3),又稱“上四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。
3)內(nèi)四分位距:描述指標(biāo)樣本的數(shù)據(jù)離散程度。用盒形的高度表示。
4)最大/小觀測值:描述指標(biāo)樣本合理數(shù)據(jù)存在的范圍。用延伸的直線來表示,稱為“觸須”,觸須的頂部和底部分別為樣本指標(biāo)數(shù)據(jù)中非異常數(shù)據(jù)的最大觀測值。若沒有異常值,樣本的最大值為上觸須的頂部,樣本最小值為下觸須的底部。
5)偏態(tài)(skewness):描述指標(biāo)樣本數(shù)據(jù)中心偏離的程度。用盒中橫線在盒子的位置表示。s=
異常數(shù)據(jù)(outliers):大于盒形頂部或底部延伸1.5倍內(nèi)四分位距的數(shù)據(jù)稱為粗大異常數(shù)據(jù)。大于盒形頂部或底部延伸3倍內(nèi)四分位距的數(shù)據(jù)稱為極端異常數(shù)據(jù)在在圖中紅色‘+’表示該處數(shù)據(jù)為一粗大異常數(shù)據(jù)。
采用盒須圖模型的優(yōu)勢[2],1.有強(qiáng)大的穩(wěn)健性和耐抗性(抗崩潰),極端值幾乎不影響。2.不需要分布的先驗(yàn)知識,對數(shù)據(jù)真實(shí)的呈現(xiàn)。3.能包含絕大多數(shù)帶分布性質(zhì)的合理數(shù)據(jù),并且判斷異常值是以四分位數(shù)和四分位距為依據(jù),較為客觀。多達(dá)25%的異常數(shù)據(jù)不能影響這個(gè)標(biāo)準(zhǔn)。4.可視化直觀間接的觀察數(shù)據(jù)的統(tǒng)計(jì)性質(zhì),可通過盒中橫線、盒形長短、盒須長短和紅十字觀察到中位數(shù)、四分位距、合理范圍和異常值等情況。此外,還可以觀察到分布的偏態(tài)和尾重。若數(shù)據(jù)分布為正態(tài)分布,中位數(shù)和數(shù)學(xué)期望將重合,異常值判定約在±2.638σ以外,異常數(shù)據(jù)占全部數(shù)據(jù)不大于0.7%,與萊特準(zhǔn)則接近。
1.3應(yīng)用實(shí)例
我們以2010年11月1日到2011年2月23日,某省話務(wù)量最大的四個(gè)城市(一類城市)的尋呼成功率為例子,演示計(jì)算過程、畫出盒須圖(非異常數(shù)據(jù)占總數(shù)據(jù)比)。見圖2:
我們再以這四個(gè)一類城市的2010.9.8~2011.2.23的pdch復(fù)用度所有指標(biāo)數(shù)據(jù),應(yīng)用盒須圖模型,考察它的合理數(shù)據(jù)(非異常數(shù)
據(jù))的占比,見表1。
另外,我們對某省21個(gè)地級市的2010.11.1~2011.2.23信道完好率指標(biāo)做盒須圖橫向?qū)Ρ?,觀察它所呈現(xiàn)的數(shù)據(jù)特性,見圖3。
根據(jù)以上的結(jié)論,我們可以驗(yàn)證用盒須圖模型的方法觀察數(shù)據(jù):
1)異常數(shù)據(jù)只是占數(shù)據(jù)總體的少量部分,并且都有明顯的離群的現(xiàn)象。
2)考慮了數(shù)據(jù)的分布形態(tài),尊重了地市的現(xiàn)實(shí)情況。
3)直觀、可視化,并為從事質(zhì)量管理提供了如數(shù)據(jù)中心、分布離散程度等其他相信息。
2地市分類
由于各地市在經(jīng)濟(jì)發(fā)展速度、網(wǎng)絡(luò)建設(shè)、人口和社會環(huán)境等各種因素的不均衡,要有根據(jù)的對不同地市分類比較,才能做到尊重地區(qū)差異的情況。因此,要科學(xué)合理的根據(jù)話務(wù)統(tǒng)計(jì)指標(biāo)劃分地市,必須要采用統(tǒng)計(jì)學(xué)的方法,為網(wǎng)優(yōu)管理提供有效的決策支持。
因此,我們嘗試用移動通信kpi、話務(wù)量和數(shù)據(jù)業(yè)務(wù)量等數(shù)據(jù),采用k-均值聚類的方法來研究移動通信的地市分類。
本節(jié)我們將根據(jù)多維度評估對kpi的分類,分別對指標(biāo)進(jìn)行k-均值聚類,我們采用matlab 7.1軟件和數(shù)理統(tǒng)計(jì)工具箱的kmeans函數(shù)[5][6][7]來進(jìn)行聚類。在這個(gè)階段,k值(分類)的選擇是是十分重要的,如果k取值過小,則不能發(fā)現(xiàn)有效的分類模式,使劃分失去了意義;如果k值取值過大,分類指標(biāo)將變得瑣碎,各類之間的特征區(qū)分不是特別明顯,對指導(dǎo)管理經(jīng)營活動沒有操作性。根據(jù)以往業(yè)務(wù)經(jīng)驗(yàn),分別取值2~5對樣本進(jìn)行嘗試計(jì)算,然后用silhouette值觀測區(qū)分確定有效的k值(分類數(shù))。silhouette值數(shù)據(jù)點(diǎn)與它本身聚類中的點(diǎn)的距離比上它與其他聚類中的點(diǎn)的距離,
s(x)=
minb(x,y)-a(x,y)
max(a(x,y),minb(x,y)),其中b(x,y)=avg(d(x,y)),是x點(diǎn)與除開與x在同一聚類的點(diǎn)的平均距離。a(x,y)是x點(diǎn)與其同處于
一個(gè)聚類的點(diǎn)的平均距離。[9]
2.1話務(wù)量、數(shù)據(jù)量分類
我們以2010年11月1日至2011年2月23日表示話務(wù)量的指標(biāo)——tch話務(wù)量(峰值)和表示數(shù)據(jù)量的指標(biāo)——pdch占用數(shù)(20點(diǎn)),先對日指標(biāo)求最大值,然后進(jìn)行二維k-均值聚類。
我們設(shè)分類數(shù)k=2,3,4,5進(jìn)行k-均值聚類,畫出silhouette圖。
從圖4中我們可以看出,21個(gè)地市按tch話務(wù)量(峰值)、pdch占用數(shù)(20點(diǎn))分類,當(dāng)k=2和4,各組區(qū)分于其他組的silhouette值大部分都比較大(大于0.6),并且沒有負(fù)值,說明分類比較好。
表2 tch話務(wù)量(峰值)、pdch占用數(shù)(20點(diǎn))k-均值聚類(2010-11-1~2011-2-23)
從表2中可以看出,地市關(guān)于話務(wù)量和數(shù)據(jù)業(yè)務(wù)量的分類,符合當(dāng)前人們對該地市的社會經(jīng)濟(jì)發(fā)展各因素的理解,因此可以作為地市網(wǎng)優(yōu)管理分類的重要參考。
3結(jié)論
移動通信網(wǎng)絡(luò)指標(biāo)異常值的挖掘是一個(gè)很有實(shí)際意義的問題。目前從物理上沒有確切的模型做為發(fā)現(xiàn)異常值的先驗(yàn)參考;在少樣本,其他因素劇烈影響的影響和非標(biāo)準(zhǔn)環(huán)境下,各指標(biāo)分布情況復(fù)雜;從統(tǒng)計(jì)量的穩(wěn)健性考慮去判別異常波動指標(biāo),因此采用盒須圖模型做了嘗試和數(shù)據(jù)論證。經(jīng)過計(jì)算說明:采用盒須圖次序統(tǒng)計(jì)量模型制定異常門限,能包含大多數(shù)指標(biāo)數(shù)據(jù);并且由盒須圖直觀方便的可視化功能,能迅速的將統(tǒng)計(jì)結(jié)果轉(zhuǎn)化為視覺映像,用此方法計(jì)算簡單,效率高,較為合理,有利于管理的橫向比較,具有一定的實(shí)用價(jià)值。
為了對網(wǎng)絡(luò)產(chǎn)生的話務(wù)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行研究,科學(xué)、客觀的參照,并尊重地市網(wǎng)絡(luò)建設(shè)、話務(wù)分布乃至社會經(jīng)濟(jì)等各方面差別的因素,必須對網(wǎng)絡(luò)分類。本文嘗試采用k-均值聚類方法對某省21個(gè)地市的移動通信網(wǎng)絡(luò)的話務(wù)量、數(shù)據(jù)量分類,并結(jié)合各分類的silhouette值選擇k的大小。分類的效果說明這樣的分類是有意義的。