統(tǒng)計(jì)數(shù)據(jù)專題庫的研究論文
統(tǒng)計(jì)部門應(yīng)用系統(tǒng)繁多,數(shù)據(jù)來源廣。
專題庫建設(shè)的步驟和方法
專題庫建設(shè)時(shí),首先需要明確該專題的數(shù)據(jù)范圍,專題數(shù)據(jù)可來源于統(tǒng)計(jì)年鑒、專題匯報(bào)等文件以及聯(lián)網(wǎng)直報(bào)系統(tǒng)等應(yīng)用,緊密圍繞專題的業(yè)務(wù)本質(zhì)進(jìn)行設(shè)定,如能源專題庫則應(yīng)該包括能源建設(shè)、能源生產(chǎn)、能源消費(fèi)等內(nèi)容。
根據(jù)對(duì)統(tǒng)計(jì)領(lǐng)域已有系統(tǒng)和基礎(chǔ)數(shù)據(jù)的分析,建立專題庫的數(shù)據(jù)模型。其元數(shù)據(jù)主要包括13類,其中9類為業(yè)務(wù)元數(shù)據(jù)。
專題庫中最直接的為數(shù)據(jù),通過對(duì)9類業(yè)務(wù)元數(shù)據(jù)的分析可得知指標(biāo)與數(shù)據(jù)關(guān)聯(lián)最為緊密,其他元數(shù)據(jù)均可通過指標(biāo)與數(shù)據(jù)進(jìn)行關(guān)聯(lián),通過分析和設(shè)計(jì),可變?yōu)槿鐖D3所示的數(shù)據(jù)模型。
通過分析每個(gè)元數(shù)據(jù)本身的屬性,根據(jù)模型可得出每一數(shù)據(jù)應(yīng)包括60多個(gè)屬性,考慮數(shù)據(jù)存儲(chǔ)及專題庫的價(jià)值,逐一評(píng)估后給出需冗余的屬性,如下:id、值、報(bào)送單位_id、期別_id、指標(biāo)_id、目錄條目_id、入庫時(shí)間戳、報(bào)送單位全稱、期別_起、期別_訖、指標(biāo)全稱、目錄_id、目錄條目名稱、分組1條目_id 、分組2條目_id 、分組3條目_id 、分組4條目_id 、分組5條目_id 、分組6條目_id 、分組7條目_id、地域1級(jí)_id 、地域2級(jí)_id 、地域3級(jí)_id、計(jì)量單位_id、數(shù)據(jù)釋意全文。
其中,5個(gè)必須字段為值、報(bào)送單位_id、期別_id、指標(biāo)_id、目錄條目_id;2個(gè)管理字段為id、入庫時(shí)間戳,以及18個(gè)冗余存儲(chǔ)字段。
數(shù)據(jù)是專題庫的基礎(chǔ),所有的數(shù)據(jù)處理和分析都是建立在及時(shí)、準(zhǔn)確、全面的數(shù)據(jù)之上,專題數(shù)據(jù)的來源主要包括以下幾個(gè)方面:
(1)通過聯(lián)網(wǎng)直報(bào)系統(tǒng)由企業(yè)、地方統(tǒng)計(jì)部門等按照制度報(bào)送周期的要求進(jìn)行數(shù)據(jù)的報(bào)送;
(2)通過各專業(yè)司建立的信息上報(bào)系統(tǒng),由相關(guān)的企業(yè)(如房地產(chǎn)企業(yè)等)進(jìn)行定期的數(shù)據(jù)報(bào)送;
(3)通過電子郵件、紙質(zhì)文件等由各部委辦局或地方統(tǒng)計(jì)局等將相關(guān)的數(shù)據(jù)進(jìn)行匯總報(bào)送;
專題庫的建設(shè)將支撐不同的數(shù)據(jù)來源、不同類型數(shù)據(jù)的匯聚,并以統(tǒng)一的數(shù)據(jù)集合加以利用。
當(dāng)數(shù)據(jù)處理和存儲(chǔ)時(shí)需考慮數(shù)據(jù)的處理,包括輸入格式轉(zhuǎn)換、數(shù)據(jù)篩選、數(shù)據(jù)單位的轉(zhuǎn)化、數(shù)據(jù)的校驗(yàn)、數(shù)據(jù)存儲(chǔ)等。
(1) 輸入格式轉(zhuǎn)換。不同的數(shù)據(jù)來源可能有不同的數(shù)據(jù)格式,系統(tǒng)將自動(dòng)解析來源數(shù)據(jù)的格式,并轉(zhuǎn)換為系統(tǒng)的統(tǒng)一數(shù)據(jù)格式。
(2) 數(shù)據(jù)篩選。由于專題庫的數(shù)據(jù)有著多種數(shù)據(jù)來源,可能存在不同來源間的數(shù)據(jù)沖突,系統(tǒng)將建立數(shù)據(jù)沖突的處理機(jī)制,對(duì)數(shù)據(jù)進(jìn)行篩選,確定數(shù)據(jù)采集途徑的標(biāo)準(zhǔn),確保數(shù)據(jù)的唯一性。
(3) 數(shù)據(jù)單位的轉(zhuǎn)化。在統(tǒng)計(jì)數(shù)據(jù)中,經(jīng)常會(huì)碰到以不同數(shù)量級(jí)的單位作統(tǒng)計(jì)的數(shù)據(jù),如萬噸和噸。針對(duì)這種情況,系統(tǒng)將自動(dòng)把不同數(shù)量級(jí)的單位轉(zhuǎn)換成標(biāo)準(zhǔn)單位存儲(chǔ)入庫。