當前位置: 首頁 精選范文 統計學抽樣方法范文

        統計學抽樣方法精選(五篇)

        發布時間:2023-09-20 09:47:34

        序言:作為思想的載體和知識的探索者,寫作是一種獨特的藝術,我們為您準備了不同風格的5篇統計學抽樣方法,期待它們能激發您的靈感。

        統計學抽樣方法

        篇1

        《大英百科全書》指出:“統計學是一門收集數據、分析數據、并根據數據進行推斷的藝術和科學”。從這個定義中,我們可以從以下幾個方面理解統計學的內涵。

        (1)作為一門科學,統計學是與數字打交道的,是對社會經濟現象數量方面的特征進行研究的。

        (2)統計學的主要內容可分為:數據的收集、數據的分析以及統計推斷。數據的收集又可分為統計設計和統計調查兩個過程,而統計分析又可分為統計整理和統計分析。因而我們認為統計學具體可包括:統計設計、統計調查、統計整理、統計分析以及統計推斷。一個完整的統計過程如下圖所示。正是由于上述內涵,決定了統計學具有以下特點:

        (1)理論性。從整個統計研究的程序中,可看到統計學是一門理論性很強的學科。實際上統計學主要利用數學中的大數定理和中心極限定律以及概率論和數理統計方面的知識。這決定了學習統計學須具備一定的數學功底。同時,統計學主要是對社會經濟現象數量方面的特征進行研究的,這也決定了統計學與經濟學和管理學密切相關,學習統計學應具備一定的經濟學和管理學基礎知識。

        (2)實踐性。統計學是與數字打交道的科學,這決定了統計學是一門實踐性很強的學科。它是為了解決實際問題而存在的應用性學科。實際性應在整個教學過程中重點強調,但是實際卻常被忽略。

        (3)理論和實踐相結合。統計學最大魅力之一就是它強調理論和實踐結合。統計學基本知識的利用應以解決社會經濟現象為目的,同時,社會經濟現象得以順利解決反過來印證統計學基礎知識,使之更好地指導實踐。

        (4)方法上統計學更多地會借助抽樣調查。從統計學內容及社會實際情況,可知,統計學在處理數據的過程中將會過多地使用抽樣調查。因此,在實際教學過程中應強調抽樣調查的重要性。

        2統計學教學中存在的問題

        統計學的理論性和實踐性相輔相成,教學過程中兩者不能偏廢,但實際教學中卻存在著一系列問題。

        (1)教材內容的安排與課時數在一定程度上存在沖突,導致統計學理論教學中過分強調統計分析而忽略統計設計和統計調查方法的教授。一般對非統計學專業的財經類本科學生,統計學要一個學期來完成,基本上48學時。而在課程的安排上,多數教材都是按照統計學的特點將統計調查、統計整理、統計分析及統計推斷作為各章的主要內容。而受課時限制,統計學的教授主要以統計分析為主。對統計調查和整理過程一帶而過。

        受課程安排限制,忽略抽樣調查的重要性。很多課本在統計學內容安排上都把抽樣調查和抽樣推斷作為一章,放在數據分析之后單獨進行講授。這就使學生將數據分析學完后才正式開始接觸抽樣調查,殊不知,統計設計、調查和分析的數據多數都是通過抽樣調查得到的!抽樣調查的基本知識沒學,先學統計分析,本末倒置。

        (2)統計學教授過分強調理論性而忽略實踐。由于過分強調統計數據分析,使很多教師在講授統計學的時候過分強調理論的講授而對學生感興趣的統計實踐卻往往忽略。這就使統計學課堂變成了數學課堂。

        (3)統計學教學忽略了與當地社會經濟現象的關系。很多教師在統計學教學中,單純地進行理論的教授,即便進行實踐的教授,也未與社會經濟現象,特別是當地的實際情況結合起來。

        3統計學教學改革探索

        由上述分析可知,傳統的統計學教學受教材內容及課時限制,過分強調理論,而忽略了實踐。因此,統計學教學應有針對性的進行改革探索。

        3.1調整教材內容,將抽樣調查知識提前

        由于有些社會現象不可能全面調查,有些社會現象沒必要或沒有時間全面調查,同時,會對全面調查資料進行必要的補充修正,這都決定了抽樣調查的方法在社會實踐中的重要作用,使得抽樣調查必然應是統計學講授中的重中之重。統計設計、整理、分析及推斷都離不開抽樣調查,袁衛教授編寫的《統計學》中已體現了這種想法,但并未單獨拿出一章來強調其重要地位。因此,在統計學教學改革中,應將抽樣調查的相關知識在緒論部分加以強調,也可根據教學要求,在緒論部分講授統計學相關概念及基本知識,然后單獨拿出一章重點講授抽樣調查的方法!在講授內容上可強調抽樣調查的前提——隨機抽樣以及誤差的產生原因及如何控制誤差。這樣,才能使學生更好地理解以后各章節。

        3.2重視學生主動性,強化學生實踐能力

        鑒于很多統計學教學偏重理論,忽視實踐。我們認為,在統計學教學中,應將學生的主動性融于整個統計學教學中。

        (1)以組為單位,進行統計設計——問卷調查設計。講授完統計學基礎知識及抽樣調查后,將學生以班為單位分成若干組,每組10人。分完組后,主要講授統計設計和統計調查,在講課過程中,要求每組據自身情況,選一個較喜愛的題目進行問卷調查的設計(鑒于開始出于安全性及便于管理,讓學生選擇與大學生相關的話題,調查對象主要是本校的學生)。學生問卷設計主要是以課余時間為主,以一周時間為限。

        (2)派發問卷,進行統計調查和問卷審核。講授統計設計和調查的這周時間里,學生將設計好的問卷(這些問卷要經過老師審核以及學生集體修改)打印,并在學校派發。派發后將問卷回收,學生對問卷進行初步審核,確定有效問卷。

        (3)問卷的整理。學生回收完問卷并完成初步審核后,我開始講授統計整理的內容(學生1周的時間完成上述內容,而1周正好可以用3個課時講授統計設計和調查內容)。這一章重點講授如何將回收的數據錄入電腦,如何分組及如何形成數列,并用EXCEL畫出各種統計圖形。而留給學生兩周的時間把回收的問卷錄入電腦、分組,形成數列,學生在實際過程中遇到問題及時反饋,這個過程中學生對所學知識會有更深入的理解。

        (4)問卷的分析和推斷。問卷整理后,進行統計分析的講授,統計分析內容較多,既涉及集中趨勢和離中趨勢,還涉及綜合指數及時間數列等問題,用課時量較多,這個過程中,各組據自己問卷的內容,選擇相應的方法對問卷進行分析,最終達到對每一道題目都進行系統的分析。由于問卷設計內容中使用的方法可能與講課的內容不一致,這就要求學生打亂問卷題目順序,學了什么方法就使用這種方法解決問卷中的問題。通過有針對性地解決問題,學生掌握了幾種平均數的區別和聯系、時間數列和變量數列的區別、時間數列中時期數列和時點數列的判別方法以及綜合指數相關的知識等。

        篇2

        關鍵詞:大數據;統計學;數據分析;抽樣理論;理論

        重構隨著信息科學技術的高速度發展,當代獲取和儲存數據信息的能力不斷增強而成本不斷下降,這為大數據的應用提供了必要的技術環境和可能.應用大數據技術的優勢愈來愈明顯,它的應用能夠幫助人類獲取真正有價值的數據信息.近年來,專家學者有關大數據技術問題進行了大量的研究工作[1],很多領域也都受到了大數據分析的影響.這個時代將大數據稱為未來的石油,它必將對這個時代和未來的社會經濟以及科學技術的發展產生深遠的意義和影響.目前對于大數據概念,主要是從數據來源和數據的處理工具與處理難度方面考慮,但國內外專家學者各有各的觀點,并沒有給出一致的精確定義.麥肯錫全球數據分析研究所指出大數據是數據集的大小超越了典型數據庫工具集合、存儲、管理和分析能力的數據集,大數據被Gartner定義為極端信息管理和處理一個或多個維度的傳統信息技術問題[23].目前得到專家們認可的一種觀點,即:“超大規模”是GB級數據,“海量”是TB級數據,而“大數據”是PB及其以上級別數據[2].

        一些研究學者把大數據特征進行概括,稱其具有數據規模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強調大數據區別于其他概念的最重要特征是快速動態變化的數據和形成流式數據.大數據技術發展所面臨的問題是數據存儲、數據處理和數據分析、數據顯示和數據安全等.大數據的數據量大、多樣性、復雜性及實時性等特點,使得數據存儲環境有了很大變化[45],而大部分傳統的統計方法只適合分析單個計算機存儲的數據,這些問題無疑增加了數據處理和整合的困難.數據分析是大數據處理的核心過程,同時它也給傳統統計學帶來了巨大的挑戰[6].產生大數據的數據源通常情況下具有高速度性和實時性,所以要求數據處理和分析系統也要有快速度和實時性特點,而傳統統計分析方法通常不具備快速和實時等特點.基于大數據的特點,傳統的數據統計理論已經不能適應大數據分析與研究的范疇,傳統統計學面臨著巨大的機遇與挑戰,然而為了適應大數據這一新的研究對象,傳統統計學必須進行改進,以繼續和更好的服務于人類.目前國內外將大數據和統計學相結合的研究文獻并不多.本文對大數據時代這一特定環境背景,統計學的抽樣理論和總體理論的存在價值、統計方法的重構及統計結果的評價標準的重建等問題進行分析與研究.

        1傳統意義下的統計學

        廣泛的統計學包括三個類型的統計方法:①處理大量隨機現象的統計方法,比如概率論與數理統計方法.②處理非隨機非概率的描述統計方法,如指數編制、社會調查等方法.③處理和特定學科相關聯的特殊方法,如經濟統計方法、環境科學統計方法等[7].受收集、處理數據的工具和能力的限制,人們幾乎不可能收集到全部的數據信息,因此傳統的統計學理論和方法基本上都是在樣本上進行的.或者即使能夠得到所有數據,但從實際角度出發,因所需成本過大,也會放棄搜集全部數據.然而,選擇最佳的抽樣方法和統計分析方法,也只能最大程度還原總體一個特定方面或某些方面的特征.事實上我們所察覺到的數據特征也只是總體大量特征中的一小部分,更多的其他特征尚待發掘.總之,傳統統計學是建立在抽樣理論基礎上,以點帶面的統計分析方法,強調因果關系的統計分析結果,推斷所測對象的總體本質的一門科學,是通過搜集、整理和分析研究數據從而探索數據內部存在規律的一門科學.

        2統計學是大數據分析的核心

        數的產生基于三個要素,分別是數、量和計量單位.在用數來表示事物的特征并采用了科學的計量單位后,就產生了真正意義上的數據,即有根據的數.科學數據是基于科學設計,通過使用觀察和測量獲得的數據,認知自然現象和社會現象的變化規律,或者用來檢驗已經存在的理論假設,由此得到了具有實際意義和理論意義的數據.從數據中獲得科學數據的理論,即統計學理論.科學數據是通過統計學理論獲得的,而統計學理論是為獲得科學數據而產生的一門科學.若說數據是傳達事物特征的精確語言,進行科學研究的必備條件,認知世界的重要工具,那么大數據分析就是讓數據最大限度地發揮功能,充分表達并有效滿足不同需求的基本要求.基于統計學的發展史及在數據分析中的作用,完成將數據轉化為知識、挖掘數據內在規律、通過數據發現并解決實際問題、預測可能發生的結果等是研究大數據的任務,而這必然離不開統計學.以大數據為研究對象,通過數據挖掘、提取、分析等手段探索現象內在本質的數據科學必須在繼承或改進統計學理論的基礎上產生.

        統計數據的發展變化經歷了一系列過程,從只能收集到少量的數據到盡量多地收集數據,到科學利用樣本數據,再到綜合利用各類數據,以至于發展到今天的選擇使用大數據的過程.而統計分析為了適應數據可觀察集的不斷增大,也經歷了相應的各個不同階段,產生了統計分組法、大量觀察法、歸納推斷法、綜合指標法、模型方程法和數據挖掘法等分析方法,并且借助計算機以及其他軟件的程度也越來越深.300多年來,隨著數據量以指數速度的不斷增長,統計學圍繞如何搜集、整理和分析數據而展開,合理構建了應用方法體系,幫助各個學科解決了許多復雜問題.現在進入了大數據時代,統計學依舊是數據分析的靈魂,大數據分析是數據科學賦予統計學的新任務.對于統計學而言,來自新時代的數據科學挑戰有可能促使新思想、新方法和新技術產生,這一挑戰也意味著對于統計學理論將面臨巨大的機遇.

        3統計學在大數據時代下必須改革

        傳統統計學是通過對總體進行抽樣來搜索數據,對樣本數據進行整理、分析、描述等,從而推斷所測對象的總體本質,甚至預測總體未來的一門綜合性學科.從研究對象到統計結果的評判標準都是離不開樣本的抽取,完全不能適應大數據的4V特點,所以統計學為適應大數據技術的發展,必須進行改革.從學科發展角度出發,大數據對海量數據進行存儲、整合、處理和分析,可以看成是一種新的數據分析方法.數據關系的內在本質決定了大數據和統計學之間必然存在聯系,大數據對統計學的發展提出了挑戰,體現在大樣本標準的調整、樣本選取標準和形式的重新確定、統計軟件有待升級和開發及實質性統計方法的大數據化.但是也提供了一個機遇,體現在統計質量的提高、統計成本的下降、統計學作用領域的擴大、統計學科體系的延伸以及統計學家地位的提升[7].

        3.1大數據時代抽樣和總體理論存在價值

        傳統統計學中的樣本數據來自總體,而總體是客觀存在的全體,可以通過觀測到的或經過抽樣而得到的數據來認知總體.但是在大數據時代,不再是隨機樣本,而是全部的數據,還需要假定一個看不見摸不著的總體嗎?如果將大數據看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統統計學的方法,可以采用抽樣的方法來減少樣本容量,并且可以達到需要的精度;對于維度高的問題,可以采取對變量進行選擇、降維、壓縮、分解等方法來降低數據的復雜程度.但實際上很難做得到,大數據涵蓋多學科領域、多源、混合的數據,各學科之間的數據融合,學科邊界模糊,各范疇的數據集互相重疊,合成一體,而且大數據涉及到各種數據類型.因此想要通過抽樣而使數據量達到傳統統計學的統計分析能力范圍是一件相當困難或是一件不可能的事.大量的結構數據和非結構數據交織在一起,系統首先要認清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數據信息來自于同一個地址的數據源,等等,傳統的統計學是無法做到的.在大數據時代下,是否需要打破傳統意義的抽樣理論、總體及樣本等概念和關系,是假設“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數據時代下,傳統統計學面臨改進的首要問題.

        3.2統計方法在大數據時代下的重構問題

        在大數據時代下,傳統的高維度表達、結構描述和群體行為分析方法已經不能精確表達大數據在異構性、交互性、時效性、突發性等方面的特點,傳統的“假設-模型-檢驗”的統計方法受到了質疑,而且從“數據”到“數據”的統計模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數據噪聲、篩選有價值的數據、整合不同類型的數據、快速對數據做出分析并得出分析結果等一系列問題都有待于研究.大數據分析涉及到三個維度,即時間維度、空間維度和數據本身的維度,怎樣才能全面、深入地分析大數據的復雜性與特性,掌握大數據的不確定性,構建高效的大數據計算模型,變成了大數據分析的突破口.科學數據的演變是一個從簡單到復雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進的過程,而不是簡單的由一種形式取代另一種形式.研究科學數據的統計學理論也是一樣,也是由簡單到復雜的各種形式相互包容、不斷豐富的發展過程,而絕不是完全否定一種理論、由另一種理論形式所代替.大數據時代的到來統計學理論必須要進行不斷的完善和發展,以適應呈指數增長的數據量的大數據分析的需要.

        3.3如何構建大數據時代下統計結果的評價標準框架

        大數據時代下,統計分析評價的標準又該如何變化?傳統統計分析的評價標準有兩個方面,一是可靠性評價,二是有效性評價,然而這兩種評價標準都因抽樣而生.可靠性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.可靠性評價有時表現為置信水平,有時表現為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設檢驗中,因為各自參照的分布類型不一樣,其統計量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關.而大數據在一定程度上是全體數據,因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、可靠性問題怎么確定?依據是什么?有效性評價指的是真實性,即為誤差的大小,它與準確性、精確性有關.通常準確性是指觀察值與真實值的吻合程度,一般是無法衡量的,而精確性用抽樣分布的標準差來衡量.顯然,精確性是針對樣本數據而言的,也就是說樣本數據有精確性問題,同時也有準確性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數據中,抽樣誤差可以計算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數據的全體數據而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數據的真實性只表現為準確性.但是由于大數據特有的種種特性,使得大數據的非抽樣誤差很難進行防范、控制,也很難對其進行準確性評價.總之,對于大數據分析來說,有些統計分析理論是否還有意義,確切說有哪些統計學中的理論可以適用于大數據分析,而哪些統計學中的理論需要改進,哪些統計學中的理論已不再適用于大數據統計研究,等等,都有待于研究.所以大數據時代的統計學必是在繼承中求改進,改進中求發展,重構適應大數據時代的新統計學理論.

        4結論

        來自于社會各種數據源的數據量呈指數增長,大數據對社會發展的推動力呈指數效應,大數據已是生命活動的主要承載者.一個新事物的出現,必然導致傳統觀念和傳統技術的變革.對傳統統計學來說,大數據時代的到來無疑是一個挑戰,雖然傳統統計學必須做出改變,但是占據主導地位的依然會是統計學,它會引領人類合理分析利用大數據資源.大數據給統計學帶來了機遇和挑戰,統計學家們應該積極學習新事物,適應新環境,努力為大數據時代創造出新的統計方法,擴大統計學的應用范圍.

        參考文獻:

        [1]陳冬玲,曾文.頻繁模式挖掘中基于CFP的應用模型[J]沈陽大學學報(自然科學版),2015,27(4):296300.

        [3]卞友江.“大數據”概念考辨[J].新聞研究導刊,2013,35(5):2528.

        [5]靳小龍,王元卓,程學旗.大數據的研究體系與現狀[J].信息通信技術,2013(6):3543.

        [6]覃雄派,王會舉,杜小勇,等.大數據分析:Rdbms與Mapreduce的競爭與共生[J].軟件學報,2012,23(1):32-45.

        [7]游士兵,張佩,姚雪梅.大數據對統計學的挑戰和機遇[J].珞珈管理評論,2013(2):165171.

        [8]李金昌.大數據與統計新思維[J].統計研究,2014,31(1):1017.

        篇3

        關鍵字:隨機抽樣;應用研究;概念

        0 引言

        在現實生活中,數理統計學無時無刻不在身邊,工程機械、經濟統計、社會科學、自然科學、科學實驗等領域,應用及其廣泛。經過數據采集、數據統計及數據計算,數理統計的目的就是對數據的深度挖掘,發現數據內部聯系,然后進行科學研究,對生活、生產具有指導意義。在科學研究中,對數據的研究不可能面面俱到,只能通過隨機抽樣總結整體規律,因此,隨機抽樣在數理統計中扮演著重要角色,透過部分數據反映總體特征,透過現象看本質,對其應用研究具有重要意義。

        1 數理統計學中的隨機抽樣

        從總體中選取一部分樣本進行分析,推斷總體特征的方法為隨機抽樣方法。其對其他方法的不同之處是帶有隨機性,能從一定程度上反映總體情況,具有一定代表性。理論上講,對隨機現象觀察足夠次數,就能清楚地知道總體的統計規律。但實際上,由于樣本容量的限制,僅有少量觀測,并不能清楚表達統計規律。這就需要一種有效的統計方法去解決這一問題,從而得到正確結論。因此,進行隨機抽樣時盡量做到以下幾點:第一,根據實驗目的進行采集數據,并盡量采集質量較高的數據,其質量的好壞直接影響統計推斷;第二,數據處理時注意對數據的標準化、最大值及最小值影響、對數化、去噪等步驟;第三,數據具有代表性,即數據具有隨機性、獨立性。

        2 隨機抽樣方法

        常用的隨機抽樣方法主要有:簡單隨機抽樣法、系統抽樣法、分層抽樣法及整群抽樣法。

        (1)簡單隨機抽樣法

        有抽簽法、隨機數法,其優點是抽樣誤差小,缺點是抽樣手續復雜,且在總體數量有限的情況下不具有代表性。這種方法適用于所有抽樣調查。

        ①抽簽法

        把總體中的N個個體編號,并把號碼寫在形狀、大小相同的號簽上,將號簽放在同一個容器里,攪拌均勻后,每次從中抽出1個號簽連續抽取n次,得到一個樣本容量為n的樣本。

        ②隨機數法

        應用隨機數表、隨機數骰子、計算機等產生隨機數進行隨機抽樣調查。

        (2)系統抽樣法

        (3)分層抽樣法

        又叫類型抽樣法,從一個分成不同于總體的層中,按規定的比例從不同層中隨機抽樣的方法。其優點是樣本代表性好,抽樣誤差小,缺點是抽樣手續比簡單隨機抽樣復雜。這種方法適用于產品質量檢驗、驗收等。

        (4)整群抽樣法

        又叫集團抽樣法,將總體分成許多群,每個群由個體按一定方式結合而成,然后隨機抽群,這些群所有個體組成樣本。其優點是實施方便,缺點是代表性差,誤差大。這種方法適用于工序控制中。

        這些方法是基于隨機抽樣的代表性和穩定性而建立的,依據概率統計的大數定理,個別個體的錯誤或噪聲影響并不影響整體水平,適當增加樣本容量,對樣本觀測值平均值是可控的,也可以縮小統計特性誤差,從而正確反映總體規律。

        3 隨機抽樣的應用研究

        隨機抽樣在各個領域都有涉及,與科學研究息息相關,是人們認識事物的基礎。對各個領域的研究主要目的是數據挖掘,挖掘出有價值的結論或規律,指導人們生產生活。對于不同領域,應用隨機抽樣有著同樣的步驟:

        第一步,明確研究對象總體數量N及研究目的;

        第二步,具有針對性地確定樣本容量n,并根據上述隨機抽樣方法權衡各方法的適用范圍,選擇合適的方法進行研究;

        第三步,根據選定的抽樣方法把總體中的個體進行編號;

        第四步,在試驗中記錄樣本中每個個體的測量值y1,y2,···,yn,計算樣本總和即∑yi及平均值 ;

        第五步,計算樣本的方差、總體平均值、總體的估計量及總體的標準差;

        第六步,確定置信區間;

        第七步,最后總結得到的數據信息,做出結論。

        下面在各個領域中舉例說明隨機抽樣應用的廣泛性。在農業中,需要對田間農作物產量進行統計分析,則設計相應的隨機抽樣,進行樣本估計總體試驗;在工業中,對新產品和新原材料等進行調查分析,找出新產品中不合格產品率或原材料配料的決策問題,則需要應用隨機抽樣、回歸分析、方差分析等統計方法;在林業方面,需要調查病蟲害對樹木的損害程度及導致這種蟲害的原因,則需要相關人員選擇合適的抽樣的方法,對病蟲害進行準確調查分析,得出具有公信力的結果;在自然科學和技術研發中的應用更加廣泛,比如地震頻率統計、氣象調查、水文測量、地質資源探測、醫學突發疾病抽樣、技術性試驗抽樣等等;在社會、經濟領域方面,主要有人口普查和預測、市場調查、審計統計、證券研究、交通事故率研究、經濟宏觀調控效應調查、手機普及率等方方面面;在工程項目中,主要有產品質量調查、服務質量調查等,通過對項目管理中的數據進一步匯總、抽樣、總結等一系列工作,發現存在的問題,制定相應的方法去改正;在計算機行業,通過抽樣調查才能獲取數據,進而對數據進行深度發掘。

        現代社會是信息時代,對信息的充分利用是一筆巨大的財富,隨機抽樣是信息來源的基本方法,涉及生活中的方方面面,利用好這一工具是發現問題及解決問題的很好途徑。

        4 結論

        本文對數理統計學中隨機抽樣的應用研究,主要從隨機抽樣的概念、方法、優缺點、操作步驟等進行詳細論述,并在生產生活中的各個領域進行舉例說明隨機抽樣的重要性,對推廣人們對隨機抽樣的認識及應用具有重要意義。

        參考文獻

        [1] 李振東. 論數理統計學中的隨機抽樣[J]. 經濟師, 2003,(7):269.

        [2] 徐傳勝. 數理統計學的發展歷程[J]. 高等數學研究, 2007,(10):14-16.

        [3] 柏佳丹. 21世紀統計學在經濟發展中的作用[J]. 佳木斯大學社會科學學報, 2004, (08): 6-8.

        篇4

        [關鍵詞]醫學期刊;隊列研究;統計學問題;對策

        [中圖分類號] R181.2+3 [文獻標識碼] A [文章編號] 1674-4721(2016)08(b)-0152-03

        隊列研究又稱前瞻性研究、隨訪研究及縱向研究,是將一個范圍明確的人群按是否暴露于某可疑因素及暴露程度分為不同的亞組,追蹤其各自的結局,比較亞組之間結局的差異,從而判定暴露因子與結局之間有無因果關聯以及關聯大小的一種觀察性研究方法[1]。這里暴露是指研究對象接觸過某種待研究的物質(如重金屬等)、具備某種待研究的特征(如年齡、性別及遺傳因素等)或行為(如吸煙等)[2]。觀察的結局主要是與暴露因子可能有關的結局。隊列研究中先因后果的時間順序相對明確,受一些偏倚的影響小,是觀察性研究方法中驗證病因能力最強的研究方法[3],其證據等級僅次于嚴格設計的隨機對照試驗。盡管我國的前瞻性隊列研究起步較晚,但自20世紀八九十年代起也陸續開展了一些隊列研究[4]。如果這些研究未能正確使用該研究方法,不但不能有效驗證病因假設,還有可能得出錯誤的結論。本文收集并分析了近年國內公開發表的隊列研究論文,發現其中存在的統計學問題并提出改進意見和建議,旨在引起作者、編者和審稿專家的重視,提高期刊論文的質量。

        1隊列研究文獻的檢索

        以“隊列研究”“前瞻性研究”“隨訪研究”“縱向研究”為關鍵詞,在中國知網(CNKI)和萬方數據庫中檢索2014~2015年公開發表的隊列研究文獻共1874篇,剔除重復文獻和非研究性文獻后,獲得研究性文獻929篇(表1)。

        2 載文量及統計學方法應用情況

        根據李康等[5]主編的《醫學統計學》和Cochrane推薦的Newcastle-Ottawa-Scale(NOS)工具[6]對檢索到的文獻進行統計學方法應用情況評判,評判結果在文獻評價表中登記并復核,采用Excel管理和分析數據。結果發現,絕大多數隊列研究采用χ2檢驗和Logistic回歸方法進行統計推斷,約占82.0%;而使用了生存分析及Cox比例風險回歸模型的僅占13.0%(表2)。

        3常見統計學問題

        3.1研究對象描述不清楚或不確切

        研究對象的選擇是隨訪研究的首要問題,因此文中關于研究對象的描述必須準確清楚,根據研究屬于總體研究或是抽樣研究,對研究對象的描述應加以區別[7]。目前我國隊列研究中關于研究對象的描述主要存在的問題為:描述中對總體研究或抽樣研究未加以明確說明;抽樣研究中的描寫模棱兩可,未說明具體抽樣方法。從統計學上講,總體研究的研究對象是根據研究目的所確定的同質觀察單位的全體,而抽樣研究的研究對象是總體中隨機抽取的部分觀察單位。

        例如,就“某高校教師肥胖率及其對糖尿病發病影響的研究”而言,首先要制定相應的納入標準與排除標準,研究的納入標準為“某高校在編、在職且未患糖尿病的教師”,排除標準為“妊娠期、哺乳期女教工”。如果研究為總體研究,其研究對象應是該高校的所有在編、在職且未患糖尿病的非孕(哺乳)教師;如果研究為抽樣研究,則其研究對象是該高校所有在編、在職且未患糖尿病的非孕(哺乳)教師的一個隨機樣本,研究對象描述中還應具體說明所使用的抽樣方法,如單純隨機抽樣、系統抽樣、整群抽樣或分層抽樣等,同時寫明隨機抽樣的具體實施方法。

        3.2結局事件及其判斷標準描述不全面

        隨訪研究的另一個重要因素是結局事件,其指隨訪觀察中將出現的預期結果事件,研究中既要記錄是否發生了結局事件,還應記錄是否存在失訪及失訪原因(失去聯系、因其他疾病死亡、研究終止)。分析我國2014~2015年已發表的隊列研究文章發現,大多數研究均未描述是否存在失訪,部分研究對結局事件的判斷標準描述不全面。按照隊列研究的設計要求,結局事件要有明確統一的判斷標準。例如,2型糖尿病結局的判斷標準[8-9]:確診糖尿病,即自我報告醫生診斷糖尿病和(或)正在使用胰島素和(或)口服降糖藥治療者;未確診糖尿病,即未診斷糖尿病但空腹血漿葡萄糖水平≥7.0 mmol/L者;對于隨訪期發生死亡者,如果其死亡原因中含有糖尿病也認為是隨訪期發生2型糖尿病。

        3.3統計分析不充分或錯誤

        3.3.1基線特征描述不全面 隊列研究中暴露組與非暴露組基線特征是否存在差異以及差異的方向直接影響研究結果的解釋,因此基線特征的描述是隊列研究資料分析必不可少的內容。而目前國內的隊列研究文獻中存在較嚴重的不按暴露有無分組描述基線特征的現象。此外,如隨訪過程中存在失訪,則失訪者與隨訪者基線特征的比較也直接影響研究結果的解釋。在查閱的929篇研究性隊列研究文獻中無失訪情況描述,無失訪者與隨訪者基線特征比較者達90%以上。

        因此,隊列研究的資料分析應首先比較暴露組與非暴露組基線特征的一致性,以分析基線特征的差異對研究結果是否有影響以及影響方向,同時也可確定多因素分析中需要調整的混雜因素。如果研究中有失訪,還應比較失訪者與隨訪者的基線特征是否一致,以判斷失訪對研究結果是否有影響以及影響方向。

        3.3.2統計推斷方法選擇不當 統計學方法的選擇一向是醫學科學研究中的難點問題。隊列研究中主要涉及的統計推斷方法包括χ2檢驗、Logistic回歸以及Cox比例風險回歸模型,此三種方法的誤用和混用在隊列研究文獻中較嚴重,包括誤用χ2檢驗代替Logistic回歸、誤用Logistic回歸代替Cox回歸等。由表2可知,929篇研究性隊列研究文獻中應用了Cox回歸的僅占13.0%,且2015年的比例與2014年基本相同(13.1% vs 13.0%),可見這一方法的正確應用近兩年內并未引起作者以及編輯足夠的重視。

        隊列研究中統計學方法選擇的正確思路為[10]:若暴露組與非暴露組的基線特征一致,則可以直接應用χ2檢驗比較暴露組與非暴露組結局事件發生率的差異,以判斷暴露因素與結局事件是否有關聯,同時計算相對危險度(relative risk,RR)及其95%置信區間,進一步說明兩者的關聯強度。相反,若暴露組與非暴露組的基線特征存在差異,應采用多因素的回歸分析對混雜因素進行控制。如果數據資料中無時間變量,可采用Logistic回歸,并在模型中調整組間存在差異的基線特征變量;如果有時間變量,則應采用Cox回歸,并在模型中調整組間存在差異的基線特征。

        3.4其他問題

        國內公開發表的隊列研究文獻存在的其他問題:①應用Logistic回歸或Cox回歸時,分類變量或等級變量無賦值說明,造成結果解釋的混亂。例如,只有在明確“男性=1,女性=0”或者相反的情況下,才能正確解釋暴露因素與研究結局之間的關系。②誤用χ2檢驗公式:應該使用校正公式時,卻應用了非校正的通用公式或專用公式;不能應用χ2檢驗時,卻計算了χ2值。例如,兩組率比較時,只有滿足總例數n≥40且理論頻數T≥5的條件下,才能采用非校正的四格表χ2檢驗的通用公式或專用公式;如果n≥40且1≤T

        4隊列研究醫學論文作者及編輯應注意的問題

        分析結果表明,隊列研究醫學論文的統計學方法應用基本正確,編輯人員也比較重視統計學方法的使用情況,但是仍有部分論文在研究設計和統計分析方法的應用上存在一些問題,導致的研究結果缺乏科學性和可信性。為使作者、編輯和審稿者高度重視統計學的正確應用,進一步提高隊列研究醫學論文的質量,筆者認為還應做好以下工作。

        4.1提高對統計學知識的認識,強化統計學意識

        目前,國內醫學科研工作者未認識到醫學統計學的重要性,對醫學統計學的重視程度還不夠。因此,要加大“醫學統計學在醫學科研中重要性”的宣傳力度,提高科研工作者對醫學統計學的認識;在醫學科研工作中普及醫學統計學知識,強化醫學統計學意識,促使其在科研設計、數據分析和論文撰寫中正確應用醫學統計學方法[11]。

        4.2加強流行病學與醫學統計學專家審稿工作

        醫學研究,包括隊列研究,其統計分析都是以科學研究設計為基礎的。研究設計不科學、有缺陷,即使應用了高級的統計學方法也于事無補。所以,審稿專家在具備豐富的專業知識的同時,還應具備一定的醫學統計學和流行病學知識,能夠做到從研究設計到統計分析,系統地審核研究結果的科學性、可靠性,確保論文質量[12]。此外,如果條件允許,所有稿件應先通過流行病學與醫學統計學專家的審核,然后再由各專業學科專家審稿,以確保研究成果的真實可靠[13]。因此,醫學期刊編委會應增設流行病學與醫學統計學專業的專家委員,嚴格審核論文的研究設計和統計分析,不合格的論文堅決不發表,這樣才能不斷提高稿件質量和水平。

        有計劃地定期聘請流行病學與醫學統計學專家對期刊編輯人員進行流行病學與醫學統計學知識培訓[14]。通過定期舉辦專業知識講座、選派編輯人員參加專題培訓班、定期組織考核、根據考核結果給予適當獎勵等措施,以提高編輯人員學習流行病學與醫學統計學知識的積極性,不斷提高其相關知識水平,最終達到提高論文質量的目的。

        [參考文獻]

        [1]張嘯飛.前瞻性隊列研究及生存分析[A]//2014浙江省臨床流行病學與循證醫學學術年會論文匯編[C].浙江,2014: 15.

        [2]李立明.流行病學[M].5版.北京:人民衛生出版社,2003:58-59.

        [3]李立明,呂筠.大型前瞻性人群隊列研究進展[J].中華流行病學雜志,2015,36(11):1187-1189.

        [4]王慧,陳培戰,張作文,等.我國人群隊列研究的現狀、機遇與挑戰[J].中華預防醫學雜志,2014,48(11):1016-1021.

        [5]李康,賀佳.醫學統計學[M].6版.北京:人民衛生出版社,2013:84-150.

        [6]何瓊,黃淵秀,康文婧,等.2001-2010年我國傷害預防病例對照研究及隊列研究文獻質量評價[J].中華疾病控制雜志,2014,18(10):913-916.

        [7]王芳,戴國華,婁昊.循證中醫藥隊列研究的隨訪設計[J].山東中醫雜志,2016,(1):14-17.

        [8]樊森,陳紀春,黃建鳳,等.中國成人看電視時間與2型糖尿病發病關系的前瞻性隊列研究[J].中國循環雜志,2014, 29(5):372-376.

        [9]李衛東,傅坤發,連燕舒,等.成人非酒精性脂肪肝與2型糖尿病發病關系的前瞻性隊列研究[J].中國全科醫學,2015, 18(28):3426-3429.

        [10]韓梅,陳薇,曹卉娟,等.比較效果研究常用方法之二:隊列研究設計[J].現代中醫臨床,2015,22(3):20-23.

        [11]沈洪兵.重視大型隊列研究的人才梯隊建設和技術儲備[J].中華預防醫學雜志,2014,48(7):547-548.

        [12]高永,張中文,石德文,等.基于Excel的統計分析系統在期刊編輯部審稿中的應用[J].編輯學報,2013,25(5):478.

        [13]黃晨,袁平戈,張大志.醫學期刊來稿中有關統計學錯誤分析[J].現代醫藥衛生,2013,29(15):2268.

        篇5

        一、統計及其基本思想與方法

        1 什么是統計學

        問:一般認為,統計學這個詞來源于拉丁語的國情學,原是國家管理人員感興趣的事情。《大不列顛百科全書》對統計學下的定義是:“統計學是關于收集和分析數據的科學和藝術。”陳希孺院士認為:“統計學是有關收集和分析帶有隨機性誤差的數據的科學和藝術。”

        史寧中教授,作為統計學家,您是如何認識統計學的?

        史教授:我們先來簡單地回顧統計學的歷史是有益處的。正如拉丁語所說,統計原本就是收集和分析國家管理中需要的各種數據,比如國民收入、各種稅收。為了直觀,人們才發明了各種報表、直方圖、扇形圖,等等。可以看到,這種傳統意義上的統計學現在仍然是非常重要的,這也是我們現在小學統計教學中的主要內容之一。后來到了14世紀左右,隨著航海業在歐洲興起,航海保險業開始出現。為了合理地確定保險金與賠償金,需要了解不同季節、不同路線航海出現事故的可能性大小,需要收集相關的數據,根據數據進行分析和判斷,這被稱為近代統計學的發端。到了19世紀末20世紀初,人們把數學、特別是概率論的有關知識引入到統計學,構建了統計學的基礎。與古典統計學相比,雖然二者都是對數據的收集和分析,但卻有本質的不同,因為后者進行分析的基礎是“不確定性”,我們稱之為“隨機”。

        到了現代,人們發現,對于大量數據的分析,采用隨機的方法不僅方便而且準確。比如,對于國民收入,我們可以動用大量的人力來收集數據,但是誰都知道這樣的數據不可能是準確的,遠不如我們依據某種原則規劃分出地區和人群,然后抽樣、加權求和準確。再比如,對于股票市場,一天交易之后,可以得到精確的交易總量,但是人們寧可用部分核心企業的股票交易量來反映股票的變化,這便是“恒生指數”“上證指數”,等等。特別是到了2l世紀,銀行、保險、電信,以及材料科學、基因組學等新興學科的實驗中涉及大量數據,其分析更需要借助隨機方法了。我想,大概就是因為這些原因,國家才決定在現在中小學數學的教學中加入統計學的內容。

        因此,你們談到的關于統計學的定義都是可以的。但是,要把握統計學的根本思想方法卻是非常困難的。

        問:那么,您認為統計學的基本思想方法是什么呢?

        史教授:這是一個不容易回答的問題。對于統計學的掌握很大程度上依賴于感悟,需要比較長的時間的理解與實踐。我們先來回顧一下中小學傳統數學的教學內容。這些內容主要是對日常生活中見到的圖形和數量的抽象,研究的問題是圖形的變化和計算法則,研究的基礎是定義和假設,研究的方法主要是歸納、遞歸、類比和演繹推理。

        統計學則不同。如我上面談到的,統計學是通過數據來進行分析和推斷的。因此,統計研究的基礎是數據。這些數據的特點是,對于每一個數據而言,都具有不確定性,我們需要抽取一定數量的數據,才能從中獲取信息。因此,統計學的研究依賴于對數的感悟,甚至是對一堆看似雜亂無章的數的感悟。通過對數據的歸納整理、分析判斷,可以發現其中隱藏的規律。因為可以用各種方法對數據進行歸納整理、分析判斷,所以,得到的結論也可能是不同的。而且,我們很難說哪一種方法是對的,哪一種方法是錯的,我們只能說,能夠更客觀地反映實際背景的方法要更好一些。比如,我們希望知道某公司員工的收入情況,可以用平均數也可以用中位數,很難說哪個方法錯。事實上,如果收入比較均衡,用平均數要好一些;如果收入比較極端,用中位數要好一些。當然,最好的方法是對收入。情況進行分類,但是分類的方法又有好壞之分。我們可以看到,統計學關心更多的是好與不好,而中小學傳統數學關心更多的是對與錯。

        因此,統計學的基本思路是,根據所關心的問題尋求最好的方法,對數據進行分析和判斷,得到必要的信息去解釋實際背景。

        2 統計學的研究對象

        問:我們對于統計學有了一定的了解。從您的談話中我們感覺到,統計學似乎是包羅―萬象的。那么,統計學到底是研究什么呢?

        史教授:是這樣的,統計學的應用面非常廣,凡是涉及數據分析的都可以成為統計學的研究領域。特別是到了近代,人們希望更加精細地了解實際背景,更多地借助數據分析,甚至人文科學也是如此,并且逐漸形成了專業的研究領域,比如計量經濟學、計量社會學、計量教育學、計量心理學,等等。這些研究領域分析方法的基礎大體是統計學。統計學并不研究某一個領域的具體內容,在本質上只是研究數據分析的方法,這包括創新的方法,也包括分析方法的好壞、分析方法的適用條件。

        問:您能否結合中小學統計的內容談得更具體一些?特別是在統計教學過程中,應當把握的基本原則是什么呢?

        史教授:可以在統計研究中首先遇到的問題是如何獲取“好”的數據。所謂“好”的數據,是指那些能夠更加客觀地反映實際背景的數據,而要獲取好的數據要依賴于“好”的方法。根據數據的不同,方法主要分兩大類,一是通過調查收集數據,二是通過實驗制造數據-中小學統計教學中涉及的主要是前者,稱為抽樣調查(而后者通常被稱為實驗設計)_抽樣調查又包含兩個方面,一個是對已經存在的數據的收集,稱之為抽樣,比如市場的物價、學生的身高、企業的產值,等等;另一個是需要我們了解才能夠獲取的,稱之為調查,比如美國總統的民意支持率、人們日常消費的主要項目、中小學生喜歡的歌手,等等。

        根據問題的不同,所要采用的方法也可能不同,但是要建立兩個基本原則。第一個基本原則是,采用能夠獲取好的數據的方法。為了獲取好的數據,我們需要盡可能多地利用對于實際背景已有的先驗知識。比如,希望知道學生的身高,先驗知識是“年齡之間差別很大”。因此,最好是根據年齡段學生數的多少按比例抽取樣本,我們稱這種方法為分層抽樣。可以看到,統計方法的直觀想法是很明顯的。如果對于實際背景一無所知,那么一定要抽取樣本,這便是隨機抽樣。比如,希望知道學生喜歡的歌手,因為這些學生年齡之間差別可能不大,就可以采取隨機抽樣。當然也可以用分層抽樣,但要麻煩得多。第二個基本原則是,采用簡單的方法。能夠基于上述兩個原則的方法就是一個好方法。我們不要小看第二個原則,一個好的方法往往能夠節省很多調查經費。這就是為什么咨詢公司非常歡迎統計學家的原因。

        問:剛才您提到了樣本,許多教師對樣本這個概念總是感到費解。

        史教授:是的,這個概念很難把握。樣本實質上就是數據,但是,統計學中涉及的數據往往是隨機性的。還是

        回到“學生的身高”這個問題上來。在抽樣之前。我們可能并不知道具體數據的大小,這些數據對于我們是隨機的。為了討論出一個好的方法,我們假想能夠得到這些數據,并且假想這些數據的出現是依據某種規律的,這種規律就是數據出現的可能性在小,我們稱之為概率。比如,高年級學生出現大數據(高個子)的可能性要大于低年級學生,就是說,出現大數據的概率要大。但是,只有當抽樣之后我們才能得到真實的數據;才能進行實質的計算與分析。這樣,我們所要研究的數據既具有隨機性又具有真實性。為了方便起見,我們稱這樣的數據為樣本。

        問:根據您的闡述,統計學怎么有一些哲學式的思考呢?

        史教授:你們理解到了根本。這是統計學與中小學傳統數學的最大區別。傳統數學可以根據假設和規定的原則進行計算或者推理,但是統計學往往要問你所采用的方法是不是有道理,是不是還有更為合理的方法。不過,傳統數學是統計學不可缺少的工具。

        問:是不是因為統計學需要計算呢?

        史教授:不僅僅如此,判斷統計方法的好壞也是依賴傳統數學的。

        主站蜘蛛池模板: 波多野结衣一区二区三区高清av | 亚洲午夜精品一区二区公牛电影院 | 麻豆aⅴ精品无码一区二区| 中文字幕日韩一区二区不卡| 亚洲AV成人精品日韩一区18p| 中文字幕av人妻少妇一区二区| 久久精品视频一区| 国产高清一区二区三区四区| 日本精品视频一区二区| 国产电影一区二区| 亚洲午夜精品一区二区| 日韩免费观看一区| 国产一区玩具在线观看| 亚洲AⅤ无码一区二区三区在线| 久久免费视频一区| 国产一区二区三区福利| 亚洲AV无码一区二区二三区软件 | 久久精品免费一区二区喷潮| 午夜影视日本亚洲欧洲精品一区 | 中文字幕久久亚洲一区| 亚洲片国产一区一级在线观看| 欧洲亚洲综合一区二区三区| 亚洲欧美日韩一区二区三区| 波多野结衣一区二区| 亚洲av无码一区二区三区人妖| 国产电影一区二区| 风间由美在线亚洲一区| 日韩视频在线一区| 一区国严二区亚洲三区| 精品伦精品一区二区三区视频| 亚洲av成人一区二区三区在线观看 | 亚洲AV香蕉一区区二区三区| 一区二区三区视频| 精品国产亚洲一区二区三区在线观看 | 杨幂AV污网站在线一区二区| 免费无码AV一区二区| 一区二区日韩国产精品| 久久婷婷色综合一区二区| 无码AV天堂一区二区三区| 中文字幕一区二区三匹| 日本一区二区三区日本免费|