發(fā)布時間:2023-12-28 16:14:43
序言:作為思想的載體和知識的探索者,寫作是一種獨特的藝術,我們?yōu)槟鷾蕚淞瞬煌L格的5篇統(tǒng)計學分析數(shù)據(jù),期待它們能激發(fā)您的靈感。
基于理念分析和比較研究方法,對大數(shù)據(jù)的分析方法和傳統(tǒng)統(tǒng)計學分析方法的關聯(lián)性和差異進行了對比分析,從方法的基本思想、量化形式、數(shù)據(jù)來源、分析范式、分析方法、分析視角等角度揭示了兩種社會科學分析方法存在的聯(lián)系與差異。
關鍵詞:
大數(shù)據(jù);統(tǒng)計學;研究方法
中圖分類號:
F27
文獻標識碼:A
文章編號:16723198(2015)11005201
隨著信息技術的日益發(fā)展與普及,信息以及數(shù)據(jù)在社會經(jīng)濟發(fā)展過程中發(fā)揮的作用越來越重要。現(xiàn)如今,“大數(shù)據(jù)”時代已經(jīng)來臨,于是如何更有效地利用數(shù)據(jù)快速做出科學決策也已成為眾多企業(yè)甚至是國家所共同關注的焦點問題。在數(shù)據(jù)處理和分析方法方面,《統(tǒng)計學》以及在其基礎上發(fā)展而來的實證統(tǒng)計方法是當前的主流,這些方法可以幫助數(shù)據(jù)持有者從大量的數(shù)據(jù)中挖掘有價值的信息,并為其相關決策提供理論支撐和方法支持。然而,傳統(tǒng)的實證統(tǒng)計方法在最新出現(xiàn)的大數(shù)據(jù)情境下,卻呈現(xiàn)出了諸多缺陷,例如傳統(tǒng)數(shù)據(jù)收集方法無法實現(xiàn)大規(guī)模(甚至是總體)數(shù)據(jù)的收集,傳統(tǒng)統(tǒng)計方法和分析軟件無法處理大規(guī)模數(shù)據(jù),等等。于是,在將傳統(tǒng)統(tǒng)計學方法應用于最新的大數(shù)據(jù)情境和問題之前,需要首先明確大數(shù)據(jù)所要求的處理方法與傳統(tǒng)的統(tǒng)計學處理方法存在哪些關聯(lián)和區(qū)別,然后才能夠決定是否可以應用既有統(tǒng)計學理論和方法來處理某些大數(shù)據(jù)問題。
1大數(shù)據(jù)的界定
根據(jù)一位美國學者的研究,大數(shù)據(jù)可以被定義為:it means data that’s too big, too fast, or too hard for existing tools to process。也就是說,該學者認為:在關于大數(shù)據(jù)的所有定義中,他傾向于將之定義為那類“太大”、“太快”,或現(xiàn)存工具“太難”處理的數(shù)據(jù)。一般而言,大數(shù)據(jù)的特征可以概括為四個V:一是量大(Volume);二是流動性大(Velocity),典型的如微博;三是種類多(Variety),多樣性,有結構化數(shù)據(jù),也有半結構化和非結構化數(shù)據(jù);四是價值大(Value),這些大規(guī)模數(shù)據(jù)可以為持有企業(yè)或者組織創(chuàng)造出巨大的商業(yè)或社會價值。
Victor在其最新著作《大數(shù)據(jù)時代――生活、工作與思維的大變革》中指出,大數(shù)據(jù)時代,思維方式要發(fā)生3個變革:第一,要分析與事物相關的所有數(shù)據(jù),而不是依靠分析少量數(shù)據(jù)樣本;要總體,不要樣本。第二,要樂于接受數(shù)據(jù)的紛繁復雜,而不再追求精確性。第三,不再探求難以捉摸的因果關系,應該更加注重相關關系。這些變革反映出了大數(shù)據(jù)處理方式與傳統(tǒng)統(tǒng)計學分析方法的很多關聯(lián)以及主要不同。因此,下面我們分別針對兩者的聯(lián)系和區(qū)別進行討論。
2大數(shù)據(jù)與統(tǒng)計學分析方法的聯(lián)系
從18世紀中葉至今,統(tǒng)計學已經(jīng)經(jīng)歷了兩百多年的發(fā)展歷程,不論是基礎理論還是社會應用都極其堅實而豐富。大數(shù)據(jù)作為一種新興的事物規(guī)律認知和挖掘思維,也將會對人類的價值體系、知識體系和生活方式產(chǎn)生重要影響,甚至引發(fā)重大改變。作為兩種認知世界和事物規(guī)律的基本方法,它們在以下兩個方面存在緊密關聯(lián)。
(1)挖掘事物規(guī)律的基本思想一致。統(tǒng)計學(statistics)探索事物規(guī)律的基本方法是:通過利用概率論建立數(shù)學模型,收集所觀察系統(tǒng)的數(shù)據(jù),進行量化分析和總結,做出推斷和預測,為相關決策提供依據(jù)和參考。對于大數(shù)據(jù),維克托指出,大數(shù)據(jù)思維的來臨使人類第一次有機會和條件,在非常多的領域和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實世界的規(guī)律,獲取過去不可能獲取的知識。通過這兩個定義可以看出,不論是傳統(tǒng)的統(tǒng)計學方法還是新興的大數(shù)據(jù)分析方法,都是以數(shù)據(jù)為基礎來揭示事物特征以及發(fā)展趨勢的。
(2)均采用量化分析方式。大數(shù)據(jù)分析的基礎是數(shù)據(jù)化,也就是一種把各種各樣現(xiàn)象轉變?yōu)榭芍票矸治龅牧炕问降倪^程。不論是傳統(tǒng)統(tǒng)計學中所應用的數(shù)據(jù)(定性和定量數(shù)據(jù)),還是大數(shù)據(jù)時代即將被轉化和采用其他形式數(shù)據(jù)(如文字、圖像等),最終都是通過量化分析方法來揭示數(shù)據(jù)中所蘊含的事物特征與發(fā)展趨勢。
3大數(shù)據(jù)與統(tǒng)計學分析方法的區(qū)別
(1)基礎數(shù)據(jù)不同。在大數(shù)據(jù)時代,我們可以獲得和分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關的所有數(shù)據(jù),而不再依賴于隨機抽樣。這意味著,與傳統(tǒng)統(tǒng)計學數(shù)據(jù)相比,大數(shù)據(jù)不僅規(guī)模大,變化速度快,而且數(shù)據(jù)來源、類型、收集方法都有根本性變化。
①在數(shù)據(jù)來源方面,在大數(shù)據(jù)背景下,我們需要的紛繁多樣的數(shù)據(jù)可以分布于全球多個服務器上,因此我們可以獲得體量巨大的數(shù)據(jù),甚至是關于總體的所有數(shù)據(jù)。而統(tǒng)計學中的數(shù)據(jù)多是經(jīng)由抽樣調查而獲得的局部數(shù)據(jù),因此我們能夠掌握的事“小數(shù)據(jù)量”。這種情況下,因為需要分析的數(shù)據(jù)很少,所以必須盡可能精確的量化我們的數(shù)據(jù)。綜上,大數(shù)據(jù)情況下,分析人員可以擁有大量數(shù)據(jù),因而不需要對一個現(xiàn)象刨根問底,只需要掌握事物大體的發(fā)展方向即可;然而傳統(tǒng)的小數(shù)據(jù)情況下則需要十分注意所獲得數(shù)據(jù)的精確度。
②在數(shù)據(jù)類型與收集方面,在既往模式下,數(shù)據(jù)的收集是耗時且耗力的,大數(shù)據(jù)時代所提出的“數(shù)據(jù)化”方式,將使得對所需數(shù)據(jù)的收集變得更加容易和高效。除了傳統(tǒng)的數(shù)字化數(shù)據(jù),就連圖像、方位、文本的字、詞、句、段落等等,世間萬物都可以成為大數(shù)據(jù)范疇下的數(shù)據(jù)。屆時,一切自然或者社會現(xiàn)象的事件都可以被轉化為數(shù)據(jù),我們會意識到本質上整個世界都是由信息構成的。
(2)分析范式不同。在小數(shù)據(jù)時代,我們往往是假想世界是如何運行的,然后通過收集和分析數(shù)據(jù)來驗證這種假想。也就是說,傳統(tǒng)統(tǒng)計實證分析的基本范式為:(基于文獻)提出理論假設-收集相關數(shù)據(jù)并進行統(tǒng)計分析-驗證理論假設的真?zhèn)巍H欢诓痪玫膶恚覀儗诖髷?shù)據(jù)背景下探索世界,不再受限制于傳統(tǒng)的思維模式和特定領域里隱含的固有偏見,我們對事物的研究始于數(shù)據(jù),并可以發(fā)現(xiàn)以前不曾發(fā)現(xiàn)的聯(lián)系。換言之,大數(shù)據(jù)背景下,探索事物規(guī)律的范式可以概括為:數(shù)據(jù)觀察與收集――數(shù)據(jù)分析――描述事物特征/關系。
(3)數(shù)據(jù)分析方法不同。傳統(tǒng)統(tǒng)計學主要是基于樣本的“推斷分析”,而大數(shù)據(jù)情境下則是基于總體數(shù)據(jù)的“實際分析”,即直接得出總體特征,并可以分析出這些特征出現(xiàn)的概率。
(4)分析視角不同。傳統(tǒng)的實證統(tǒng)計意在弄清事物之間的內(nèi)在聯(lián)系和作用機制,但大數(shù)據(jù)思維模式認為因果關系是沒有辦法驗證的,因此需要關注的是事物之間的相關關系。大數(shù)據(jù)并沒有改變因果關系,但使因果關系變得意義不大,因而大數(shù)據(jù)的思維是告訴我們“是什么”而不是“為什么”。換言之,大數(shù)據(jù)思維認為相關關系盡管不能準確地告知我們某事件為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生,因此相關關系的發(fā)現(xiàn)就可以產(chǎn)生經(jīng)濟和社會價值了。
4結語
綜上,相對于傳統(tǒng)而言,大數(shù)據(jù)思維主要包括三個重大轉變。首先,要分析與某事物相關的所有數(shù)據(jù),而不是依靠分析捎來能夠的數(shù)據(jù)樣本;其次,研究人員應樂于接受數(shù)據(jù)的紛繁復雜,而不再追求精確性;最后,認知世界的思想發(fā)生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。以上三個轉變構成了大數(shù)據(jù)思維的核心。在統(tǒng)計學的進一步應用和發(fā)展完善過程中,需要結合以上轉變所產(chǎn)生的挑戰(zhàn),思考有效的統(tǒng)計學發(fā)展對策。
參考文獻
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146169.
關鍵詞:大數(shù)據(jù)時代;大數(shù)據(jù);統(tǒng)計學;
一、大數(shù)據(jù)與統(tǒng)計學
(一)大數(shù)據(jù)與統(tǒng)計學關系密切
簡單來說,我們可以分為兩個方面來理解大數(shù)據(jù):若“大數(shù)據(jù)”作為形容詞,則描述的是大數(shù)據(jù)時代數(shù)據(jù)的特點;若“大數(shù)據(jù)”作為名詞,則體現(xiàn)的是數(shù)據(jù)科學研究的對象。對大數(shù)據(jù)的定義有非常多,不同領域不同專業(yè)對大數(shù)據(jù)的界定都會有些許不同。通俗地說:大數(shù)據(jù)是目前人類所有可抓取、可記錄、可存儲的信號集合。這個包含了一切信號的集合將非常非常之龐大、多樣、繁雜,并且還在不停地、迅速地增加。現(xiàn)代互聯(lián)網(wǎng)和信息技術的飛速發(fā)展,使得人類開始有能力收集、儲存、分析、處理這些從前無能為力的數(shù)據(jù),從中挖掘出有用的信息促進社會的發(fā)展。邁爾•舍恩伯格說:大數(shù)據(jù)發(fā)展的核心動力就是人類測量、記錄和分析世界的渴望。而統(tǒng)計學正好是收集、整理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結論的科學。由此可見大數(shù)據(jù)與統(tǒng)計學關系密切,將大數(shù)據(jù)與統(tǒng)計學結合發(fā)展?jié)摿o窮。
(二)大數(shù)據(jù)時代下的非結構化數(shù)據(jù)與結構化數(shù)據(jù)需整合
對接統(tǒng)計研究可根據(jù)自身的目的收集總體數(shù)據(jù)或樣本數(shù)據(jù),但如果總體太過龐大,以過去的技術方法來收集總體數(shù)據(jù)成本會很高,受于限制統(tǒng)計研究更多收集得是樣本數(shù)據(jù)。如今,人類已經(jīng)開始能夠在合適的成本下獲得大數(shù)據(jù),大數(shù)據(jù)的廣博給統(tǒng)計研究帶來了新的發(fā)展方向。我們需要著重研究的一個方向就是如何將結構化數(shù)據(jù)和非結構化數(shù)據(jù)對接。大數(shù)據(jù)的核心是數(shù)據(jù),統(tǒng)計學的研究對象也是數(shù)據(jù),但是它們獲得的數(shù)據(jù)性質有所不同:大數(shù)據(jù)收集的多是半結構化和非結構化的數(shù)據(jù),通俗地理解,先獲得數(shù)據(jù),再整理結構(如聲音、圖片、視頻等信息);傳統(tǒng)統(tǒng)計學收集則主要是結構化數(shù)據(jù),先定好結構,再根據(jù)目標結構收集數(shù)據(jù)(如數(shù)字、符號等信息)。拿非結構化數(shù)據(jù)和結構化數(shù)據(jù)來說:大數(shù)據(jù)時代使得我們有更多可以分析利用的數(shù)據(jù),使得統(tǒng)計研究不僅可以在有更多的結構化數(shù)據(jù)的情形下進行;對于一些領域的研究工作還可以設法將非結構化數(shù)據(jù)和結構化的數(shù)據(jù)結合起來分析。如何實現(xiàn)非結構化數(shù)據(jù)與結構化數(shù)據(jù)的結合?首先,完善非結構化數(shù)據(jù)的整合,然后我們可以用結構化數(shù)據(jù)做數(shù)量說明,非結構化數(shù)據(jù)加強描述;或是提高數(shù)據(jù)處理技術,實現(xiàn)結構化數(shù)據(jù)與非結構化數(shù)據(jù)的互相轉化,選擇能更好說明問題的數(shù)據(jù)形式作為后續(xù)分析基礎。這都是值得再深入思考研究的新問題,而且這不僅僅是大數(shù)據(jù)和統(tǒng)計研究的事,同時需要計算機技術的一同創(chuàng)新發(fā)展。統(tǒng)計研究的范圍在大數(shù)據(jù)時代越來越大,能用數(shù)據(jù)說明的問題越來越多。
(三)大數(shù)據(jù)時代下的相關分析與因果分析發(fā)展并重
《大數(shù)據(jù)時代》一書中表示:大數(shù)據(jù)時代的一個顯著變化是:相關分析比因果分析更重要。我的看法是:大數(shù)據(jù)時代下,市場確實會對相關分析有著更強的關注度,但這并不意味著因果分析的重要性會有褪色。統(tǒng)計學中既有相關分析,也有因果分析,要對它們有合理的了解,首先需要明確的是相關關系和因果關系之間的聯(lián)系,簡單說:有相關關系不一定有因果關系,有因果關系則一定有相關關系。大數(shù)據(jù)時代,相關關系變得比以前更加為人所關注的原因:一方面,在很多領域的應用里,相關分析比因果分析更簡單可行;另一方面,因為相關關系足以體現(xiàn)事物之間的一定聯(lián)系,在商業(yè)效益上更為經(jīng)濟有效。因此在商業(yè)利潤的推動下,相關關系也會更加受到青睞。但是我們不能就此否定因果關系的重要性,因果關系是對數(shù)據(jù)更加深度地分析:相關關系讓我們知道了“是什么”,因果關系是讓我們知道了“為什么”。倘若只是在商業(yè)經(jīng)濟上的利用和成本考慮,“是什么”在很多時候就以足夠;但如果是在科學研究領域,“知其然而不知其所以然”就遠遠不夠了。結合現(xiàn)實發(fā)展需要,可在分析確定相關關系后,根據(jù)情況研究因果關系,若能夠得出因果關系,那肯定是更具價值和意義的。探求“為什么”始終是人類探索世界的動力,因果分析是人類永恒的使命。
二、結語
大數(shù)據(jù)時代的到來幾乎對每個領域都有著不可忽視的影響。大數(shù)據(jù)與統(tǒng)計學關系密切,大數(shù)據(jù)的出現(xiàn)對統(tǒng)計學的意義是非凡的,我們應把握住大數(shù)據(jù)時代和統(tǒng)計學的可結合點。其一,完善非結構化數(shù)據(jù)的整合,深入研究如何實現(xiàn)非現(xiàn)結構化與結構化數(shù)據(jù)的對接,都需要我們思維上的創(chuàng)新、數(shù)據(jù)處理技術上的提高。其二,在注重相關分析的同時,不能丟掉對因果分析的研究,應合理并重,實現(xiàn)大數(shù)據(jù)的進一步利用,真正挖掘出數(shù)據(jù)的價值。對于以數(shù)據(jù)為研究對象的統(tǒng)計學科,大數(shù)據(jù)時代就是統(tǒng)計學變革創(chuàng)新的時代,統(tǒng)計研究工作人員也應把握機會思考創(chuàng)新,為統(tǒng)計學增添新的生命力。
參考文獻:
[1]朱建平,張悅涵.大數(shù)據(jù)時代對傳統(tǒng)統(tǒng)計學變革的思考[J].統(tǒng)計研究,2016(02):3-9.
[2]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014(02):10-19.
關鍵詞:數(shù)據(jù)分析;統(tǒng)計;數(shù)學;教學策略
中圖分類號:G623.5 文獻標志碼:A 文章編號:1008-3561(2017)12-0027-01
能夠根據(jù)具體問題背景選擇合適的統(tǒng)計圖是學生統(tǒng)計素養(yǎng)的一個重要內(nèi)容,也是學生對數(shù)據(jù)分析能力的一個表征。扇形統(tǒng)計圖是在學生認識了條形統(tǒng)計圖、折線統(tǒng)計圖后的小學階段的最后一個統(tǒng)計內(nèi)容,該內(nèi)容增加了選擇合適統(tǒng)計方法的難度,使“數(shù)據(jù)分析”變得尤為重要。因此,教師在教學中要以數(shù)據(jù)為載體,以學生原有知識經(jīng)驗為基礎,引導學生展開漸進式思考,探尋統(tǒng)計的有效方法,培養(yǎng)數(shù)據(jù)分析觀念。
一、引發(fā)認知沖突,點燃統(tǒng)計內(nèi)需
學習是一種由外而內(nèi)的過程,學習最大的動力來自學生心靈深處,源自于自身的認知沖突。教師在教學中創(chuàng)設教學情境的目的正是為了借助外部環(huán)境的刺激,引發(fā)學生的內(nèi)部認知沖突,促使學生在矛盾中生成新的需要,將學習不斷引向縱深。蘇教版六年級下冊的“扇形統(tǒng)計圖”一課意在使學生通過聯(lián)系百分數(shù)的意義,體會扇形統(tǒng)計圖描述數(shù)據(jù)的特點。為了讓學生深刻領會扇形統(tǒng)計圖的特點,教師在教學中改變了教材的編排順序,沒有直接出示例題中的扇形統(tǒng)計圖,而是引導學生感知數(shù)據(jù),造成他們認知上的矛盾沖突,點燃他們新的統(tǒng)計內(nèi)需,逐步引出扇形統(tǒng)計圖。教師這樣給學生出示例題:我國陸地總面積大約是960萬平方千米,其中丘陵占9.9%、山地占33.3%、高原占26.0%、盆地占18.8%、平原占12.0%。“同學們能否根據(jù)數(shù)據(jù)設計出一個統(tǒng)計圖反映出我國陸地各地形分布情況?”教師邊出示條件邊提問。學生一聽說設計統(tǒng)計圖,馬上聯(lián)想到以前學習的內(nèi)容,有的說:“我們可以畫出條形統(tǒng)計圖。”有的說:“我們可以設計成折線統(tǒng)計圖。”教師表揚了學生善于聯(lián)系舊知的意識后說:“請同學們想一想條形圖與折線圖分別用來反映什么?例題中的數(shù)據(jù)表示什么含義,可以用它們來表示嗎?”教師的提示喚醒了學生的數(shù)據(jù)意識,經(jīng)過對數(shù)據(jù)的觀察與思考,學生們一致認為:“條形統(tǒng)計圖用來直觀反映數(shù)量多少,折線統(tǒng)計圖反映了數(shù)量的增減變化,這道題中的數(shù)據(jù)都是百分數(shù),表達的是部分量與總量的關系,看來以前學的那兩種統(tǒng)計圖不合適。”“那該怎么辦呢?”一個女生迫不及待地問道。“是啊,我們該用怎樣的圖形來表示部分量與總量之間的關系呢?”教師故意裝作不知,“看來我們必須另找出路了。”
二、引導自主思考,點化繪制圖形
面對學生的急切心理,教師沒有直接將“扇形統(tǒng)計圖”推出,而是借助生活情境的觀察感悟,引導他們自主思考,摸索出扇形統(tǒng)計圖的特點和畫法,逐步點化學生繪制出扇形統(tǒng)計圖。“先請同學們來看一個有趣的拼盤。”教師邊說邊給學生展示了一張課前制作的地地形分布模型:用一個圓形塑料盤代表我國陸地總面積,在圓盤內(nèi)用各種顏色的橡皮泥分別表示不同地形。教師用這個拼盤圖對學生進行暗示啟發(fā),學生甲一點就通:“原來百分數(shù)關系可以用圓與扇形來表達,用一個整圓表示總量,用扇形表示各部分量。”學生乙補充道:“平原占12.0%,表示平原面積占我國陸地總面積的12.0%,我們可以用一個圓來表示我國陸地總面積,在圓內(nèi)畫出一個扇形表示平原面積。” 教師接著說:“同學們的悟性真高,像拼盤那樣表示各部分量與總量之間關系的統(tǒng)計圖我們稱為扇形統(tǒng)計圖。下面,就請同學們自己嘗試著畫出我國陸地各種地形分布情況統(tǒng)計圖。”然后教師又引導學生根據(jù)各百分數(shù)的含義,討論如何繪制出各個扇形。學生丙聯(lián)系圓心角的知識道出了平原部分的畫法:“一個圓是360°,360°的12.0%是43.2°,在圓內(nèi)畫出一個圓心角是43.2°的扇形就表示平原的面積了。”在學生丙的引領下,同學們迅速算出其他扇形的圓心角度數(shù),并畫出了完整的扇形統(tǒng)計圖。
三、引領梳理反思,點醒對應思想
為了實現(xiàn)“教是為了不教”,教師在教學中經(jīng)常引領學生梳理思路,反思學習得失,總結學習經(jīng)驗,使他們獲得了質的提升。在學習“扇形統(tǒng)計圖”一課的過程中,由于有了先前基于數(shù)據(jù)分析的精心引導,學生親歷了統(tǒng)計方法的選擇與統(tǒng)計圖的繪制,對扇形統(tǒng)計圖的特點和作用了然于心,讀懂扇形統(tǒng)計圖自然不成問題。因此,在組織學生對統(tǒng)計圖中的信息進行簡單分析之后,教師增設了一個“回顧反思”環(huán)節(jié),讓學生回顧整個統(tǒng)計活動經(jīng)歷,使學生懂得了不同的問題背景需要用不同的數(shù)據(jù)分析方法,各種統(tǒng)計圖的選用必須與數(shù)據(jù)意義相適應。如反映數(shù)量增減可選擇折線圖,要表達數(shù)量多少可選用直條圖,要反映各部分量與總量之間的百分比關系可選擇扇形統(tǒng)計圖。高年級學生的類比分析能力比較強,教師讓他們通過簡要梳理與反思,能使他們明晰數(shù)據(jù)分析方法的選擇的重要性,對數(shù)據(jù)分析方法的選擇有清晰的認識,進而點醒他們的數(shù)學思想。
四、結束語
總之,統(tǒng)計教學是一個系統(tǒng)而完整的活動過程,從對問題背景的理解、對數(shù)據(jù)的解讀、對統(tǒng)計方法的選擇,再到圖形的繪制等,這一切都離不開科學嚴謹?shù)姆治觥?shù)據(jù)分析是統(tǒng)計的核心,教師在統(tǒng)計教學中應以數(shù)據(jù)為核心,引領學生在科學分析中選擇出合適的統(tǒng)計方法,從而圓滿地完成統(tǒng)計任務。
參考文獻:
一、關注統(tǒng)計意識的培養(yǎng),讓學生經(jīng)歷數(shù)據(jù)收集的過程
統(tǒng)計意識的培養(yǎng)是小學學習最重要的目標之一. 統(tǒng)計意識的首要方面是能有意識地從統(tǒng)計的角度思考有關問題,當遇到有關問題時能想到去整理分析數(shù)據(jù),即發(fā)展學生的統(tǒng)計意識. 發(fā)展學生的統(tǒng)計意識最主要的方式就是讓學生體會到統(tǒng)計是有用的. 基于以上目標,在學生根據(jù)原始數(shù)據(jù)提出自己的問題后,教師引導學生體會解決問題必須對這些數(shù)據(jù)進行整理,就產(chǎn)生了整理統(tǒng)計的需要,有了需要學生就會考慮選用方法進行整理統(tǒng)計,然后通過教師的點撥,學生在小組內(nèi)自主完成數(shù)據(jù)的整理統(tǒng)計,學生參與度和統(tǒng)計結果正確率都比較高. 根據(jù)統(tǒng)計結果,同學自己提出的問題迎刃而解. 這樣的設計,讓學生帶著解決問題的需要,投入到數(shù)據(jù)的整理統(tǒng)計中,在經(jīng)歷統(tǒng)計的過程中培養(yǎng)了學生的統(tǒng)計意識. 如以下設計:
(一)呈現(xiàn)情境,提出問題
師:同學們,2008年北京奧運會中國以51枚金牌數(shù)居金牌榜榜首. 大家看,這是第二奧運中國體育代表團金牌榜. 根據(jù)金牌榜提供的信息,你能提出什么問題?
生1:中國游泳項目獲多少枚金牌?
……
(二)分類統(tǒng)計,解決問題
師:老師發(fā)現(xiàn)同學們提到的問題都與中國各種項目獲金牌數(shù)情況有關,所以我們先來解決這個問題“中國各種項目獲金牌數(shù)的情況是怎樣的”. 解決這個問題需要用到哪方面的知識啊?(統(tǒng)計知識)對,我們需要對原始數(shù)據(jù)進行整理、統(tǒng)計. 你打算怎樣統(tǒng)計?
生:用統(tǒng)計表,根據(jù)體育項目進行分類統(tǒng)計. (板貼:統(tǒng)計表)
師:這名同學想到了根據(jù)體育項目進行分類統(tǒng)計,你們同意嗎?除了用統(tǒng)計表表示統(tǒng)計結果,還可以用什么來表示?(條形統(tǒng)計圖)
師:大家看,在金牌榜上出現(xiàn)的體育項目既多又分散,比如說水上項目就有游泳、跳水、劃艇等,我們可以把某些項目進行歸類,請看大屏幕(課件出示分類標準).
師:下面小組內(nèi)進行分類統(tǒng)計,可以選用統(tǒng)計表,也可以選取統(tǒng)計圖來表示統(tǒng)計結果.
生:(分小組活動).
……
二、關注扇形統(tǒng)計圖的產(chǎn)生,讓學生通過數(shù)據(jù)分析體會學習扇形統(tǒng)計圖的必要性
讓學生體會引入扇形統(tǒng)計圖的必要性是認識扇形統(tǒng)計圖的開始,有利于激發(fā)學生對新知的求知欲. 因此,在教學中我有意識地將切入點回歸到學生要解決的問題上,在引導對條形統(tǒng)計圖進行分析后,教師抓住學生前面提到的“舉重項目獲金牌數(shù)占金牌總數(shù)的百分之幾”這一問題讓學生來解決,隨即出現(xiàn)一組含有百分數(shù)的統(tǒng)計表,然后教師提出“要清楚地表示出這些信息,我們還可以用這樣的統(tǒng)計圖”,大屏幕出示做好的扇形統(tǒng)計圖. 這樣一來,扇形統(tǒng)計圖的引入水道渠成,既加強了與數(shù)據(jù)整理統(tǒng)計的聯(lián)系,又為扇形統(tǒng)計圖特征和作用的理解做了有力的鋪墊. 如下面的設計:
……
師:剛才我們用統(tǒng)計表和條形統(tǒng)計圖表示出了各種項目獲金牌數(shù)的情況(課件出示統(tǒng)計表和條形統(tǒng)計圖),之前有名同學還提到這樣一個問題(課件出示單式統(tǒng)計表):舉重項目獲金牌數(shù)占金牌總數(shù)的百分之幾,這個問題怎么解決啊?(課件出示復式統(tǒng)計表空欄)
生:用舉重項目金牌數(shù)除以總金牌數(shù).
師:怎樣列算式?
生:8 ÷ 51.
師:非常好!體操項目呢?它獲的金牌數(shù)占金牌總數(shù)的百分之幾?
師:像這樣,用每種項目獲得的金牌數(shù)除以金牌總數(shù)就能得到這樣一組百分數(shù). (課件出示復式統(tǒng)計表加百分數(shù))
師:同學們,對于中國各種項目獲金牌情況,我們還可以用這樣的統(tǒng)計圖來表示(課件出示扇形統(tǒng)計圖)
三、關注扇形統(tǒng)計圖的直觀優(yōu)勢,讓學生讀懂數(shù)據(jù)
當前是一個信息時代,讀圖時代. 讓學生從統(tǒng)計圖中獲取信息,根據(jù)統(tǒng)計圖中的數(shù)據(jù)進行分析、預測和推斷,是發(fā)展學生數(shù)據(jù)意識具體的教學策略. 統(tǒng)計圖的特點是形象直觀,便于比較觀察,那么在指導學生讀圖的時候,應當突出圖的直觀優(yōu)勢. 教學前我首先思考了“扇形統(tǒng)計圖的直觀優(yōu)勢在哪里”這樣一個問題. 通過研讀教材我發(fā)現(xiàn),扇形統(tǒng)計圖的特征應該從百分數(shù)的意義和扇形大小兩方面去理解,在讀圖過程中也應側重這兩方面,且要將數(shù)與形兩方面進行有機結合. 課堂上在教學扇形統(tǒng)計圖特征時有意識地引導學生讀懂數(shù)據(jù),注重了對百分數(shù)意義的理解和它所在的扇形的大小,特別在比較大小時,我們既可以通過百分數(shù)大小來比較,又可以通過扇形大小這一直觀優(yōu)勢進行比較. 另外,注意讓學生結合生活情境,根據(jù)統(tǒng)計圖中的數(shù)據(jù)進行推斷、預測,體驗數(shù)學的價值所在. 通過讀圖,學生切實體會到了扇形統(tǒng)計圖的作用. 如下設計:
師:見過這種統(tǒng)計圖嗎?(沒見過)那知不知道它叫什么統(tǒng)計圖?(扇形統(tǒng)計圖). 大家可真聰明,它就叫扇形統(tǒng)計圖. (板貼課題:扇形統(tǒng)計圖)
師:知道它為什么叫扇形統(tǒng)計圖嗎?
生:圓內(nèi)有大大小小的扇形.
師:大家都發(fā)現(xiàn)了,扇形統(tǒng)計圖中有扇形. 誰能到前面來指一指圖中哪兒有扇形?(生指扇形統(tǒng)計圖中的扇形)
師:正像這名同學所指的,圓內(nèi)確實有大大小小不同的扇形. 你能看出哪個扇形最大嗎?(生指水上項目所在扇形)
師:為什么表示水上項目的這個扇形畫得最大?
生:因為水上項目獲得金牌數(shù)占金牌總數(shù)的百分比最大. 師:最小的呢?為什么呢?
師:在這個扇形統(tǒng)計圖中有兩個大小一樣的扇形,你發(fā)現(xiàn)了嗎?
師:為什么這兩個扇形可以畫得一樣大呢?
……
四、關注素材的決策功能,體現(xiàn)統(tǒng)計中數(shù)據(jù)分析的價值所在
統(tǒng)計教學中,學生不僅要讀懂簡單的數(shù)據(jù),更重要的是要根據(jù)統(tǒng)計圖和實際情況,分析統(tǒng)計圖中數(shù)據(jù)的合理性,作出某些判斷和決策,并從中得到某些啟示. 針對初教時研課提出的問題,我們設計了部分開放性的練習,如:我從媒體中找到一些數(shù)據(jù),鼓勵學生讀懂媒體中的統(tǒng)計圖,并引導學生體會這些數(shù)據(jù)帶給我們的啟示,等等. 這樣一來,使得統(tǒng)計教學更具價值性.
……
師:下面讓我們來關注學校的紅領巾廣播站. 學校廣播站每周播音2小時. 下圖表示各個節(jié)目的播音時間情況.
師:哪個節(jié)目的播音時間最長?你是怎么知道的?
師: “學法交流”的播音時間是24分鐘,占每周播音時間的百分之幾?
生:24除以120等于20%.
師:這是求一個數(shù)是另一個數(shù)的百分之幾.
師:如果老師請你做我們學校廣播站的策劃者,你對欄目內(nèi)容和時間有什么好建議?
師:同學們提出了很多好的建議,課后咱們在全校做一次調查,并且選用合適的統(tǒng)計圖表示統(tǒng)計調查結果. 相信在大家的幫助下,廣播站會受到更多同學的喜歡.
關鍵詞:數(shù)據(jù)挖掘;統(tǒng)計學;比較
中圖分類號:TP311.131文獻標識碼:A文章編號:1007-9599 (2010) 06-0000-01
Comparison of Data Mining and Statistical Analysis
Kong Pengxiang
(Laiwu Iron&Steel Group Co, Ltd.,Training Centre,Laiwu271104,China)
Abstract:Data mining from statistical analysis,but different from the statistical analysis.Data mining is not intended to replace the traditional statistical analysis techniques,on the contrary,statistical analysis of data mining is an expansion and extension.
Keywords:Data mining;Statistical analysis;Comparison
隨著科學技術的發(fā)展,利用數(shù)據(jù)庫技術來存儲管理數(shù)據(jù),利用機器學習的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識。這種思想的結合形成了現(xiàn)在深受人們關注的非常熱門的研究領域:數(shù)據(jù)庫中的知識發(fā)現(xiàn)――KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術便是KDD中的一個最為關鍵的環(huán)節(jié)。
一、數(shù)據(jù)挖掘簡介
(一)數(shù)據(jù)挖掘的含義和功能
數(shù)據(jù)挖掘―DM(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門交叉學科,它匯聚了數(shù)據(jù)庫、人工智能、統(tǒng)計學、可視化、并行計算等不同學科和領域,近年來受到各界的廣泛關注。
一般說來,數(shù)據(jù)挖掘是一個利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關系的過程,這些模型和關系可以用來做出決策和預測。它強調對大量觀測到的數(shù)據(jù)庫的處理。它是涉及數(shù)據(jù)庫管理、人工智能、機器學習、模式識別、及數(shù)據(jù)可視化等學科的邊緣學科。
作為一門處理數(shù)據(jù)的新興技術,數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結構,維數(shù)大。最后,數(shù)據(jù)挖掘所采用的技術涉及到:數(shù)據(jù)庫、人工智能、統(tǒng)計學、可視化、并行計算等不同學科和領域。
二、統(tǒng)計學的含義
統(tǒng)計學最初是作為一門實質性科學建立起來的,它從數(shù)量上研究某類具體的現(xiàn)象(如社會經(jīng)濟發(fā)展)的規(guī)律,但是,隨著統(tǒng)計學研究范圍的不斷擴大以及統(tǒng)計方法在社會領域和自然領域內(nèi)的有效應用,加之統(tǒng)計方法體系本身的不斷發(fā)展和完善,使得統(tǒng)計學的研究對象也發(fā)生了變化。統(tǒng)計學已從實質性科學中分離出來,轉而研究統(tǒng)計方法,成為一門方法論的科學。即統(tǒng)計學是研究如何搜集數(shù)據(jù)、整理數(shù)據(jù)和分析數(shù)據(jù)的一門方法論科學。
從本質上看,統(tǒng)計工作的核心就是數(shù)據(jù)(或者信息)的采集、分析和處理,正如權威的不列顛百科全書將統(tǒng)計定義為“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“統(tǒng)計:收集、分析、表述和解釋數(shù)據(jù)”
三、數(shù)據(jù)挖掘與統(tǒng)計學的比較
數(shù)據(jù)挖掘來源于統(tǒng)計分析,而又不同于統(tǒng)計分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術,相反,數(shù)據(jù)挖掘是統(tǒng)計分析方法的擴展和延伸。大多數(shù)的統(tǒng)計分析技術都基于完善的數(shù)學理論和高超的技巧,其預測的準確程度還是令人滿意的,但對于使用者的知識要求比較高。而隨著計算機能力的不斷發(fā)展,數(shù)據(jù)挖掘可以利用相對簡單和固定程序完成同樣的功能。新的計算算法的產(chǎn)生如神經(jīng)網(wǎng)絡、決策樹使人們不需了解到其內(nèi)部復雜的原理也可以通過這些方法獲得良好的分析和預測效果。
由于數(shù)據(jù)挖掘和統(tǒng)計分析根深蒂固的聯(lián)系,通常的數(shù)據(jù)挖掘工具都能夠通過可選件或自身提供統(tǒng)計分析功能。這些功能對于數(shù)據(jù)挖掘的前期數(shù)據(jù)探索和數(shù)據(jù)挖掘之后對數(shù)據(jù)進行總結和分析都是十分必要的。統(tǒng)計分析所提供的諸如方差分析、假設檢驗、相關性分析、線性預測、時間序列分析等功能都有助于數(shù)據(jù)挖掘前期對數(shù)據(jù)進行探索,發(fā)現(xiàn)數(shù)據(jù)挖掘的題目、找出數(shù)據(jù)挖掘的目標、確定數(shù)據(jù)挖掘所需涉及的變量、對數(shù)據(jù)源進行抽樣等等。所有這些前期工作對數(shù)據(jù)挖掘的效果產(chǎn)生重大影響。而數(shù)據(jù)挖掘的結果也需要統(tǒng)計分析的描述功能(最大值、最小值、平均值、方差、四分位、個數(shù)、概率分配)進行具體描述,使數(shù)據(jù)挖掘的結果能夠被用戶了解。因此,統(tǒng)計分析和數(shù)據(jù)挖掘是相輔相成的過程,兩者的合理配合是數(shù)據(jù)挖掘成功的重要條件。
四、小結
數(shù)據(jù)挖掘理論與技術的產(chǎn)生,促進了統(tǒng)計學發(fā)展的同時,也提出了更多的挑戰(zhàn)。如何更好地使用數(shù)據(jù)挖掘和統(tǒng)計為解決社會實際問題做出貢獻,是統(tǒng)計學家和數(shù)據(jù)挖掘研究者共同關心的話題。數(shù)據(jù)挖掘和統(tǒng)計學應該相互學習和滲透,各自分工,協(xié)同工作,共同為挖掘隱藏在復雜現(xiàn)象背后的有價值的知識貢獻力量。
參考文獻:
[1]Jiawei Han,Micheline Kambr.數(shù)據(jù)挖掘――概念與技術(影印版)[M].北京:高等教育出版社,2001
[2]韓明.數(shù)據(jù)挖掘及其對統(tǒng)計學的挑戰(zhàn)[J].統(tǒng)計研究,2001,8