發布時間:2023-11-10 11:02:46
序言:作為思想的載體和知識的探索者,寫作是一種獨特的藝術,我們為您準備了不同風格的5篇數據分析方法,期待它們能激發您的靈感。
1、將收集到的數據通過加工、整理和分析的過程,使其轉化為信息,通常來說,數據分析常用的方法有列表法和作圖法,所謂列表法,就是將數據按一定規律用列表方式表達出來,是記錄和處理數據最常用的一種方法。
2、表格設計應清楚表明對應關系,簡潔明了,有利于發現要相關量之間的關系,并且在標題欄中還要注明各個量的名稱、符號、數量級和單位等。
3、而作圖法則能夠醒目地表達各個物理量間的變化關系,從圖線上可以簡便求出實驗需要的某些結果,一些復雜的函數關系也可以通過一定的變化用圖形來表現。
(來源:文章屋網 )
關鍵詞:大數據;分析模型;房價
中圖分類號:TP399 文獻標識碼:A 文章編號:1007-9416(2017)03-0137-02
1 引言
大數據分析首先要建立一個分析模型,分析模型是大數據分析的基石,只有先建立了模型才能對大數據進行分析。構建大數據分析模型傳統的方法很難實現,大數據非結構化、屬性很難預知,通過數學、統計學等方法構建大數據分析模型都比較困難,機器學習是構建大數據分析模型最有效的方法之一。機器學習通過不斷地學習優化、不斷地迭代逼近所要的模型。
2 訓練數據準備
機器學習構建大數據分析模型的方法是通過訓練數據將模型訓練出來。從要研究的大數據對象中找出訓練集。機器學習分為監督學習和非監督學習,監督學習需要教師,監督機器學習的結果,事先設定好學習目標,期望的結果。非監督學習的數據一般都無標簽,學習結果事先也無法預知,通過數據可視化等方法觀察學習結果。
房價大數據分析模型機器學習屬于監督學習,期望預測值極大地逼近真實值。首先需要采集房價數據作為訓練數據,然后設計房價大數據分析模型機器學習算法,計算機通過機器學習算法和學習路徑學習訓練數據,學習目標是預測的結果極大地逼近真實數據,通過反復迭代,不斷地接近目標,訓練出所希望的模型。
3 數據清洗
清洗后的訓練數據如下:
間數(x1) x1 2 x1 2 x1 3 x1 3 x1 3 x1 3 x1 2 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 2 x1 1 x1 3 x1 3 x1 3 x1 3 x1 1 x1 2 x1 2 x1 2 x1 2 x1 2 x1 3 x1 2 x1 3 x1 2 x1 2 x1 3 x1 2 x1 2 x1 3 x1 3 x1 3 x1 2 x1 3 x1 2 x1 1 x1 2 x1 2 x1 2 x1 2
面e(x2) x2 126 x2 99 x2 134 x2 137 x2 135 x2 138 x2 104 x2 99 x2 105 x2 126 x2 112 x2 116 x2 88 x2 90 x2 79 x2 120 x2 155 x2 158 x2 161 x2 66 x2 108 x2 88 x2 111 x2 103 x2 104 x2 131 x2 105 x2 130 x2 102 x2 105 x2 148 x2 98 x2 100 x2 128 x2 110 x2 101 x2 121 x2 127 x2 103 x2 67 x2 78 x2 71 x2 81 x2 77
價格(y1) y1 460 y1 425 y1 515 y1 580 y1 630 y1 600 y1 425 y1 439 y1 435 y1 608 y1 460 y1 460 y1 410 y1 380 y1 340 y1 520 y1 685 y1 680 y1 630 y1 328 y1 532 y1 405 y1 495 y1 470 y1 480 y1 690 y1 480 y1 690 y1 462 y1 495 y1 540 y1 440 y1 510 y1 599 y1 395 y1 450 y1 455 y1 595 y1 403 y1 295 y1 315 y1 345 y1 355 y1 335
4 房價大數據分析模型機器學習算法
機器學習首先要設計機器學習學習算法,設計機器學習學習路徑,機器學習解決的問題通常可分為預測和分類兩類問題。首先我們分析一下要解決的問題是屬于預測問題還是分類問題,然后選擇相應的學習算法,設計學習路徑,通過訓練數據訓練和機器學習構建大數據分析模型。模型通過訓練數據訓練出來以后,對模型進行檢驗,然后不斷進行優化,以達到我們所期望的精度。
以下是梯度下降機器學習算法和學習路徑:
首先建立一個估值函數(模型)如下:
x為自變量(特征參數),h(x)為應變量(房價的估值),希望求出此函數的系數θ0、θ1,構成一個完整的函數,此函數就是我們要構建的大數據分析模型。
我們建立一個成本函數,希望預測值與真實值的差趨近于0,也就是成本函數值趨近于0。
J(0, 1)=
其中:
X(I)表示向量X中的第i個元素;
Y(I)表示向量Y中的第i個元素;
表示已知的假設函數;
m為訓練集的數量;
Gradient Descent梯度下降方法機器學習步驟:
(1)先隨機選定一個初始點;
(2)確定梯度下降方向;
(3)通過實驗確定下降步伐,學習率Learning rate;
(4)通過不斷地遞歸,收斂到極小值;
通過梯度下降法使成本函數趨于0,在此條件下求得自變量的系數θ0和θ1,將此θ0和θ1帶入到函數中得到我們要的模型。
下面是介紹如何運用梯度下降法,經過反復迭代求出θ0和θ1:
梯度下降是通過不停的迭代,最后沿梯度下降到最低點,收斂到一個我們滿意的數據,誤差趨近于0時迭代結束,此時的θ0和θ1正是我們要求的函數自變量的系數,有了θ0和θ1,這個假設的函數就建立起來了,這個函數就是我們要建的大數據分析模型。
梯度下降法分為批量梯度下降法和隨機梯度下降法,批量梯度下降法速度較慢,每次迭代都要所有訓練數據參與;隨機梯度下降精度差一些,容易在極值周圍震蕩;房價大數據分析模型采用的是實時數據梯度下降法(Real Time Online Gradient Descent),可以隨著房價的變化隨時修正模型的參數。
5 構建房價大數據分析模型
通過數據可視化,我們可以看到房價數據趨于線性,所以我們采用線性回歸構建房價大數據分析模型。采用監督學習,先給定一個訓練集,根據這個訓練集學習出一個線性函數,然后檢驗這個函數訓練的好壞,即此函數是否足夠擬合訓練集數據,不斷優化模型減少殘差,最大限度地接近真實值。
假設房價大數據分析模型:
y=aX1+bX2
通過梯度下降法,不斷遞歸,最后使假設值與實際值之差趨近于0,求得此時的模型變量系數a、b,構建線性函數(房價大數據分析模型)。模型通過回歸診斷、交叉驗證不斷進行優化,直到誤差達到要求。
以下是采用機器學習算法構建的房價大數據分析模型,用R語言編寫房價大數據分析模型程序如下:
令:a=q1;b=q2;
將訓練數據以數據框的形式存儲。
pricedata
x1
x2
y
造梯度下降算法函數,初始點q1=0、q2=0;下降速率d=0.0001。
grd2
q1=0;
q2=0;
d=0.0001;
i=0;
m=9;
plot(y~x1+x2,data=pricedata,pch=16,col='red');
通過反復迭代得出估值函數系數q1、q2。
while (i
{
i=i+1;
q1=q1-d/m*(q1*x1+q2*x2-y)*x1;
q2=q2-d/m*(q1*x1+q2*x2-y)*x2;
}
return(q1);
return(q2);
}
grd2();
model2
summary(model2);
通過summary(model2)匯總出模型變量系數。
關鍵詞:數據分析應用率;分析應用點;四個層次;數據中心;儀表盤
中圖分類號:N37 文獻標識碼:B 文章編號:1009-9166(2009)02(c)-0063-02
現代企業的決策往往是在整合大量信息資料的基礎上制定出來的,對數據的理解和應用將是企業決策的基石。與傳統的操作型應用相比,數據利用的應用建設難度更大,它是隨著管理水平而發展,同時又取決于業務人員的主觀意識,這就決定了以數據利用為核心的應用建設不可能一蹴而就,而是一個長期迭展的建設過程。從2003年起工廠開始全面推進數據分析應用工作,經歷過曲折,同時也有收獲。經過多年的努力,工廠的數據分析應用工作開始進入良性發展階段,筆者認為有必要對工廠目前數據分析應用工作作一總結和思考。
一、工廠數據分析應用工作開展現狀
工廠數據分析應用工作推進至今已有四五年的時間,從最初全面調研工廠數據量和數據分析應用狀況,將數據分析應用率指標作為方針目標定量指標來考核,到后來將數據分析應用工作的推進重心從量向質轉移,采用以項目為載體進行管理,著重體現數據分析應用的實效性,再到目前以分析應用的需求為導向,以分析應用點為載體,分層次進行策劃。經過上述三個階段,工廠數據分析應用工作推進機制得到了逐步的完善,形成了廣度深度協同發展的信息資源利用管理框架。截止到目前,工廠數據分析應用率達到96%,四個層次的分析應用點共計100多個,數據分析應用工作在生產、質量、成本、物耗、能源等條線得到廣泛開展,有效推動了工廠管理數字化和精細化。2007年,工廠開始探索細化四個應用層次的推進脈絡,進一步豐富工廠信息資源利用框架,形成層次清晰、脈絡鮮明、職責分明的信息資源利用立體化的推進思路。
1、第一層次現場監控層。第一層次現場監控層,應用主體是一線工人和三班管理干部,應用對象是生產過程實時數據,應用目標是通過加強生產過程控制,輔助一線及時發現生產過程中的異常情況,提高生產穩定性。例如制絲車間摻配工段的生產報警,通過對生產過程中葉絲配比、膨絲配比、梗絲配比、薄片配比、加香配比等信息進行判異操作,對異常情況通過語音報警方式提醒擋車工進行異常處理;例如卷包車間通過在機臺電腦上對各生產機組的工藝、設備參數、實時產量、質量、損耗數據的監控,提高對產品質量的過程控制能力。第一層次應用以上位機和機臺電腦上固化的監控模型為主,制絲車間每個工序、卷包車間每種機型的應用點都有所不同,為此我們建立了制絲車間以工序為脈絡,卷包車間以機種為脈絡的應用點列表,圍繞脈絡對第一層次應用點進行梳理,形成第一層次應用的規范化模板。制絲車間第一層次應用點模板包括工序名稱、應用點名稱、應用模型描述、應用對象、應用平臺、異常處置路徑等基本要素。卷包車間應用點模板橫向根據機種分,縱向按上班及交接班、上班生產過程中、下班及交接班三個時間段分,通過調研分別列出擋車工針對每個機種在三個時間段分別要查看的數據和進行的操作。隨著模板的擴充和完善,一線職工的知識、經驗不斷充實其中,第一層次應用點模板將成為一線工人和三班管理干部日常應用監控的標準,同時可以規避人員退休或調動帶來的經驗、知識流失的風險。2、第二層次日常管理分析層。第二層次日常管理分析層,應用主體是一般管理干部,應用對象是產質損、設備、動能等指標,應用目標是通過加強對各類考核指標的監控和分析,提高工廠整體的關鍵績效指標水平。例如制絲車間的劣質成本數據匯總和分析,通過對車間內各類廢物料、劣質成本的數據進行匯總、對比和分析,尋找其中規律及薄弱環節,并尋根溯源,采取措施,降低劣質成本。例如卷包車間的產量分析,通過對產量數據、工作日安排、計劃產量進行統計和匯總,結合車間定額計劃、作業計劃和實際產量進行分析,尋找實際生產情況與計劃間的差異,并分析原因。第二層次應用以管理人員個性化的分析為主,呈現出分析方法多樣化、應用工具多樣化的特點。但是萬變不離其中的是每個管理崗位的管理目標以及圍繞管理目標開展的分析應用是相對固定的,至少在短期內不會有太大的變化。為此我們建立了一份以重點崗位為脈絡的應用點列表,圍繞脈絡對第二層次應用點進行梳理,形成第二層次應用的規范化模板。模板包括崗位名稱、管理目標、應用點名稱、應用描述、涉及主要考核指標、應用平臺、應用頻次、分析去向等基本要素。通過構建第二層次應用點模板,明確了每個管理崗位應用信息資源支撐管理目標的內容和職責。隨著新的管理目標的不斷提出以及應用的逐步深入,模板每年都會有更新和擴充。3、第三層次針對性分析應用層。第三層次針對性分析應用層,應用主體是項目實施者,應用對象是各類項目的實施過程,例如QC項目、六西格瑪項目、質量改進項目,或針對生產中的特定事件進行的分析和研究。應用目標是通過應用數據資源和統計方法開展現狀調查、因果分析、效果驗證等工作,提高各類項目實施的嚴密性和科學性。第三層次的應用工具在使用初級統計方法的基礎上會大量應用包括方差分析、回歸分析、正交試驗、假設檢驗、流程圖等在內的中級統計方法。以QC活動為例,我們可以看出其實施過程無一不與數據應用之間有密切的聯系[1]。近年來,在質量改進項目和QC項目的評審工作中已逐步將“應用數據說話、運用用正確合理的統計方法,提高解決問題的科學性”作為項目質量考核標準之一。而六西格瑪項目實施的核心思想更是強調“以數據和事實驅動管理”,其五個階段[2]D(定義)、M(測量)、A(分析)、I(改善)、C(控制),每個階段都要求結合如FMEA(失效模式后果分析),SPC(統計流程控制),MSA(測量系統分析),ANOVE(方差分析),DOE(實驗設計)等統計方法和統計工具的應用。4、第四層次主題性應用層。第四層次主題性應用層,應用主體是中層管理者,應用對象是專業性或綜合性的分析主題,應用目標是通過專業科室設計的專題性分析模型或綜合性分析模型,為中層管理層提供決策依據。工廠在實施了業務流程“自動化”之后,產生了大量的數據和報表。如何將工廠的業務信息及時、精煉、明確地陳述給中層管理層,以此來正確地判斷工廠的生產經營狀況,是擺在我們眼前的一個突出問題。大家都有開車的經驗,司機在駕駛車輛的時候,他所掌握的車況基本上是來自汽車的儀表盤,在車輛行使的過程中,儀表盤指針的變化,告知汽車的車速、油料、水溫等的狀況,駕駛員只要有效地控制這些指標在安全范圍之內,車子就能正常地運行。我們不妨將儀表盤的理念移植于工廠,建立工廠關鍵指標及運行管理儀表盤,將工廠的關鍵信息直觀地列在上面,及時提醒各級管理人員工廠生產運營是否正常。
⑴關鍵績效指標監控系統。對分布在各處的當前及歷史數據進行統一展示,以工廠關鍵績效指標為中心,支持統計分析和挖掘,可為中層管理者提供工廠關鍵績效指標一門式的查詢服務,使各業務部門尋找、闡釋問題產生的原因,以有效監控各類關鍵績效指標,及時采取改進措施,提高生產經營目標完成質量。⑵系統運行狀態監控系統。通過數據采集、手工錄入等各種渠道收集各類系統的運行狀態,及時掌握故障情況,采取措施加以閉環,將因系統故障造成對用戶的影響減至最小,確保各類系統的穩定運行和有效應用。通過建立系統運行狀態監控系統,中層管理人員上班一打開電腦進入系統,就能了解到當天及上一天各類系統的運轉情況,發生了什么異常,哪些故障已經得到解決,哪些故障還未解決。⑶第四層次主題性分析應用。在展示關鍵績效指標和系統運行狀態的基礎上,由各專業科室思考專業條線上的分析主題,采用先進科學的理念和方法對數據進行分析和挖掘。近兩年來,工廠充分發揮專業科室的優勢和力量,相繼設計和開發了工藝質量條線的六西格瑪測評系統,設備條線的設備效能分析系統,還有質量成本核算與分析系統。通過這些分析主題的支持,工廠管理人員可以更方便快捷地了解質量、設備、成本等條線上的關鍵信息,及時采取相應措施,從而提升管理效率。
二、數據分析應用工作存在的不足及思考
工廠數據分析應用工作的推進方法從最初的采用數據分析應用率單個指標進行推進發展到目前按上文所述的四個層次進行推進,每個層次的推進脈絡已經逐步清晰和明朗,但事物發展到一定的階段總會達到一個瓶頸口,目前工廠數據分析應用工作存在的問題及措施思考如下:
1、從推進手段上要突破信息條線,充分發揮專業條線的力量。信息條線作為推進工廠數據分析應用的主管條線,其作用往往局限在技術層面上的支撐。雖然信息條線每年都會規劃形成工廠數據分析應用整體的工作思路和具體的實施計劃,但是無論從工廠層面還是從車間層面來講,單純依靠信息條線從側面加以引導和推進,使得數據分析應用工作始終在業務條線的邊緣徘徊,與產量、質量、設備、消耗、成本、動能等各個條線本身工作的結合度有一定的距離。所以工廠要進一步推進數據分析應用工作,調動起業務人員的積極性和主動性,突破現有的瓶頸,應該考慮如何調動起專業條線的力量。一是可以在年初策劃應用點的時候要加強專業條線對車間業務自上而下的指導,引導管理人員加強對缺少數據分析支撐的工序、崗位/管理目標的思考;二是建立平臺加強各車間同性質崗位之間的溝通與交流,均衡各個車間的數據分析應用水平和能力;三是對車間提交的分析報告給出專業性的指導意見。2、要加強對數據中心的應用。數據中心的建立可以使業務系統從報表制作、數據導出等功能中解放出來,專注于事務處理,將數據應用方面的功能完全交給數據中心來解決。目前,數據中心已建立了涉及產量、質量、消耗等各個條線的Universe模型,并對全廠管理干部進行了普及性的培訓。但是從目前應用情況來看,還比較局限于個別管理人員,追尋原因如下:一是業務系統開發根據用戶需求定制開發報表,業務人員通常習慣于從現成的報表中獲取信息。如果要求業務人員使用數據中心工具自行制作報表模板,甚至可能需要將其導出再作二次處理,那么業務人員一定更傾向于選擇第一種方式。二是近幾年來人員更替較多,新進管理人員不熟悉數據中心應用,導致數據中心應用面受到限制。隨著今后MES的建設,業務系統中的數據、報表、臺帳和分析功能將有可能由業務用戶自行通過集成在MES中的數據中心前端開發工具來訪問和靈活定制。因此,要盡快培養工廠業務人員數據中心的應用能力,包括數據獲取以及報表定制方面的技能。筆者認為應對方法如下:一是對于崗位人員變更做好新老人員之間一傳一的交接和培訓;二是適時針對新進管理人員開展集中培訓;三是通過采用一定的考核方法。3、提高新增應用點的質量。工廠每年都會組織各部門審視第一、第二層次應用點列表,圍繞重點工序和重點管理崗位調研有哪些應用上的空白點是需要重點思考的,以新增分析應用點的方式進行申報和實施。同時針對第三層次針對性分析應用,工廠也會要求部門以新增分析應用點的方式將需要數據支撐的項目進行申報。作為一項常規性工作,工廠每年都會組織部門進行應用點的申報,并按項目管理的思想和方法實施,事先確立各個應用點的應用層次、數據獲取方式、實現平臺,并對其實施計劃進行事先的思考和分解,確定每一個階段的活動目標、時間節點以及負責人員,每個季度對實施情況予以總結,并動態更新下一階段的實施計劃。該項工作從2005年起已經連續開展了三年,部門可供挖掘的應用點越來越少,如何調動部門的積極性,保持并提高應用點的實效性,我們有必要對新增分析應用點的質量和實施情況進行考評,考評標準為:一是新增分析應用點是否能體現數據應用開展的進取性、開拓性和創新性;二是新增分析應用點是否能切實提高管理的精細化和科學化水平;三是新增分析應用點是否能采用項目管理的思想和方法實施,按時間節點完成各項預定計劃。
三、結束語。隨著近幾年來技術平臺的相繼成熟以及管理手段的逐步推進,工廠業務人員用數據說話的意識已經越來越強,但是要真正使工廠管理達到“三分技術、七分管理、十二分數據”的水平,還有很長的路要走,這既需要我們的業務人員從自身出發提高應用數據的水平和能力,同時也需要工廠從管理手段和管理方法上不斷拓寬思路、創新手段,真正實現數據分析應用成為工廠管理的重要支撐手段。
作者單位:上海卷煙廠
參考文獻:
【關鍵詞】土工實驗;實驗數據;數據分析;分析方法
一、引言
在進行實驗過程中,由于土體本身所具有的復雜性,土質質檢所存在的物理學特性以及采樣、運輸、存儲等等方面所表現出來的特點,都容易對數據造成一定程度的干擾,致使實驗的結果出現誤差。另外,因為實驗本身受到很多因素的干擾,也同樣容易發生數據偏差的問題。因此,本文著重從實驗數據所涉及的內容,影響實驗數據的因素,以及提升實驗準確率的角度出發,對土工實驗數據分析方法進行探討。
二、土工試驗數據所涉及內容
(一)土的比重實驗。土工試驗過程中,土的比重實驗是非常重要的。一般來說,地域相同或者相近,那么土的比重也將會比較相近。但是,因為在實際操作中,其整個的操作流程比較復雜,所以不同的單位會采用本地所出具的或者考察的相關數據直接進行比重實驗,這樣容易導致實驗數據的誤差存在。
(二)土的密度實驗。通過土的密度實驗可以詳細的了解土的組成,可以了解其組成成分的性質,能夠為之后的施工提供更多的參考。土的密度與土粒的重量、孔隙體積、孔隙大小、孔隙水重等等內容息息相關,能夠反映土的組成和基本結構特征。在進行實驗的過程中,要注意盡量避免對取樣即時進行實驗,最好能夠等待土樣達到日常狀態之后再進行試驗,這樣可以讓土密度實驗的結果更加準確。
(三)土的含水量實驗。土的含水量實驗可以說是土工實驗中的核心內容,其實驗的情況將會影響到工程地基建設,還會影響到后續工程的穩定性。不同地區的土樣其含水量不同,并存在很大程度上的差異性。實驗人員在進行取樣的過程中,要保證其樣品的均勻性,或者具有代表性,否則進行試驗所獲得的數據就沒有任何指導意義,其數據在實踐應用中的效率和質量也將會呈現大幅度的下降。
三、土性參數實驗結果誤差性的原因
(一)土體本身性質導致。依照相關的物理力學和力學性質,我們可以了解到土體的分層具有不均勻性,加上其所處環境的變化,可能發生的雨水沖擊、水文變化、其后影響等等語速怒,都會讓土體的性質發生改變。這樣在進行土工試驗的時候就非常容易造成實驗結果的差異性,甚至有可能會成為差異產生的主要影響因素。
(二)系統誤差。系統誤差是由于儀器的某些不完善、測量技術上受到限制或實驗方法不夠完善沒有保證正確的實驗條件等原因產生。不同的單位所使用的儀器往往不盡相同,所使用的試驗方法也有一定的出入,加上不同的試驗方法讓土工參數出現離散性,其所實驗的數據也就會有所不同。系統誤差的存在可以予以避免,其與偶然誤差不同,這就需要實驗室對設備和系統進行改進。
(三)偶然誤差。偶然誤差的特點是它的隨機性。如果實驗人員對某物理量只進行一次測量,其值可能比真值大也可能比真值小,這完全是偶然的,產生偶然誤差的原因無法控制,所以偶然誤差總是存在,通過多次測量取平均值可以減小偶然誤差,但無法消除。偶然誤差的存在屬于客觀存在的現象,其與人為原因所造成的誤差有很大的差別,對于兩者應當予以區分。
四、土工實驗數據分析方法的應用
(一)進行數據檢查,果斷進行取舍。在進行實驗的過程中,如果有明顯不符合物理力學性質的值的范圍點,則可以通過觀察予以了解,實驗人員要對其進行細致觀察,一旦發現異常立刻予以放棄。一般判斷的標準是大部分數值為范圍內波動,但是有一點超出正常值或者距離正常值較遠,則可以被認定為不合理。在實驗數據較多的情況下可以運用3σ法則進行數據之間取舍的考量。在進行實驗過程中,存在于之外數值所占比例較少,因此,大于和小于之間數值作為異常處理。
(二)土工實驗數據中最小樣本數問題。在土工試驗過程中,最小樣本數問題需要引起人們的重視。實驗中的樣本數要選取適當,如果樣本數過小就會影響實驗結果的準確性。但是,樣本數的數量并不是隨意定制的,其受到多種因素的影響,比如工程規模、工程精度要求、現場勘查情況等等。
(三)土體性質指標的自相關性的問題。根據以往數據實驗的關聯性,求的往往是其之間的線性相關系數,但是對于其自相關函數通常并沒有表現出線性相關,而是指數相關。因此,不能簡單依照求相關系數的方法判斷其相關性。在進行土工實踐過程中,往往可以通過δ對其獨立性進行判斷。在相關距離 范圍內,圖形指標基本相關;在此范圍外,圖形指標基本不相關。但是對于δ事先未知,因此其需要根據樣本測值進行求算,一般使用遞推平均法對相關距離δ進行計算,并使用間距Z對δ的影響進行綜合考量。一般來說,Z /δ的數值越大,其各抽樣點的土性越接近相互獨立,抽樣誤差也就越小。
五、結束語
土工試驗對于土工建設來說影響較大,其影響因素包括土體本身性質、取樣儀器情況、人為因素等,需要對此方面予以重視。對其不合理點來說,可以通過3 原則進行剔除。對于其數據相關性來說,其可以通過迭代求解土性指標相關距離予以解決,通過樣本的加權平均來對該區域的平均性指標進行估算。為了讓樣本能夠滿足實驗需要,可以利用Bayes方法對其土性指標與因確認,從而彌補數目不準確的情況。通過此三個方面對其進行方法的應用,則可以有效提升實驗數據的準確性、可靠性,可以讓實驗的結果更加符合實際需要。
參考文獻
[1]余海龍,張利宇. 土工實驗數據分析方法探討[J].中國新技術新產品,2015,21:132-133.
[2]劉松玉,蔡正銀. 土工測試技術發展綜述[J].土木工程學報,2012,03:151-165.
關鍵詞:大數據;分析模型;檢驗方法
中圖分類號:G712 文獻標志碼:A 文章編號:1674-9324(2017)17-0082-02
一、引言
房價大數據分析模型通過機器學習方法構建,模型建立完成后需要對模型進行檢驗,房價大數據模型需要檢驗擬合的情況,欠擬合說明模型對數據的覆蓋程度不夠,過擬合無法反應模型的通用性。通過回歸診斷,診斷殘差情況,殘差是反映真實值與假設值之間的差,希望模型殘差盡量小,假設值極大地逼近真實值。通過檢驗可以剔除奇異數,剔除一些干擾項。
二、回歸診斷
1.房價大數據分析模型。price1
Residuals:
Min 1Q Median 3Q Max
-7.5556 -2.6667 -0.2222 3.5556 8.6667
殘差最小是-7.5556,最大是8.6667,中值是-0.2222。估計的值與真實值存在一定的誤差,通過求極值算法使之最小。
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1
Residual standard error: 5.837 on 6 degrees of freedom
Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932
F-statistic:582.3 on 2 and 6 DF, p-value: 1.346e-07
2.模型參數。采用最小二乘法算法,經過機器學習,訓練出模型參數,構成房價大數據分析模型:房價大數據分析模型為y=aX1+bX2+C,其中:X1=size(面積),X2=room(間數),y(總價)。經過機器學習得到模型以下參數:Size=1.5111;Room=15.7778;截距=
43.7778;y=1.5111*X1+15.7778*X2+43.7778,此函數為房價大數據分析模型。
3.顯著性檢驗。
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.7778 5.7061 7.672 0.000256 ***
size 1.5111 0.2461 6.140 0.000855 ***
room 15.7778 10.7282 1.471 0.191782
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’‘ ’ 1
殘差自由度為6的殘差標準誤差為5.837,p-value:1.346e-07,P值很小說明無自相關性,殘差項之間獨立。自變量與應變量相關性,截距和size顯著性均為三顆星***,說明截距和size與Y相關性顯著;room沒有星,說明room與Y房價相關性不顯著。
4.擬合情況分析。
通過數據可視化,觀察房價大數據散點圖,可以看出房價大數據訓練樣本呈直線分布。可以用線性回歸進行房價大數據分析模型的構建。
通過殘差與擬合圖,觀察和分析模型對訓練數據集擬合程度,從上圖擬合線(紅線)對數據的擬合情況看,基本上擬合了大多數數據。沒有發生欠擬合或過擬合。Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932,從這兩個數據可以看出擬合達到99%以上,擬合程度很高。
5.假設性檢驗。從正態Q-Q圖上可以看出,數據分布在45°直線周圍,標準殘差成正態分布,滿足正態性假設。
6.方差檢驗。同方差性,若滿足不變方差假設,位置―尺度圖縱坐標為標準化殘差的平方根,殘差越大,點的位置越高。從圖中可以看出經過對殘差處理為標準化殘差的平方根,擬合的總體趨勢還可以,個別點可以看出遠離擬合線如“點5”、“點7”,奇異點已經顯露。
7.奇異數檢驗。從殘差與杠桿圖中可以看出離群點和影響強度。Cook's distance值衡量強影響點的強度,從圖中可以看出“點7”這個點Cook's distance值超過0.5是所有數據中Cook's distance值最高的數據,它是目前的強影響點。杠桿值高的數據是離群點,目前“點4”杠桿值也較高,它也是離群點。