基于機器學習算法的樟子松立木材積預測

所屬分類：電子論文閱讀次時間：2021-12-20 11:07

本文摘要：摘要：【目的】通過非線性和多種機器學習算法構建并對比不同的立木材積模型，為樟子松立木材積的精準預測提供理論依據。【方法】以大興安嶺圖強林業局184株樟子松伐倒木數據為例，建立非線性二元材積模型(NLR)，并通過K折交叉檢驗和oob誤差檢驗的方法得到三種最優機器

　　摘要：【目的】通過非線性和多種機器學習算法構建并對比不同的立木材積模型，為樟子松立木材積的精準預測提供理論依據。【方法】以大興安嶺圖強林業局184株樟子松伐倒木數據為例，建立非線性二元材積模型(NLR)，并通過K折交叉檢驗和oob誤差檢驗的方法得到三種最優機器學習算法，包括：反向傳播神經網絡(BP)、ε-支持向量回歸(ε-SVR)和隨機森林(RF)。對比分析不同模型間的差異，得到最優立木材積模型。【結果】研究表明，機器學習算法在立木材積的擬合和預測中均優于傳統二元材積模型，具體排序為RF>BP>ε-SVR>NLR。其中RF相比于傳統模型的確定系數(R2)提高了2.00%，均方根誤差(RMSE)、相對均方根誤差(RMSE%)、平均絕對誤差(MAE)分別降低了22.95%、22.93%、36.34%，且與真實值相比平均相對誤差(MRB)的絕對值更低，由此證明了RF在立木材積預測中的優越性。【結論】機器學習算法作為一種新興的建模方法可以有效地提高立木材積的預測精度，為森林資源的精準調查和經營管理提供新的解決方案。

　　關鍵詞：樟子松;二元材積模型;BP神經網絡;ε-支持向量回歸;隨機森林

機器學習

　　立木材積是森林資源調查的重要指標，也是是計算森林蓄積量和生物量的主要依據[1-4]。因此，在森林經營管理中，為更好的評經濟效益和生態效益，立木材積的研究一直以來都被受關注。傳統立木材積的計算通常利用已知的一元或多元立木材積表，或通過擬圓錐法、質心法、重要性采樣法等進行估測[5-6]。隨著人們對森林資源調查的不斷深入，針對不同地區不同樹種相繼建立了不同類型的材積模型[7-8]。

　　但森林生長是一個復雜連續且具有隨機性的非線性生長過程，通過擬合立木材積模型雖然能填補材積預測的空白，卻受制于模型和變量的選擇以及對模型先驗知識的累積，且預測精度受區域變化影響較大，增加了森林資源調查和經營管理的難度。機器學習算法理論始于20世紀中葉，相比于傳統模型，機器學習算法可以在沒有先驗知識的前提下對數據進行擬合，分析數據中不同變量之間復雜、動態的內部結構[9]，而且機器學習算法的適用性更廣，應用更加方便。能很好的克服數據中可能存在的缺失點、噪音、多重共線性和異方差等現象[10]，在生物遺傳、信息技術和金融工程等領域已被廣泛應用。近年來隨著統計軟件技術的發展，機器學習算法在林業上也得到了一定的應用。

　　Guan等[11]通過胸徑及其年增長量建立4種人工神經網絡模型，成功的對紅松的生存率進行了預測;Maria[12]通過人工神經網絡模型估算樹皮材積，發現相比于非線性模型的RMSE降低了6.02%;Diamantopoulou等[13]通過對比分析不同的非線性模型和ε-支持向量機回歸模型對4種黑凱木樹皮材積的預測，得出ε-支持向量機回歸模型的FI值分別比3種非線性模型降低了3.32%、9.73%和12.23%，且與真實值更接近。Colin等[14]結合LiDAR數據建立多個模型對森林生物量進行估算，結果表明支持向量機回歸為最優模型。目前，已有部分機器學習算法應用于立木材積中[15-19]，但鮮有對不同類型算法同時進行對比和分析的研究。

　　本文以大興安嶺樟子松(Pinussylvestrisvar.mongolica)為研究對象，利用matlab2019b建立3種目前應用較為廣泛的機器學習算法：反向神經網絡模型(BackPropagation，BP)、ε-支持向量機回歸模型(ε-SupportVectorRegression，ε-SVR)和隨機森林模型(RandomForest，RF)，并與傳統二元材積模型作對比，評價最優模型，為提高樟子松的立木材積預測精度和科學經營提供理論依據。

　　1數據和方法

　　1.1數據來源

　　本文數據來源于大興安嶺圖強林業局(122°18′28″~123°28′10″E，52°15′35″~53°33′42″N)的樟子松數據。將樹木伐倒后測量其帶皮胸徑、樹高，并用15個相對樹高的帶皮直徑(0%、2%、4%、6%、8%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%)，利用區分求積法計算樟子松帶皮立木材積。

　　通過散點圖排除異常點后得到184株樣木，以5cm為一個徑級分為10個徑階，按7:3分徑階隨機抽樣。最終得到訓練樣本129株、測試樣本55株。為消除不同量級的變量對模型權重的影響，避免數值范圍超出算法的訓練區間，同時加快網絡的收斂速度。建模前對樣本數據進行min-max標準歸一化處理，使其統一介于[0,1]之間。得到的泛化結果通過反歸一化還原，并與真實值對比和評價。

　　1.2方法

　　1.2.1二元材積模型

　　傳統立木材積方程包括一元、多元線性和非線性模型，本文采用林業上應用較為廣泛的二元非線性模型(Non-linearregressionmodels，NLR)作為立木材積公式[20-21]。

　　1.2.2反向神經網絡模型(BackPropagation，BP)

　　BP是由輸入層、隱含層和輸出層組成的反向傳播網絡模型，不同層通過神經元相互連接，但相同層神經元互不相連。通過激活函數將上一層的輸入轉化為下一層的輸出，如輸出結果超出期望誤差，則通過誤差逆向傳播算法修正各神經元函數的權值和閾值，并不斷重復上述過程以達到降低誤差的目的[22]。經研究表明，三層BP神經網絡即可擬合任何非線性曲線。本文以胸徑D、樹高H作為輸入節點，材積V作為輸出節點，建立結構為2:S:1的三層神經網絡模型。其中隱含層激活函數選用tansig，輸出層激活函數選用purelin函數。

　　利用經驗公式Sabc(式中為隱含層神經元個數，分別為輸入層和輸出層節點數，為1到10之間的整數)可得隱含層神經元個數在3~12之間。通過適當更改隱含層訓練算法和神經元個數可以有效的提高網絡擬合的速度和精度[23]，并用提前結束訓練的方法防止模型過擬合。

　　本文選用目前較為常用的幾種訓練算法，包括梯度下降算法：變學習率動量梯度下降算法(GDX)、變學習率梯度下降算法(GDA)、彈性梯度下降算法(RP);共軛梯度算法：PowellBeale共軛梯度算法(CGB)、Fletcher-Reeves共軛梯度法(CGF)、Polak-Ribiere共軛梯度法(CGP)、Scaled共軛梯度算法(SCG);擬牛頓及其他優化算法：擬牛頓算法(BFG)、一步正割算法(OSS)、Levenberg-Marquardt算法(LM)。

　　1.2.3ε-支持向量回歸模型

　　(ε-SupportVectorRegression，ε-SVR)ε-SVR是一種基于結構風險最小化原理的超平面模型。通過核函數將低維空間中難以區分的向量通過非線性變換映射至高維空間中使其線性可分，借助懲罰因子C和核參數gamma降低數據與超平面之間的殘差，以達到提高模型精度的目的[17]。

　　因此改變核函數類型以及C、gamma參數可以有效降低誤差，得到最優ε-SVR模型。常用的核函數方法包括線性核函數(Line)、多項式核函數(Polynomial)、徑向基核函數(RBF)等。其中C、gamma參數通常選用網格搜尋法，即設定兩個參數的范圍，按一定步長進行組合建模。但是這種方法費時費力且精度不高，因此本文選用遺傳算法(GeneticAlgorithm，GA)進行參數尋優。

　　GA是一種通過模擬物種進化過程研發的一種全局搜索優化算法。通過生成一個初始群體并對數據進行編碼、選擇、雜交、變異，不斷生成新的組合，計算每個組合的適應度，通過“優勝劣汰”的方法不斷篩選最優個體，并以適應度達到最大時的結果作為最優參數，并以K折交叉檢驗對參數的解釋能力進行評估。綜上所述，GA是一種通用性很強的參數尋優方法，在機器學習中也有著廣泛的應用[24]。

　　1.2.4隨機森林回歸模型(RandomForest，RF)

　　RF是一種基于bagging回歸的集成學習算法。通過對樣本數據進行隨機且有放回重復采樣得到多個樣本組合，并通過節點分裂和隨機特征變量的隨機抽取形成多個決策樹形成“森林”，對每個決策樹得到的結果進行加權平均，作為樣本的回歸結果[25]。由于每次采樣中總有大約三分之一的樣本未被選用，它們被稱為袋外數據(out-of-bag，oob)。

　　因此可利用這部分數據計算袋外錯誤率(out-of-bagerror)代替交叉檢驗作為驗證模型泛化能力的標準，使得隨機森林可以有效的避免過擬合現象[26]。本文通過控制變量的方法對決策樹個數(ntree)、最小葉子大小(minleaf)、隨機抽取變量個數(mtry)3個參數進行尋優，以得到最優的RF模型。其他參數均選用軟件默認設置。

　　1.3模型評價與檢驗指標

　　本文選用確定系數(R2)、平均絕對誤差(MAE)、均方根誤差(RMSE)、相對均方根誤差(RMSE%)評價模型擬合和預測的能力，并通過平均相對誤差(MRB)檢驗模型預測偏差的大小。為評價模型的無偏估計能力，選用z檢驗判斷模型泛化結果與真實值是否存在顯著差異[19]。

　　2結果與分析

　　2.1NLR模型

　　通過最小二乘法得到3個參數分別為503.706010、11.5126、21.5662。最終二元材積表達式為51.51261.5662VDH3.706010。

　　2.2BP模型

　　通過胸徑D、樹高H和材積V建立三層BP模型，采用10折交叉檢驗的方法對訓練樣本分別進行算法優選和神經元參數尋優。為保證不同算法在統一標準下對比分析，模型的其他參數統一設置如下：隱含層神經元個數為8、最大訓練次數為2000、訓練目標誤差為0.00001、學習速率為0.05、動量為0.9，其余參數均采用軟件默認數值，并采取提前終止的辦法防止模型過擬合。

　　可以看出在3種梯度下降算法中RP算法的4個評價指標均明顯由于其他兩種。通過比較可以看出4種共軛梯度算法的精度總體差距不大，其中CGF算法的R2略高于其他三者，但在RMSE、RMSE%、MAE的表現不如CGB算法，擬合誤差相對較大。

　　在其他三種優化算法中LM算法無論在擬合優度和誤差檢驗均為最佳，相比于其他算法R2提高1.13%~5.26%，RMSE降低13.12%~39.81%，RMSE%降低17.41%~42.46%，MAE降低14.97%~45.94%。因此將LM算法作為BP模型的訓練算法。根據經驗公式計算可得隱含層神經元個數在3~12之間，通過試錯法依次建模比較，在隱含層神經元個數為7時模型R2最高且RMSE最低。綜上所述，最優BP模型為LM-DH-7-V。

　　2.3ε-SVR模型

　　ε-SVR通過核函數將數據映射至高維空間中，尋找樣本期望風險最小的最優超平面實現線性回歸。本文采用遺傳算法對三種常見的核函數：線性核函數(Line)、多項式核函數(Polynomial)、徑向基核函數(RBF)進行參數尋優，具體參數設置如下：最大進化數為200，種群進化數量為20、變異值為0.9、不敏感損失參數p=0.01、懲罰因子C搜索范圍(0，30)、核參數gamma搜索范圍(0，10)，并通過10折交叉檢驗得到3組最優的模型參數。

　　可以看出精度最高的核函數是RBF，其次是Polynomial和Line核函數。相比于前兩者R2分別提高1.8%和11.11%，RMSE降低21.46%和52.82%，RMSE%降低21.44%和52.83%，MAE降低31.69%和59.02%，由此可見RBF不僅可以提高擬合能力，更能很好的降低誤差，故選用RBF作為ε-SVR模型的核函數并建立模型。

　　2.4RF模型

　　RF是通過構建多個決策樹(ntree)隨機選取不同的變量(mtry)，并以每個決策樹最小葉子節點(minleaf)均值作為模型最后回歸的結果，因此參數的大小直接影響模型擬合的精度。經研究發現，模型誤差大小隨ntree增加而逐漸減少至某一定值后，便不再發生變化。因此為確保模型充分訓練，預設ntree個數為2000。采用控制變量的方法測定最優minleaf的數量，在默認mtry值下對比minleaf為1、3、5、10、20時的oob誤差值。可以看出隨著minleaf值逐漸減小，模型的誤差也逐漸減小，因此得出最優的minleaf值為1。

　　當ntree大于100后，oob誤差基本不再下降，意味著在建立100顆決策樹后模型已完成了訓練。為縮短訓練時間，提高模型運行的效率，故將ntree的值調整為100。由于模型的輸入變量只有2個，故mtry的取值范圍為[1,2]，調整參數后對不同mtry值重新建立模型，兩條誤差曲線隨著ntree的提高最終重疊在一起，說明改變mtry值不會對模型誤差產生影響。但是在擬合過程中可以看出，當mtry=2時模型收斂速度明顯優于mtry=1，故mtry值設置為2。

　　2.5模型評價與檢驗

　　選用最優參數對訓練樣本建模，并用測試樣本驗證模型的預測能力。機器學習算法無論在擬合和預測中均明顯優于傳統的二元材積模型，且機器學習算法中訓練樣本與測試樣本的精度差異不大，證明模型并未發生過擬合現象。通過訓練樣本得到的擬合評價結果可以看出，4種模型的R2均高于0.96，且RMSE均低于0.12m3，說明模型都具備較好的擬合能力。其中RF模型表現最好，相比于NLR、BP、ε-SVR，R2分別提高3.43%、2.05%、2.45%，RMSE降低67.30%、59.40%、62.31%，RMSE%降低67.29%、59.38%、62.28%，MAE降低71.48%、60.96%、59.52%。

　　通過計算MRB可以看出，所有模型的擬合結果均略高于真實值，其中RF模型的偏差最小。對4種模型的擬合評價作對比，除在MAE中ε-SVR略優于BP模型，其余檢驗均滿足RF>BP>ε-SVR>NLR。根據已建立的模型對對測試樣本預測，可以看出4種模型都有較好的預測能力，R2均高于0.95，RMSE均低于0.12，且與擬合結果同樣具有RF>BP>ε-SVR>NLR的模型精度次序。相比于其余三者，RF的R2分別提高2.00%、0.98%、1.23%，RMSE降低22.95%、13.49%、16.15%，RMSE%降低22.93%、15.53%、19.19%，MAE降低36.34%、22.10%、22.31%。

　　NLR與BP的預測結果略高于真實值，ε-SVR與RF的預測結果略低于真實值，通過比較MRB絕對值可知二元材積模型的預測偏差最大，RF模型偏差最小。為客觀評價模型的無偏估計能力，故對模型的擬合和預測結果進行置信度為95%的z檢驗，以驗證泛化結果與真實值的分布是否一致。可以看出4種模型的p值均遠大于0.05，故接受H0保留原假設，即結果與真實值不存在顯著差異。綜上所述，RF為最優的大興安嶺樟子松立木材積預測模型。

　　3結論與討論

　　本文利用大興安嶺184株樟子松單木材積數據建立傳統二元材積模型，并與3種常見的機器學習算法進行對比。研究結果表明，機器學習算法可以更好的預測大興安嶺樟子松材積。通過對測試樣本的預測結果對比分析中可以看出，預測精度大小排序為RF>BP>ε-SVR>NLR。其中，RF模型的預測精度最高，相比于傳統模型，RF的R2提高2.00%、RMSE降低22.95%、RMSE%降低22.93%、MAE降低36.34%，且與真實值相比偏差更低。

　　通過減少訓練樣本后重新建模，RF模型精度仍高于傳統模型，由此可以看出RF模型在樟子松立木材積預測中的優越性。其余2種機器學習算法中，BP雖略優于ε-SVR但與RF模型仍有較大差距。這是因為BP模型所選用的LM算法與ε-SVR更適用于中小樣本[27-28]，而建模所選用的樣本數量相對較大，此時RF模型在大樣本中的適應性優勢才被凸顯出來。但RF模型同樣存在一定的缺點，在處理噪聲較大或小樣本中易發生過擬合現象[9]，因此在面對此類問題時應先對數據做預處理，避免對模型精度造成影響。

　　與機器學習算法相比，傳統模型雖然可以通過建立回歸方程的方式清晰地表達不同變量間相互影響的關系，但通常需要滿足很多檢驗條件作為假設前提，例如正態性檢驗、獨立性檢驗、異方差檢驗等，因此不能同時解釋復雜的森林生長因子，且不容易對含有噪聲的大尺度數據進行擬合，隨著近年來科學技術的發展，機器學習算法的出現很好地解決了傳統模型的問題。

　　在其他立木材積的研究中也證明了本研究的結果。Diamantopoulou等[15]和Bhering等[19]發現不同神經網絡模型估算立木材積的精度均高于傳統的線性或非線性模型，Mushar等[18]在對比不同的機器學習算法與傳統模型后發現神經網絡模型的精度在分類樹種材積比較中精度最高，而在全部類型樹種材積比較中支持向量機最高。

　　Wu等[17]運用LiDAR數據對立木材積進行估算，得出3中機器學習模型精度均高于傳統模型的結論，其中支持向量機精度高于隨機森林，這與本文研究結論略有差異。雖然機器學習算法目前仍存在一些問題，比如參數尋優沒有統一的標準、無法掌握數據在黑箱中運行的過程、易產生過擬合現象[11,29]等，但關于機器學習算法的研究還有廣闊的進步空間。總而言之，機器學習算法作為一種新興的建模方法，在大興安嶺樟子松立木材積的預測中相比于傳統的二元材積模型有著明顯的優勢，在森林經營管理中是一種有效的替代方案。

　　參考文獻

　　[1]MaoP,QinLJ,HaoMY,etal.Animprovedapproachtoestimateabove-groundvolumeandbiomassofdesertshrubcommunitiesbasedonUAVRGBimages[J].EcologicalIndicators,125.DOI:10.1016/j.ecolind.2021.107494.

　　[2]MuukkonenP.GeneralizedallometricvolumeandbiomassequationsforsometreespeciesinEurope[J].EuropeanJournalofForestResearch,2007,126(2).DOI:10.1007/s10342-007-0168-4.

　　[3]廖祖輝.福建桉樹人工林材積表和蓄積量表編制的研究[J].福建林業科技,2005(02):17-20.LiaoZH.StudiesoftheVolumeTableandStockingTableCompilationsofEucalyptusPlantations[J].JourofFujianForestrySciandTech,2005(02):17-20.DOI:10.13428/j.cnki.fjlk.2005.02.005.

　　作者：孫銘辰，姜立春