本文摘要:摘要智慧氣象和精準農業結合下的現代農業氣象工作意味著對包含遙感影像在內的大型農業和氣象數據高時效性的分析與處理,機器學習技術是當代自然科學研究和技術發展的主流技術,亦是現代農業氣象科研和業務發展的重要工具。該文系統論述了機器學習技術的主要
摘要智慧氣象和精準農業結合下的現代農業氣象工作意味著對包含遙感影像在內的大型農業和氣象數據高時效性的分析與處理,機器學習技術是當代自然科學研究和技術發展的主流技術,亦是現代農業氣象科研和業務發展的重要工具。該文系統論述了機器學習技術的主要方法及其在現代農業氣象中的主要應用方向,比較了不同方法在農業氣象不同領域應用的情況,側重介紹了基于深度學習技術的成果和近年來的最新研究進展。傳統淺層機器學習技術中,以支持向量機和人工神經網絡應用最為廣泛且效果最為理想。近年來,隨機森林和梯度提升機等決策樹集成方法普遍取得優于核方法的精度,深度學習技術則在某些任務中取得更優于集成學習的精度。未來,有待檢驗機器學習技術特別是深度學習技術在更多農業氣象問題上的適用性和先進性,更好地迎接現代農業氣象發展的新挑戰與新機遇。
關鍵詞:機器學習;深度學習;農業氣象;農業遙感
引言
農業在全球經濟中發揮著基礎性且至關重要的作用,國家和地區農業生產力高低直接影響其工業化程度與經濟水平,落后的農業技術會帶來饑餓、貧窮與社會發展的滯后[1]。到2050年,全球將新增20億左右人口[2],加之氣候變化對農業生產的影響[3],使得消除饑餓和保障糧食安全成為當今世界可持續發展的重要議題[4],農業技術的進步可有力應對該挑戰[5]。精準農業被列為農業領域的十大發展之一[6],其特點是應用密集的數據———以遙感技術[7]和無線傳感器技術[8]為主要手段采集信息并進行時空處理,提高農業生產效率、作物產量和環境質量。農業氣象學是研究農業生產與氣象條件之間相互關系及其規律的科學,以促進農業生產為主旨,圍繞現代氣象與現代農業的智慧化進程也在不斷進行著自身的科學創新,智慧氣象和精準農業結合下的現代農業氣象工作意味著對納入遙感可視化數據在內的大型農業和氣象數據高時效性的分析與處理[9],機器學習(machinelearning,ML)技術對其發展有很大的助力。
農業論文投稿刊物:《現代農業科學》本刊內容分為三部分,第一部分是農業科學,相關欄目設置有:畜牧獸醫、生物技術、資源與環境、園林科學、食品加工、水產養殖、植物保護、生態農業;第二部分是農業教育教學,相關欄目設置有:教育教學管理、教育發展研究、高校領導論壇、比較教育、學生工作;第三部分是三農問題研究。
ML是圖像處理和大數據分析不可或缺的技術,廣泛應用于醫學、藥學、經濟學、生物學、水文學、農業氣象學等諸多科學領域[1013]。深度學習(deeplearning,DL)和淺層學習中的梯度提升機(gradientboostingmachine,GBM)是當前最受矚目的兩項ML技術,其中DL結構中最著名的卷積神經網絡(convolutionneuralnetwork,CNN)自2012年起已成為計算機視覺任務的首選解決方案[14]。現代農業氣象研究不僅涉及大量氣象數據、土壤數據、作物觀測數據,也涉及到農業遙感中采集自地面、無人機、衛星的海量影像數據,DL技術的特點及其在機器視覺領域的優勢使其在現代農業氣象工作中具有很大的應用潛力[15]。本文對ML技術的主要方法及其在現代農業氣象中尤其是涉及農業遙感的應用進行系統性介紹。由于所涉及的文獻眾多,側重列舉代表性文獻,對其研究成果進行概要介紹,且重點列舉出DL技術的應用實例,旨在推動ML技術特別是DL技術在現代農業氣象科研與業務中的深入應用。
1ML技術概述
ML技術蓬勃發展于20世紀90年代,是人工智能(artificialintelligence,AI)中最受歡迎和最成功的子領域。ArthurSamuel將ML定義為一門不需要通過外部程序指令而讓計算機具有自我學習能力的學科。在傳統編程中,人類輸入規則和需要規則處理的數據,計算機輸出答案;而在ML技術中,人類輸入數據和期望從數據中得到的答案,計算機通過訓練找到數據和答案間的統計結構、輸出規則,并將這些規則應用于該任務的新數據進而生成答案[14]。
ML技術與經典統計分析的一項重要區別是ML技術傾向于處理大型、復雜的數據集,以及沒有已知算法可解決的問題。將ML技術用于大數據挖掘可以適應新的數據,發現數據中隱含的模式,減少人工分析工作量,更好地處理解并解決傳統方法難以應對的復雜問題[16]。ML技術是一個日益龐大的家族,其包含的眾多算法與模型可根據不同標準進行歸類。其中一種廣泛使用的分類方法是根據訓練過程中得到的監督的數量和類型,將其分為監督學習、非監督學習、半監督學習和強化學習[16]。
在監督學習中,需要人工為訓練數據加標簽(即明確的屬性標識),其代表性方法包括線性回歸(linearregression)、邏輯回歸(logisticregression)、樸素貝葉斯(navebayes)、高斯判別(gaussiandiscriminantanalysis,GDA)、支持向量機(supportvectormachine,SVM)、神經網絡(neuralnetwork,NN)、K最鄰近法(KNearestneighbor,KNN)、決策樹(decisiontrees,DTs)、隨機森林(randomforest,RF)和梯度提升機等;在非監督學習中,訓練數據則不加標簽,其主要方法包括以期望最大化算法(expectationmaximization)、分層聚類分析(hierarchicalclusteranalysis,HCA)、K均值法(Kmeans)為代表的聚類方法,以主成分分析(principalcomponentanalysis,PCA)和局部線性嵌入算法(locallylinearembedding,LLE)為代表的降維算法,以及Apriori,FPGrowth,Eclat等關聯規則學習算法;在半監督學習中,僅需為少量訓練數據加標簽,或為訓練數據加不確定性標簽,其重要方法包括拉普拉斯支持向量機(laplacianSVM)、協同過濾算法(collaborativefiltering),以及貝葉斯網絡(bayesiannetwork)、馬爾科夫隨機場(markovrandomfiled)等概率圖模型;在強化學習中,不需要預先給定訓練數據,而是通過接收環境對動作的反饋獲得學習信息,代表性算法包括策略梯度(policygradient,PG)、Q學習(Qlearning)、深度Q網絡(deepQnetwork)、Sarsa算法等[1720]。
DL技術是ML技術的一個子領域,代表著一類思想,即以多層結構從數據中學習表示(representation),其結構通常包含數十個乃至上百個連續的表示層。DL技術起源于神經網絡,在神經網絡基礎上增加了層級,可自動提取復雜特征,近年來,DL技術以其更高精度和更優性能,在諸多應用領域已經取代了以往支持向量機和集成學習的領先地位[14]。
DL技術較經典ML技術的優勢主要體現在以下幾方面:①DL技術完全自動化了淺層ML技術的關鍵步驟———特征工程,對使用者更為簡單、友好;②DL技術具有深層非線性網絡結構,采用遞增的、逐層的方式開發愈加復雜的特征,具有更強的學習能力,有助于解決淺層ML技術難以解決的復雜問題,并可進行遷移學習;③DL技術可以一次性學習所有特征,并持續在線學習,具有實時運算能力[2123]。DL的基本模型包括卷積神經網絡、深度信念網絡(deepbeliefnetwork,DBN)、循環神經網絡(reccurentneuralnetwork,RNN)、深度自動編碼器(deepautoencoder,DA)、遞歸神經網絡(recursiveneuralnetwork,RNN)等。
2ML技術在農業氣象工作中的應用
2.1制圖與區劃
土地覆蓋與作物類型圖是農業氣象工作的重要基礎數據之一。過去的十幾年中,隨著遙感數據時空分辨率不斷提高,以及大量豐富的免費數據源向公眾開放,將遙感影像用于土地覆蓋與作物類型分類制圖方面的研究呈指數增長,ML技術中多種經典算法、模型已成功應用于該類任務[2426],根據Yu等[27]的統計,最大似然分類法使用頻率最高,相關文獻中應用比例達32.34%,最大似然分類法和K最鄰近法、K均值法等也是文獻中平均精度較低的方法,分類精度較高的方法則是集成分類器、人工神經網絡和支持向量機。
Khatami等[28]進一步統計分析了既往研究,指出傳統監督分類方法中支持向量機平均精度最高,緊隨其后的是人工神經網絡,且當影像空間分辨率和光譜分辨率提高時,支持向量機表現出較人工神經網絡更大的優勢。此外,ML技術在作物管理區的劃分方面已有成功應用的例子,Pantazi等[29]利用K均值法和自組織映射結合遙感數據、土壤參數和產量數據進行了作物管理分區,進一步看,農業氣候區劃(如農作物品質氣候區劃)、農業氣象災害風險區劃、農業保險風險區劃[3031]等是農業氣象工作的重要任務,有待有針對性地將ML技術應用于區劃工作。近年來,最受歡迎和最具效率的多源多時相遙感影像土地覆蓋與作物制圖方法是集成學習和DL技術[32]。
針對復雜地區的分類問題,集成學習的經典算法隨機森林的分類精度明顯優于傳統的決策樹[33],DL結構中的卷積神經網絡、深度自動編碼器、深度信念網絡、循環神經網絡等均被用于探索該類任務[3438]。Minh等[39]利用兩種循環神經網絡結構結合星載合成孔徑雷達(syntheticapertureradar,SAR)影像制作了冬季植被質量分類圖,制圖精度優于支持向量機和隨機森林。Yang等[40]研究表明:DL技術用于土地覆蓋分類的精度高于支持向量機等淺層學習模型,且DL技術無需人工設計分類特征,并可在分類中使用遷移學習。Kussul等[32]將卷積神經網絡用于作物制圖的精度與隨機森林和一種集成的多層感知器(multilayerperceptrons,MLPs)方法對比,結果表明卷積神經網絡精度最高。
2.2檢測與觀測
雜草檢測是地基農業遙感的一項重要任務,有研究認為雜草是對農作物生產最大的威脅,ML技術和田間傳感器結合可以精確檢測田間雜草,進而應用于農業工具和農業機器人的除草作業,最大程度減少除草劑的使用[41]。Cho等[42]使用電荷耦合元件(chargecoupleddevice,CCD)相機和人工神經網絡組成的機器視覺系統識別了雜草與蘿卜。Karimi等[43]將支持向量機用于玉米田雜草和氮素脅迫檢測,取得比人工神經網絡更高的精度。Binch等[44]的對比研究表明:在經典ML技術中,支持向量機取得最優的雜草檢測效果。近年來的研究表明:DL技術可有效從圖像中自動提取特征,在目標識別中取得優于支持向量機的精度[4547]。
王璨等[48]應用卷積神經網絡準確識別了幼苗期玉米與雜草。Dyrmann等[49]應用卷積神經網絡在農田影像中識別了22種雜草與作物物種,并在后續研究中將全卷積神經網絡應用于存在嚴重葉片遮擋的情況下,從谷物田中成功識別單株雜草[50]。除雜草檢測,張雪芬等[51]利用支持向量機結合CCD影像實現了作物發育期的圖像自動識別,余衛東等[52]在對中國農業氣象自動化觀測的展望中提及計算機視覺技術的應用,ML技術在今后的農業氣象自動化觀測中有待發揮更重要的作用。
DL技術可以從高維海量數據中強有力提取復雜的結構信息[21],近年來在植株表型觀測、病蟲害檢測、農田障礙檢測、果實檢測等任務中得到成功應用[5355],可極大提升農業氣象自動化觀測水平。Christiansen等[56]對比了DL技術和經典ML技術在農田障礙和異常檢測中的應用效果,結果顯示DL技術具有最高精度和最快運算速度。Yalcin等[57]利用卷積神經網絡自動提取圖像特征,識別農業植被的物候期,精度優于基于手工設計特征的經典ML技術。Jin等[58]應用更快速的區域卷積神經網絡和區域生長法從Lidar3D點云中分割單株玉米,可準確測量植株高度。
Ubbens等[59]開發了可用于葉片計數等植物表型任務的DL平臺。Xiong等[60]開發了基于卷積神經網絡的圖像分割軟件用于水稻穗部分割,可實現水稻表型自動化測量,段凌鳳等[61]和張領先等[62]開展了類似研究。Baweja等[63]使用CCD相機和卷積神經網絡組成的機器視覺系統自動計算莖稈數并測量莖寬。黃雙萍等[64]利用卷積神經網絡和穗株高光譜圖像提取不同尺度穗瘟病斑分布式特征,實現水稻穗瘟病害的精準檢測。Mohanty等[65]通過遷移學習和重新訓練兩種方式訓練卷積神經網絡,有效識別14種作物物種和26種作物病害,孫俊等[66]開展了類似工作。Rahnemoonfar等[67]提出一種DL結構用于果實計數,即使水果處于陰影下,或被樹葉、樹枝遮擋,或水果之間存在一定程度的重疊,也能有效計數。薛月菊等[68]利用DL技術中的YOLOv2網絡檢測未成熟芒果,表明該方法在復雜場景下的檢測精度優于更快速的區域卷積神經網絡。
2.3產量預測
在健康的生態系統下以最低成本取得最大作物產量是農業生產最重要的目標之一[69]。作物產量預測是農業氣象工作中的一項重要任務,關系到糧食安全、種植結構調整、作物管理、農業保險等,提高預測的準確性有助于增加作物產量和商業利潤。經典統計方法難以準確預測作物產量的非線性時空變化,當前更有效的產量預測方法包括作物生長模擬和ML技術[70]。作物生長模型將作物生長階段的動態機制以數學模型抽象表達[71],建模過程耗時且昂貴,其運行所需參數集在發展中國家尤難獲取。另一方面的研究中,經典ML技術與遙感數據、氣象數據、土壤數據等結合實現了不同尺度下不同作物產量的準確預測[7273],并有學者對比不同方法的預測能力。
Fortin等[74]研究表明:在馬鈴薯產量預測中,多層感知器預測效果優于多元線性回歸。Ruβ[75]對比了多層感知器、回歸樹、徑向基核函數網絡和支持向量回歸用于冬小麥產量預測的精度,表明支持向量回歸預測結果最準確。González等[70]對比了多元線性回歸、M5Prime回歸樹、人工神經網絡、K最鄰近法和支持向量回歸對大規模種植的多種作物產量的預測能力,結果顯示:M5Prime回歸樹表現最優,作者同時指出變量和屬性的選取直接影響不同算法、模型的預測精度,這是其研究與前人研究結論存在差異的主要原因。與產量預測緊密相關的農業氣象災害風險評估是農業氣象學領域中研究的熱點[7680],較之傳統技術手段,ML技術對此有很大的應用潛力,目前已有研究將ML技術用于農業氣象災害遙感監測與產量影響評估,如Park等[81]利用隨機森林等ML技術與多源遙感數據結合,對農業干旱進行監測評估。
2.4參數估算
農業氣象研究相關的水文、土壤、作物參數通過站點觀測無法取得其連續準確的空間分布情況,且某些參數測量難度大、費用昂貴。ML技術與氣象數據、遙感數據等相結合,可簡單、高效地實現參數估算,且使對其時空連續性監測與預報成為可能。農業氣象工作關注的熱點參數包括蒸散、土壤濕度、土壤溫度、氮素含量、葉面積指數、生物量等。準確估算蒸散對農業灌溉水資源時空優化配置至關重要,同時該參數測量難度較大。Yang等[87]利用支持向量機結合通量觀測數據與MODIS遙感數據實現了大尺度蒸散的時空變化預測。
Jung等[88]使用一種模型樹集成的ML技術集成站點觀測蒸散與遙感數據和氣象數據,估算全球尺度的多年蒸散。Patil等[89]將ML技術與氣象數據結合估算參考蒸散,表明單層前饋神經網絡中的極限學習機(extremelearningmachine,ELM)和最小二乘支持向量機估算精度高于經驗模型。Mehdizadeh等[90]利用支持向量機、基因表達式編程、多元自適應回歸樣條與氣象觀測資料結合估算干旱與半干旱地區的月平均參考蒸散,顯示支持向量機和多元自適應回歸樣條效果最好。
3小結
本文系統概述了ML技術的主要方法及其在現代農業氣象中的主要應用方向,有針對性且全面涵蓋了現代農業氣象中特別是涉及農業遙感的ML技術的研究及應用情況,并納入近年來最新的研究進展。本文將ML技術在農業氣象工作中的主要應用歸納為4個方面:制圖與區劃、檢測與觀測、產量預測和參數估算。在制圖與區劃方面,ML技術與遙感影像結合實現了不同尺度的土地覆蓋與作物類型制圖,亦已結合遙感數據、土壤數據、統計數據用于作物長勢、植被質量等專題圖的制作與作物管理區劃分;在檢測與觀測方面,ML技術成功用于田間影像中的雜草檢測,DL技術在植株表型觀測、病蟲害檢測、農田障礙檢測、果實檢測等方面,取得了理想精度,可極大提升農業氣象自動化觀測水平。
在產量預測方面,ML技術與遙感時間序列數據、氣象數據、土壤數據結合在不同尺度成功預測了不同作物的產量,與之相關,ML技術在農業氣象災害評估中也有很大的應用潛力;在參數估算方面,農業氣象研究關注的以蒸散、葉面積指數、土壤濕度、氮素含量等為代表的水文、土壤、作物參數均可利用ML技術與氣象數據、遙感數據等的結合實現精確反演或預測。綜合看,傳統淺層ML技術中以支持向量機和人工神經網絡在本文涉及的諸多任務中應用最為廣泛且效果最為理想。近年來的方法對比類研究中,隨機森林和梯度提升機等集成學習方法普遍取得優于支持向量機和人工神經網絡的精度,DL技術則在某些任務中取得更優于集成學習的精度,且可解決淺層ML技術較難解決的一些問題,如在農業氣象觀測中可精準實現植株表型的自動化觀測。
從應用時間上看,人工神經網絡和支持向量機等淺層ML技術自20世紀90年代開始在農業氣象和農業遙感中應用并逐漸繁榮,其中人工神經網絡的應用略早于支持向量機,而以支持向量機為代表的核方法則較人工神經網絡更具優勢;決策樹自21世紀開始受到學界的關注,2010年后隨機森林和梯度提升機等決策樹集成方法在很多方面被認為是較核方法更好的選擇;DL技術自2012年前后重回主流學界的視野,伴隨卷積神經網絡和長短期記憶網絡的成功,自2015年后被廣泛認為在諸多應用中的表現超越了支持向量機和集成學習[14]。
盡管將DL技術應用于農業問題的先驅探索始于2010年[110],但大部分研究成果發表于2015年以后[15],且有逐年增多的趨勢,國內相關研究相對滯后,多數發表于2017年以后,且涉及到的現代農業氣象中的問題尚十分有限。目前有待驗證ML技術特別是DL技術在更多農業氣象問題上的適用性和先進性,如農業氣象災害遙感監測與損失評估、農業氣象災害風險評估與區劃、農業氣候區劃、氣候變化對作物生長的影響評估等任務,同時,伴隨ML技術的發展,特別是類似長短期記憶網絡的DL時間維算法和新結構的發展,有望更好地結合以風云系列氣象衛星數據為代表的遙感時間序列數據,在制圖、估產、預測等諸多已開展研究的任務中取得更高的精度和準確性。
特別地,將ML技術與智能手機等移動終端結合,可為農業管理者和生產者提供功能強大且智慧化的農業氣象信息服務;將DL技術與地基觀測、無人機遙感等結合,開發相關業務系統,可以顯著提升農業氣象自動化觀測水平。同時,需要認識到ML技術中沒有一種方法可以取代其他所有方法,在現代農業氣象工作中需要根據具體任務和數據情況選擇最適用的ML技術,如梯度提升機在當今被普遍認為是處理非感知數據的最好算法之一,而當訓練數據有限時,淺層ML技術往往比DL技術更適用。
作者:李穎陳懷亮
轉載請注明來自發表學術論文網:http://www.zpfmc.com/nylw/23473.html