本文摘要:摘 要 抗生素在醫療衛生、養殖業等領域的廣泛應用導致其隨著醫療廢棄物、廢水等進入到自然環境并對人體健康和生態環境造成不利影響,而系統分析環境中殘留抗生素的種類、明確其與微生物的作用機制以及開展不同處理方法的效果分析,對于準確評估抗生素的風險和控制其不
摘 要 抗生素在醫療衛生、養殖業等領域的廣泛應用導致其隨著醫療廢棄物、廢水等進入到自然環境并對人體健康和生態環境造成不利影響,而系統分析環境中殘留抗生素的種類、明確其與微生物的作用機制以及開展不同處理方法的效果分析,對于準確評估抗生素的風險和控制其不利影響具有重要意義.作為一種輔助手段,機器學習算法在大量數據解析的基礎上可進行結果評估和預測,因此可高效、低成本分析環境污染物的行為特征. 基于此,本文綜述了機器學習算法在抗生素鑒定識別、微生物作用機制和去除效果評估預測方面的應用現狀,并概括了不同算法的應用特點和局限性. 鑒于機器學習當前在抗生素研究中的重要作用,為其未來研究方向和發展提出展望,如在其它新興污染物的環境行為、效應及控制等方面的應用.
關鍵詞 機器學習,抗生素,鑒定識別,作用機制,去除效果評估.
抗生素是由微生物(包括細菌、真菌、放線菌屬)或高等動植物所產生的,能干擾其他生物細胞發育功能的化學物質[1]. 常見的抗生素有青霉素類、四環素類、頭孢類、喹諾酮類等,其抑菌性被廣泛應用于醫療衛生、畜牧業和水產養殖業[2]. 然而進入生物體內的抗生素不能被完全代謝,殘留的抗生素可能會通過市政污水、牲畜糞便、農田徑流等多種途徑排入環境中[3 − 5]. 近年來,已經在地表水、污水處理廠、土壤和大氣中檢測到抗生素的存在[6 − 9]. 環境中抗生素的存在會對人體健康和環境產生不利影響,如增加環境中微生物群落的選擇壓力,臨床抗生素使用效率降低等[5, 10].
系統分析環境中殘留抗生素的種類、明確其與微生物的作用機制以及開展不同處理方法的效果分析,對于準確評估抗生素的風險和控制其不利影響具有重要意義.目前抗生素的定性和定量分析方法較多,包括分光光度法、化學熒光、化學磷光、液相色譜法和毛細管電泳法等,這些方法耗時長、檢測過程復雜[11],對大量檢測數據進行有效的分析顯得尤為重要.環境中殘留的抗生素與微生物的作用機制復雜,高效的數據處理方法如機器學習算法有助于深入揭示作用機制. 鑒于環境中殘留抗生素的潛在風險,研究者發現膜過濾、高級氧化技術、生物處理、吸附[12, 13]、光催化等技術均可實現抗生素的去除[14 − 16].
然而多種處理方法對于不同環境介質中不同種類抗生素去除效果的評估、優化以及預測都有待進一步探究,建立相關的模型來分析去除方法、目標污染物和去除率之間的關系對于抗生素的污染控制具有指導意義.機器學習是一種旨在使計算機具有獲取知識和處理大數據的能力,同時建立學習理論計算方法,構建各種學習系統并將其投入到實際應用中的一種技術[17]. 其核心是“使用算法解析數據,從中學習,然后對新數據做出決定或預測”. 機器學習算法可以分為有監督、無監督和半監督[18],主要包括決策樹學習、樸素貝葉斯、支持向量機、隨機森林、k-均值算法、主成分分析、人工神經網絡、k-近鄰分析和遺傳算法等[19].
鑒于機器學習可以處理大量樣本數據,并且能進行圖像識別和語言識別,目前在大氣污染物的檢測和評估以及醫療中抗生素的選擇和適用中已得到較為成熟的發展[20 − 22]. 在抗生素的相關研究中,傳統分析方法與機器學習的結合可以更加快速的識別抗生素的種類并進行定量分析[23],并且利用機器學習優化模型有助于最佳去除條件的獲取.基于此,本文主要綜述了:(1)機器學習作為一種輔助手段在抗生素鑒定識別中的應用,主要包括食品和環境中抗生素的定性和定量分析以及新型抗生素的發現;(2)機器學習在抗生素與微生物作用機制研究中的應用;(3)機器學習模型用于抗生素去除效果評估. 本文主要通過綜述機器學習算法在抗生素鑒定識別、微生物作用機制和去除效果評估預測方面的應用現狀,針對不同算法的特點和局限性,為今后的研究方向和發展提出展望.
1 機器學習在抗生素鑒定識別分析中的應用( Application of machine learning in identification andanalysis of antibiotics)
1.1 抗生素的定性定量分析抗生素的種類繁多,穩定性較好,因此殘留抗生素較難降解,食物及環境中殘留的抗生素過高會對微生物和人體健康產生不利影響(如毒性作用、細菌耐藥性形成和過敏反應等)[24]. 根據不同抗生素對微生物的毒性作用及抗生素耐藥性影響的不同,醫療產品評估機構對食品中很多抗生素的殘留量做了規定,例如:歐洲醫療產品評估機構規定牛奶中慶大霉素的最大殘留量為 100 ng·mL−1[25]. 準確鑒定食品和環境中抗生素的種類并進行定量分析是評估其暴露風險的重要前提. 傳統的定性定量方法無法對大量未知樣本進行快速分析,而在此基礎上結合機器學習可以進行多組分和大量樣本的高效分析.
Yehia 等在利用主成分回歸(Principal component regression,PCR,又稱 Fisher 判別分析)、偏最小二乘法(Partial least squares,PLS)、多元曲線分辨-交替最小二乘方法(Multivariate curve resolution - alternatingleast squares,MCR-ALS)、人工神經網絡(Artificial neural network ,ANN)對光譜數據分析來追蹤廢水樣品中的頭孢菌素的殘留量,結果表明 ANN 誤差最小且具有良好的回收率,MCR-ALS 既可以定性又可以定量分析廢水樣品中的復雜混合物,分析性能優于色譜技術[26]. 但 Zhong 等對食品中氟喹諾酮類抗生素殘留量進行分析時卻發現 PLS 和 PCR 回收率良好,具有更好的預測結果[24]. 類似地,Long 等的研究表明了最小二乘法、樸素貝葉斯、馬氏距離等方法對飼料中低濃度和混合氟喹諾酮類抗生素檢測方面的局限性[27].
由此看來,機器學習作為一種輔助數據分析手段,檢測方法和樣品來源的不同都會導致其分析性能的差異. 例如,對牛奶和自制生物溶液中的四環素采用人工神經網絡輔助分析時,發現方波伏安法相對于比色法更適宜低濃度抗生素的檢測[28 − 29]. 主成分回歸相對于多元線性回歸可以實現食品樣品中多種氟喹諾酮類抗生素的同時測定,并且結合差分脈沖溶出伏安這一微量分析方法更有助于提高樣品的回收率[24, 27]. 另外,在對四環素的檢測中發現支持向量機(Support vector machine,SVM)、PCR 和線性判別分析(Linear Discriminant Analysis,LDA)可以區分兩種不同的四環素類混合物,并且 LDA 這種有監督的學習方式可以克服 PCR 所面臨的不良分類問題,而人工神經網絡對四環素定量分析的相對準確度達到了 91.9%—105%[28, 30]. 遺傳算法(Genetic algorithm,GA)是基于達爾文進化論,通過模擬自然進化來搜索最優解的算法,主要應用于機器學習的前處理利用變量選擇以提取最相關的變量并刪除不相關的變量來優化模型. 用遺傳算法對這些模型進行優化可以提高靈敏度和召回率—即抗生素的識別率[31].
偏最小二乘法、濃度殘留經典古典最小二乘法和人工神經網絡可用于阿莫西林和氟氯西林的定性定量分析,R2 均大于 0.99,Attia 等利用遺傳算法對其進行優化后,除 GA-ANN 外,在二者的預測中R2 均增大[31]. 除此之外,Ding 等還發現了使用 Fisher 判別分析和多層感知神經網絡還能對電子鼻檢測羊乳中青霉素殘留量這一新方法的可行性和準確性進行評估,為之后新方法實施的有效性提供了數據支撐[32]. 類似地,依賴于機器學習對磺胺噻唑、乙酰螺旋霉素等其它抗生素的定量分析也早有研究[11, 33 − 34].對于不同機器學習方式的性能評判指標主要有準確率、靈敏度、特異性、精度、召回率、ROS 曲線和魯棒性等. 現將不同機器學習方式對抗生素定量分析的相關性能指標進行整理.
機器學習提高了各種檢測方法對抗生素的定量分析的效率,可實現大樣本量的檢測,降低時間成本,使用遺傳算法對數據進行預處理會增大預測數據與定值的擬合度,但所有的學習方式都需要大量的數據集和圖像集,并且至今還沒有一種方式可以實現 100% 的準確率和回收率,在有大量數據支撐的檢測方法的基礎上應用機器學習才會獲得最佳的魯棒性.
1.2 新型抗生素的發現
抗生素耐藥性是細菌在抵抗抗生素時所產生的防御能力. 當抗生素連續釋放到環境中,可能會增大細菌的選擇性壓力,從而使其產生抗性致使抗生素失效,需要發現和設計新型抗生素來解決大量抗生素失效的問題[35 − 36]. 目前,新型抗生素的開發主要集中在兩大類,一是在與已有抗生素結構相似的化合物庫中篩選可疑化合物進行驗證,二是從天然產物中挑選新的有效抗菌肽. 其中,抗菌肽作為一種先天免疫的天然成分[37],對細菌有很強的殺傷作用,尤其是其對某些耐藥性病原菌的殺滅作用更引起了人們的重視,被認為是目前最有前景的一種新型抗生素. 除此之外,人們還發現,某些抗菌肽對部分病毒、真菌、原蟲和癌細胞等有殺滅作用,甚至能提高免疫力、加速傷口愈合過程[38]. 抗菌肽作為一種小分子肽,其氨基酸序列和結構與其生物活性有相關性,獲得相應的抗菌肽段需要對它的序列和活性進行分析[39]. 傳統的抗菌肽的發現方式主要包括利用細菌進行篩選和基因組測序兩種[40].
利用細菌進行篩選的特異性較強,不同菌的敏感性不同,而基因組測序僅能輸出已知的生物合成簇家族. 相比較傳統方法,借助于機器學習對抗菌肽進行識別和活性分析可以更加高效的找到適宜的抗菌肽序列并根據序列按照結構相似性和同源性發現未知的抗菌肽[40]. 目前已有研究表明,隨機森林、卷積神經網絡等方法通過探索肽序列空間來發現抗菌肽可以提高抗菌肽的識別率[37].Morales 等將機器學習與分子熒光光譜法和電子鼻等技術相結合用于抗菌肽(AMP)的發現和生物活性預測[34, 37, 41 − 43]. 人工神經網絡中應用長期短期記憶網絡可以表征高度復雜的順序,將肽序列轉換為均勻的數字矢量作為神經網絡的輸入層,這種方法可以幫助識別出可能隱藏在全面數據集中所代表 AMP 的不同家族的可疑序列[44].
同樣,Lata 等也應用人工神經網絡、定量矩陣和支持向量機分析氨基酸 N 末端殘基和 C 端殘基以預測抗菌肽,結果表明支持向量機對 N 和 C 端殘基同時分析時的準確度最高[43]. 另外,在 Gull 等的研究還表明采用支持向量機和極端梯度增強樹既可以預測肽序列是否為抗菌肽,又可以通過 AMAP 分數來評價其生物學活性及序列突變對活性的影響[45].利用敏感性、特異性、準確度、馬斯修相關系數和 ROC 曲線可以評估不同機器學習算法識別抗菌肽的性能.
不同的機器學習算法包括基于長期短期記憶網絡的神經網絡、基于序列最小優化(Sequential Minimal Optimization, SMO)算法的支持向量機、基于 N 端和 C 端殘基的支持向量機、定量矩陣及卷積神經網絡的準確率都在 90% 以上,可以有效用于抗菌肽的識別[46]. 除此之外,可使用支持向量機、邏輯回歸、隨機森林、Blast 和深度遞歸神經網絡,以蛋白質序列作為輸入層來區分抗菌肽和非抗菌肽序列[47]. 通過繪制這些模型的平均精確召回曲線可以發現,深度遞歸神經網絡的效果最好,精度可達 0.958[47].
近年來,也有不少研究者利用機器學習從大量的化學文庫中篩選可行的抗菌分子,Stokes 等利用深度神經網絡訓練分子結構對大腸桿菌生長抑制的關系模型,并將其應用于多個化學文庫中,根據預測分數來確定候選抗生素進行驗證,發現了 8 種新型抗菌分子[48]. 此外,利用半自動化細菌表型指紋(BPF)分析平臺來指導化學結構和生物活性的優化,結合隨機森林算法分析,不僅可以從分子的物化特性來揭示抗生素分子,還可以實現跨物種的新型抗生素的開發應用[49]. 我們發現目前關于開發新型抗菌化合物分子的研究遠不及抗菌肽的識別成熟,而且對于大數據文庫的分析,更加依賴于隨機森林、卷積神經網絡和深度神經網絡這類深度學習算法.
2 機器學習對抗生素與微生物作用機制的預測分析(Predictive analysis of the mechanism of actionbetween antibiotics and microorganisms by machine learning)抗生素對微生物的主要作用機制包括:抑制細胞壁的合成(青霉素類和頭孢菌素類),與細胞膜相互作用(多粘菌素和短桿菌素直接破壞細胞外膜和內膜),干擾蛋白質的合成使一些酶失去作用(福霉素類、氨基糖苷類、四環素類和氯霉素),抑制核酸的轉錄和復制,阻止細胞分裂和所需酶的合成(萘啶酸和二氯基吖啶). 盡管抗生素的主要靶向作用和機理已經有了充分研究[50],但對于抗生素誘導代謝改變的生物學機制尚不清楚,分析抗生素與細菌的作用形式有利于更深入地闡述抗生素的作用機制. 同時,抗生素要想對細胞具有一定的活性就必須穿透細胞的保護屏障,不同種抗生素采用相同方式與細菌接觸時會有共同的氨基酸序列或者分子結構,研究這些序列和結構與細胞作用形式之間的關系,有利于研究影響細菌抗生素耐藥性出現的關鍵因子[51- 52]. 而將生化篩選,網絡建模和機器學習結合對于深入解析抗生素的作用機制具有重要意義[53].
Lu 和 Yang 等也利用機器學習預測抗生素與 DNA 的相互作用并分析其影響核酸復制和合成的機理,發現多元分析和人工神經網絡可以預測抗生素與 DNA 相互作用的影響因素并預測未知抗生素與DNA 的結合方式[52, 54]. 研究者將層次聚類、回歸分析和超幾何通路識別應用于解析抗生素作用下的代謝機制,發現氨芐青霉素限制了腺嘌呤的合成,增加了 ATP 的需求,從而導致中央碳代謝活性和耗氧量增加 [54 − 55].
除此之外,抗生素還能夠與細胞膜相互作用,Lee 等基于 α-螺旋抗菌肽序列訓練的支持向量機可鑒定與細菌脂質膜相互作用的不同環狀抗生素作用機制的共同點,以不同的序列和結構作為輸入變量,利用經驗膜活性進行訓練來預測結構-膜活性關系[51]. 發現不同種類抗生素與生物作用存在共同之處,找出這部分的氨基酸序列就可以預知未知抗生素對微生物的作用方式. 此外,抗生素在投入使用之前都要進行抗生素藥敏性測試,來確定它對細菌的半致死量及作用方式[44, 55]. Iriya 等基于以往相關問題的大量數據集,來建立不同菌株的抗生素的敏感性,得出卷積神經網絡和長短期記憶神經網絡對多粘菌素 B、氨芐青霉素和慶大霉素的準確度極高,但對鏈霉素、環丙沙星的準確度較差[44].Budak 等還發現概率神經網絡在抗生素對微生物的最小抑菌濃度的研究上表現出較好的特異性和靈敏性[56].
3 機器學習
用于環境中抗生素去除效果的預測分析(Predictive analysis of antibiotic removal in theenvironment using machine learning)抗生素通過生活污水、養殖廢水、醫療廢棄物等途徑進入到水體、土壤和空氣等環境中[57]. 殘留在環境中的抗生素不僅會引起抗生素耐藥性的增強和抗性基因的傳播,而且威脅人體健康,如引起皮膚過敏反應、損害腎臟和聽覺神經和導致肝損傷等[58]. 因此,環境中殘留抗生素的去除對于減緩其生態環境的不利影響至關重要. 而抗生素種類多、環境影響因素復雜等問題導致在不同環境介質中的去除條件差異較大,從而增加了抗生素去除效果分析的難度. 機器學習可在對不同抗生素去除方法的數據分析的基礎上,探究最佳去除條件,并建立合適的模型用于評價方法的可行性和有效性,目前已經被廣泛應用于水環境中抗生素的去除研究[59].目前抗生素去除研究中應用的機器學習算法以神經網絡模型為主,主要包括人工神經網絡、反向傳播人工神經網絡、半徑基函數神經網絡、遺傳算法人工神經網絡和一般回歸神經網絡.
除此之外,也有少量研究應用了響應曲面法、隨機森林和梯度增強樹. Zhu 等在分析碳基材料對四環素和磺胺甲惡唑吸附的研究中發現,隨機森林的預測精度比梯度增強樹和人工神經網絡高,且通過不同機器學習算法證實了材料表面積、溶液 pH 和抗生素與碳基材料的初始比例是決定去除效率的主要因素[60]. 相反,在工業造紙污泥活性炭吸附恩諾沙星的研究中,人工神經網絡預測的擬合度要優于響應曲面法. 光催化技術因其高效的抗生素去除效率得到快速發展,且人工神經網絡對光催化法處理結果的分析較響應面法、增強回歸樹應用更加廣泛,所擬合的模型相關性較好[61 − 63]. 此外,Zhou 等的研究也表明半徑基函數神經網絡在模擬和預測水溶液中蘇云金素的非生物降解過程中也表現出了較高的相關性[59].
大量研究表明,機器學習算法、去除方法和目標抗生素種類的差異都會導致模型與實際結果的擬合效果的不同,比較機器學習算法在四環素去除中的應用發現,人工神經網絡與生物吸附去除技術相結合,及增強回歸樹應用于納米復合材料吸附技術時的相關系數均可以達到 0.999 以上[61, 64]. 對比這些研究我們發現樣品的形態也可能是影響擬合效果的一種因素,相對于采用堆肥去除四環素時對固體樣品進行分析,人工神經網絡在水環境體系中四環素的去除效果分析中具有更好的擬合和預測效果[64 − 66]. 相比其他方法,人工神經網絡因其較強的適用性應用最為廣泛,但傳統的人工神經網絡并不能滿足多組分復雜體系的研究. 采用不同算法對納米復合材料吸附四環素的研究中發現,增強回歸樹的擬合性要優于一般回歸神經網絡,使用遺傳算法優化的人工神經網絡對于光催化去除硝唑類抗生素性能要更好[61, 63, 67]. 而對于去除最佳條件這種多因素實驗條件探究時,隨機森林有助于我們快速篩選出最優條件[60].
4 總結與展望(Conclusion and prospect)
本文闡述了機器學習在抗生素的鑒定識別和抗生素作用機制的研究以及水環境中抗生素的去除上的相關應用. 綜上所述,機器學習在抗生素的鑒定識別、抗生素與微生物作用機制分析和抗生素去除效果的預測方面已有大量應用,而人工神經網絡是應用最為廣泛的機器學習算法,并且在水環境中抗生素去除的模型建立表現出更優越的性能. 在抗生素的鑒別方面,判別分析主要應用于抗生素的定量分析,而神經網絡系統和半監督學習方式-支持向量機等一些分類算法則被用于抗生素預測如抗菌肽的發現.盡管機器學習在抗生素的定量定性分析及新型抗生素的發現上發揮了重要作用,但目前在多種抗生素混合物的定性分析上仍有很大的局限性,且不能準確預測較低濃度的抗生素. 此外,抗生素作用機制的特異性和復雜性限制了機器學習的應用,因而應當在最佳樣本數量、模型優化和預處理方面進行深入研究,提高算法的準確率和靈敏度. 同時,采用遺傳算法等對數據和算法進行優化可提高模型的適應性和穩定性. 鑒于其特點及當前在抗生素研究中的重要作用,機器學習在未來研究其他新興污染物的環境行為、效應及控制等方面可發揮重要作用.
參考文獻 (References)
張曉蕾. 對antibiotics由抗菌素到抗生素之分析 [J]. 臨床醫藥文獻電子雜志, 2014, 1(11): 2061-2062.ZHANG X L. Analysis of antibiotics from antimicrobial to antibiotics [J]. Journal of Clinical Medical Literature, 2014, 1(11): 2061-2062(in Chinese).[ 1 ]廖洋, 魯金鳳, 曹軼群, 等. 光催化降解對抗生素藻類毒性效應影響研究進展 [J]. 環境化學, 2021, 40(1): 111-120.LIAO Y, LU J F, CAO Y Q, et al. Research progress on the effects of photocatalytic degradation on the algae toxicity of antibiotics [J].Environmental Chemistry, 2021, 40(1): 111-120(in Chinese).
[ 2 ]LACH J, STĘPNIAK L, OCIEPA-KUBICKA A. Antibiotics in the environment as one of the barriers to sustainable development [J].Problemy Ekorozwoju, 2018, 13(1): 197-207.
[ 3 ]REINTHALER F F, POSCH J, FEIERL G, et al. Antibiotic resistance of E. coli in sewage and sludge [J]. Water Research, 2003,37(8): 1685-1690.
[ 4 ]BEN Y J, FU C X, HU M, et al. Human health risk assessment of antibiotic resistance associated with antibiotic residues in theenvironment: A review [J]. Environmental Research, 2019, 169: 483-493.
[ 5 ]ANIKA T, NOMAN Z, FERDOUS M, et al. Time dependent screening of antibiotic residues in milk of antibiotics treated cows [J].Journal of Advanced Veterinary and Animal Research, 2019, 6(4): 516.
[ 6 ]CHEN J, YING G G, DENG W J. Antibiotic residues in food: Extraction, analysis, and human health concerns [J]. Journal ofAgricultural and Food Chemistry, 2019, 67(27): 7569-7586.
[ 7 ]BERGERON S, RAJ B, NATHANIEL R, et al. Presence of antibiotic resistance genes in raw source water of a drinking water treatmentplant in a rural community of USA [J]. International Biodeterioration & Biodegradation, 2017, 124: 3-9.
[ 8 ]CHEN C Q, LI J, CHEN P P, et al. Occurrence of antibiotics and antibiotic resistances in soils from wastewater irrigation areas inBeijing and Tianjin, China [J]. Environmental Pollution, 2014, 193: 94-101.
作者:龐蕊蕊1,2 邵博群1,2 李 燁1,2 謝 冰1,2 蘇應龍1,2
轉載請注明來自發表學術論文網:http://www.zpfmc.com/dzlw/30248.html