本文摘要:摘要:文章從基礎能力、初級知識服務能力、高級知識服務能力三個方面,篩選出十個二級指標,通過層次分析法確定指標權重,根據智能語音助手現階段的智力水平,為每個二級指標選取了相應的測試問題,構建了智能語音助手的知識服務能力評價體系,最后以三個主
摘要:文章從基礎能力、初級知識服務能力、高級知識服務能力三個方面,篩選出十個二級指標,通過層次分析法確定指標權重,根據智能語音助手現階段的智力水平,為每個二級指標選取了相應的測試問題,構建了智能語音助手的知識服務能力評價體系,最后以三個主流的智能語音助手為對象進行了實證評價分析。構建的評價指標體系具有實用性和動態性,基礎能力的權重最大,初級知識服務能力和高級知識服務能力次之,實證研究的結果表明,現階段主流的中文智能語音助手已經具備了一定的知識服務能力,但仍然存在較大的提升空間。
關鍵詞:智能語音助手,知識服務,知識服務能力,層次分析法
1引言
近年來,隨著人工智能以及語音識別技術的不斷發展,智能語音助手逐漸為人們所熟知。目前國內外比較成功的智能語音助手包括亞馬遜Alexa、谷歌助手GoogleAssistant、蘋果Siri、微軟Cortana、百度度秘、咪咕靈犀、天貓精靈等。來自前瞻產業研究院的資料顯示,在2018年中國智能語音市場的規模已經突破了160億元[1]。美國市場研究機構StrategyAnalytics近日發布的報告也認為,2023年全球將有90%的智能手機擁有智能語音助手[2]。
智能語音助手被廣泛應用在醫療健康服務、圖書館服務、知識管理等場景中,而在這些場景下,語音助手均可以視作知識服務主體。它需要根據用戶的語音輸入內容識別用戶多樣化需求,再為滿足需求獲取和加工信息,最后利用內在程序以及一些具體的功能如詩歌創作、知識問答、智能提醒等來反饋信息并提供服務。
目前有關智能語音助手的研究,主要集中在語音助手的設計與優化、語音助手在不同場景中的應用、用戶對語音助手智能程度的評價等方面,對于智能語音助手知識服務的相關研究非常匱乏。本研究試圖回答以下問題:智能語音助手是否具備一定的知識服務能力?如何評價智能語音助手的知識服務能力?應該從哪些方面提升智能語音助手的知識服務能力?
2文獻綜述
2.1智能語音助手
現階段智能語音助手的相關研究有許多。一部分研究著眼于拓展智能語音助手在不同場景的應用。如醫療健康領域[3-4]、智能家居應用[5]、自動駕駛領域[6]、或者個人與集體的知識管理領域[7-8]等。另一部分研究則關注智能語音助手的設計與優化。如從語音識別層面、語言表達層面[9]進行分析,或者針對現有的開發方法和邏輯框架進行改進[10]。
還有一些研究,則是將注意力放在了使用智能語音設備的用戶身上。有些學者通過設計模型[11]或設置特殊場景[12],分析用戶行為來確定用戶的滿意程度。另一些學者通過爬取用戶評論數據、收集用戶使用記錄等方式,間接獲得用戶反饋,完成對智能語音助手的評價[13]或對語音助手進行優化設計[14]。也有學者直接通過問卷調查法、訪談法或實驗法,得到不同人對語音助手智能程度的主觀評價[15]。
2.2智能產品評價
最著名的測試人工智能是否具有智能的方法是圖靈測試[16],通過相互隔離的交談后是否能準確分辨另一方是人還是計算機,來判斷計算機是否具備智能。但是,也有學者質疑了這種人為判斷方法的客觀性[17]。
對智能產品的定性評測包括:Bringsjord等[18]提出的LovelaceTest,該測試通過讓智能系統創造小說或畫作來判定智能系統是否具有人的認知能力;Riedl[19]在Bringsjord研究的基礎上設計了一個改良版的Lovelace2.0Test,認為如果程序按照要求所創作的內容被判定為合乎邏輯或引發裁判共鳴,那么此人工智能系統就可以被認為具有智能;Malinowski和Fritz[20]通過讓測試對象描述圖片內容并回答相關常識性問題來進行智能判斷;Ohlsson等[21]將針對4-7.25歲孩子的VerbalIQ測試應用在人工智能的智商測定中。
有學者從定量角度對智能產品的智力水平進行評價,如楊強[22]提出“終身學習測試”,通過判斷計算機能否通過學習提升知識水平來判斷其是否是智能的;劉峰[23]利用德爾菲法對人工智能的智商測量標準進行確定,并提出了定量評測問題,通過設計出的互聯網智力評測系統,完成了對全球50個搜索引擎和人類對照組的智商測試。另外,劉峰[24]將人工智能的智商分為通用智商、服務智商和價值智商三類,并針對不同方面的智能,進行了一定程度上的指標區別。
3智能語音助手的知識服務能力評價體系構建
3.1評價指標體系構建
知識服務是指以信息知識的搜尋、組織、分析、重組的知識和能力為基礎,根據用戶的問題和環境,融入用戶解決問題的過程中,提出能夠有效支持知識應用和知識創新的服務[25]。在此定義的基礎上,本研究將智能語音助手的知識服務歸納為三個層次:一是能完成信息的輸入與輸出,即基礎能力;二是對信息知識的搜尋、組織、分析、重組,即初級知識服務能力;三是根據用戶問題與環境,給用戶提供個性化支持與服務,即高級知識服務能力。這三個層次就成為智能語音助手知識服務能力的一級指標。
在二級指標的選擇上,為了保證指標的可信度和代表性,指標的設置最大限度地借鑒相關研究的成熟量表[23-24,28],結合本研究針對智能語音助手的具體應用情境,并咨詢了相關專家學者來確定最終選擇結果。
基礎能力下設三個二級指標,分別是識別聲音的能力、聲音表達的能力和被自動喚醒的能力。其中識別聲音能力對應信息獲取,聲音表達對應知識反饋,而被自動喚醒則是一切知識服務的前提,即語音助手的開關功能。
初級知識服務能力下設三個二級指標,分別是計算、翻譯和知識問答能力。一方面,這三項能力指標所代表的功能均在用戶的日常生活中被大量使用;另一方面,這三個指標涵蓋了數學、語言和各種常識問題,充分反映了智能語音助手獲取信息、加工信息的基礎能力。
高級知識服務能力下設四個二級指標,分別是知識創造能力、猜測和聯想能力、學習能力和個性化服務能力。其中知識創造能力衡量的是語音助手的內容創作力,猜測和聯想能力考察語音助手的邏輯,學習能力則是評價語音助手的自主學習能力,而個性化服務能力主要考察語音助手是否能對不同用戶提供定制服務。這四個二級指標均體現語音助手對個性化問題與環境(語境)的識別和提供針對性服務的能力。
3.2基于層次分析法的指標權重確定
本研究運用層次分析法,通過專家經驗來衡量各個指標間的相對重要程度,從而確定指標權重。
3.2.1構建層次結構模型
本研究中的評價層次體系由三個層次組成。目標層為總目標,即智能語音助手知識服務能力,準則層分別為基礎能力、初級知識服務能力和高級知識服務能力3個方面,指標層為識別聲音的能力、聲音表達的能力和被自動喚醒的能力等10個評價指標。
3.2.2問卷設計與發放
考慮到研究對象智能語音助手的特殊性,在指標權重確定的專家人選上,并不局限于學界專家學者,還有業界相關領域的工作人員。為了結果的準確性與客觀性,問卷內容分為兩個部分:
第一部分為關于專家的基本問題,包括學歷、工作單位、使用語音助手頻次與種類等。此部分信息用于確定專家對語音助手的了解程度,從而挑選出高質量的問卷樣本。
第二部分構造判斷矩陣。要求專家依次對從屬于上一層某個因素的同層次諸因素用1-9檢驗值進行兩兩比較,來確定各因素的重要性。
本研究共發放33份問卷,回收30份,回收率為91%。剔除不符合要求、數據不滿足一致性檢驗的問卷以后,有15份問卷進入到下一步的分析。15份問卷的專家構成中,學界專家有6人,均具有博士學歷和副教授以上職稱,研究領域為知識服務、人工智能等;業界專家有9人,均來自較知名的通信公司或科技公司。
3.2.3數據處理
將專家數據錄入YAAHP12.1軟件(一款針對層次分析法的輔助軟件),在對智能語音助手知識服務能力評價指標體系中的各級指標進行進一步分析后,最終得出各指標的權重分配情況。
3.3題庫構建
根據智能語音助手知識服務能力的評價指標體系,本研究為各個二級指選取了相應的題目,構建了智能語音助手知識服務能力評價的題庫。為保證測試結果的可靠性,題庫的來源為相關的書籍、測試以及論文,所選擇題目盡量滿足代表性與權威性。
3.3.1基礎能力題庫構建
基礎能力考察的是信息輸入與輸出能力,不同語音助手的實現方式并不存在差異。針對基礎能力下3個對應的二級指標,分別對它們構建題庫。
識別聲音的能力是要了解測試目標能否準確理解語音輸入的測試題目,要求從語音中識別出正確的文字。測試題目從2015年國際自然語言處理與中文計算會議提供的問題集中隨機選擇。
聲音表達的能力旨在了解語音助手是否合理回答日常對話,若僅僅是考慮是否能進行語音輸出,那么此種標準會過于簡單且無意義。為了獲得中文的日常對話內容,查閱了《HSK標準教程1》,該書經國家漢辦授權,以漢語水平考試真題作為教學素材。此教程是為了幫助漢語初學者學習漢語日常對話所設計,對本研究相應題庫的構建有重要的指導意義。本研究從該書中挑選了多個日常對話場景作為測試題目。
被自動喚醒的能力是要了解測試目標是否能通過聲音被自動喚醒。實驗方式則是通過多次語音說出觸發詞,觀察語音助手能被自動喚醒的次數。
3.3.2初級知識服務能力題庫構建
初級知識服務能力考察的是語音助手對信息知識的搜尋、組織、分析、重組的能力,不同語音助手的實現方式同樣不存在區別。針對初級知識服務能力下相應的3個二級指標,分別構建題庫。
知識問答能力是為了了解測試目標的知識廣度。結合人機對話的相關問題集[26]以及相關論文[27],并適當調整使其符合語音助手應用場景,研究將問題分為事實類問題、定義類問題、YES-NO問題和觀點類問題。在題目的選擇上,做到四種問題兼顧并同時聚焦在小學階段的必修科目上,如語文、社會和音樂等。
翻譯能力是為了了解測試目標對不同語言的轉換能力。題庫選擇上參考了北京大學的《英漢機器翻譯測試大綱》[28],從中選出多個句子,包括重點列出的長難句。
計算能力是為了了解測試目標的計算能力、計算速度和正確性。結合目前語音助手的智能水平,選擇小學階段的數學課程標準“全日制義務教育數學課程標準(實驗稿)”作為參考,挑選出其中測試運算能力的指標,包括計算萬以內的整數、小數、分數、百分數和負數,和掌握四則運算的技能,并依照此分類選擇題目。
3.3.3高級知識服務能力題庫構建
高級知識服務能力,指的是測試目標根據用戶的問題與環境在信息收集基礎上的創造與服務能力,概念較為抽象,不同語音助手的實現方式多樣。為保證實驗的準確性與公平性,本研究對常見語音助手進行了深入使用,并結合官網的介紹以及相關測評報道,總結歸納了高級知識服務能力下各個二級指標的實現方式。在全面考慮不同實現方式的前提下構建出相應的題庫。
知識創造能力是為了了解測試目標按照給定要求,進行二次創造的能力。MarkO.Riedl在語音助手智商測試的實驗中提出了Lovelace2.0[19]測試方法,方法是在創造性活動中添加關鍵詞以增加語音助手直接檢索的難度來確定語音助手的知識創造能力。因此,本研究結合現有語音助手功能,對不同創作形式提出不同要求,根據是否能反饋有邏輯的結果來測算語音助手的知識創造能力。
猜測和聯想能力是為了了解測試目標根據給定的材料猜測所描繪的事物及聯想相關事物的能力。根據上述得分原則,分四類分別構建題庫。謎語選自各版本的“謎語大全”。正反義詞則來自韋氏兒童智力測試題[29對意圖識別能力的考量,則是參考了有關搜索引擎自然語音處理的研究結論。用戶向搜索引擎輸入的簡短查詢式存在模糊性和歧義性[30],在語音助手應用場景同樣適用,所以采取通過語音輸入模糊指令來確定其能否準確理解并滿足用戶要求。你說我猜則是測試語音助手能否通過問用戶問題,猜出用戶心中所想的一個人物或動物,題庫來源于相關娛樂性測試網站。
學習能力是為了了解測試目標能否根據用戶訓練,掌握新的規則或知識的能力。其測試方法是在不同實現方式下給出特定情景,通過判定語音助手在該情景下能否完成用戶要求來確定。如在多輪對話中針對某個話題展開需要聯系前后文的多輪討論,觀察語音助手是否能有邏輯的進行回復來判定語音助手的多輪對話能力。
個性化服務能力是為了了解測試目標個性化服務設置能力,測試方法與學習能力類似。如用戶偏好設置下就有一個情景為是否能根據用戶喜好實現智能推送,根據是否能實現判斷該語音助手的用戶偏好設置能力。
3.4測試方法與評分原則
由于語音助手與用戶的溝通是以聲音為主。因此實驗中的所有問題均采用語音方式輸入。考慮到具體環境影響,每個問題將重復三次。
在具體給分上,對于語音助手基礎能力以及初級知識服務能力下的各個二級指標,每個測量對象均需回答從題庫中隨機抽取的相同的10道題(其中被自動喚醒的能力是分10次在不同場景下用語音說出觸發詞)。每答對一題(被自動喚醒一次)加10分。即每個二級指標滿分為100分。
對于語音助手高級知識服務能力,如本文所述,每個二級指標實現方式均可歸納為4類。由于存在語音助手能以不止一類實現方式完成對應的二級指標,所以每類滿分為25分,若4類實現方式均能完成,則該二級指標記滿分100分。在每類實現方式下設置3個具體場景或題目。若3道均正確完成,則認為該類實現方式完成,記該類滿分,即25分。若全不能完成,則該類記0分。若能部分完成,則認為該類還有進步空間,記該類滿分的一半,即12.5分。
另外,語音助手在實現某些用戶要求時,自身雖不具備相應功能,卻可以通過調用或跳轉到其他應用來獲得答案。這雖表現了自身功能的不夠全面,但從側面體現了該語音助手與其他應用的操控與交互能力,所以對這種狀況,同樣視為能部分完成。
4中文智能語音助手的評價實驗
4.1評價對象選擇
中文語音助手應用場景多樣,在日常生活中最常見的有三種,分別是手機自帶語音助手(如蘋果的Siri,三星的Bixby,華為的小E、VIVO的jovi等)、移動應用語音助手(如百度語音助手、搜狗語音助手、咪咕靈犀等)、還有隨著智能家居不斷發展的智能音箱(如天貓精靈、小米AI音箱、小度在家等)。本研究根據網絡諸多測評分別選取了這三大類語音助手中最具代表性的一款產品進行評價研究,即華為小E、咪咕靈犀和天貓精靈。
4.2評價結果
按總得分從高到低排序,天貓精靈、咪咕靈犀和華為小E的知識服務能力得分分別是88.54、85.02、81.24,均超過了80分,說明三個語音助手均具備了一定的知識服務能力。本研究對被測評語音助手各一級指標完成度進行統計。
統計得出,在基礎能力上,天貓精靈得到了滿分,華為小E和咪咕靈犀均得到97.4分;在初級知識服務能力上,華為小E和咪咕靈犀分數亦相同,均為80.7分,而天貓精靈只得了77.7分;在高級知識服務能力上,分數從高到低分別是天貓精靈(73.4分)、咪咕靈犀(56.6分)、華為小E(36.1分),咪咕靈犀和華為小E均低于60分。
可以看出,三個語音助手在總分上的較好表現主要得益于在基礎能力指標上的較高得分,該一級指標的權重高達0.52,而三個語音助手在該項得分均接近或等于滿分。在初級知識服務能力上三個語音助手得分接近,均在80分左右,表現良好。但在高級知識服務能力上,各語音助手表現具有較大差異且普遍較差。
對三個語音助手在各二級指標的具體得分進行統計,通過分析可以發現:
(1)三款語音助手在知識問答能力上均有進步空間。華為小E和咪咕靈犀在多數問題回答上均需借助第三方搜索引擎反饋的結果,其中華為小E還需再次按要求輸入以完成跳轉。天貓精靈則無法回答部分和地理位置相關的問題,如針對問題“廣州高鐵站在哪里”“埃菲爾鐵塔是在巴黎嗎”并不能得到結果。
(2)三款語音助手雖然功能豐富,但觸發條件往往較為嚴苛。如必須完整向華為小E輸入“講一個安徒生的海的女兒”才能被理解,否則均無法完成要求。天貓精靈雖在大多數情形下完成的較為出色,但仍在部分場景如“對話訓練”或一些指定游戲中,需特定關鍵詞才可以觸發。
(3)三款語音助手均可針對用戶需求,完成個性化服務,但程度存在差異。如三款語音助手均可從其他信息源獲取外賣信息與快遞信息,均可設置智能提醒,但在其他方面如個性化回答設置、推送內容設置以及應用偏好選擇上,華為小E均要略輸一等。
(4)在初級知識服務能力中的翻譯與計算指標上,華為小E和咪咕靈犀更為出色。如咪咕靈犀不僅對于本次測試要求的英語表現優異,更可完成對多種語言的精確互譯。反觀天貓精靈,在計算上目前只支持一千萬以內整數的相關運算,分數或超過范圍均不能完成,而翻譯中部分長難句翻譯準確度低。
(5)在諸多信息分析與場景處理能力要求更高的指標中,咪咕靈犀和天貓精靈表現較好,且天貓精靈更勝一籌。如測試語音助手是否能有邏輯的回答日常對話問題時,選擇在下午問候“早上好”,天貓精靈與咪咕靈犀會指出現在已經是下午了,而華為小E依然只會回應早上好。在“知識創造能力”的考察中,要求語音助手播放一首周杰倫的勵志歌曲,和以“新年快樂”為主題寫作一首詩,只有天貓精靈完成要求,而且天貓精靈也是唯一支持多輪對話的語音助手。
4.3分析與討論
(1)智能語音助手是否具備知識服務能力?研究結果表明,主流的中文智能語音助手已經具備了一定的知識服務能力。在諸多場景下,語音助手能以聲音為交互介質,提供高智力附加值的知識(或技能)密集型服務,滿足知識服務對象的知識需求。
由于語音可以解放人們的雙手和雙眼,降低產品使用門檻,同時語音識別與語義理解是人工智能領域相對成熟的技術[32],通過語音交互開展知識服務(多輪對話式問答服務、生活場景中的決策支持服務等)是未來的發展趨勢,而在這方面,智能語音助手具有天然的優勢。
首先語音助手存在潛在的龐大用戶群。語音助手多以智能手機為載體,以APP應用、小程序(智能音箱也往往有對應的小程序)、微信公眾號等諸多形式為公眾提供知識服務。而隨著智能手機的普及,語音助手能以較低成本接入大眾生活;其次面對日常生活中多元化、多維度的知識需求,語音助手能夠為大眾提供普惠的知識服務,使知識服務不局限于專業人士,而是嵌入生活化的場景里,降低用戶在信息過載時代中知識獲取的成本。
(2)如何評價智能語音助手的知識服務能力?本研究構造了智能語音助手知識服務能力的評價指標體系,并應用該體系完成了三款主流語音助手的評價實驗。運用該評價指標體系,將抽象的智能語音助手知識服務能力具體化為3個一級指標、10個二級指標,可以綜合評價和跟蹤語音助手行業的進展,對比不同語音助手之間的具體優劣情況,便于從中及時發現好的發展經驗和共同問題所在,明確語音助手的研發方向。
本研究得到的指標權重充分反映了專家的認知。識別聲音、聲音輸出、被自動喚醒所代表的基礎能力權重超過0.5,其中識別聲音的指標權重更是高達0.2576。而初級、高級知識服務能力指標權重占比低,對語音助手的評價結果影響小。這說明在現階段,專家更重視基礎交互能力,對智能語音助手提供知識服務的期望并不高。
本研究建設了相應題庫來完成指標的測量。考慮到現階段人工智能的智商與兒童的智力水平相當[21],且功能在不斷的發展豐富中,在構建題庫時,并沒有完全按照知識服務的最高標準去設計,而是結合語音助手現有的智能水平與發展演化的需求,設置了相應的測試問題,如聲音輸出指標的題庫選自漢語初學者對話教程,高級知識服務能力的測試總結了現有語音助手能夠完成的方式。由于題庫構建靈活,未來隨著人工智能技術的進步、智能產品智力水平的不斷提高以及語音助手領域的迅速發展,測試題庫支持不斷升級,將在題目選擇上上升難度,場景設置上更具隨機性與普適性。
(3)應該從哪些方面提升智能語音助手的知識服務能力?從相應指標所占的權重來看,語音助手的基礎能力仍然是現階段專家關注的最重要的方面,也是當前用戶感知最強烈的方面。因此,亟需提高智能語音助手的基礎能力,如在信息輸出端注重合成語音的口語化、自然化、人性化[33],在信息輸入端提供可視化反饋,增加用戶可控感[34],并輔助其它應用,設計出實現各種拓展功能的接口來增加多種信息的交互能力[35]。
在初級知識服務能力方面,根據人們的一般認知,三個二級指標在技術實現難度上從高到低排序分別是知識問答、翻譯和數學運算。三個語音助手在知識問答能力上的得分普遍較低,比較不同種類問題回答準確率之后發現,相比于事實類問題和定義類問題,語音助手往往不擅長回答YES-NO問題和觀點類問題,這證明在自然語言處理和知識抽取層面仍有待進一步研發。然而,三個語音助手在數據運算能力上的得分卻均高于翻譯能力,這一方面是由于部分數學運算超過了語音助手的能力范圍,如華為小E和咪咕靈犀不能完成“階乘”運算、天貓精靈不能完成分數或非整數的計算以及大于一千萬的整數的運算;另一方面,這反映了在語音交互的場景下,信息系統(智能語音助手)在知識服務相關任務上的表現有別于傳統的圖形界面交互場景,這也是未來有待進一步探索的方向。
在高級知識服務能力方面,普遍存在兩點問題:一是功能情景有限,二是某些功能觸發條件只支持用戶輸入顯式查詢或命令,即明確的觸發詞。這不僅導致用戶使用感不佳,也使一些功能不易被用戶發現。所以建議在保證不干擾用戶生活的前提下,提供更人性化的功能觸發條件并配以友好的用戶指導。如定期提示用戶功能更新及其觸發方法,或結合語境情景理解用戶的隱式對話線索[10]等。
從搭載語音助手的平臺上來看,手機自帶語音助手的得分明顯落后于語音助手APP和智能音箱,而手機自帶語音助手卻是廣大普通用戶最容易接觸到的語音助手產品[2],具有龐大的用戶群體。提高手機自帶語音助手的知識服務能力,有利于知識服務惠及更廣泛的社會群體,所以,亟需提高手機自帶語音助手的知識服務能力。同時,智能音箱在高級知識服務能力上表現較為優秀,特別是在個性化服務能力指標上的表現最為突出,其與智能家居的進一步關聯可有效彌補自身便攜性不足的固有缺點,有效推進生活智能化。
5結語
面對知識服務對象大眾化、服務手段多樣化、服務內容智能化的時代趨勢,社會亟需一個普惠的工具來滿足泛在的知識需求、服務大眾的日常生活。智能語音助手作為新型知識服務主體,具有填補該空缺的天然優勢。
本文對智能語音助手的知識服務能力進行了評價研究。首先,構建了智能語音助手知識服務能力的評價指標體系,通過專家調查得到的指標權重很好地反映了現階段人們對智能語音助手的期望和態度;其次,根據智能語音助手現階段的技術水平和智能程度,構建了相應的測試題庫,且這一題庫可以隨著智能語音助手技術水平和智力程度的提高進行動態升級,以保證本研究提出的評價方法具有一定的動態性和靈活性;第三,對典型的中文智能語音助手進行評價實驗,發現了目前存在的問題和不足,提出了相應的建議。
但本研究仍存在一些不足,如評價指標體系可以進一步完善、專家調查的人數和范圍可以進一步擴大等。在后續研究中,將進一步優化智能語音助手知識服務能力的評價指標體系、擴大層次分析法專家調查的規模。
智能方向論文范文:工程機械智能化信息技術的應用
本文主要針對工程機械智能化信息技術的應用展開研究,并針對工程領域應用的電子信息技術進行淺析,希望能夠為相關技術人員提供理論幫助。
【關鍵詞】控制工程,機械電子工程,應用
轉載請注明來自發表學術論文網:http://www.zpfmc.com/dzlw/21141.html