<abbr id="8ggge"></abbr>
<kbd id="8ggge"><code id="8ggge"></code></kbd>
<pre id="8ggge"></pre>
  • <s id="8ggge"><dd id="8ggge"></dd></s>
    <s id="8ggge"><dd id="8ggge"></dd></s><cite id="8ggge"><tbody id="8ggge"></tbody></cite>
    <kbd id="8ggge"><code id="8ggge"></code></kbd>

    國內(nèi)或國外 期刊或論文

    您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 熱銷圖書爬取數(shù)據(jù)的BeautifulSoup庫解析> 正文

    熱銷圖書爬取數(shù)據(jù)的BeautifulSoup庫解析

    所屬分類:文史論文 閱讀次 時間:2021-05-17 10:30

    本文摘要:摘要BeautifulSoup庫是python語言關(guān)于網(wǎng)絡(luò)爬蟲爬取頁面解析的第三方庫。它能根據(jù)html、xml以及html5lib語法建立解析樹,進(jìn)而高效解析網(wǎng)頁內(nèi)容。本文從基本元素、網(wǎng)頁內(nèi)容遍歷提取方法入手介紹BeautifulSoup庫的工作原理,并結(jié)合電商平臺最新的圖書銷售數(shù)據(jù)為

      摘要BeautifulSoup庫是python語言關(guān)于網(wǎng)絡(luò)爬蟲爬取頁面解析的第三方庫。它能根據(jù)html、xml以及html5lib語法建立解析樹,進(jìn)而高效解析網(wǎng)頁內(nèi)容。本文從基本元素、網(wǎng)頁內(nèi)容遍歷提取方法入手介紹BeautifulSoup庫的工作原理,并結(jié)合電商平臺最新的圖書銷售數(shù)據(jù)為實(shí)例,進(jìn)行爬取信息的解析展示。

      關(guān)鍵詞網(wǎng)絡(luò)爬蟲;網(wǎng)頁解析;BeautifulSoup庫

    數(shù)據(jù)庫解析

      1引言

      BeautifulSoup庫是python語言的第三方爬蟲解析庫。它提供了簡單便捷的python式函數(shù)來處理復(fù)雜的Web頁面的分析需求,是解析、遍歷、維護(hù)標(biāo)簽樹的功能庫。BeautifulSoup庫不僅支持html,還支持lxml以及htnl5lib解析器。通過解析文檔為用戶爬取有價值的數(shù)據(jù),大大節(jié)省開發(fā)時間,成為廣受歡迎的網(wǎng)頁解析工具之一[1]。

      2BeautifulSoup庫的使用

      利用爬蟲獲取網(wǎng)頁信息,就是從html代碼中抽取我們需要的信息。html代碼由眾多標(biāo)簽組成。BeautifulSoup庫的主要功能就是精確定位標(biāo)簽以及從標(biāo)簽中提取內(nèi)容[2]。

      2.1BeautifulSoup庫的基本元素

      BeautifulSoup庫可以將html文檔轉(zhuǎn)換為一個復(fù)雜的樹形結(jié)構(gòu),每個節(jié)點(diǎn)就是一個對象,所有對象可以歸納為4類:(1)Tag對象:每一個html文檔中的Tag標(biāo)簽就是BeautifulSoup庫一個對象。(2)NavigableString對象:Tag對象的內(nèi)部文本節(jié)點(diǎn),可以通過Tag.string返回該對象。(3)BeautifulSoup對象:通過類的實(shí)例化BeautifulSoup對象可以將html文檔轉(zhuǎn)換為一個樹形結(jié)構(gòu),以表示html的文檔結(jié)構(gòu)。(4)Comment對象:返回注釋標(biāo)簽的文本節(jié)點(diǎn),是NavigableString對象的子類。

      2.2BeautifulSoup庫的信息提取方法

      BeautifulSoup對象作為一棵html標(biāo)簽樹,存在眾多由標(biāo)簽對象及非屬性字符串組成的節(jié)點(diǎn)[3]。由于節(jié)點(diǎn)的非線性結(jié)構(gòu),相對于它所在的位置,使得它與其他節(jié)點(diǎn)構(gòu)成了上下、平行關(guān)系,從而衍生出該節(jié)點(diǎn)的父節(jié)點(diǎn)、子節(jié)點(diǎn)、兄弟節(jié)點(diǎn)的上行遍歷、下行遍歷和平行遍歷。節(jié)點(diǎn)的下行遍歷可以通過子孫節(jié)點(diǎn)實(shí)現(xiàn)。.contents屬性可將所有子節(jié)點(diǎn)以列表的方式輸出,通過.children生成器,可對所有子孫節(jié)點(diǎn)進(jìn)行遍歷。節(jié)點(diǎn)的上行遍歷可以通過父輩節(jié)點(diǎn)實(shí)現(xiàn),.parent屬性可將所有父節(jié)點(diǎn)以列表的方式輸出,通過.parents生成器,可對所有父輩節(jié)點(diǎn)進(jìn)行遍歷。節(jié)點(diǎn)的平行遍歷可通過兄弟節(jié)點(diǎn)實(shí)現(xiàn),.next_sibling屬性獲取了該節(jié)點(diǎn)的下一個兄弟節(jié)點(diǎn)。.

      previous_sibling則與之相反,如果節(jié)點(diǎn)不存在,則返回None,兄弟節(jié)點(diǎn)的平行遍歷要求兩節(jié)點(diǎn)需為同級節(jié)點(diǎn),即屬于同一個父節(jié)點(diǎn)。對標(biāo)簽樹符合指定內(nèi)容的節(jié)點(diǎn)遍歷則需要配合搜索方法共同作用,BeautifulSoup庫提供了8種信息查找和獲取方法,其中使用最廣泛的是利用find_all()方法搜索標(biāo)簽樹[4]。find_all(name,attrs,recursive,text,**kwargs)方法搜索當(dāng)前tag的所有子節(jié)點(diǎn),并判斷是否符合過濾器的條件。

      經(jīng)濟(jì)論文投稿刊物:《經(jīng)濟(jì)數(shù)學(xué)》(季刊)創(chuàng)刊于1984年,主要刊登數(shù)量經(jīng)濟(jì)學(xué)、數(shù)理經(jīng)濟(jì)學(xué)、計量經(jīng)濟(jì)學(xué)、經(jīng)濟(jì)對策論、經(jīng)濟(jì)控制論、經(jīng)濟(jì)預(yù)測與決策和經(jīng)濟(jì)應(yīng)用數(shù)學(xué)領(lǐng)域中創(chuàng)造性的研究成果。本刊現(xiàn)為季刊,向國內(nèi)外公開發(fā)行。

      3電商平臺圖書熱銷數(shù)據(jù)的爬取解析

      各大電商平臺的商品成交數(shù)據(jù)蘊(yùn)含大量的有用信息。本文以京東平臺2020年10月份的圖書銷售信息為依據(jù),利用python的requests庫和BeautifulSoup庫爬取并解析出該時段京東圖書銷售榜的top100條信息,以幫助用戶獲取最新熱門圖書資源。

      (1)數(shù)據(jù)爬取。在數(shù)據(jù)爬取之前先閱讀京東網(wǎng)站的網(wǎng)絡(luò)robots協(xié)議,出于數(shù)據(jù)保護(hù)考量,網(wǎng)站對爬蟲訪問進(jìn)行了反爬設(shè)置,需要修改網(wǎng)絡(luò)請求頭中的user-agent為合法瀏覽器。然后利用requests庫GET方法對目標(biāo)網(wǎng)頁進(jìn)行爬取,從而獲得當(dāng)前頁面的html文件。defaskURL(url):head={"user-agent":"Chrome"}r=requests.get(url,headers=head)r.raise_for_status()r.encoding=r.apparent_encodinghtml=r.textreturnhtml

      (2)數(shù)據(jù)解析。利用requests庫爬取的是整個網(wǎng)頁的html文檔,其中大部分?jǐn)?shù)據(jù)并不是我們想要的圖書熱銷信息,利用BeautifulSoup庫進(jìn)行有價值數(shù)據(jù)的解析提取,通過建立soup對象,利用find_all("div",class_="p-detail")找到逐條的熱銷圖書信息,并進(jìn)行數(shù)據(jù)清洗,只保留圖書名稱、作者以及出版社信息,存儲為列表數(shù)據(jù)。defgetData(html):html=askURL(url)soup=BeautifulSoup(html,"html.parser")data=[]foriteminsoup.find_all("div",class_="p-detail"):aset=item.find_all("a")data.append([aset[0].attrs['title'],"\t作者"+aset[1].attrs['title'],"\t"+aset[2].attrs['title']])returndata

      (3)數(shù)據(jù)保存。將解析完成的數(shù)據(jù),加以編號,存放到本地,編碼方式設(shè)置為utf-8,以免出現(xiàn)亂碼[5]。defsaveData(datalist,savepath):withopen(savepath,"w",encoding="utf-8")asf:fordataindatalist:forlineindata:f.writelines(line)f.write("\n\n")return

      參考文獻(xiàn)

      [1]蘇旋.分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[碩士學(xué)位論文].哈爾濱工業(yè)大學(xué),哈爾濱,2012

      [2]夏敏捷,楊關(guān),等.Python程序設(shè)計-從基礎(chǔ)到開發(fā).北京:清華大學(xué)出版社,2017

      [3]嵩天,禮欣,黃天羽.Python語言程序設(shè)計基礎(chǔ).第2版.北京:高等教育出版社,2017

      [4]郭麗蓉.基于Python的網(wǎng)絡(luò)爬蟲程序設(shè)計.電子技術(shù)與軟件工程,2017(23):248-249

      [5]魏倩男,賀正楚,陳一鳴.基于網(wǎng)絡(luò)爬蟲的京東電商平臺數(shù)據(jù)分析.經(jīng)濟(jì)數(shù)學(xué),2018,35(1):77-85

      作者:鞠慧

    轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http://www.zpfmc.com/wslw/26786.html

    主站蜘蛛池模板: AV无码精品一区二区三区宅噜噜| 啊灬啊别停灬用力啊老师在线| 亚洲一区日韩一区欧美一区a| 亚洲AV高清在线观看一区二区| jizzjizzjizzjizz国产| 精品久久久久久亚洲精品| 最新电影天堂快影eeuss| 国产欧美日韩综合精品一区二区 | 久久精品国产99国产精品澳门| 欧美日韩你懂的| 日韩精品久久无码中文字幕| 国产高清精品一区| 亚洲欧美日韩一区在线观看 | 亚洲欧洲精品国产区| 又大又硬又爽又粗又快的视频免费 | 中日欧洲精品视频在线| 色多多在线观看| 最好看的免费观看视频| 国产精品毛片无遮挡高清| 人妻有码中文字幕| 99久久免费精品国产72精品九九| 欧美色图23p| 国产白领丝袜办公室在线视频| 久久综合九色综合网站| bt天堂在线最新版在线| 欧美最猛性xxxxx短视频| 大奶校花催眠全世界| 亚洲综合伊人久久大杳蕉| 一个人hd高清在线观看| 激情小说第一页| 天天躁日日躁成人字幕aⅴ| 午夜性福利视频| 东北妇女精品BBWBBW| 老阿姨哔哩哔哩b站肉片茄子芒果| 日本午夜精品一本在线观看| 午夜欧美日韩在线视频播放 | 日日噜狠狠噜天天噜av| 国产一区小可爱原卡哇伊| 久久久久99精品成人片试看| 西西人体www44rt大胆高清| 日韩亚洲欧美在线观看 |