日韩av片子_国产自在自线午夜精品视频在_使劲快高潮了国语对白在线_久久免费毛片大全_激情丁香综合_欧美成人精品欧美一级乱黄码

中培偉業(yè)IT資訊頻道
您現(xiàn)在的位置:首頁 > IT資訊 > 軟件研發(fā) > 使用Python進(jìn)行Web爬取和數(shù)據(jù)提取

使用Python進(jìn)行Web爬取和數(shù)據(jù)提取

2020-07-28 15:48:06 | 來源:中培企業(yè)IT培訓(xùn)網(wǎng)

  今天為大家介紹的是關(guān)于使用Python進(jìn)行Web爬取和數(shù)據(jù)提取的內(nèi)容。我們首先是要清楚地了解任務(wù)。他們希望我們從中抓取數(shù)據(jù),然后將其保存在CSV文件中,其中上面列出的我們將抓取信息:日期(“以下信息反映了終止{日期}的FMCSA管理信息系統(tǒng)的內(nèi)容”),運(yùn)行狀態(tài),合法名稱,DBA名稱,實際地址,郵寄地址,USDOT號,動力單元,車手。

  步驟1:了解任務(wù)

  我們可以提供100個DOT號碼的初始設(shè)置,以確保可以輕松地刮除上面的信息,從那里我們可以提供每天要刮擦的所有DOT號碼。

  報告頁面可以通過點或其他名稱ID進(jìn)行訪問。每個頁面都有自己的ID(點)。因此,這些點位于Excel文件中。我們必須閱讀此文件并從中提取點,然后將其傳遞到URL以訪問報告頁面。

  第2步:創(chuàng)建環(huán)境并安裝依賴項

  現(xiàn)在,我們知道了客戶希望從我們這里得到什么,因此讓我們創(chuàng)建虛擬環(huán)境,然后檢查將要爬網(wǎng)的元素。

  要創(chuàng)建virtualenv,請在終端中運(yùn)行以下命令:

  虛擬環(huán)境

  然后安裝BeautifulSoup(這是一個用于解析HTML和XML文檔的Python包)和xlrd(這是一個用于從Excel文件讀取數(shù)據(jù)并設(shè)置信息格式的庫):

  pip install beautifulsoup4 xlrd

  步驟3:檢索數(shù)據(jù)

  好了,開發(fā)人員!讓我們從打開項目描述的示例URL開始,剎車可以看到細(xì)分。

  提示以查看示例URL

  我們的第一個目標(biāo)是查找-日期(“以下信息反映了終止{日期}的FMCSA管理信息系統(tǒng)的內(nèi)容”)

  以下信息反映了截止日期01/01/2020的FMCSA管理信息系統(tǒng)的內(nèi)容。

  事實是,我們無法通過特定的類名或ID來檢索此元素。不幸的是,此報告頁面隱藏混亂。

  但是,我們可以將它們?nèi)孔鳛槲谋具M(jìn)行爬網(wǎng),并使用RegEx提取所需的數(shù)據(jù)。

  正則表達(dá)式(RegEx)是特殊的字符序列,可使用模式中保留的特殊語法來幫助您匹配或查找其他字符串或字符串集。

  日期位于之間。以下信息反映了FMCSA管理信息系統(tǒng)的開始日期,以及..(點)。因此,要輸入日期正則表達(dá)式將在這些字符串之間查找。

  import re#regeximport urllib.request from urllib.request import urlopen,Requestfrom bs4 import BeautifulSoupdef crawl_data(url):

  req = Request(URL,標(biāo)頭= {'User-Agent':'Mozilla / 5.0'})

  html = urlopen(req).read()

  bs = BeautifulSoup(html,'html.parser')

  #查找所有粗體文本

  bold_texts = bs.find_all('b')

  對于b在bold_texts中:

  嘗試:

  #在這些字符串之間看

  date = re.search('以下信息反映了FMCSA管理信息系統(tǒng)自(。*)起的內(nèi)容。',b.get_text(strip = True,分隔符=''))。group(1).strip( )

  #如果正則表達(dá)式找到多個點,則在第一個點之前提取字符串

  如果len(date)> 11:

  日期= date.split(“。”,1)[0]

  打印(日期)

  除了AttributeError:

  通過

  好吧,如果您運(yùn)行該程序,您將看到它正在打印日期。快速向您展示正則表達(dá)式的工作原理,因為我有些人想了解。

  考慮以下代碼:

  匯入

  #我們需要從字符串中提取“ coderasha”

  data =“您好,我叫Coderasha。”

  名稱= re.search('你好我的名字是(。*)。',數(shù)據(jù))

  打印(名稱)

  #輸出:<_sre.SRE_Match對象;span =(0,27),match ='你好,我叫Coderasha。'>

  group(1)將其中正則表達(dá)式匹配的文本捕獲到一個編號組中,該編號組可以與編號后向引用一起重用

  匯入

  #我們需要從字符串中提取“ coderasha”

  data =“您好,我叫Coderasha。”

  名稱= re.search('你好我的名字是(。*)。',數(shù)據(jù)).group(1)

  打印(名稱)

  #輸出:coderasha

  因此,我正在應(yīng)用相同的邏輯來查找爬網(wǎng)的串行中的日期。

  但是,我們必須使用RegEx再次查找數(shù)據(jù),因為表元素沒有任何特殊屬性。

  #獲取表格內(nèi)的所有文本

  信息= bs.find('中心').get_text(strip =真,分隔符='')#使用RegEx查找字段

  Operating = re.search('Operating Status:(。*)Out',information).group(1).strip()

  legal_name = re.search('法律名稱:(。*)DBA',信息).group(1).strip()

  physical_address = re.search('Physical Address:(。*)Phone',information).group(1).strip()

  mailing_address = re.search('郵件地址:(。*)USDOT',信息).group(1).strip()

  usdot_address = re.search('USDOT號:(。*)國家運(yùn)營商ID號',信息).group(1).strip()

  power_units = re.search('Power Units:(。*)Drivers',information).group(1).strip()

  drivers = re.search('Drivers:(。*)MCS-150表格日期',信息).group(1).strip()

  步驟4:以CSV格式寫入資料

  抓取數(shù)據(jù)后,就該創(chuàng)建新的csv文件鏈接數(shù)據(jù)寫入其中了。我更喜歡創(chuàng)建另一個函數(shù)來處理此操作。

  導(dǎo)入csvdef write_csv(日期,運(yùn)行,legal_name,物理地址,mailing_address,usdot_address,power_units,驅(qū)動程序):

  使用open(usdot_address +'.csv',mode ='w',newline ='',encoding =“ utf-8”)作為csv_file:

  字段名稱= [“日期”,“運(yùn)行狀態(tài)”,“法律名稱”,“物理地址”,“郵寄地址”,“動力裝置”,“驅(qū)動程序”]

  writer = csv.DictWriter(csv_file,fieldnames = fieldnames)

  writer.writeheader()

  writer.writerow({''Date':date,'Operating Status':Operating,'Legal_Name':legal_name,'Physical Address':physical_address,'Mailing Address':mailing_address,'Power Units:power_units,'Drivers':drivers })

  CSV名稱必須唯一,因此我用usdot_address或使用已抓取數(shù)據(jù)的報告頁面的其他名稱ID。

  步驟5:讀取Excel文件以抓取每個點的數(shù)據(jù)

  最后一步是讀取excel文件,將這些點傳遞到URL的末尾以訪問頁面。我們可以用xlrd讀取Excel文件。

  導(dǎo)入xlrd

  點= [] def read_excel_file():

  loc =(“ dots.xls”)

  wb = xlrd.open_workbook(loc)

  工作表= wb.sheet_by_index(0)

  sheet.cell_value(0,0)

  #Excel中的前五個點

  對于我在范圍(1,5)中:

  #將浮點數(shù)轉(zhuǎn)換為字符串并從.0清除

  點= str(sheet.cell_value(i,0))。replace('。0','')

  dots.append(dot)

  xlrd將數(shù)字讀取為浮點數(shù),因此最好的解決方案是將數(shù)字轉(zhuǎn)換為字符串并使用

  更換()

  刪除字符串.0結(jié)尾將這些點傳遞到url中的方法:

  對于點中的點:

  crawl_data

  #睡眠5秒,避免任何錯誤

  time.sleep(5)

  這是完整代碼:

  導(dǎo)入重新導(dǎo)入csv導(dǎo)入urllib.request從urllib.request導(dǎo)入urlopen,Requestfrom bs4導(dǎo)入BeautifulSoupimport xlrd導(dǎo)入時間

  點= [] def read_excel_file():

  loc =(“ dots.xls”)

  wb = xlrd.open_workbook(loc)

  工作表= wb.sheet_by_index(0)

  sheet.cell_value(0,0)

  對于我在范圍(1,5)中:

  點= str(sheet.cell_value(i,0))。replace('。0','')

  dots.append(dot)def crawl_data(url):

  req = Request(URL,標(biāo)頭= {'User-Agent':'Mozilla / 5.0'})

  html = urlopen(req).read()

  bs = BeautifulSoup(html,'html.parser')

  bold_texts = bs.find_all('b')

  對于b在bold_texts中:

  嘗試:

  date = re.search('以下信息反映了FMCSA管理信息系統(tǒng)自(。*)起的內(nèi)容。',b.get_text(strip = True,分隔符=''))。group(1).strip( )

  如果len(date)> 11:

  日期= date.split(“。”,1)[0]

  打印(日期)

  除了AttributeError:

  通過

  信息= bs.find('中心').get_text(strip =真,分隔符='')

  Operating = re.search('Operating Status:(。*)Out',information).group(1).strip()

  legal_name = re.search('法律名稱:(。*)DBA',信息).group(1).strip()

  physical_address = re.search('Physical Address:(。*)Phone',information).group(1).strip()

  mailing_address = re.search('郵件地址:(。*)USDOT',信息).group(1).strip()

  usdot_address = re.search('USDOT號:(。*)國家運(yùn)營商ID號',信息).group(1).strip()

  power_units = re.search('Power Units:(。*)Drivers',information).group(1).strip()

  drivers = re.search('Drivers:(。*)MCS-150表格日期',信息).group(1).strip()

  def write_csv(日期,運(yùn)作,法定名稱,物理地址,mailing_address,usdot_address,power_units,驅(qū)動程序)def write_csv(日期,運(yùn)作,合法名稱,物理地址,mailing_address,usdot_address,power_units,驅(qū)動程序):

  使用open(usdot_address +'.csv',mode ='w',newline ='',encoding =“ utf-8”)作為csv_file:

  字段名稱= [“日期”,“運(yùn)行狀態(tài)”,“法律名稱”,“物理地址”,“郵寄地址”,“動力裝置”,“驅(qū)動程序”]

  writer = csv.DictWriter(csv_file,fieldnames = fieldnames)

  writer.writeheader()

  writer.writerow({''Date':date,'Operating Status':Operating,'Legal_Name':legal_name,'Physical Address':physical_address,'Mailing Address':mailing_address,'Power Units:power_units,'Drivers':drivers })

  read_excel_file()

  以點為單位打印(點):

  crawl_data

  time.sleep(5)

  任務(wù)完成!

  以上就是關(guān)于使用Python進(jìn)行Web爬取和數(shù)據(jù)提取的全部內(nèi)容,想了解更多關(guān)于Python的信息,請繼續(xù)關(guān)注我們吧。

標(biāo)簽: Python Web爬取
主站蜘蛛池模板: WWW亚洲色大成网络 日日日日干干干干 | 综合激情五月丁香久久 | 桃子视频在线观看高清免费视频 | 亚洲国产日韩精品 | 伊人福利视频 | 国产激情视频在线 | 国产美女遭强高潮网站观看 | 成人性色生活片免费看爆迷你毛片 | 国产成人高清在线观看播放 | 免费成人高清在线视频 | 日本爽爽爽 | 一级做人爰片全过 | 国产视频在线免费观看 | 公和我做好爽添厨房 | 午夜精品福利一区二区三区蜜桃 | 少妇毛片一区二区三区粉嫩av | 国产日韩在线播放 | 欧美国产精品一区二区 | 亚洲欧洲在线播放 | 未满成年国产在线观看 | 中文字幕第一页在线视频 | 鸳鸯谱在线观看高清 | 国产成人精品午夜视频' | 人妻被按摩到潮喷无码日本 | 看日本黄色大片 | 丰满少妇在线观看网站 | 美女做爰内谢免费网站 | 欧美日韩中文亚洲 | 色老板视频线观看在线 | 国产精品久久久久免费a∨ 欧美精品一区二区三区蜜臀 | 精品久久久久久久久久 | 国产50部艳色禁片无码 | 亚?成人网一区二区 | 欧美极品视频在线观看 | 久久久91av| 久久精品无码一区二区三区 | 亚洲欧洲日本无在线码播放 | 91青青国产在线观看精品 | 国产精品日韩精品欧美精品 | 538在线精品| 成人小视频在线观看 |