Back to Question Center
0

Eòlaiche Semalt: Python agus BeautifulSup. Làraich sgrìobidh le comas

1 answers:

Nuair a bhios tu a 'dèanamh mion-sgrùdadh dàta no pròiseactan ionnsachaidh innealan, dh'fhaodadh gum bi agad ri làraich-lìn a sgioblachadh an dàta a dhìth agus crìoch a chur air a 'phròiseact agad. Tha cruinneachadh cumhachdach aig cànan prògramadh python de dh'innealan agus mhodalan a ghabhas cleachdadh airson an adhbhair seo. Mar eisimpleir, faodaidh tu modal BeautifulSoup a chleachdadh airson parsadh HTML.

An seo, seallaidh sinn air BeautifulSup agus faighnich a-mach carson a tha e a-nis ga chleachdadh gu farsaing ann an sgrìobadh lìn .

Feartan BeautifulSoup

- Tha e a 'toirt seachad diofar dhòighean airson craobhan phasg a lorg, a lorg agus a mhion-atharrachadh, mar sin a' toirt cothrom dhut sgrìobhainn a spreadhadh agus a h-uile dad a dh 'fheumas tu a tharraing às aonais cus còd.

- Tionndaidh e gu fèin-obrachail gu sgrìobhainnean a-mach gu UTF-8 agus sgrìobhainnean a tha a 'tighinn a-steach gu Unicode - qualitaetssicherung. Tha seo a 'ciallachadh nach fheum thu dragh a dhèanamh mu chòdachadh fhad' sa tha an sgrìobhainn air còdachadh no Beautiful Soup air a shònrachadh.

- Thathas a 'meas gu bheil BeautifulSup air a bhith nas fheàrr ri pisearan Python a tha tlachdmhor leithid html5lib agus lxml. Tha e a 'ceadachadh feuchainn ro-innleachdan parsaidh eadar-dhealaichte. Is e aon ana-cothrom den mhodal seo, ge-tà, gu bheil e a 'toirt barrachd sùbailteachd aig cosgais astar.

Dè a dh'fheumas tu airson làrach-lìn a bhriseadh le BeautifulSup?

Gus tòiseachadh a bhith ag obair le BeautifulSup, feumaidh tu am prògram prògramadh Python agad (stèidhichte air an sgìre no air an fhrithealaiche) a shuidheachadh air do inneal. Mar as trice tha Python mar-thà air a stàladh ann an OS X, ach ma chleachdas tu Windows, feumaidh tu an cànan a luchdachadh sìos agus a stàladh bhon làrach-lìn oifigeil.

Bu chòir na modalan BeautifulSupp and Requests a bhith agad.

Mu dheireadh, tha e eòlach agus cofhurtail a bhith ag obair le HTML tagging agus structar gu cinnteach feumail oir bidh thu ag obair le dàta air an eadar-lìon.

Iarrtasan a-steach agus leabharlann BeautifulSoup

Le àrainneachd prògramadh Python air a dheagh stèidheachadh, faodaidh tu a-nis faidhle ùr a chruthachadh (le bhith a 'cleachdadh nano, mar eisimpleir) le ainm sam bith a tha thu ag iarraidh.

Leigidh leabharlann nan iarrtasan leat fòrmat HTTP a leughadh le daoine taobh a-staigh nam prògraman Python agad fhad 'sa tha BeautifulSoup a' faighinn an sgrìobadh air a dhèanamh aig astar nas luaithe. Faodaidh tu an aithris a-steach a chleachdadh gus an dà leabharlann fhaighinn.

Mar a chruinnicheas tu agus dèanar duilleag-lìn

Cleachd na h-iarrtasan. faighinn

dòigh gus URL na duilleige lìn a chruinneachadh às a bheil thu airson dàta a tharraing. An ath rud, cruthaich cuspair BeautifulSoup no craobh pàighidh. Bidh an nì seo a 'toirt an sgrìobhainn bho Iarrtasan mar a h-argamaidean agus an uair sin parses it. Le bhith a 'cruinneachadh na duilleige, ga parsadh agus air a shuidheachadh mar rud BeautifulSoup, faodaidh tu an uairsin air adhart gus an dàta a tha a dhìth oirbh a chruinneachadh.

A 'tarraing às an teacsa a tha a dhìth bhon làrach-lìn parsaidh

Nuair a tha thu airson dàta lìn a chruinneachadh, feumaidh tu fios a bhith agad mar a tha am fiosrachadh sin air a mhìneachadh le Model Object Document (DOM) den duilleag-lìn. Anns a 'bhrabhsair agad, briog air deas-dhealbh (ma chleachdas tu Windows) no CTRL + cliog (ma chleachdas macOS) air aon de na rudan a tha nam pàirt den dàta a tha inntinneach. Mar eisimpleir, ma tha thu airson dàta a tharraing a-mach mu nàiseanan nan oileanach, cliog air aon de na h-ainmean aig oileanach. Bidh clàr-taice co-theacsa a 'nochdadh, agus a-staigh, chì thu rudeigin mar a tha e a' sgrùdadh Element (airson Firefox) no sgrùdadh (airson Chrome). Briog air a 'chlàr-sgrùdaidh sgrùdaidh iomchaidh, agus nochdaidh innealan leasachaidh an lìon taobh a-staigh do bhrobhsair.

'S e inneal parsaidh sìmplidh HTML cumhachdach a tha ann an BeautifulSoup a leigeas leat mòran sùbailteachd nuair a tha a' sgrìobadh làraich-lìn . Nuair a chleachdas tu e, na dì-chuimhnich sùil a thoirt air riaghailtean sgrìobadh coitcheann mar a bhith a 'sgrùdadh Cumhachan is Cùmhnantan an làraich-lìn; a 'coimhead air ais chun làraich gu cunbhalach agus ag ùrachadh do chòd a rèir nan atharrachaidhean air an làrach. Le bhith a 'faighinn an eòlais seo mu bhith a' sgrìobadh làraichean-lìn le Python and BeautifulSoup, faodaidh tu a-nis faighinn gu furasta an dàta lìn a dh 'fheumas tu airson do phròiseact.

December 22, 2017