Back to Question Center
0

Semalt - Kā nokopēt tīmekļa lapas?

1 answers:

Skaista zupa ir Python bibliotēka, ko plaši izmanto, lai sadrupinātu tīmekļa lapas, izveidojot parsēšanas koku no XML un HTML dokumentiem. Datu analīzes un pārvaldības jomās plaši tiek izmantota tīmekļa nokopēšana - datu iegūšanas paņēmiens no vietnēm un lapām. Vairumā gadījumu Python programmēšanas valoda ir datu zinātnes priekšnoteikums - φθηνα παιδικα αντιηλιακα.

Python 3 ir skrāpēšanas rīks un moduļi, kurus varat izmantot savam datu pārvaldības projektam. Šobrīd darbojas kā Beautiful 4 zupa, šis modulis ir savietojams gan ar Python 3, gan Python 2. 7. Skaists 4 zupas modulis arī spēj izveidot nesējķermeņa zupas parsēšanas koku. Šajā apmācībā jūs uzzināsiet, kā nokrāsot lapu un uzrakstīt nokasīti datus CSV failā.

Darba sākšana

Lai sāktu, savā datorā izveidojiet serveri vai vietējo Python kodēšanas vidi.Jūsu datorā ir jāinstalē skaļš zupa un pieprasījumi. Nepieciešams arī priekšstats par darbu ar abiem moduļiem. Vēl viena priekšrocība ir iepazīšanās ar HTML tagiem un struktūru.

Jūsu datu izpratne

Šajā kontekstā reālie dati no Nacionālās mākslas galerijas tiks izmantoti, lai palīdzētu jums saprast, kā izmantot Skaista 4 zupa. Nacionālā mākslas galerija sastāv no 120 000 gabaliem, ko veic aptuveni 13 000 mākslinieki. Māksla atrodas Vašingtonā. C, Amerikas Savienotās Valstis.

Web datu iegūšana ar skaistu zupu nav tik sarežģīta. Piemēram, ja jūs koncentrējatties uz burtu Z, atzīmējiet un atzīmējiet sarakstā pirmo vārdu. Šajā gadījumā vārds ir Zabaglia, Niccola. Lai nodrošinātu konsekvenci, norādiet lappušu skaitu un pēdējā izpildītāja nosaukumu šajā lapā.

Kā importēt pieprasījumus un skaistu zupa bibliotēku

Lai importētu bibliotēkas, aktivizējiet savu Python 3 programmēšanas vidi. Pārbaudiet, vai esat tajā pašā direktorijā ar savu programmēšanas vidi. Lai sāktu, izpildiet šādu komandu. my_env / bin / aktivizēt.

Izveidot jaunu failu un sākt importēt skaistas zupas un lūdz bibliotēkas. Pieprasījumu bibliotēka ļaus jums lietot HTTP Python programmās lasāmā formātā. Savukārt skaista zupa strādā, lai ātri nokasītu lapas. Izmantojiet bs4, lai importētu Skaista zupa.

Kā savākt un analizēt tīmekļa lapu

Izmantojot pieprasījumus, savākt savu pirmās lapas URL. Pirmās lapas URL tiks piešķirts mainīgā lapai. Izveidojiet BeautifulSoup objektu no Requests un parsējiet objektu no Python's parsētājs.

Šajā apmācībā mērķis ir apkopot saites un mākslinieku vārdus. Piemēram, jūs varat savākt mākslinieku datumus un tautības. Windows lietotājiem labo pogu noklikšķiniet uz mākslinieka vārda. Šajā gadījumā izmantojiet Zabaglia, Niccola. Mac OS lietotājiem pieskarieties "CTRL" un noklikšķiniet uz nosaukuma. Lai piekļūtu tīmekļa izstrādātāju rīkiem, noklikšķiniet uz ekrāna uznirstošo ekrānu izvēlnes Pārbaudīt elementu. Izdrukājiet mākslinieka vārdus, lai padarītu skaistu zupu paraudzētu koku ātri.

Apakšējo savienojumu noņemšana

Lai noņemtu tīmekļa lapas apakšējās saites, pārbaudiet DOM, ar peles labo pogu noklikšķinot uz elementa. Jūs norādīsiet, ka saites atrodas zem HTML tabulas. Izmantojot skaistu zupu, izmantojiet "sadalīšanās metodi", lai noņemtu tagus no analizējamā koka.

Kā vilkt saturu no taga

Jums nav nepieciešams izdrukāt visu saišu tagu, izmantojiet Beautiful Soup, lai noņemtu materiālu no taga. Ar skaistu zupu 4 varat arī uzņemt ar māksliniekiem saistītos URL.

Saglabāto datu sagūstīšana CSV failā

CSV fails ļaus jums saglabāt strukturētus datus vienkāršā tekstā, kuru visbiežāk izmanto datu lapās. Ir ieteicama zināšanas par vienkāršu teksta failu apstrādi Python.

Web datu iegūšana tiek izmantota lappušu sagriešanai un informācijas iegūšanai. Esiet uzmanīgs no tīmekļa vietnēm, no kurām esat ieguves informācija. Dažas dinamiskās tīmekļa vietnes savās vietnēs ierobežo tīmekļa datu iegūšanu. Lai nokrāsotu lapu ar skaistu zupu un Python 3, tas ir vienkārši.

December 22, 2017