Mtaalam wa Semalt: Python na BeautifulSoup. Sehemu za chakavu kwa urahisi

Wakati wa kufanya uchambuzi wa data au miradi ya kujifunza mashine, unaweza kuhitaji kutafuta tovuti ili kupata data inayohitajika na kukamilisha mradi wako. Lugha ya programu ya Python ina mkusanyiko wa nguvu wa vifaa na moduli ambazo zinaweza kutumika kwa sababu hii. Kwa mfano, unaweza kutumia moduli ya BeautifulSoup kwa kuweka HTML.

Hapa, tutaangalia BeautifulSoup na tuone ni kwa nini sasa inatumiwa sana katika ujazo wa wavuti .

Vipengele nzuri vya Supu

- Inatoa njia mbalimbali za urambazaji rahisi, utaftaji na ubadilishaji wa miti ya parse ili kukuruhusu kutenganisha hati kwa urahisi na kutoa kila kitu unachohitaji bila kuandika msimbo mwingi.

- Ni moja kwa moja hubadilisha hati zinazomalizika kuwa UTF-8 na hati zinazoingia kwa Unicode. Hii inamaanisha hautastahili kuwa na wasiwasi juu ya usakinishaji ikiwa hati imeainisha usimbuaji au Supu Nzuri inaweza kuibadilisha.

- BeautifulSoup inachukuliwa kuwa bora kuliko viunga vingine vya Python maarufu kama html5lib na lxml. Inaruhusu kujaribu mikakati tofauti ya upatanishi. Ubaya mmoja wa moduli hii, hata hivyo, ni kwamba hutoa kubadilika zaidi kwa gharama ya kasi.

Je! Unahitaji nini kupata tovuti na BeautifulSoup?

Kuanza kufanya kazi na BeautifulSoup, unahitaji kuwa na mazingira ya programu ya Python (ya ndani au ya msingi wa seva) iliyowekwa kwenye mashine yako. Python kawaida imewekwa mapema katika OS X, lakini ikiwa unatumia Windows, utahitaji kupakua na kusanikisha lugha hiyo kutoka kwa wavuti rasmi.

Unapaswa kuwa na moduli za BeautifulSoup na Maombi zilizosanikishwa.

Mwishowe, kuwa na mazoea na kufanya kazi vizuri na utambulisho wa HTML na muundo ni muhimu kwani utakuwa unafanya kazi na data iliyopangwa na wavuti.

Kuagiza Maombi na Maktaba za BeautifulSoup

Pamoja na mazingira ya programu ya Python kusanidiwa vizuri, sasa unaweza kuunda faili mpya (ukitumia nano, kwa mfano) na jina lolote unalopenda.

Maktaba ya Maombi hukuwezesha kutumia njia inayoweza kusomeka ya kibinadamu HTTP ndani ya programu zako za Python wakati BeautifulSoup inafanya chakavu ifanywe kwa kasi ya haraka. Unaweza kutumia taarifa ya kuagiza kupata maktaba zote mbili.

Jinsi ya kukusanya na kudhibiti ukurasa wa wavuti

Tumia njia ya application.get () kukusanya URL ya ukurasa wa wavuti ambayo unataka kutoa data. Ifuatayo, unda kitu kipya cha Suti au mti wa parse. Kitu hiki kinachukua hati kutoka kwa Maombi kama hoja zake na kisha kuifanya. Ukiwa na ukurasa uliokusanywa, umechanganuliwa na kusanikishwa kama kitu cha Sawa, unaweza kuendelea kukusanya data unayohitaji.

Inafuta maandishi yanayotakikana kutoka kwa ukurasa wa wavuti uliowekwa

Wakati wowote unapotaka kukusanya data ya wavuti, unahitaji kujua jinsi data hiyo inavyoelezewa na Model Object Model (DOM) ya ukurasa wa wavuti. Kwenye kivinjari chako cha wavuti, bonyeza kulia (ikiwa unatumia Windows), au CTRL + bofya (ikiwa unatumia macOS) kwenye moja ya vitu vinavyopanga sehemu ya data ya riba. Kwa mfano, ikiwa unataka kutoa data kuhusu mataifa ya wanafunzi, bonyeza moja ya majina ya mwanafunzi. Menyu ya muktadha yajitokeza, na ndani yake, utaona kipengee cha menyu sawa na kagiza Element (ya Firefox) au kagua (kwa Chrome). Bonyeza kipengee cha menyu cha ukaguzi, na zana za msanidi programu wa wavuti itaonekana ndani ya kivinjari chako.

BeautifulSoup ni zana rahisi lakini yenye nguvu ya HTML ya kurutubisha ambayo hukuruhusu kubadilika sana wakati wa kuvuta tovuti . Wakati wa kuitumia, usisahau kufuata sheria za kukandamiza kama vile kuangalia Masharti na Masharti ya wavuti; kupitia tena tovuti mara kwa mara na kusasisha nambari yako kulingana na mabadiliko yaliyofanywa kwenye wavuti. Kuwa na maarifa haya kuhusu kupapasa wavuti na Python na BeautifulSoup, sasa unaweza kupata data ya wavuti unayohitaji kwa mradi wako.

mass gmail