Python жана BeautifulSoup менен сайттарды кыркуу - Semalt кеңеш

Интернетте веб-сайттарды жана блогдорду кандайча кырыш керек экендиги жөнүндө маалымат жетишсиз. Бизге керектүү нерсе - бул маалыматтарга жетүү гана эмес, аны чогултуу, талдоо жана уюштуруунун кеңейтилүүчү жолдору. Python жана BeautifulSoup - бул веб-сайттарды кыруу жана маалыматтарды алуу үчүн эң сонун каражат. Веб кыргычтан маалыматты оңой чыгарып, керектүү форматта сунуштоого болот. Эгер сиз анын убактысын жана акчасын баалай турган дилгир инвестор болсоңуз, анда веб-кыртышты тездетип, аны мүмкүн болушунча оптималдаштырышыңыз керек.

Баштоо

Биз Python жана BeautifulSoup экөөнү тең негизги тил катары колдонобуз.

  • 1. Mac колдонуучулары үчүн Python OS X-де алдын-ала орнотулган, алар Терминалды ачып, python-которууну териши керек . Ошентип, алар Python 2.7 нускасын көрө алышат.
  • 2. Windows колдонуучулары үчүн Python'ду өзүнүн расмий сайты аркылуу орнотууну сунуштайбыз.
  • 3. Андан кийин, сиз pip жардамы менен BeautifulSoup китепканасына киришиңиз керек. Бул топтомду башкаруу куралы өзгөчө Python үчүн жасалган.

Терминалда сиз төмөнкү кодду киргизишиңиз керек:

Easy_install pip

BeautifulSoup4 орнотуу

Скрапинг эрежелери:

Сактоонун негизги эрежелери төмөнкүлөр:

  • 1. Сайтты кыркууну баштаардан мурун, сайттын Эрежелерин жана Регламенттерин текшерип турушуңуз керек. Ошондуктан өтө этият болуңуз!
  • 2. Сиз сайттардан маалыматты өтө агрессивдүү талап кылбаңыз. Сиз колдонгон курал туура иш-аракет жасаарын текшериңиз. Болбосо, сайтты бузуп салсаңыз болот.
  • 3. Секундуна бир суроо - бул туура практика.
  • 4. Блогдун же сайттын макетин каалаган учурда өзгөртүүгө болот, керек болсо, ошол сайтка кайрадан кирип, өзүңүздүн кодуңузду жазсаңыз болот.

Баракты текшериңиз

Эмне кылуу керектигин түшүнүү үчүн курсоруңузду Баалар баракчасына ачыңыз. HTML жана Python экөөнө байланыштуу текстти окуп чыгыңыз жана анын натыйжаларынан HTML тегдеринин ичиндеги бааларды көрө аласыз.

Excel CSVге экспорттоо

Берилиштерди бөлүп алгандан кийин, кийинки кадам - аны оффлайнда сактоо. Excel үтүр менен бөлүнгөн форматы бул жагынан эң мыкты тандоо, жана аны Excel баракчаңызда оңой эле ачсаңыз болот. Бирок, биринчиден, маалыматтарыңызды туура жазуу үчүн Python CSV модулдарын жана күндүзгү убакыт модулдарын импорттошуңуз керек. Импорт бөлүмүнө төмөнкү кодду киргизсе болот:

import csv

берилиштер убактысынан даткага импорттоо

Scraping Advanced техникалары

BeautifulSoup - бул желе кыргычын жөнөкөй жана ар тараптуу шаймандардын бири. Бирок, эгер сиз чоң көлөмдөгү маалыматтарды чогултушуңуз керек болсо, анда башка варианттарды карап чыгыңыз:

  • 1. Скрап - бул күчтүү жана укмуштуудай питон кыркуу алкагы.
  • 2. Сиз ошондой эле кодду жалпы API менен айкалыштыра аласыз. Маалыматтарыңыздын натыйжалуулугу маанилүү болот. Мисалы, сиз Facebook Graph API'ди колдонсоңуз болот, ал маалыматты жашырууга жардам берет жана аны Facebook баракчаларында көрсөтпөйт.
  • 3. Мындан тышкары, сиз MySQL сыяктуу программалык камсыздоону колдонуп, маалыматтарды чоң көлөмдө тактык менен сактай аласыз.
  • 4. DRY "Өзүңүздү кайталабаңыз" дегенди билдирет жана сиз ушул техниканы колдонуп, кезектеги тапшырмаларды автоматташтырууга аракет кылсаңыз болот.

mass gmail