Semalt - Як скребки веб-сторінок?

Beautiful Soup - бібліотека Python, яка широко використовується для скребки веб-сторінок, створюючи дерево розбору з XML та HTML документів. Веб-скребтування, техніка вилучення даних з веб-сайтів та сторінок, широко використовується в галузі аналізу даних та управління ними. У більшості випадків мова програмування Python є необхідною умовою в галузі даних.

У Python 3 є інструменти та модулі для скребки, які можна застосувати до проекту управління даними. На даний момент працює як Beautiful Soup 4, цей модуль сумісний як з Python 3, так і з Python 2.7. Модуль Beautiful Soup 4 також здатний створити дерево розбору для закритого тегового супу. У цьому підручнику ви дізнаєтесь, як скреблити сторінку та записати скребковані дані у файл CSV.

Починаємо

Для початку налаштуйте на вашому ПК сервер або середовище кодування Python на локальному рівні. Ви також повинні встановити модуль Beautiful Soup and Requests на свій апарат. Знання роботи з обома модулями також є необхідною умовою. Ознайомлення з тегами та структурою HTML також є додатковою перевагою.

Розуміння ваших даних

У цьому контексті реальні дані Національної галереї мистецтв будуть використані, щоб допомогти вам зрозуміти, як використовувати прекрасний суп 4. Національна галерея мистецтв складається з 120 000 творів, виконаних приблизно 13 000 художників. Мистецтво базується у Вашингтоні, США.

Вилучення веб-даних за допомогою Beautiful Soup не так вже й складно. Наприклад, якщо ви орієнтуєтесь на букву Z, позначте та занотуйте ім’я у списку. У цьому випадку перше ім’я - Забаглія, Нікола. Для послідовності вкажіть кількість сторінок та ім’я останнього виконавця на цій сторінці.

Як імпортувати запити та бібліотеку Beautiful Soup

Щоб імпортувати бібліотеки, активуйте середовище програмування Python 3. Перевірте, чи перебуваєте ви в одному каталозі з середовищем програмування. Для початку запустіть таку команду. my_env / bin / активувати.

Створіть новий файл і починайте імпортувати бібліотеки Beautiful Soup and Requests. Бібліотека запитів дозволить вам використовувати HTTP у ваших програмах Python у читаних форматах. Красивий суп, з іншого боку, працює для швидкого вискоблювання сторінок. Використовуйте bs4 для імпорту прекрасного супу.

Як зібрати та розібрати веб-сторінку

За допомогою запитів збирайте URL-адресу вашої першої сторінки. URL-адресі першої сторінки буде призначено сторінці змінної. Створіть об’єкт BeautifulSoup із запитів та проаналізуйте об'єкт з аналізатора Python.

У цьому підручнику метою є зібрати посилання та імена художників. Наприклад, ви можете збирати дати та національність художників. Для користувачів Windows клацніть правою кнопкою миші ім'я виконавця. У цьому випадку використовуйте Забаглія, Нікола. Для користувачів ОС Mac натисніть "CTRL" та натисніть ім'я. Клацніть меню "Перевірити елемент", яке з'являється на екрані, щоб отримати доступ до інструментів веб-розробників. Роздрукуйте імена виконавця, щоб Красивий суп швидко розібрав дерево.

Видалення нижніх посилань

Щоб видалити нижню посилання на веб-сторінці, огляньте DOM, клацнувши правою кнопкою миші елемент. Ви виявите, що посилання знаходяться під таблицею HTML. Використовуючи прекрасний суп, використовуйте "метод розкладання" для видалення тегів з дерева розбору.

Як витягнути вміст із тегу

Вам не доведеться надрукувати весь тег посилань, використовуйте Beautiful Soup для видалення матеріалу з тегу. Ви також можете захоплювати URL-адреси, пов’язані з виконавцями, використовуючи Beautiful Soup 4.

Захоплення скребкованих даних у файл CSV

CSV-файл дозволить зберігати структуровані дані у простому тексті, форматі, який використовується в основному для таблиць даних. Знання щодо обробки простих текстових файлів у Python рекомендується.

Вилучення веб-даних використовується для скребки сторінок та отримання інформації. Будьте уважні до веб-сайтів, з яких ви отримуєте інформацію про вилучення. Деякі динамічні веб-сайти обмежують вилучення веб-даних на своїх сайтах. Обрізати сторінку за допомогою Beautiful Soup і Python 3 - це просто.