Back

Belajar Web Scraping Dengan Beautifulsoup

Apa itu Web Scraping

Web Scraping adalah kegiatan untuk mengambil data dari suatu website dengan memanfaatkan tag-tag, class dan id atribut HTML.

Apa yang diperlukan untuk Web Scraping Pemula

untuk melakukan web scraping hal minimal yang harus dipahami adalah

  • Komponen Halaman Web
  • Mengetahui HTML Dasar
  • Python Dasar
  • Mengetahui Jaringan Dasar (misalnya HTTP Request)

Komponen Halaman Web

Komponen Halaman Web secara dasar terdiri atas 3 komponen utama seperti

  • HTML
  • CSS
  • JavaScript

HTML adalah komponen paling dasar yang berfungsi sebagai kerangka utama dalam pembuatan Web CSS digunakan agar web terlihat lebih indah seperti komposisi warna ukuran serta posisi, semua diatur menggunakan CSS ini JavaScript bisa digunakan sebagai backend ataupun frontend sebuah website supaya lebih interaktif dan mudah digunakan pengguna

Web Scraping StarterPack

apa yang dibutuhkan untuk melakukan web scraping?, ada beberapa modul yang biasa digunakan untuk melakukan web scraping seperti

  • Modul Request
  • modul BeautifulSoup atau Scrapy (kita akan menggunakan BeautifulSoup)
  • VirtualEnv atau virtual environtment

Menyiapkan Project

langkah pertama buat virtualenv, jika menggunakan debian dan turunanya install package virtualenv dengan perintah

sudo apt-get install virtualenv

atau

sudo apt-get install python3-venv

cek versi python dengan perintah

python3 -V
user@tukanglinux:~/Project$ python3 -V
Python 3.7.3

jika menggunakan versi python terbaru (python3.8) bisa menggunakan perintah

python3.8 -V
Membuat Virtualenv

contoh menggunakan python versi 3.7 dengan perintah

python3 -m venv ProjectEnv

formatnya seperti ini

python3 -m venv Nama VirtualEnv

Mengaktifkan Virtual Environtment

cara mengaktifkan virtual environtment di linux ini cukup mudah bisa dengan perintah

source ProjectEnv/bin/activate

mengaktifkan virtualenv
mengaktifkan virtualenv

install package yang dibutuhkan menggunakan pip

pip install requests
pip install beautifulsoup4

saat sudah selesai mengerjakan suatu project dalam virtual environtment cara menonaktikanya di linux cukup dengan perintah

deactivate

deactivate
deactivate

Inspect Element Trick

Inspect Element adalah cara untuk mengetahui kode dari suatu website melalui web browser dengan cara inspect element ini, dalam studi kasus ini saya akan inspect element web http://quotes.toscrape.com/page/2/ untuk inspect element bisa tekan

Ctrl + Shift + I

gambar inspect element
gambar inspect element

Highlight Komponen secara spesifik

kita dapat melakukan highlight pada komponen website secara spesifik dengan menekan tombol

Ctrl + Shift + C

gambar spesific inspect
gambar spesific inspect

Licensed under CC BY-NC-SA 4.0
Last updated on Jan 06, 2022 11:09 +0700
comments powered by Disqus
Built with Hugo
Theme Stack designed by Jimmy