Apa itu Web Scraping
Web Scraping adalah kegiatan untuk mengambil data dari suatu website dengan memanfaatkan tag-tag, class dan id atribut HTML.
Apa yang diperlukan untuk Web Scraping Pemula
untuk melakukan web scraping hal minimal yang harus dipahami adalah
- Komponen Halaman Web
- Mengetahui HTML Dasar
- Python Dasar
- Mengetahui Jaringan Dasar (misalnya HTTP Request)
Komponen Halaman Web
Komponen Halaman Web secara dasar terdiri atas 3 komponen utama seperti
- HTML
- CSS
- JavaScript
HTML adalah komponen paling dasar yang berfungsi sebagai kerangka utama dalam pembuatan Web CSS digunakan agar web terlihat lebih indah seperti komposisi warna ukuran serta posisi, semua diatur menggunakan CSS ini JavaScript bisa digunakan sebagai backend ataupun frontend sebuah website supaya lebih interaktif dan mudah digunakan pengguna
Web Scraping StarterPack
apa yang dibutuhkan untuk melakukan web scraping?, ada beberapa modul yang biasa digunakan untuk melakukan web scraping seperti
- Modul Request
- modul BeautifulSoup atau Scrapy (kita akan menggunakan BeautifulSoup)
- VirtualEnv atau virtual environtment
Menyiapkan Project
langkah pertama buat virtualenv, jika menggunakan debian dan turunanya install package virtualenv dengan perintah
sudo apt-get install virtualenv
atau
sudo apt-get install python3-venv
cek versi python dengan perintah
python3 -V
user@tukanglinux:~/Project$ python3 -V
Python 3.7.3
jika menggunakan versi python terbaru (python3.8) bisa menggunakan perintah
python3.8 -V
Membuat Virtualenv
contoh menggunakan python versi 3.7 dengan perintah
python3 -m venv ProjectEnv
formatnya seperti ini
python3 -m venv Nama VirtualEnv
Mengaktifkan Virtual Environtment
cara mengaktifkan virtual environtment di linux ini cukup mudah bisa dengan perintah
source ProjectEnv/bin/activate
install package yang dibutuhkan menggunakan pip
pip install requests
pip install beautifulsoup4
saat sudah selesai mengerjakan suatu project dalam virtual environtment cara menonaktikanya di linux cukup dengan perintah
deactivate
Inspect Element Trick
Inspect Element adalah cara untuk mengetahui kode dari suatu website melalui web browser dengan cara inspect element ini, dalam studi kasus ini saya akan inspect element web http://quotes.toscrape.com/page/2/ untuk inspect element bisa tekan
Ctrl + Shift + I
Highlight Komponen secara spesifik
kita dapat melakukan highlight pada komponen website secara spesifik dengan menekan tombol
Ctrl + Shift + C