Memahami Linear Regression: Dari Marketing hingga Matematika

Pembukaan: Tantangan Marketing

Pertanyaan Manajer Marketing

Anda mengelola marketing untuk sebuah perusahaan yang sedang berkembang. Setiap bulan, Anda memutuskan berapa banyak uang yang akan dihabiskan untuk iklan TV.

Tapi inilah masalahnya...

💰 Pertanyaan Besar:

"Berapa banyak yang harus saya habiskan untuk iklan bulan depan agar mencapai target penjualan $10 juta?"

📊

Data dari masa lalu

🔮

Prediksi masa depan

✅

Buat keputusan

Tema: Menemukan Pola dalam Data

"Jika kita dapat menemukan hubungan matematis antara input kita (pengeluaran iklan) dan output (penjualan), kita dapat memprediksi masa depan."

Ini adalah fondasi dari linear regression.

Pengaturan: Data Historis

Mari Lihat Data Kita

Dataset Marketing: Iklan TV vs. Penjualan

Bulan	Budget Iklan TV ($1000s)	Penjualan ($ juta)
Januari	120	5
Februari	125	7
Maret	140	8
April	110	6

Pola mulai muncul? Lebih banyak iklan → Lebih banyak penjualan

Tapi bisakah kita mengukur hubungan ini? 🤔

Pengaturan: Apa Itu Fungsi Linear?

Fondasi: Memahami Fungsi Linear

Definisi

Sebuah fungsi linear membentuk:

Sebuah garis lurus dalam ruang 2D
Sebuah bidang datar dalam ruang 3D
Sebuah hyperplane dalam dimensi yang lebih tinggi

Bentuk Matematisnya

$\hat{y} = f(x) = w_0 + w_1x$

$w_0$ = intercept

Di mana garis memotong sumbu y

$w_1$ = slope

Seberapa curam garisnya

Katalis: Cek Realitas

Tunggu... Ada Masalah!

Data dunia nyata itu berantakan. Penjualan tidak sempurna mengikuti garis karena:

🌦️ Musiman (liburan, cuaca)
🏢 Aksi kompetitor
📉 Kondisi ekonomi
🎲 Kebetulan acak
📱 Saluran marketing lainnya
👥 Efek dari mulut ke mulut

Model kita tidak akan sempurna—dan tidak apa-apa! 🎯

Kita perlu memperhitungkan ketidakpastian...

Menambahkan Keacakan: Error Term

Sifat Stokastik dari Data

Fungsi Linear yang Dimodifikasi

Kita menambahkan variabel acak untuk menangkap ketidakpastian:

$\hat{y} = f(x) = w_0 + w_1x + \varepsilon$

$\varepsilon$ (epsilon) = error term atau residual

Menangkap semua yang tidak dijelaskan oleh model kita

💡 Wawasan Kunci:

Kita mencari perkiraan yang berguna, bukan prediksi sempurna. Dengan mengakui error, kita membangun model yang lebih realistis!

Memahami Error

Apa Itu Error (Residual)?

Definisi

Untuk setiap titik data $(x_i, y_i)$, error adalah:

$e_i = y_i - (w_0 + w_1x_i)$

$y_i$

Nilai aktual (penjualan sebenarnya)

$(w_0 + w_1x_i)$

Nilai prediksi

Interpretasi

Error positif: Kita meremehkan (prediksi terlalu rendah)
Error negatif: Kita melebih-lebihkan (prediksi terlalu tinggi)
Error nol: Prediksi sempurna! (jarang)

Break into Two: Masalah Optimisasi

Menemukan Garis Terbaik

Ada tak terhingga kemungkinan garis melalui data kita. Mana yang terbaik?

Tujuan Kita

Temukan garis yang membuat total error terkecil di semua titik data.

Tapi bagaimana cara mengukur "total error"? 🤔

⚠️ Tantangan:

Kita perlu metrik yang:

✓ Menangkap besaran error
✓ Tidak membiarkan error saling meniadakan
✓ Dapat diminimalkan secara matematis

Percobaan Pertama: Jumlah Error (GAGAL!)

Pendekatan Naif: Cukup Jumlahkan

Ide Pertama

Jumlahkan semua error:

$\sum e_i = \sum (y_i - (w_0 + w_1x_i))$

❌ Cacat Fatal!

Masalah: Error positif dan negatif saling meniadakan!

Contoh:
• Titik 1: error = +5 (meremehkan)
• Titik 2: error = -5 (melebih-lebihkan)
• Total: +5 + (-5) = 0 ✓ "Sempurna"?

Tapi kedua prediksi salah sebesar 5 unit!

Kesimpulan:

Kita perlu metrik di mana semua error non-negatif sehingga tidak dapat saling meniadakan.

Dua Metrik yang Lebih Baik

Metrik Error Non-Negatif

Jumlah Error Absolut

$\sum |e_i|$

Kelebihan:

✓ Semua error positif
✓ Bobot sama untuk semua error
✓ Tangguh terhadap outlier

Kekurangan:

✗ Tidak dapat diturunkan di nol
✗ Lebih sulit dioptimalkan

Jumlah Error Kuadrat ⭐

$\sum e_i^2$

Kelebihan:

✓ Semua error positif
✓ Memberi penalti besar pada outlier
✓ Dapat diturunkan di mana-mana
✓ Sifat statistik yang baik

Pemenang!

Digunakan dalam linear regression

SSE: Metrik Optimisasi Kita

Sum of Squared Errors (SSE)

Formulanya

$\text{SSE} = \sum e_i^2 = \sum (y_i - (w_0 + w_1x_i))^2$

Kembangkan setiap term dan kuadratkan!

Mengapa Mengkuadratkan Bekerja

Error kecil

Mendapat penalti kecil

$1^2 = 1$

Error besar

Mendapat penalti sangat besar

$10^2 = 100$

Memperluas ke Banyak Variabel

Bagaimana dengan Banyak Input?

Skenario Dunia Nyata

Penjualan mungkin bergantung pada beberapa faktor:

📺

Iklan TV

$x_1$

📻

Iklan Radio

$x_2$

📱

Media Sosial

$x_3$

Dua Variabel: Sebuah Bidang

$\hat{y} = w_0 + w_1x_1 + w_2x_2$

Membentuk bidang datar dalam ruang 3D

Bentuk Umum: n Variabel

Generalisasi ke n Dimensi

Fungsi Linear Umum

Untuk $n$ variabel input:

$\hat{y} = w_0 + w_1x_1 + w_2x_2 + \cdots + w_{n-1}x_{n-1}$

Metrik Error (SSE)

$\sum e_i^2 = \sum (y_i - (w_0 + w_1x_{i1} + w_2x_{i2} + \cdots + w_{n-1}x_{in-1}))^2$

Notasi ini cepat menjadi berantakan! 😰

Solusi: Gunakan matrix! ➡️

Titik Tengah: Wawasan Matrix

Kekuatan Notasi Matrix

Sebelum: Penjumlahan yang Berantakan

$\sum_{i=1}^{m} (y_i - (w_0 + w_1x_{i1} + w_2x_{i2} + \cdots + w_{n-1}x_{in-1}))^2$

Jelek! Sulit bekerja dengannya! 😫

Sesudah: Bentuk Matrix yang Elegan

$\text{SSE} = \|y - XW\|_2^2$

Indah! Bekerja untuk dimensi apa pun! ✨

Formulasi Matrix

Penjelasan Notasi Matrix

Pengaturannya

$\text{SSE} = \|y - XW\|_2^2$

$X \in \mathbb{R}^{m \times n}$

Matrix data input
$m$ = observasi
$n$ = fitur

$y \in \mathbb{R}^m$

Vektor output
$m$ = observasi
Nilai aktual

$W \in \mathbb{R}^n$

Vektor bobot
$n$ = fitur
Parameter yang dicari

$\|\cdot\|_2^2$ = Squared L2 Norm

Nama mewah untuk: "kuadratkan setiap elemen, lalu jumlahkan"
$\|v\|_2^2 = v_1^2 + v_2^2 + \cdots + v_n^2$

Menyelesaikan: Pendekatan Kalkulus

Menemukan Bobot Optimal

Strateginya

Gunakan kalkulus untuk meminimalkan fungsi error!

Wawasan kunci dari kalkulus:

"Pada titik minimum, derivative (gradient) sama dengan nol"

Sama seperti menemukan bagian terbawah dari lembah! 🏔️

Rencananya

1️⃣ Kembangkan $f(W) = \|y - XW\|_2^2$
2️⃣ Ambil gradient: $\nabla f(W)$
3️⃣ Set sama dengan nol: $\nabla f(W) = 0$
4️⃣ Selesaikan untuk $W$

Langkah Derivasi 1: Kembangkan

Mengembangkan Ekspresi Matrix

Langkah 1: Gunakan Sifat Matrix

Mulai dengan:
$f(W) = \|y - XW\|_2^2$

Tulis ulang sebagai dot product:
$f(W) = (y - XW)^T(y - XW)$

Distribusikan transpose:
$= (y^T - W^TX^T)(y - XW)$

FOIL (kalikan):
$= y^Ty - W^TX^Ty - y^TXW + W^TX^TXW$

Langkah 2: Sederhanakan

Karena $W^TX^Ty$ dan $y^TXW$ adalah skalar dan sama:

$f(W) = y^Ty - 2y^TXW + W^TX^TXW$

Langkah Derivasi 2: Gradient

Mengambil Gradient

Ingat Fungsi Kita

$f(W) = y^Ty - 2y^TXW + W^TX^TXW$

Ambil Gradient terhadap $W$

Terapkan aturan derivative:

• $\nabla_W(y^Ty) = 0$ (konstanta)

• $\nabla_W(-2y^TXW) = -2X^Ty$ (linear)

• $\nabla_W(W^TX^TXW) = 2X^TXW$ (kuadratik)

Hasil:

$\nabla f(W) = -2X^Ty + 2X^TXW$

Langkah Derivasi 3: Selesaikan

Menyelesaikan untuk $W$ Optimal

Set Gradient ke Nol

$\nabla f(W) = -2X^Ty + 2X^TXW = 0$

↓ Bagi dengan 2

$-X^Ty + X^TXW = 0$

↓ Tambahkan $X^Ty$ ke kedua sisi

$X^TXW = X^Ty$

Normal Equation ⭐

$W = (X^TX)^{-1}X^Ty$

Solusi closed-form untuk linear regression!

All Is Lost: Tantangan Komputasi

Tunggu... Ada Masalah!

Normal Equation

$W = (X^TX)^{-1}X^Ty$

Terlihat elegan, tapi...

⚠️ Inversi Matrix itu MAHAL

1,000 observasi → Inversi matrix $1000 \times 1000$

Kompleksitas waktu: $O(n^3)$ 🐌

100,000 observasi → Inversi matrix $100,000 \times 100,000$

Memakan waktu berjam-jam atau crash! 💥

Break into Three: Solusinya

💡 Optimisasi Iteratif!

Alternatifnya: Gradient Descent

Alih-alih menghitung inverse secara langsung, ambil langkah-langkah kecil menuju minimum!

Cara Kerjanya

1️⃣ Mulai dengan bobot acak
2️⃣ Hitung gradient (arah kenaikan paling curam)
3️⃣ Bergerak ke arah berlawanan (menurun)
4️⃣ Ulangi sampai mencapai minimum

🎯 Keuntungan:

✓ Tidak perlu inversi matrix
✓ Berskala hingga jutaan titik data
✓ Fondasi dari ML modern
✓ Juga bekerja untuk model non-linear!

Final: Perbandingan

Dua Cara Menyelesaikan Linear Regression

Normal Equation

$W = (X^TX)^{-1}X^Ty$

Kelebihan:
✓ Solusi langsung
✓ Tanpa hyperparameter
✓ Jawaban eksak

Kekurangan:
✗ Kompleksitas $O(n^3)$
✗ Tidak berskala
✗ Intensif memori

Terbaik untuk:

Dataset kecil (< 10k obs)

Gradient Descent ⭐

Update iteratif

Kelebihan:
✓ Berskala untuk data besar
✓ Memori rendah
✓ Generalisasi ke non-linear

Kekurangan:
✗ Perlu tuning
✗ Solusi perkiraan
✗ Memerlukan iterasi

Terbaik untuk:

Dataset besar, deep learning

Gambar Final: Poin-Poin Kunci

Linear Regression: Gambaran Lengkap

Masalahnya 🎯

Temukan hubungan linear antara input dan output untuk memprediksi nilai masa depan

Error Term 🎲

Tambahkan $\varepsilon$ untuk memperhitungkan keacakan dan faktor yang tidak terukur

Metriknya 📊

Gunakan Sum of Squared Errors (SSE) untuk mengukur kualitas fit

Solusinya 🔧

Normal Equation (data kecil) atau Gradient Descent (data besar)

Formula Kunci

Model Linear

$\hat{y} = w_0 + w_1x + \varepsilon$

Bentuk Matrix

$\text{SSE} = \|y - XW\|_2^2$

Normal Equation

$W = (X^TX)^{-1}X^Ty$

Topik Selanjutnya

Gradient Descent! 🚀

Apa Selanjutnya?

Akan Datang Selanjutnya: Gradient Descent!

Sekarang setelah kita memahami linear regression, kita perlu belajar bagaimana cara benar-benar menyelesaikannya untuk dataset besar.

🔍 Kita akan mengeksplorasi:

Bagaimana gradient descent mengambil langkah menuju minimum
Learning rate dan konvergensi
Batch vs. stochastic gradient descent
Mengapa ini adalah tulang punggung dari deep learning

"Perjalanan dari teori ke praktik dimulai dengan optimisasi!"

- QuiverLearn