Machine Learning Foundations
PCA là cách tìm các trục mới giữ lại nhiều phương sai nhất của dữ liệu. Khi chiếu dữ liệu lên các trục này, ta giảm số chiều nhưng vẫn giữ phần thông tin quan trọng.
1. Ý tưởng cốt lõi
Thách thức lớn nhất trong khoa học dữ liệu là lời nguyền đa chiều. PCA giải quyết vấn đề này bằng cách tìm những hướng quan trọng nhất, nơi dữ liệu biến thiên mạnh nhất.
Thông tin = phương sai
Các hướng có phương sai lớn thường chứa nhiều tín hiệu hơn. Các hướng có phương sai nhỏ thường là nhiễu hoặc thông tin dư thừa.
Tính trực giao
Các trục mới phải vuông góc với nhau để tránh đếm trùng thông tin đã được giải thích bởi thành phần trước đó.
2. Quy trình toán học
Hiệu chỉnh trung bình
Ma trận hiệp biến
Trị riêng và vector riêng
3. Ví dụ minh họa chi tiết
Khảo sát 4 mẫu dữ liệu với 3 đặc trưng: x (chi tiêu), y (thu nhập), và z (tín dụng).
| Mẫu | x | y | z |
|---|---|---|---|
| 1 | 10 | 50 | 700 |
| 2 | 20 | 60 | 710 |
| 3 | 10 | 50 | 690 |
| 4 | 20 | 60 | 700 |
Bước 1: Tính trung bình và ma trận centered
Bước 2: Ma trận hiệp biến
Thực hiện phép nhân \(\mathbf{C} = \frac{1}{3} \mathbf{X}_{centered}^T \mathbf{X}_{centered}\):
Bước 3: Giải đa thức đặc trưng
Ta cần tìm \(\lambda\) sao cho \(\det(\mathbf{C} - \lambda\mathbf{I}) = 0\):
1. Quan sát sự phụ thuộc tuyến tính
Cột 1 và cột 2 của ma trận \((\mathbf{C} - \lambda\mathbf{I})\) giống hệt nhau nếu \(\lambda = 0\), nên ma trận bị suy biến tại điểm đó.
2. Khai triển định thức
Đặt \(a = 33.33\) và \(b = 66.67\), phương trình trở thành:
3. Giải phương trình bậc 2 còn lại
Vì \(\lambda = 0\) là một nghiệm, ta chia đa thức cho \(\lambda\):
Sử dụng công thức nghiệm \( \Delta = b^2 - 4ac \):
- \(\Delta = (133.33)^2 - 4(3733.33) \approx 17776 - 14933 = 2843\)
- \(\sqrt{\Delta} \approx 53.33\)
- \(\lambda_1 = \frac{133.33 + 53.33}{2} = 93.33\)
- \(\lambda_2 = \frac{133.33 - 53.33}{2} = 40.00\)
Kết quả cuối cùng
Toàn bộ thông tin được gói gọn trong 2 chiều PC1 và PC2. Chiều thứ 3 không chứa thêm thông tin do sự phụ thuộc tuyến tính giữa các biến ban đầu.
No approved comments yet.