📊 Data Dictionary
Trong khóa học này, chúng ta sẽ sử dụng nhiều dataset khác nhau để thực hành. Trang này cung cấp mô tả chi tiết về từng dataset.
1. Iris Dataset (Classification)
Dataset kinh điển để bắt đầu học classification, chứa thông tin về 3 loài hoa Iris.
iris_dataset
Dataset chứa thông tin đo lường 150 mẫu hoa Iris thuộc 3 loài khác nhau
| Tên cột | Kiểu dữ liệu | Mô tả | Ví dụ | Nullable |
|---|---|---|---|---|
petal_length | float | Chiều dài cánh hoa (cm) | 1.4 | |
petal_width | float | Chiều rộng cánh hoa (cm) | 0.2 | |
sepal_length | float | Chiều dài đài hoa (cm) | 5.1 | |
sepal_width | float | Chiều rộng đài hoa (cm) | 3.5 | |
species | categorical | Loài hoa: setosa, versicolor, virginica | setosa |
Thống kê cơ bản
| Thông số | Giá trị |
|---|---|
| Số lượng mẫu | 150 |
| Số features | 4 |
| Số classes | 3 |
| Missing values | 0 |
2. House Prices Dataset (Regression)
Dataset dùng để dự đoán giá nhà dựa trên các đặc điểm của ngôi nhà.
house_prices
Dataset giá nhà tại Ames, Iowa với 79 features mô tả các khía cạnh của ngôi nhà
| Tên cột | Kiểu dữ liệu | Mô tả | Ví dụ | Nullable |
|---|---|---|---|---|
BedroomAbvGr | integer | Số phòng ngủ trên mặt đất | 3 | |
GrLivArea | integer | Diện tích sinh hoạt trên mặt đất (square feet) | 1710 | |
IdPK | integer | ID định danh của mỗi ngôi nhà | 1 | |
LotArea | integer | Diện tích lô đất (square feet) | 8450 | |
MSSubClass | integer | Loại nhà ở liên quan đến việc bán | 60 | |
OverallQual | integer | Chất lượng vật liệu và hoàn thiện (1-10) | 7 | |
SalePrice | integer | Giá bán nhà (USD) - TARGET | 208500 | |
TotalBsmtSF | float | Tổng diện tích tầng hầm (square feet) | 856.0 | |
YearBuilt | integer | Năm xây dựng | 2003 |
Dataset đầy đủ có 79 features. Ở đây chỉ hiển thị các features quan trọng nhất.
3. Customer Segmentation Dataset (Clustering)
Dataset khách hàng dùng để phân nhóm (clustering).
customer_segmentation
Dataset khách hàng của một cửa hàng bán lẻ để phân tích hành vi mua sắm
| Tên cột | Kiểu dữ liệu | Mô tả | Ví dụ | Nullable |
|---|---|---|---|---|
Age | integer | Tuổi của khách hàng | 19 | |
Annual_Income | integer | Thu nhập hàng năm (k$) | 15 | |
CustomerIDPK | integer | ID khách hàng duy nhất | 1 | |
Gender | categorical | Giới tính (Male/Female) | Male | |
Spending_Score | integer | Điểm chi tiêu được gán bởi cửa hàng (1-100) | 39 |
Data Flow trong khóa học
flowchart LR
subgraph "Raw Data"
A[CSV Files]
B[Database]
C[API]
end
subgraph "Processing"
D[Data Cleaning]
E[Feature Engineering]
F[Train/Test Split]
end
subgraph "Modeling"
G[Training]
H[Validation]
I[Testing]
end
A --> D
B --> D
C --> D
D --> E
E --> F
F --> G
G --> H
H --> I
Download Datasets
Tất cả datasets được cung cấp sẵn trong mỗi notebook. Bạn cũng có thể tải trực tiếp từ các nguồn sau:
# Load từ Scikit-learn
from sklearn.datasets import load_iris
iris = load_iris()
# Load từ file CSV
import pandas as pd
df = pd.read_csv('data/house_prices.csv')
# Load từ Kaggle
# !kaggle datasets download -d dataset-name
➡️ Tiếp theo: Bắt đầu với Notebook thực hành đầu tiên!
