20 phútdata-dictionary

Data Dictionary

Mô tả chi tiết các dataset sử dụng trong khóa học

📊 Data Dictionary

Trong khóa học này, chúng ta sẽ sử dụng nhiều dataset khác nhau để thực hành. Trang này cung cấp mô tả chi tiết về từng dataset.

1. Iris Dataset (Classification)

Dataset kinh điển để bắt đầu học classification, chứa thông tin về 3 loài hoa Iris.

iris_dataset

Dataset chứa thông tin đo lường 150 mẫu hoa Iris thuộc 3 loài khác nhau

Tên cột Kiểu dữ liệu Mô tảVí dụNullable
petal_lengthfloatChiều dài cánh hoa (cm)1.4
petal_widthfloatChiều rộng cánh hoa (cm)0.2
sepal_lengthfloatChiều dài đài hoa (cm)5.1
sepal_widthfloatChiều rộng đài hoa (cm)3.5
speciescategoricalLoài hoa: setosa, versicolor, virginicasetosa
Hiển thị 5 / 5 cột

Thống kê cơ bản

Thông sốGiá trị
Số lượng mẫu150
Số features4
Số classes3
Missing values0

2. House Prices Dataset (Regression)

Dataset dùng để dự đoán giá nhà dựa trên các đặc điểm của ngôi nhà.

house_prices

Dataset giá nhà tại Ames, Iowa với 79 features mô tả các khía cạnh của ngôi nhà

Tên cột Kiểu dữ liệu Mô tảVí dụNullable
BedroomAbvGrintegerSố phòng ngủ trên mặt đất3
GrLivAreaintegerDiện tích sinh hoạt trên mặt đất (square feet)1710
IdPKintegerID định danh của mỗi ngôi nhà1
LotAreaintegerDiện tích lô đất (square feet)8450
MSSubClassintegerLoại nhà ở liên quan đến việc bán60
OverallQualintegerChất lượng vật liệu và hoàn thiện (1-10)7
SalePriceintegerGiá bán nhà (USD) - TARGET208500
TotalBsmtSFfloatTổng diện tích tầng hầm (square feet)856.0
YearBuiltintegerNăm xây dựng2003
Hiển thị 9 / 9 cột
Lưu ý

Dataset đầy đủ có 79 features. Ở đây chỉ hiển thị các features quan trọng nhất.


3. Customer Segmentation Dataset (Clustering)

Dataset khách hàng dùng để phân nhóm (clustering).

customer_segmentation

Dataset khách hàng của một cửa hàng bán lẻ để phân tích hành vi mua sắm

Tên cột Kiểu dữ liệu Mô tảVí dụNullable
AgeintegerTuổi của khách hàng19
Annual_IncomeintegerThu nhập hàng năm (k$)15
CustomerIDPKintegerID khách hàng duy nhất1
GendercategoricalGiới tính (Male/Female)Male
Spending_ScoreintegerĐiểm chi tiêu được gán bởi cửa hàng (1-100)39
Hiển thị 5 / 5 cột

Data Flow trong khóa học

flowchart LR
    subgraph "Raw Data"
        A[CSV Files]
        B[Database]
        C[API]
    end
    
    subgraph "Processing"
        D[Data Cleaning]
        E[Feature Engineering]
        F[Train/Test Split]
    end
    
    subgraph "Modeling"
        G[Training]
        H[Validation]
        I[Testing]
    end
    
    A --> D
    B --> D
    C --> D
    D --> E
    E --> F
    F --> G
    G --> H
    H --> I

Download Datasets

Cách tải dataset

Tất cả datasets được cung cấp sẵn trong mỗi notebook. Bạn cũng có thể tải trực tiếp từ các nguồn sau:

# Load từ Scikit-learn
from sklearn.datasets import load_iris
iris = load_iris()

# Load từ file CSV
import pandas as pd
df = pd.read_csv('data/house_prices.csv')

# Load từ Kaggle
# !kaggle datasets download -d dataset-name

➡️ Tiếp theo: Bắt đầu với Notebook thực hành đầu tiên!