Tại sao Python cho Data Science?
Python là ngôn ngữ lập trình phổ biến nhất trong lĩnh vực Data Science nhờ:
- Cú pháp đơn giản, dễ học
- Hệ sinh thái thư viện phong phú
- Cộng đồng lớn và active
Các thư viện quan trọng
NumPy
NumPy là nền tảng cho tính toán khoa học trong Python, cung cấp array đa chiều hiệu năng cao.
import numpy as np
arr = np.array([1, 2, 3, 4, 5])
print(arr.mean()) # 3.0
Pandas
Pandas cung cấp cấu trúc dữ liệu DataFrame mạnh mẽ để xử lý và phân tích dữ liệu.
import pandas as pd
df = pd.read_csv('data.csv')
df.describe()
