Get in touch
or send us a question?
CONTACT

[AI by Examples] – Unit 2: Cú pháp cơ bản với NumPy, Pandas, Matplotlib

Table of contents

1. Khởi tạo, làm việc với lists, dictionary trong Python

2. Khởi tạo, làm việc với NumPy

3. Khởi tạo, làm việc với plots trong thư viện Matplotlib

4. Khởi tạo, làm việc với Pandas

1. Khởi tạo, làm việc với lists, dictionary trong Python

Trong python dữ liệu kiểu lists (danh sách) được sử dụng để lưu trữ nhiều phần tử (items) trong một biến duy nhất, nó là 1 trong 4 kiểu dữ liệu tích hợp sẵn trong python. 3 kiểu dữ liệu còn lại là: Tuple, Dictionary và Set

List được khởi tạo bằng dấu ngoặc vuông, ví dụ sau sẽ tạo ra 1 list:

list_library = [“numpy”, “pandas”, “matplotlib”]

Thêm 1 phần tử vào list:

list_library.append(“sklearn”)

Xóa 1 phần tử khỏi list:

list_library.remove(“matplotlib”)

2. Khởi tạo, làm việc với NumPy

Numpy (Numeric Python): là một thư viện toán học phổ biến và mạnh mẽ của Python. Cho phép làm việc hiệu quả với ma trận và mảng, đặc biệt là dữ liệu ma trận và mảng lớn với tốc độ xử lý nhanh hơn nhiều lần khi chỉ sử dụng “core Python” đơn thuần.

Các thao tác cơ bản với NumPy

Khai báo thư viện Numpy:

import numpy

Khởi tạo mảng một chiều:

mang_1d = numpy.array([1, 2, 3, 4, 5, 6])

Output:

[1, 2, 3, 4, 5, 6]

Khởi tạo 1 mảng 2 chiều:

mang_2d = numpy.array([[1,2,3], [4,5,6]])

Output:

[[1 2 3]

[4 5 6]]

Thao tác, kiểm tra thuộc tính của mảng:

dtype: Kiểu dữ liệu của phần tử trong mảng.

shape: Kích thước của mảng.

size: Số phần tử trong mảng.

ndim: Số chiều của mảng.

Ví dụ:

print(“kieu du lieu mang: “, mang_2d.dtype)

print(“kich thuoc cua mang: “, mang_2d.shape)

print(“so phan tu cua mang: “, mang_2d.size)

print(“so chieu cua mang: “, mang_2d.ndim)

Output:

kieu du lieu mang: int64

kich thuoc cua mang: (2, 3)

so phan tu cua mang: 6

so chieu cua mang: 2

3. Khởi tạo, làm việc với plots trong thư viện Matplotlib

Matploblib là một thư viện trực quan hoá dữ liệu phổ biến trong Python. Nó có thể vẽ được nhiều loại đồ thị khác nhau, và rất hữu ích khi làm việc cùng với NumPy.

Ví dụ:

xpoints = numpy.array([0,1,2,3,4])

ypoints = numpy.array([6,18,12,18,6])

plt.plot(xpoints, ypoints)

plt.show()

Khi chạy chúng ta có thể sẽ gặp cảnh báo sau: UserWarning: Matplotlib is currently using agg, which is a non-GUI backend, so cannot show the figure.

Nếu gặp lỗi trên, chúng ta cần cài đặt thêm tkinter:

$ sudo apt-get install python3-tk

và import tkinter vào:

import tkinter

Output:

4. Khởi tạo, làm việc với Pandas

Pandas là một thư viện mã nguồn mở trong python, hỗ trợ đắc lực trong thao tác dữ liệu. Đây cũng là bộ công cụ phân tích và xử lý dữ liệu mạnh mẽ của ngôn ngữ lập trình python. Thư viện này được sử dụng rộng rãi trong cả nghiên cứu lẫn phát triển các ứng dụng về khoa học dữ liệu. Thư viện này sử dụng một cấu trúc dữ liệu riêng là Dataframe. Pandas cung cấp rất nhiều chức năng xử lý và làm việc trên cấu trúc dữ liệu này. Chính sự linh hoạt và hiệu quả đã khiến cho pandas được sử dụng rộng rãi.

Ví dụ:

myarray = numpy.array([[1, 2, 3], [4, 5, 6]])

rownames = [‘hang1′,’hang2’]

colnames = [‘cot1′,’cot2′,’cot3’]

mydataframe = pandas.DataFrame(myarray, index=rownames, columns=colnames)

print(mydataframe)

Output:

Bạn có thể xem thêm phần source của project ở link github: https://github.com/manhdk/AI-by-Examples

Nội dung của ngày tiếp theo chúng ta sẽ học cách sử dụng import dữ liệu từ csv, cách chúng ta hiểu dữ liệu thông qua thống kê và đồ thị bằng các ví dụ cụ thể, hẹn gặp các bạn ở bài tiếp theo nhé!

Hang in there, don’t give up!