Get in touch
or send us a question?
CONTACT

Sử dụng AI để đưa các nhân vật hoạt hình hoạt động

Gần Mark Zuckerberg đã đăng tải 1 video về project mà team Meta AI Research đã thực hiện. Project cho phép người dùng đăng tải những bức hình có vẻ giống người, để tạo nên chuyển động.

Dựa trên công nghệ kết hợp của 2 model :

  1. Detectron2: Là latest algorithms mạnh nhất của Facebook về segmentation.
  2. AlphaPose: Là một multi-person pose estimator vô cùng chính xác. Đạt (75 mAP) trên COCO dataset và 80+ mAP (82.1 mAP) trên MPII dataset. Bộ dataset COCO là một tập datasets phục vụ cho các bài toán Object Detection, Segmentation, Image Captioning. Tập dữ liệu tổng cộng có khoảng 1.5 triệu objects thuộc về 80 class khác nhau. Bộ dữ liệu MPII Human Pose Dataset là bộ dữ liệu Tư thế người của MPII, một tiêu chuẩn hiện đại để đánh giá ước tính tư thế người . Tập dữ liệu bao gồm khoảng 25 nghìn hình ảnh chứa hơn 40 nghìn người có các khớp nối cơ thể (body joint) được chú thích. Các hình ảnh được thu thập một cách có hệ thống bằng cách sử dụng cơ chế phân loại đã được thiết lập về mọi hoạt động hàng ngày của con người.

Mô hình thực hiện dựa trên các bước:

a, Phát hiện các đặc điểm giống con người và các nhân vật khác. Áp dụng kỹ thuật object detection xác định các bộ phận và xử lý ảnh để lấy mask các bộ phận. Họ sử dụng Mask R-CNN từ project Detectron2 và fine-tund bằng Resnet-50+FPN để thu được một lớp các đặc trưng người. Bộ dữ liệu sử dụng các bức ảnh hoạt họa xấp xỉ 1000 ảnh.

b, Sau khi nhận diện các được đặc trưng người từ bức ảnh, cần thực hiện 1 quá trình là masking, tách các đặc trưng đó ra khỏi context và background của bức ảnh. Mask cần phải rất gần với các đường viên của nhân vật.

Họ sử dụng bouding box của nhân vật để crop ra từ ảnh. Sau đó sử dụng các kỹ thuật  adaptive thresholding, morphological closing/dialating operations, flood fill  từ các cạnh của bounding box để thu được mask.

c, Họ sử dụng AlphaPose để xác định các kiểm keypoint trên cơ thể như con người bao gồm hông, cổ tay, gót chân, … Retrained lại dựa trên dữ liệu ảnh animate.

d, Dựa trên mask và các keypoint, họ sử dụng chúng tạo ra 1 cấu trúc là mesh, kết cấu nó với bản vẽ ban đầu. Sử dụng các vị trí khớp được dự đoán, tạo nên khung xương cho nhân vật. Dựa trên cách xoay khung nhân vật và các điểm vị trí khung xương mới để thay đổi mạng lưới, giúp cho nhân vật có thể thay đổi sang tư thế khác.

Dựa công nghệ này, các dự án của team Meta Ai đang nhắm tới việc mô phỏng thế giới thực trong thế giới ảo – Metaverse, mạng xã hội ảo.

Link sử dụng thử nghiệm: https://sketch.metademolab.com/?fbclid=IwAR0vOsbt0doHHj1_Hf06zn6FkRiwQB_pVYkJd8ghgddS1ZdD7uIDRvALTjc

Tham khảo:

[1] https://ai.facebook.com/blog/using-ai-to-bring-childrens-drawings-to-life/