Page 87 - Tạp chí Giao thông Vận Tải - Số Tết Dương Lịch
P. 87
KHOA HỌC CÔNG NGHỆ Tập 6 4
Tập 64
Số 12/2024 (748)
2. BỐI CẢNH NGHIÊN CỨU hợp yêu cầu xử lý của các hệ thống nhúng; phiên bản
2.1. Bài toán phát hiện phương tiện giao thông “small” và “medium” phù hợp với bài toán nhỏ và trung
Phát hiện phương tiện giao thông là một dạng của bài bình; hai phiên bản còn lại phù hợp cho hệ thống đòi hỏi
toán nhận dạng đối tượng của thị giác máy tính nhằm mục độ chính xác cao chấp nhận tốc độ xử lý chậm. Hoạt động
đích theo dõi mục tiêu và thường được tiếp cận dựa trên giao thông trên một đoạn đường hay nút giao thường thay
thuật toán học máy (Machine learning) và học sâu (Deep đổi trong khoảng thời gian ngắn, hơn nữa phạm vi quan
learning). Do kỹ thuật học sâu không chỉ cải thiện hiệu suất, sát của UAV giao thông không lớn, nên nghiên cứu này xem
giảm cảnh báo lỗi mà còn có khả năng nhận dạng và phân xét phiên bản “nano” và “small”.
loại đối tượng với độ chính xác cao nên nó đã trở thành xu
thế tiếp cận với bài toán nhận dạng đối tượng. Đến nay, 3. NỘI DUNG NGHIÊN CỨU
kỹ thuật học sâu thường được biết đến với hai chuỗi điển 3.1. Khung nghiên cứu
hình, bao gồm R-CNN (Region-based Convolutional Neural Khung nghiên cứu trong nghiên cứu này bao gồm 3
Network) [1-3] và YOLO [4-7]. Chuỗi thứ nhất thực hiện phát bộ phận chính: Chuẩn bị dữ liệu cho mô hình YOLO, huấn
hiện thông qua hai giai đoạn, bao gồm đề xuất vùng và luyện mô hình, thử nghiệm đánh giá phát hiện phương tiện
phân loại vùng. Trong khi đó, chuỗi thứ hai chỉ cần thông giao thông. Trong phần chuẩn bị dữ liệu, hình ảnh từ UAV
qua một giai đoạn đã bao gồm cả đề xuất vùng và phân loại được tách thành các khung hình và được tạo nhãn. Sau đó,
vùng để phát hiện đối tượng. Nhờ đó mà chuỗi thứ hai có hình ảnh được đưa vào huấn luyện trong mạng YOLO và
tốc độ thực thi nhanh hơn trong khi vẫn đảm bảo độ chính cuối cùng phương tiện giao thông trong các khung hình
xác cao [8-10]. sẽ được trích xuất và xử lý bởi mô hình đã huấn luyện, từ
Bài toán phát hiện phương tiện giao thông đã và đang đó phân loại được các phương tiện giao thông ở các khung
được nghiên cứu theo hướng tiếp cận thuật toán học sâu, hình trong tập dữ liệu thử nghiệm.
chủ yếu dựa trên bộ dữ liệu điển hình, ví dụ như bộ dữ liệu Để ước lượng hiệu quả của quá trình phát hiện phương
COCO [11]. Tuy nhiên đến nay, chúng ta vẫn chưa có bộ dữ tiện, nghiên cứu này sử dụng các chỉ số như sau: Độ chính
liệu toàn năng đáp ứng tất cả các môi trường giao thông, xác (Precision, P) hay còn gọi độ tin cậy; độ triệu hồi (Recall,
cần thiết xây dựng các bộ dữ liệu cho các bài toán đặc thù, R) hay còn gọi là độ nhạy; độ chính xác trung bình (mAP).
như giao thông hỗn hợp ở Việt Nam. Trong nghiên cứu này, Chúng được xác định bằng các công thức như sau [10]:
tập trung vào phát hiện phương tiện giao thông từ dữ liệu (1)
ảnh của UAV trong điều kiện giao thông ở Việt Nam.
2.2. Thuật toán học sâu YOLO
YOLO là một mô hình mạng nơ-ron tích chập CNN (2)
(Convolutional Neural Network) [12] được phát triển để
phát hiện, nhận dạng và phân loại đối tượng với tốc độ Trong đó: TP - Nhận dạng đúng đối tượng; FP - Không nhận
nhanh và độ chính xác cao. YOLO được tạo ra nhờ sự kết dạng đúng đối tượng; FN - Nhận dạng sai với đối tượng đúng.
hợp của lớp tích chập với nhiệm vụ trích xuất các đặc trưng (3)
ảnh và lớp kết nối đầy đủ để phát hiện đối tượng. Đầu vào
của YOLO là một ảnh, mạng sẽ nhận dạng ảnh đó có đối Trong đó: AP(i) - Độ chính xác trung bình (Average
tượng nào hay không, sau đó sẽ xác định tọa độ của đối Precision) của lớp i; N - Tổng số lớp. Trong thực tế thường
tượng trong ảnh. Kể từ phiên bản đầu tiên được giới thiệu dùng mAP50 và mAP50-95 với mAP50 là độ chính xác trung
bởi Joseph Redmon và cộng sự [4], YOLO không ngừng cải bình ở ngưỡng IoU (Intersection over Union) là 0,50; mAP50-
tiến và hoàn thiện qua các phiên bản cập nhật như YOLOv3, 95 là trung bình của độ chính xác trung bình được tính ở các
YOLOv4, YOLOv5, YOLOv6, YOLOv7, YOLOv8, YOLOv9, ngưỡng IoU khác nhau, dao động từ 0,50 đến 0,95.
YOLOv10, YOLO11. Trong đó, YOLOv8 hiện khá thịnh hành. 3.2. Chuẩn bị dữ liệu cho mô hình
Các bản YOLOv9-YOLO11 mới ra đời trong năm 2024, các Hình ảnh về dòng giao thông hỗn hợp ở các đoạn
nghiên cứu sử dụng còn hạn chế. Nghiên cứu này dùng đường và nút giao thông được các tác giả tự thu thập bằng
phiên bản YOLOv8 được sử dụng để thực hiện huấn luyện DJI Phantom IV. Ngoài ra, một số được thu thập từ nguồn
và thử nghiệm. Các phiên bản về sau sẽ được nhóm tác giả Internet qua các kênh như Youtube, một số khác được hiệu
cập nhật ở các nghiên cứu tiếp theo. chỉnh từ dữ liệu trong nghiên cứu [14]. Tiếp theo nhóm
YOLOv8 [13] được công bố vào đầu năm 2023 và đã nghiên cứu gán nhãn cho tất cả các ảnh thu được để làm
mang lại nhiều điểm tích cực so với các phiên bản trước dữ liệu. Việc gán nhãn được thực hiện trên công cụ miễn
nhờ hỗ trợ giải quyết được các vấn đề trên một khung phí “LabelImg” [15]. Sau khi gán nhãn, mỗi ảnh của tập dữ
hình, bao gồm phát hiện đối tượng, phân vùng đối tượng liệu đào tạo được định nghĩa dưới dạng file.txt với cấu trúc
và phân loại đối tượng. So với YOLOv5, YOLOv8 nhận dạng như sau [mã đối tượng] [tọa độ x] [tọa độ y] [chiều rộng
không phụ thuộc vào các điểm neo, giới thiệu phép nhân của đối tượng] [chiều cao của đối tượng]. Nghiên cứu này
chập mới và tăng cường dữ liệu kiểu khảm ảnh (mosaic tập trung vào 5 đối tượng, bao gồm 0-MC (xe máy); 1 - Car
augmentation). Hiện nay, YOLOv8 cung cấp các kích thước (ô tô); 2 - Bus (xe buýt > 25 chỗ); 3 - Mini-bus (xe buýt < 25
mô hình khác nhau: n - nano, s - small, m - medium, l - large chỗ); 4 - Truck (xe tải).
và x - extra large. Phiên bản “nano” gọn nhẹ và nhanh, phù Tập dữ liệu này bao gồm 3.274 ảnh có độ phân giải trung
86