Page 87 - Tạp chí Giao thông Vận Tải - Số Tết Dương Lịch
P. 87

KHOA HỌC CÔNG NGHỆ      Tập  6 4
                                  Tập 64
                                  Số 12/2024 (748)
             2. BỐI CẢNH NGHIÊN CỨU                            hợp yêu cầu xử lý của các hệ thống nhúng; phiên bản
             2.1. Bài toán phát hiện phương tiện giao thông    “small” và “medium” phù hợp với bài toán nhỏ và trung
             Phát hiện phương tiện giao thông là một dạng của bài   bình; hai phiên bản còn lại phù hợp cho hệ thống đòi hỏi
          toán nhận dạng đối tượng của thị giác máy tính nhằm mục   độ chính xác cao chấp nhận tốc độ xử lý chậm. Hoạt động
          đích theo dõi mục tiêu và thường được tiếp cận dựa trên   giao thông trên một đoạn đường hay nút giao thường thay
          thuật toán học máy (Machine learning) và học sâu (Deep   đổi trong khoảng thời gian ngắn, hơn nữa phạm vi quan
          learning). Do kỹ thuật học sâu không chỉ cải thiện hiệu suất,   sát của UAV giao thông không lớn, nên nghiên cứu này xem
          giảm cảnh báo lỗi mà còn có khả năng nhận dạng và phân   xét phiên bản “nano” và “small”.
          loại đối tượng với độ chính xác cao nên nó đã trở thành xu
          thế tiếp cận với bài toán nhận dạng đối tượng. Đến nay,   3. NỘI DUNG NGHIÊN CỨU
          kỹ thuật học sâu thường được biết đến với hai chuỗi điển   3.1. Khung nghiên cứu
          hình, bao gồm R-CNN (Region-based Convolutional Neural   Khung nghiên cứu trong nghiên cứu này bao gồm 3
          Network) [1-3] và YOLO [4-7]. Chuỗi thứ nhất thực hiện phát   bộ phận chính: Chuẩn bị dữ liệu cho mô hình YOLO, huấn
          hiện thông qua hai giai đoạn, bao gồm đề xuất vùng và   luyện mô hình, thử nghiệm đánh giá phát hiện phương tiện
          phân loại vùng. Trong khi đó, chuỗi thứ hai chỉ cần thông   giao thông. Trong phần chuẩn bị dữ liệu, hình ảnh từ UAV
          qua một giai đoạn đã bao gồm cả đề xuất vùng và phân loại   được tách thành các khung hình và được tạo nhãn. Sau đó,
          vùng để phát hiện đối tượng. Nhờ đó mà chuỗi thứ hai có   hình ảnh được đưa vào huấn luyện trong mạng YOLO và
          tốc độ thực thi nhanh hơn trong khi vẫn đảm bảo độ chính   cuối cùng phương tiện giao thông trong các khung hình
          xác cao [8-10].                                      sẽ được trích xuất và xử lý bởi mô hình đã huấn luyện, từ
             Bài toán phát hiện phương tiện giao thông đã và đang   đó phân loại được các phương tiện giao thông ở các khung
          được nghiên cứu theo hướng tiếp cận thuật toán học sâu,   hình trong tập dữ liệu thử nghiệm.
          chủ yếu dựa trên bộ dữ liệu điển hình, ví dụ như bộ dữ liệu   Để ước lượng hiệu quả của quá trình phát hiện phương
          COCO [11]. Tuy nhiên đến nay, chúng ta vẫn chưa có bộ dữ   tiện, nghiên cứu này sử dụng các chỉ số như sau: Độ chính
          liệu toàn năng đáp ứng tất cả các môi trường giao thông,   xác (Precision, P) hay còn gọi độ tin cậy; độ triệu hồi (Recall,
          cần thiết xây dựng các bộ dữ liệu cho các bài toán đặc thù,   R) hay còn gọi là độ nhạy;  độ chính xác trung bình (mAP).
          như giao thông hỗn hợp ở Việt Nam. Trong nghiên cứu này,   Chúng được xác định bằng các công thức như sau [10]:
          tập trung vào phát hiện phương tiện giao thông từ dữ liệu                                          (1)
          ảnh của UAV trong điều kiện giao thông ở Việt Nam.
             2.2. Thuật toán học sâu YOLO
             YOLO là một mô  hình mạng nơ-ron tích chập CNN                                                  (2)
          (Convolutional Neural Network) [12]  được phát triển để
          phát hiện, nhận dạng và phân loại đối tượng với tốc độ   Trong đó: TP - Nhận dạng đúng đối tượng; FP - Không nhận
          nhanh và độ chính xác cao. YOLO được tạo ra nhờ sự kết   dạng đúng đối tượng; FN - Nhận dạng sai với đối tượng đúng.
          hợp của lớp tích chập với nhiệm vụ trích xuất các đặc trưng                                        (3)
          ảnh và lớp kết nối đầy đủ để phát hiện đối tượng. Đầu vào
          của YOLO là một ảnh, mạng sẽ nhận dạng ảnh đó có đối    Trong đó: AP(i) -  Độ chính xác trung bình (Average
          tượng nào hay không, sau đó sẽ xác định tọa độ của đối   Precision) của lớp i; N - Tổng số lớp. Trong thực tế thường
          tượng trong ảnh. Kể từ phiên bản đầu tiên được giới thiệu   dùng mAP50 và mAP50-95 với mAP50 là độ chính xác trung
          bởi Joseph Redmon và cộng sự [4], YOLO không ngừng cải   bình ở ngưỡng IoU (Intersection over Union) là 0,50; mAP50-
          tiến và hoàn thiện qua các phiên bản cập nhật như YOLOv3,   95 là trung bình của độ chính xác trung bình được tính ở các
          YOLOv4, YOLOv5, YOLOv6, YOLOv7, YOLOv8, YOLOv9,      ngưỡng IoU khác nhau, dao động từ 0,50 đến 0,95.
          YOLOv10, YOLO11. Trong đó, YOLOv8 hiện khá thịnh hành.   3.2. Chuẩn bị dữ liệu cho mô hình
          Các bản YOLOv9-YOLO11 mới ra đời trong năm 2024, các    Hình ảnh về dòng giao thông hỗn hợp ở các đoạn
          nghiên cứu sử dụng còn hạn chế. Nghiên cứu này dùng   đường và nút giao thông được các tác giả tự thu thập bằng
          phiên bản YOLOv8 được sử dụng để thực hiện huấn luyện   DJI Phantom IV. Ngoài ra, một số được thu thập từ nguồn
          và thử nghiệm. Các phiên bản về sau sẽ được nhóm tác giả   Internet qua các kênh như Youtube, một số khác được hiệu
          cập nhật ở các nghiên cứu tiếp theo.                 chỉnh từ dữ liệu trong nghiên cứu [14]. Tiếp theo nhóm
             YOLOv8 [13] được công bố vào đầu năm 2023 và đã   nghiên cứu gán nhãn cho tất cả các ảnh thu được để làm
          mang lại nhiều điểm tích cực so với các phiên bản trước   dữ liệu. Việc gán nhãn được thực hiện trên công cụ miễn
          nhờ hỗ trợ giải quyết được các vấn đề trên một khung   phí “LabelImg” [15]. Sau khi gán nhãn, mỗi ảnh của tập dữ
          hình, bao gồm phát hiện đối tượng, phân vùng đối tượng   liệu đào tạo được định nghĩa dưới dạng file.txt với cấu trúc
          và phân loại đối tượng. So với YOLOv5, YOLOv8 nhận dạng   như sau [mã đối tượng] [tọa độ x] [tọa độ y] [chiều rộng
          không phụ thuộc vào các điểm neo, giới thiệu phép nhân   của đối tượng] [chiều cao của đối tượng]. Nghiên cứu này
          chập mới và tăng cường dữ liệu kiểu khảm ảnh (mosaic   tập trung vào 5 đối tượng, bao gồm 0-MC (xe máy); 1 - Car
          augmentation). Hiện nay, YOLOv8 cung cấp các kích thước   (ô tô); 2 - Bus (xe buýt > 25 chỗ); 3 - Mini-bus (xe buýt < 25
          mô hình khác nhau: n - nano, s - small, m - medium, l - large   chỗ); 4 - Truck (xe tải).
          và x - extra large. Phiên bản “nano” gọn nhẹ và nhanh, phù   Tập dữ liệu này bao gồm 3.274 ảnh có độ phân giải trung

          86
   82   83   84   85   86   87   88   89   90   91   92