Gerçek Zamanlı Nesne Takibi(Real-Time Object Detection w/Yolo-Python)

Gerçek Zamanlı Nesne Takibi(Real-Time Object Detection w/Yolo-Python) Herkese merhaba, “Bilgisayar Görmesi Nedir?”, “Gerçek zamanlı nesne takibi nasıl yapılır?”, “CNN algoritması nedir?” gibi sorulara cevap arayacağımız bu yazıda ayrıca “YOLO ve Python ile birlikte real-time object detection aşamaları hakkında edindiğim tecrübeleri sizlerle paylaşmaya çalışacağım. Bilgisayar Görmesi(Computer Vision)? Bir insan görüntüleri ve hareketli nesneleri algılayıp yorumlayabilir. Aynı işlemleri bir makinenin yapabilmesi için bilgisayarlı görü çalışmalarına başlanmıştır. Bu çalışmalar sonucunda geliştirilmiş olan algoritmalar sayesinde bilgisayarlar tıpkı bir insan gibi dijital görüntülerden veya video görüntüleri üzerinden öğrenme, tanıma ve yorumlama yapabilmektedirler. Özetle bilgisayarların gördüklerini anlamalarını sağlayan alt bilim dalına “Bilgisayar Görmesi” denir. Gerçek zamanlı nesne takibi aşamalarına geçmeden önce kullanılacak genel terimlerden bahsetmeliyim. Görüntü Nedir(Image)? Bir imaj, herhangi bir şeyin görsel şekilde yeniden yansıtılmasıdır. Görüntü işleme açısından değerlendirildiğinde elektronik olarak oluşturulan, kopyalanan, işlenen ve saklanan bir resimdir. Görüntüler piksellerden oluşur. Piksel sayısı arttıkça görüntünün kalitesi de artar. Bir görüntünün dijital karşılığı(Temsili) Bilgisayarlar deterministik makinelerdir. Dolayısıyla bilgisayarlar için görüntü bir matristen ibarettir. Video Nedir? Arka arkaya sıralanmış bir çok imajın hareketli gibi algılanan bir görsel oluşturmasıdır. Videolar için FPS(Frame per second) değeri çok önemlidir. Aynı zamanda görüntünün iletimi sırasında sıkıştırılması da günümüz teknolojilerine çok büyük kolaylık sağlıyor. Örneğin; 1 Piksel = 8 bit * 3(RGB) => 24 bit 1024×1024 piksel bir görüntü yaklaşık 24 Mbit yer kaplar.(1K*1K*24) Bu görüntüyü sıkıştırmadan/kodlamadan iletiyor olsaydık saniyede 1 kare için(1 FPS ) 24Mbit bant genişliğine ihtiyacımız olurdu. Bu hareketli görüntüler için kabul edilemez bir FPS değeridir. Şimdi Görüntü ve Video hakkında bilgi edindiğimize göre nesne algılamanın algoritmik tarafına geçebiliriz. CNN(Convolitional Neural Network) CNN(ConvNet) algoritması görüntü ve videolar üzerinde nesneleri algılamak için kullanılan bir algoritmadır. CNN algoritmasına verilen görüntüleri birbirinden ayırt etmek(öğrenmek) için görüntü üzerindeki nesnelerin benzersiz özelliklerini (Feature) kullanırlar. CNN algoritması başlı başına bir yazı olarak ele alınabilir. Konumuz sadece CNN olmadığından, algoritma hakkında bilinmesi gereken temel bilgilerden bahsedelim. Yapısı; Convolution Layer : Image/Frame üzerindeki benzersiz özellikleri saptar. Non-Linearity Layer : Görüntü matrisi bir aktivasyon fonksiyonundan geçirilerek imaj normalize edilir. Seçilen aktivasyon fonksiyonu biraz sonra gerçekleşecek olan sinir ağı eğitiminin hızını etkiler. Pooling Layer : Matrisin ağırlık sayısını azaltır. Bazı kullanıcılar pooling katmanını kullanmak yerine convolution katmanında kullanmış olduğu filtre matrisinin boyutunu arttırırlar. Max Pooling Fully-Connected Layer : Bu katmana kadar gerçekleşen olaylar görüntünün yapay sinir ağına hazırlanması aşamasıdır. Bu katman ise sistemin eğitildiği yani yapay sinir ağının çalıştığı katmandır. CNN algoritmasının çıkışı bu katmandır denilebilir. Şimdi yazımızın başrol oyuncusu olan YOLO’ya geçebiliriz 🙂 YOLO Nedir? YOLO konvolüsyonel sinir ağları kullanarak nesne tespiti yapan bir algoritmadır. Açılımı ‘’You Only Look Once’’ demektir. Sebebi ise algoritmanın nesne tespitini oldukça hızlı bir şekilde ve tek seferde yapabiliyor olmasıdır. YOLO algoritmasının diğer algoritmalardan daha hızlı olmasının sebebi resmin tamamını tek seferde nöral bir ağdan geçiriyor olmasıdır. YOLO algoritması görüntüler üzerinde tespit ettiği nesnelerin çevresini bounding box ile çevreler. YOLO kendisine girdi olarak verilen görüntüyü NxN’lik ızgaralara böler. Bu ızgaralar 5×5,9×9,17×17… olabilir. Her ızgara kendi içerisinde nesne olup olmadığını ve nesne var olduğunu düşünüyorsa merkez noktasının kendi alanında olup olmadığını düşünür. Nesnenin merkez noktasına sahip olduğuna karar veren ızgara o nesnenin sınıfını, yüksekliğini ve genişliğini bulup o nesnenin çevresine bounding box çizmelidir. YOLO Izgara Sistemi(Temsili) Birden fazla ızgara, nesnenin kendi içerisinde olduğunu düşünebilir. Bu durumda ekranda gereksiz bounding box’lar oluşur. Bütün bounding boxların güven skoru vardır. Bu durumu engellemek için Non-Maximum Suppression algoritması kullanılır. Kısaca Non-max Suppression algoritması görüntü üzerinde tespit edilen nesneler için çizilen bounding boxlardan güven değeri en yüksek olanı ekrana çizer. Non-Max Suppression Aşağıdaki grafiklerde YOLO ve diğer bazı algoritmaların MS COCO data set’i için object detection performanslarını görebiliriz. https://arxiv.org/abs/2004.10934 Grafiklerde de göründüğü gibi sınıflandırıcı sayısının eşit olduğu bir case düşünürsek YOLOv4 rakiplerine göre neredeyse 3 kat fark atmış durumda. Şimdi YOLO ile nesne tanıma aşamalarından kısaca bahsedelim. Örnek olarak Maskeli ve Maskesiz Yüzleri tespit eden bir projeyi inceleyelim. 1-)Data Toplama/Etiketleme Data etiketleme işlemini https://www.makesense.ai/ üzerinden yapabilirsiniz. Etiketleme işlemi algoritmanın maskeli ve maskesiz insanları ayırt edip kendi kendini eğitebileceği train datasını kendisine verebilmemiz için önemlidir. Make Sense dışında görüntü etiketleme yapabileceğiniz bir çok ortam bulabilirsiniz. Ben tercihimi etiketleme sonucundaki datayı YOLO’nun istediği formatta verebilen Make Sense’den yana kullanıyorum. Aşağıda etiketleme aşaması için örnek görüntüleri görüyoruz. Örnek olması açısından 2 adet görüntü etiketledim ve sonucu YOLO formatında export ettiğimde aşağıdaki şekilde 2 görüntü için 2 farklı matrise sahip oldum. Görüntüleri etiketledikten sonra DarkNet aracılığı ile Google Colab üzerinden kendi YOLO modelimi eğittim. Eğitim aşamaları için bazı ekran görüntülerini sizler ile paylaşıyorum. YOLO algoritmasının çalıştırılabilmesi için Darknet bizden bazı dosyalar beklemektedir. Bunlardan bir tanesi de .cfg dosyasıdır. Config dosyası YOLO içerisindeki Sinir ağının başarısını,hızını vs etkileyecek özellikleri bizden talep eder. YOLO’nun bizden beklediği bir başka dosya ise .names dosyası.Names içerisinde sınıfların adlarını tutar.Maske tespiti uygulaması için Mask ve No-Mask olmak üzere 2 class vardır. Ayrıca bütün dosyaların DarkNet klasöründeki konumunu belirten .data uzantılı dosyayı da bizden talep eder. Google Colab ile Eğitim Sırasında Alınmış Bir Görüntü Bir eğitimin başarısını eğitim sonrası oluşan loss grafiğinden anlaşılabilir. Eğer YOLO modelimiz için çok fazla data train edip ve yapay sinir ağımızın iterasyon sayısını çok fazla arttırırsak sistem Over Train(Aşırı Öğrenme) olabilir. Bu da modelimizde yaşanmasını istemediğimiz bir durum. Eğitim aşamasını tamamlayıp .weights uzantılı dosyamıza sahip olduğumuzu varsayıyoruz. Artık modelimiz hazır. Data etiketleme eğitim vs. gibi işlemler ile uğraşmak sıkıcı olabilir. Alternatif olarak bir başkası tarafından eğitilmiş bir modeli kullanabilirsiniz. Maske basit 2 sınıfa sahip bir örnek olduğu için belki bilmediğimiz bir modeli kullanabiliriz fakat özel durumlar ve unique bir konu için nasıl eğitildiğini bilmediğimiz bir modeli kullanmak iyi bir tercih olmayabilir. Bu aşamaya kadar hepimizin Maske Tanıma için weights ve config dosyalarımızın elimizde olduğunu kabul ediyorum. Maske tanıma işlemini local kamera ile real time olarak yapabildiğim programa aşağıdan ulaşabilirsiniz. Github : https://github.com/alperenyildiz/mask-detection