Computer Vision (Bilgisayarlı Görü) Nedir? Yüz Tanımadan Otonom Araçlara 2025
Bilgisayarlar görselleri nasıl anlıyor? Yüz tanıma, tıbbi görüntüleme, otonom araçlar, deepfake - hepsi computer vision. CNN'den YOLO'ya, temellerden gelişmiş uygulamalara tam rehber.
iPhone'unuzu yüzünüze tutuyorsunuz, kilidi açılıyor. Instagram fotoğrafınızda yüzleri otomatik tagliyor. Tesla önündeki arabayı tanıyor, frene basıyor.
Bunların hepsi Computer Vision (Bilgisayarlı Görü) sayesinde. Peki bilgisayarlar görselleri nasıl "görüyor"?
Bu yazıda computer vision'ı sıfırdan anlatacağım. Temel mantığından son teknolojilere, uygulamalardan kariyer fırsatlarına kadar her şey.
Computer Vision Nedir?
Basit tanım: Bilgisayarların görsel veriyi (resim, video) anlaması ve yorumlaması için geliştirilen teknolojiler.
İnsanlar göz+beyin ile görüyor. Bilgisayarlar kamera+algoritma ile "görüyor".
Computer vision 3 temel soruya cevap arıyor:
- Bu ne? (Classification - Sınıflandırma)
- Nerede? (Detection - Tespit)
- Nasıl? (Segmentation - Bölütleme)
Örnek: Trafik fotoğrafı
- Sınıflandırma: "Bu bir araba"
- Tespit: "Fotoğrafın şu köşesinde araba var"
- Bölütleme: "Arabanın tam piksel haritası bu"
Bilgisayar Görselleri Nasıl Görür?
İnsan: Göz ışığı yakalar, beyin yorumlar. Otomatik.
Bilgisayar: Resmi piksellerin matrisine çeviriyor.
Örnek: 100x100 piksel siyah-beyaz resim = 100x100 sayı matrisi. Her piksel 0 (siyah) ile 255 (beyaz) arası bir sayı.
Renkli resim: 3 katman (RGB - Kırmızı, Yeşil, Mavi). 100x100 renkli resim = 100x100x3 = 30.000 sayı.
Bilgisayar için resim = sayılar. AI bu sayılarda pattern buluyor.
Temel Computer Vision Görevleri
1. Image Classification (Görsel Sınıflandırma)
Tüm resme bir etiket verme.
Örnek: "Bu resimde kedi var" veya "Bu resimde köpek var"
Kullanım: Instagram filtreler, Google Photos ("kedilerim" diye aratınca tüm kedi fotoları çıkıyor)
2. Object Detection (Nesne Tespiti)
Resimdeki tüm nesneleri bulma + konumlarını belirleme.
Örnek: "Bu resimde 3 kedi, 1 köpek, 2 sandalye var. Kedi sol üstte, köpek sağ altta..."
Kullanım: Otonom araçlar (yol, araba, yaya tespiti), güvenlik kameraları
3. Image Segmentation (Görsel Bölütleme)
Her pikselin hangi nesneye ait olduğunu belirleme.
Örnek: Piksel 1-1000 kedi, piksel 1001-2000 arka plan...
Kullanım: Tıbbi görüntüleme (tümör tam olarak nerede?), arka plan değiştirme (Zoom)
4. Face Recognition (Yüz Tanıma)
Yüzleri tespit edip kimin olduğunu anlama.
Örnek: iPhone Face ID, Facebook otomatik tagleme
5. Pose Estimation (Poz Tahmini)
İnsan vücudunun pozisyonunu anlama.
Örnek: Spor analizi, fitness uygulamaları
6. Image Generation (Görsel Üretme)
Sıfırdan görsel oluşturma veya değiştirme.
Örnek: DALL-E, Midjourney, Stable Diffusion
Computer Vision Nasıl Çalışır?
Eski yöntem (2000'ler): Elle tasarlanmış özellikler.
Örnek: Kenar tespiti, köşe tespiti, renk histogramı. Programcı özellik seçiyor, algoritma öğreniyor.
Problem: İnsan ne özelliği seçeceğini bilmek zorunda. Karmaşık görevlerde yetersiz.
Modern yöntem: Derin öğrenme. Convolutional Neural Networks (CNN).
AI kendisi önemli özellikleri buluyor. Programcı sadece veriyi veriyor.
CNN - Convolutional Neural Network
Computer vision'ın kralı. 2012'de ImageNet yarışmasını kazandıktan sonra her şey değişti.
CNN nasıl çalışır?
Katmanlar var:
- Convolutional Layer: Kenarları, dokuları tespit ediyor
- Pooling Layer: Boyutu küçültüyor
- Fully Connected Layer: Karar veriyor
İlginç olan: İlk katmanlar basit (kenarlar), son katmanlar kompleks (yüzler, nesneler)
AlexNet (2012), VGG (2014), ResNet (2015), EfficientNet (2019) - hepsi CNN varyasyonları.
ImageNet Devrimi (2012)
ImageNet: 14 milyon resim, 20.000 kategori. Computer vision'ın Olympics'i.
2010-2011: En iyi hata oranı %25 civarı (4'te 1 resmi yanlış sınıflandırıyor)
2012: AlexNet (ilk derin CNN) geldi, hata %16'ya düştü. Çığır açıldı.
2015: ResNet hata oranını %3.6'ya indirdi. İnsandan iyi!
Bugün: Computer vision, birçok görsel görevde insan seviyesinin üstünde.
Transfer Learning - Pratik Sihir
Kendi computer vision modelinizi yapmak zor mu? Hayır, transfer learning sayesinde.
Transfer learning: Önceden eğitilmiş modeli alıp kendi verinizle fine-tune etme.
Örnek: ResNet ImageNet'te eğitilmiş (1.4 milyon resim). Siz onu alıp kendi kedileriniz için yeniden eğitiyorsunuz (sadece 1000 resimle yeterli).
Hugging Face, TensorFlow Hub - binlerce hazır model var. Kodlamak çok kolay:
Kod 4-5 satır, 10 dakika eğitim. Hazır!
YOLO - You Only Look Once
Nesne tespitinde devrim. Real-time (gerçek zamanlı) çalışabiliyor.
Eski yöntemler: Resmi tarayarak bakar, yavaş.
YOLO: Tek seferde tüm resme bakıyor, hızlı.
Kullanım: Güvenlik kameraları, otonom araçlar.
YOLO v8 (2023): 1 saniyede 50+ resim analiz edebiliyor. Gerçek zamanlı video.
Computer Vision Uygulamaları - Gerçek Hayat
1. Otonom Araçlar
Tesla, Waymo, Cruise - hepsi computer vision kullanıyor.
Görevler:
- Yol çizgilerini görme
- Araba, yaya, bisiklet tespiti
- Trafik işaretleri okuma
- Mesafe hesaplama
Tesla'nın Full Self-Driving: 8 kamera, saniyede milyonlarca piksel analiz.
2. Tıbbi Görüntüleme
AI, röntgen ve MR görüntülerini analiz ediyor.
Örnek: Akciğer kanseri tespiti. AI, doktorlardan daha erken tespit edebiliyor.
FDA onaylı AI sistemleri var. Hastanelerde aktif kullanılıyor.
Retina tarama: Diyabetik retinopati tespiti. Google'ın AI'ı %90+ doğruluk.
3. Yüz Tanıma
iPhone Face ID: 30.000 nokta projeksiyonu, 3D harita oluşturuyor. İkizinizi bile ayırt edebiliyor.
Havalimanları: Yüz tanıma ile pasaport kontrolü.
Sosyal medya: Facebook, Instagram otomatik tag önerisi.
Çin: Sokak kameraları, yüz tanıma ile vatandaş takibi (tartışmalı)
4. Tarım
Drone + AI: Tarlayı uçarak tarıyor, hasta bitkileri tespit ediyor.
Hasat robotları: Elma, domates tanıyıp topluyor.
Verim tahmini: Uydu görüntülerinden hasat tahmini.
5. Perakende
Amazon Go: Kamerasız market yok. Alıyorsun, çıkıyorsun. Ödeme otomatik.
Virtual try-on: Giysiyi giymeden nasıl göründüğünü görme (IKEA, Zara uygulamaları)
Stok takibi: Raflar boş mu dolu mu, AI tespit ediyor.
6. Güvenlik ve Savunma
Güvenlik kameraları: Şüpheli davranış tespiti.
Askeri: Drone görüntülerinden hedef tespiti.
7. Sanat ve Eğlence
Deepfake: Yüz değiştirme (Tom Cruise deepfake'leri viral olmuştu)
Midjourney, DALL-E: Metinden resim üretme
Instagram, Snapchat filtreleri: Yüz tanıma + AR
Generative AI + Computer Vision
Son trend: Sadece anlama değil, üretme de.
DALL-E 2 (2022): "Astronot at üzerinde, Van Gogh tarzında" yazdığınızda çiziyor.
Midjourney: Sanatçı kalitesinde görseller.
Stable Diffusion: Open source, kendi bilgisayarınızda çalıştırabilirsiniz.
Nasıl çalışıyor? Diffusion modeller. Gürültülü resimden temiz resme.
2025'te video üretimi patlama yaşayacak. Sora (OpenAI) başladı.
Computer Vision Zorlukları
Işık değişimi: Aynı nesne farklı ışıkta farklı görünüyor.
Açı: Üstten baktığınızda araba farklı, yandan farklı.
Engelleme (Occlusion): Nesnenin bir kısmı gözükmüyorsa tanıma zor.
Küçük nesneler: Uzaktaki araba vs yakındaki araba - farklı boyutlar.
Az veri: 1 milyon resimle model eğitmek kolay değil.
Adversarial examples: AI'yı kandıran görüntüler. Sticker yapıştırarak stop işaretini "hız limiti" olarak algılatabiliyor.
Computer Vision'da Kariyer
Çok popüler alan. İş fırsatları bol.
Computer Vision Engineer: Model geliştirme, deployment. Ortalama maaş 30-60K USD (Türkiye'de 70-150K TL).
Research Scientist: Yeni algoritmalar. PhD genelde gerekli.
Robotics Engineer: Computer vision + robotik. Boston Dynamics gibi.
Medical AI Specialist: Tıbbi görüntüleme AI'ları.
Autonomous Vehicle Engineer: Tesla, Waymo gibi şirketler. Çok yüksek maaş.
Computer Vision Öğrenmeye Başlama
Seviye 1: OpenCV (Python) ile basit projeler. Yüz tespiti, kenar tespiti.
Seviye 2: Stanford CS231n kursu (online, ücretsiz). En iyi computer vision kursu.
Seviye 3: Keras/PyTorch ile CNN eğitimi. Kaggle dataset'leri.
Seviye 4: YOLO, Mask R-CNN gibi gelişmiş modeller.
Seviye 5: Araştırma makaleleri. CVPR, ICCV konferans makaleleri.
Gelecek - Computer Vision Nereye Gidiyor?
3D Vision: 2D resim değil, 3D dünya anlama. NeRF (Neural Radiance Fields) yeni trend.
Video Understanding: Sadece resim değil, video anlama. Zaman boyutu ekleniyor.
Multimodal: Görüntü + metin birlikte. CLIP (OpenAI), Flamingo (DeepMind).
Edge AI: Cloud'da değil, cihazda çalışan AI. Telefon, kamera kendi başına karar verebilir.
Embodied AI: Robotlar + computer vision. Boston Dynamics'in robotları.
Etik Sorunlar
Yüz tanıma ve mahremiyet: Sokakta yüzünüz her an taranıyor mu kabul edilebilir mi?
Deepfake: Sahte videolar. Politik manipülasyon, dolandırıcılık.
Önyargı: AI eğitim verisindeki ırk, cinsiyet önyargısını öğreniyor.
Gözetim: Çin'deki sosyal kredi sistemi. Her davranış kaydediliyor.
Silah sistemleri: Otonom drone'lar. Kim sorumluysa hedef yanlışsa?
Sonuç
Computer vision, AI'ın en görünür alanlarından biri. Telefonunuzdan arabaya, hastaneden tarlaya her yerde.
2012'den bu yana muazzam ilerleme. Ve daha yeni başladık.
Başlangıç seviyesinde bile OpenCV ile eğlenceli projeler yapabilirsiniz. Sonra Kaggle yarışmalarına katılın.
Computer vision'ın geleceği çok parlak. 10 yıl sonra bugünkü teknoloji ilkel kalacak.
Bu yolculuğa katılmak için asla geç değil. İlk adımı bugün atın!