Yrd. Doç. Dr. Taner Eskil, yıllardır üzerinde çalıştığı ‘yüz anatomisine dayalı ifade tanıma’ projesinde önemli gelişmeler elde etti.

Teknoloji sadece bir parçamız haline gelen mobil cihazlar alanında ilerlemiyor. Geleceğin fütüristik dünyasını inşa edecek çeşitli teknolojiler dünyanın dört bir yanındaki üniversitelerin laboratuvarlarında hayat buluyor.

Geleceğin dünyasını tanımlayacak teknolojileri geliştiren Türk bilim insanlarından bir tanesi, Yrd. Doç. Dr. Taner Eskil, bir süre önce ‘yüz anatomisine dayalı ifade tanıma’ çalışmasıyla gündeme geldi. Eskil, ilk önce akıllı cihazlarda, ardından bizi anlayan robotlarda kullanılabilecek, teknolojiyi  anlattı.

Eskil’e imge işleme alanındaki çalışmalarını, geleceğin fütüristik dünyasına uzanan teknolojileri ve Türkiye’nin sahip olduğu teknoloji altyapısını sorduk:

Kendinizden ve yaptığınız çalışmalardan kısaca bahseder misiniz?

Boğaziçi Üniversitesi Makine Mühendisliği bölümünden mezun oldum. Yüksek lisansımı yine Boğaziçi Üniversitesi’nde sistem ve kontrol mühendisliği üzerine yaptıktan sonra, ABD’nin Michigan State Üniversitesi’nde bilgisayar mühendisliği alanında doktora yaptım. Doktora tez çalışmamda yapay zeka teknikleri ile otomatik araba tasarımını konu alan bir proje üzerinde çalıştım. Türkiye’ye döndüğümde ise bu alandaki çalışmalarıma ara vererek imge işleme alanında çalışmaya başladım. Halen Işık Üniversitesi Bilgisayar Mühendisliği Bölümü’nde Yardımcı Doçent olarak görev yapıyorum. Burada PILAB ismini verdiğimiz makine zekası laboratuvarını kurdum.  Bu laboratuvarda benimle beraber 2 doktora, 2 yüksek lisans ve 1 lisans öğrencisi araştırma yapıyor.

Otomatik araba tasarımı projesinden biraz bahseder misiniz?

Arabanın lastiğinden motor parçalarına kadar parçalarının büyük kısmı tedarikçilerden sağlanıyor. Amaç, dünya üzerinde farklı coğrafyalarda bulunan bu parçaları kullanarak yüksek performanslı otomobil tasarımı yapan bir algoritma tasarlamaktır. Aracın ivmesi, fren performansı gibi tüm isterleri sisteme giriyorsunuz ve size farklı tedarikçilerden kullanılan parçalarla en ideal otomobil tasarımını veriyor. Bu sistem internet üzerinden teklif almak için de çok uygun.  Firmaların size satmak istedikleri ürünler üzerinde fiyat kırmaları ile yeni ve daha yüksek performanslı, düşük maliyetli tasarımlar üretmek mümkün. Kısaca yan sanayisi çok gelişmiş Türkiye gibi bir ülkede bu proje çok değerli olabilir, ancak ben döndükten kısa süre sonra ‘imge işleme’ çalışmalarına odaklandım.

‘İmge işleme’ nedir ve neden bu alana odaklandınız?

İmge işlemede amaç, bir resmi algoritmalar vasıtasıyla analiz ederek o resimden otomatik olarak bir anlam çıkarmaya çalışmak. Bu alana yönelmemin sebebi maliyetinin düşük olması sayesinde destek bulunabilmesiydi. İmge işlemede bir resim veya fotoğraf alıyorsunuz ve bilgisayar ile onun otomatik olarak anlamlandırılmasına çalışıyorsunuz. Böyle bir çalışma için internetten veri bankalarına erişmek çok kolay. Ayrıca bu konuda yapılan çalışmanın sonucunu yayınlamak, hatta ürüne çevirmek daha mümkün. Otomobil projesi üzerinde çalışırken projeyi üreticilere anlatamadığımızdan destek bulamıyorduk. Bu yüzden farazi tasarımlar üzerine çalışıyorduk ve ortaya gerçek bir sonuç koymak zor oluyordu. Ancak imge işlemede aynı sıkıntı söz konusu değil. Beş yıldan bu yana süren çalışmalarımızda öncelikle ‘videolarda yüz bulma’ üzerine odaklandık.

Sanırım en son gelinen nokta ‘yüz anatomisine dayalı ifade tanıma’ yazılımı?

Evet, bunun öncesinde bir takım MOBESE ve güvenlik projeleri üzerinde çalışmalarımız oldu. Bunun dışında Işık Üniversitesi’nin desteklediği bazı projeleri yürüttüm. Bunlardan bir tanesi, otomobilin sürüş sinyallerinden yola çıkarak, sürücünün kimliğini tespit etme çalışmasıydı. Arabanın gaz ve fren pedallarının kullanımı, direksiyon hareketleri ve sinyaller analiz edilerek sürücünün kimliğini tespit ettik. Bu çalışmada ‘sürücü tanıma’ konusunda 100 denek üzerinde yüzde 100 başarı elde ettik.

Devlet Demiryolları ile devam eden bir projeniz söz konusu?

Evet. Bilmem farkında mısınız ama banliyö ve şehirlerarası trenlerde, lokomotifin üzerinde yükselip alçalabilen bir parça mevcut. Üzerinde karbon bir plaka bulunan pantoğraf ismini verdiğimiz bu parça katener hattı denilen yüksek gerilim hattına sürtünüyor ve elektrik iletimini sağlıyor.  Katener hattında teknik veya tasarımsal nedenlerden doğan sorunlar olabiliyor. Sonuç olarak pantograf aşırı ısınma veya darbelerden dolayı kırılabiliyor. YouTube’da “pantogragh damage” başlığı altında bu konuda birçok videoya ulaşabilirsiniz. Burada yaşadığımız sorun şu: Kimse yolculuk esnasında yukarıda olup biteni izleyemiyor. Bu da önemli sorunlara neden oluyor. Örneğin pantograf kırılır ama tren bir sonraki istasyona ulaşabilirse, kimse bu parçanın nerede kırıldığını bilmiyor. Yani sorunun tam olarak nereden kaynaklandığı anlaşılamıyor. Eğer tren pantografın kırılmasından kısa bir süre sonra durursa tespit daha kolay yapılabiliyor ancak bu sefer aynı hat üzerindeki tüm tren seferleri duruyor, yolcuların otobüslerle taşınması büyük bir maliyet getiriyor. Bu sıkıntı Devlet Demiryolları’nda az da olsa yaşanan bir durum.

Biz yaptığımız çalışmada vagonun üzerine bir kamera yerleştirmeyi ve GPS gibi diğer donanımlarla hasarın gelişimini, nedenini ve coğrafi koordinatlarını kesin olarak tespit etmeyi amaçlıyoruz. Böylece bir sorun yaşandığı zaman trenin ulaşacağı bir sonraki istasyondaki merkezi bilgi işlem sistemine sorun iletilecek ve nasıl müdahale edileceği bilinecek. Şimdiden lokomotif üzerine yerleştirdiğimiz kameralarla görüntü almış ve bu görüntüleri analiz edecek algoritmaları geliştirmiş durumdayız. Örneğin bu video İstanbul-Eskişehir hattında çekildi. Bu çalışmayı şu anda lisans öğrencilerimle gerçekleştiriyorum ve henüz mezun olmamış öğrencilerimin başarısı bana gurur veriyor.

Üzerinde çalıştığınız projelerde nasıl destekler söz konusu?

Görev aldığım Işık Üniversitesi, bilimsel araştırmalara başlangıç desteği vermede çekingen davranmıyor. Daha büyük bütçeli araştırmalar için de laboratuvar ve alt yapı destekleri alabiliyoruz. Örneğin Devlet Demiryolları çalışması üniversiteyle başladı. Önce bir prototip sistem hazırlamak ve hatalarımızı görmek istiyoruz. Sonrasında TCDD destek verirse daha büyük bir projeye dönebilir. Yüz ifadesi tanıma projesi ise yine Işık Üniversitesi ev sahipliğinde, TÜBİTAK’ın akademik araştırma desteği ile devam ediyor. Üç yıllık bir proje ve yaklaşık 200 bin TL’lik bir destekle yürütüyoruz. Bu desteğin büyük kısmı yüksek lisans ve doktora öğrencilerinin burs parasını kapsıyor.

Peki bu yılın sonunda kullanılabilir bir ürün elde edilecek mi?

Akademik araştırma projelerinde bir ürün elde etmekten ziyade akademik yayınlar yapmak ve bu alandaki literatüre katkıda bulunmak amaçlanıyor. Yüz ifadesi tanıma projesi, üzerinde çok çalışılması gereken, çok kapsamlı ve karmaşık bir proje. Bu yüzden ilk amacım bu çalışmayı akademik yayınlarla literatüre kabul ettirmek.

Yüz ifadesi tanıma yazılımını öncelikli olarak hangi alanlarda kullanmayı düşünüyorsunuz?

Yazılım şu anda evrensel kabul edilen altı tane yüz ifadesini tanıyabiliyor. Bu ifadelerin evrensel kabul edilmelerinin nedeni kültürden kültüre farklılık göstermemeleridir. Bu ifadelerden biz insanlar bir diğer kişinin ne hissettiğini çok kolay anlayabiliyoruz ama aynısını bilgisayardan beklemek çok kolay bir iş değil. Bana ‘bilgisayar bunu neden yapsın’ diye çok kez soruldu. İnsan-Bilgisayar Etkileşiminde (Human-Computer Interaction) bilgisayarın insanı anlaması çok önemli. Özellikle program tasarımcıları için bu büyük bir önem taşıyor. Bugün, insanlar gibi gülen, yüz ifadeleri yapan humanoid robotlar var. Yüz ifadesi tanıma yazılımı bu tür robotlarda çok etkin kullanılabilir.

Tabii burada eğlence sektörü de geliyor. Örneğin Avatar gibi filmlerde, animasyonların gerçek oyuncuların yüz ifadelerinin sanal karakterlere yansıtılmasıyla yapıldığını gördük. Oyuncular rolünü yaparken yüz ifadeleri kaydediliyor ve bu ifadeler anime bir karaktere aktarılıyor. Bu işlemler için prodüksiyon sonrasında çok büyük ekiplerle yoğun çalışmalar yapılıyor. Yüz ifadesi tanıma yazılımı, oldukça masraflı olan bu çalışmaları son derece kolaylaştırabilir.

Ama bu yazılımı geliştirme amacınız çok daha başka değil mi?

Evet. Bu projeye kısıtlı sektörlerde kullanılacak ürünler geliştirmek için başlamadım. Asıl amacım çok belirgin olmayan ifadeleri anlamaya çalışmak. Bunlardan bir tanesi yorgunluktur. Özellikle pilotlar veya şoförler gibi zor görevleri olan insanların yüzlerini otomatik olarak analiz edip çok yorulduğuna, sinirlendiğine, endişelendiğine dair sinyaller yakalayabilir miyiz, bunu cevaplamaya çalışıyoruz. Böylece bilgisayar karşısındaki insanı önemli uyarılarla tehlikeden uzak tutabilir. Bunun dışında güvenlik amaçlı kullanılabilir. Örneğin havaalanlarında, şüphe çekecek derecede endişeli olan insanları tespit edebiliriz.

Yüz ifadesi tanımı yazılımında farklı olan nedir?

Bizim ilk farkımız ifade tanımayı tek bir resim üzerine değil, video üzerinde yapmamız. İkinci olarak, literatürde genelde göz kenarları, dudak kenarları veya burun kenarları gibi belirgin noktalar izlenerek anlam çıkarmaya çalışılıyor. Ancak bu noktaların videolardaki hareketleri başın farklı pozisyonlarında çok farklı gözüküyor ve yüz ifadesi tanıma performansını düşürüyor. Ayrıca insandan insana yüzün yapısı da çok değişiyor. En önemlisi ise dudakların hareketinin bir insanın sadece mutlu ve üzgün olduğu anlamına gelmemesidir. Aslında gerçek ifade hangi kasların hangi kombinasyonlarda ne derece aktive olduğuna bağlı. Örneğin endişeli olduğumuzda birçok kası aynı anda kullanabiliyoruz.

Kasların hareketi bize çok önemli bir bilgi sağlıyor. Yazılımın yaptığı da yüz üzerinde belirlenen 200'ün üzerindeki noktayı izleyerek bu aktivasyon seviyelerini çıkarmak. Bu oldukça zor bir iş çünkü gözlemlenemez bir veriyi, yani kas kuvvetlerini tahmin etmeye çalışıyorsunuz. Öte yandan, insan anatomisinde kasların yerleri biliniyor.  Bu fikirden yola çıkarak yüksek çözünürlüklü, genel bir yüz modeli geliştirdik. Bu yüz modeli üzerindeki noktalar birbirlerine yaylarla bağlı. Bu yaylar, insan teninin gerilme, sıkışma gibi özelliklerini modele yansıtıyor. Kaslar da aynı şekilde yay olarak modelleniyor. Eğer yüz üzerinde yeterli sayıda noktayı takip edebilirsek, bu noktaların, hangi kasların aktif olmasıyla hareket ettiğini anlayabiliyoruz.

Algoritmamız öncelikle genel yüz modelini deneğin yüzüne yerleştiriyor, yani otomatik olarak deneğin yüzünü modelliyor. Modellemenin ardından deneğin yüzündeki noktaların otomatik takibini yapıyoruz. Son olarak, bu noktaların hareketinden hangi kasların ne seviyede aktif olduğunun çıkarımını yapıyoruz. Bu aşamada bildiğimiz lineer cebir yöntemleri ile kas kuvvetlerini elde ediyoruz. Teorik alanda elde ettğimiz en önemli sonuç, kas kuvvetlerini belli bir hassasiyet dahilinde kesin olarak tespit edebiliyor olmamız.

Gülümseme ifadesi sırasında kas kuvvetleri. Kuvvet büyüklükleri çizgi kalınlıkları ile ifade edilmiştir.

Sinema, 3D oyunlar, güvenlik ve uyarı sistemleri gibi birçok alanın yanı sıra, yüz ifadesi tanıma estetik cerrahide de kullanılabilecek mi?

Yazılımın estetik cerrahide kullanımı konusunda çekincelerim var. Çünkü bu hassasiyeti elde etmek gerçekten zordur. İnsan yüzünün 3 boyutlu modelini tek fotoğraftan başarılı bir şekilde çıkarabiliyoruz. Yüz anatomisini bildiğimiz için kasların bağlantı noktalarını da biliyoruz. Estetik bir operasyon yapılacağı zaman, ten veya kas yapısında nasıl bir değişim oluşacağını tahmin etmek mümkün. Kısaca, sanal ortamda kasların hareketlerini takip ederek, estetik operasyon sonrasında ameliyat edilecek kişinin yüz ifadelerinin nasıl olacağını tahmin edebiliriz. Ama deney yapmadan bunu kesin olarak yapabildiğimizi söyleyemeyiz, bu dikkat edilmesi gereken bir konu. Örneğin ten istendiği şekilde kaynamayabilir veya farklı dokular oluşabilir…

Ufak yüz ifadelerini oluşturan kas kuvvetlerini çok iyi yakalayabilir ve sanal ortama aktarabilirsek, bunu başarabileceğimize inanıyorum. Bu aşamaya geldiğimizde, kişinin operasyon öncesindeki yüz modelini alarak, üzerinde operasyonda yapılacak değişiklikleri sanal olarak gerçekleyebilir ve sonucu gözlemleyebiliriz. Örneğin botoks kasların felç edilmesi, dondurulması için kullanılıyor. Çalışmamızın şu anki aşamasında dahi istediğimiz kası bölgesel olarak dondurabilir ve ifadelerin neye benzeyeceğini görebiliriz. Bu tabii çok deneysel bir süreç ve kesin sonuç alınabilmesi için henüz erken.

Yüz ifadesi tanıma yazılımının bilgisayarlara entegre edilmesi hayatımıza neler getirebilir?

Hepimiz bilgisayarlar başında belli işlemler yapmaya çalışıyoruz. Yaptığımız işlem çok basit bile olsa, sanki karşımızda birisi varmış gibi çok farklı yüz ifadelerine bürünüyoruz. Öte yandan, bilgisayar bizim gerçekte ne hissettiğimizi bilmiyor. Sadece bir işlem yapmak istediğimizde bize sorular soruyor ve bir çıkarım yapıyor. Ancak bilgisayarların ruh halimizin farkında olmaları da mümkündür. Örneğin sizin için bir duvar kağıdı beğenebilir, beğenmezseniz değiştirebilir, sevdiğiniz bir parçayı çalabilir, siz bir işlemde başarısız olup sinirlendiğinizde ‘nasıl yardımcı olabilirim’ diye sorabilir. Bilgisayarlara bu tür özellikleri kazandırmamız mümkün.

İnsan ve makine arasındaki bu tür etkileşimler kullanıcının da hoşuna gidiyor ve en önemlisi verimlilik artıyor. Örneğin Danimarka’da insan-bilgisayar etkileşimi alanında çok kapsamlı çalışmalar yapılıyor. Ben de European Coordination in Science and Technology adı verilen AB çalışmalarında bu grup içinde yer alıyorum. Danimarka’daki çalışmalar daha çok psikoloji alanına yoğunlaşıyor ve verimliliğin artırılmasını amaçlıyor. Benim alanım daha teknik ama insan-bilgisayar etkileşimi çalışmalarının çok boyutlu bir şekilde yürütüldüğünü söyleyebiliriz.

Birkaç yıl içinde iki milyarı aşkın insan mobil cihaz kullanıyor olacak. Bahsettiğiniz sistem bu cihazlara da uygulanabilecek mi?

Masa üstü bilgisayarlardan akıllı telefonlara kadar tüm bu cihazların temeli aynı. Kayıt etme ve komutların yürütülmesi mantığına dayanırlar. Bu yüzden bir cihazda yazdığınız programı bir başka cihaza da uyarlayabilirsiniz. Ancak bu cihazların hafıza veya işlemci farkı gibi özellikleri nedeniyle işlemlerin karmaşıklık derecesi değişebilir. Yine de teknoloji çok hızlı ilerliyor ve bugün bir sunucu bilgisayarda yaptığımız işlemi çok yakında akıllı telefonlarda da rahatça yapabileceğiz. Sonuçta işlemler de her cihaza uyarlanacak. 

İnsan-bilgisayar etkileşimi dendiğinde Moon filmi bana harika bir örnek gibi geliyor. Anlattıklarınızdan yola çıkarsak, Stanley Kubrick’in 2001: A Space Odyssey filmindeki gibi ilk önce arkadaş olan ancak sonra hayatta kalmak için insanlarla çatışmaya başlayan bilgisayarlara kadar uzanan bir yol mu var karşımızda? Ya da Animatrix’teki gibi bir isyan?

Bence böyle bir gelecek hayal değil. Kesinlikle olacak diyemeyiz ama benim görüşüm, insan-bilgisayar etkileşiminin çok gelişeceği yönünde. Kesin olacak diyemememin nedeni, henüz bilgisayarlara yaratıcı zekayı sağlayacak algoritmayı bulamamış olmamız. 1960’lı yıllar yapay zeka çalışmalarının ilk alevlendiği dönem. O yıllarda, insanlar 2000’li yıllara gelindiğinde bugün bilim kurgu filmlerinde gördüğümüz türden bir dünyanın gerçeğe dönüşeceğine inanıyordu. Hastalara teşhis koyan yazılımlar, her türlü arazide yol alan akıllı araçlar gibi kurala dayalı yapay zeka teknolojilerini geliştirmek zor olmadı. Diğer yandan yaratıcı düşünebilen bir makineyi tasarlamaya yaklaşamadık. Bir makinanın yaratıcı olması hatta kendi kendini geliştirmesi bildiğimizden çok farklı bir yaklaşım gerektiriyor.

70’li yıllarda bu farklı yaklaşımın ‘neural network’ yani yapay sinir ağları olabileceği düşünüldü. Neural network, insan beyninin çalışma prensibinin sanal ortama aktarılması için geliştirilmiş bir yöntem. Bu sistemle programcısını örneğin kağıt oyunlarında yenebilecek yapay zeka yazılımları geliştirebiliyoruz. Belli bir alanda yaratıcısından daha 'akıllı' olan bir program yazabilmek de çok önemli bir gelişme. Ancak bilim kurgu filmlerindeki gibi bir zeka üretecek teknoloji ele edemedik.

Bugün neuroscience yani sinirbilim alanında çok büyük çalışmalar var. İnsan beynini nasıl daha iyi modelleyebiliriz sorusuna cevap aranıyor. Bizler komutları belli bir sıralamayla gerçekleştiren bir sistemle bunu yapmaya çalışıyoruz ama beynimizin çalışma prensibi bu değil. Beyinde paralel yapılan milyonlarla işlemle bir düşünce ya da konsepte ulaşıyor. Beyni oluşturan unsurları çok iyi anlıyoruz ama ortaya koydukları son derece karmaşık yapının içinden çıkabilmiş değiliz.

Beyni çok iyi modellemeyi ne zaman başarabiliriz sorusunun cevabını vermek çok zor. Belki de doğru yaklaşım beyni taklit etmek değildir, tamamen farklı bir boyutta benzer ve belki daha üstün bir zekaya ulaşabiliriz. Bu genetik algoritma veya daha keşfedemediğimiz başka bir yöntem olabilir. Ama bu 10 yılda mı, 50 yılda mı olur, bunu bilmek çok güç. Şu an bir engelin üzerinden atlayamıyoruz. Bu engeli aştığımızda baş döndürücü bir hızla ilerlememiz mümkün. Şu anki sorunumuz gerçek bir zeka üretecek algoritmaya giden mantığı yakalayamamış olmamız.