DZIEKAN i RADA WYDZIAŁU INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
|
---|---|
zapraszają na publiczną dyskusję nad rozprawą doktorską mgr inż. Piotra Wójcika |
|
Random Projection in Deep Neural Networks | |
Termin: | 4 grudnia 2018 roku o godz. 13:00 |
Miejsce: | Centrum Informatyki AGH, s. 1.20 pawilon D-17, ul. Kawiory 21, 30-059 Kraków |
PROMOTOR: | prof. dr hab. inż. Witold Dzwinel, Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie |
PROMOTOR POMOCNICZY: | dr inż. Marcin Kurdziel, Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie |
RECENZENCI: | prof. dr hab. Stanisław Matwin, Dalhousie University Halifax |
dr hab. inż. Mikołaj Morzy, prof. n., Politechnika Poznańska | |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
mgr inż. Piotr Wójcik
Promotor: prof. dr hab. inż. Witold Dzwinel (AGH)
Promotor pomocniczy: dr inż. Marcin Kurdziel (AGH)
Dyscyplina: Informatyka
Praca prezentuje zastosowania metody rzutu przypadkowego (RP) w głębokich sieciach neuronowych. W pracy skupiono się na dwóch obszarach, w których użycie metody RP poprawia ich skuteczność: na efektywnym uczeniu głębokich sieci na danych wysokowymiarowych oraz na inicjalizacji parametrów sieci. Rozważono kilka klasycznych oraz niedawno zaproponowanych konstrukcji macierzy RP: macierze Gaussa, Achlioptasa i Li oraz metody subsampled randomized Hadamard transform (SRHT) i Count Sketch.
W pierwszym z rozważanych obszarów zastosowań metoda RP jest włączana do architektury sieci jako warstwa wejściowa (warstwa RP). Umożliwia to efektywne uczenie głębokich sieci neuronowych na danych pozbawionych struktury, reprezentowanych przez rzadkie, wysokowymiarowe wektory cech. Do tej pory analiza takich danych przy pomocy sieci neuronowych była trudna, lub wręcz niemożliwa, ze względu na wysoki koszt obliczeniowy wynikający z ogromnej liczby wag w pierwszej warstwie sieci. W pracy pokazano, że dzięki użyciu warstwy wejściowej której wagi zostały zainicjalizowane elementami macierzy RP możliwe jest efektywne trenowanie głębokich sieci na tego typu danych. Zostały rozważone dwa warianty zaproponowanej warstwy RP: z ustalonymi wagami oraz z wagami douczanymi w trakcie treningu. Przedstawiono również kilka modyfikacji architektury sieci oraz metod jej trenowania, dzięki którym możliwe jest uczenie sieci na danych zawierających dziesiątki milionów przykładów uczących o wymiarowości przekraczającej miliony cech. Pozwoliło to uzyskać wyniki porównywalne lub lepsze od najlepszych wyników publikowanych w literaturze dla kilku dużych problemów klasyfikacji danych wielowymiarowych. Eksperymenty z różnymi konstrukcjami RP pokazały również, że najlepsze wyniki osiągają sieci z douczaną warstwą RP typu Count Sketch.
W drugim obszarze zastosowań macierz RP wykorzystana jest do inicjalizacji wag sieci neuronowej. Inicjalizacja parametrów sieci przy pomocy elementów macierzy rzutu przypadkowego pozwoliła poprawić skuteczność residualnych sieci konwolucyjnych – modeli osiągających obecnie najlepsze wyniki w dziedzinie rozpoznawania obrazów. Eksperymenty wykazały, że najwyższą skuteczność osiągają sieci inicjalizowane gęstymi macierzami RP, których kolumny są bliskie ortogonalnym (np. konstrukcja SRHT).
– Teza rozprawy:– Jako tezę niniejszej rozprawy doktorskiej autor przedstawia następujące twierdzenie:
Metoda rzutu przypadkowego pozwala trenować głębokie sieci neuronowe na danych pozbawionych struktury, reprezentowanych przez rzadkie, wysokowymiarowe wektory cech, a zastosowana jako metoda inicjalizacji wag głębokich sieci, może poprawić ich wydajność.
prof. dr hab. Stanisław Matwin, Dalhousie University Halifax
dr hab. inż. Mikołaj Morzy, prof. n., Politechnika Poznańska
Ważniejsze publikacje doktoranta: