Konvolučné neurónové siete (CNN) boli prvýkrát navrhnuté na účely rozpoznávania obrazu v oblasti počítačového videnia. Tieto siete sú špecializovaným typom umelej neurónovej siete, ktorá sa ukázala ako vysoko účinná pri analýze vizuálnych údajov. Vývoj CNN bol poháňaný potrebou vytvoriť modely, ktoré by dokázali presne klasifikovať a kategorizovať obrázky, a ich úspech v tejto oblasti viedol k ich širokému použitiu v rôznych iných aplikáciách, ako je detekcia objektov, segmentácia obrázkov a dokonca aj spracovanie prirodzeného jazyka.
CNN sú inšpirované štruktúrou a funkčnosťou zrakovej kôry v ľudskom mozgu. Podobne ako vizuálna kôra, aj CNN pozostávajú z viacerých vrstiev vzájomne prepojených neurónov, ktoré spracúvajú rôzne aspekty vstupných údajov. Kľúčová inovácia CNN spočíva v ich schopnosti automaticky sa učiť a extrahovať relevantné funkcie z obrázkov, čím sa eliminuje potreba manuálneho inžinierstva funkcií. To sa dosahuje použitím konvolučných vrstiev, ktoré aplikujú filtre na vstupný obrázok na detekciu rôznych vizuálnych vzorov a prvkov, ako sú hrany, rohy a textúry.
Prvý prelom v CNN prišiel so zavedením architektúry LeNet-5 od Yanna LeCuna a kol. v roku 1998. LeNet-5 bol špeciálne navrhnutý na rozpoznávanie ručne písaných číslic a dosiahol pozoruhodný výkon v súbore údajov MNIST, porovnávacom súbore údajov, ktorý sa široko používa na hodnotenie algoritmov rozpoznávania obrázkov. LeNet-5 demonštroval silu CNN pri zachytávaní hierarchických prvkov z obrázkov, čo umožňuje presnú klasifikáciu aj v prítomnosti variácií v mierke, rotácii a preklade.
Odvtedy sa CNN výrazne vyvinuli, pričom sa vyvíjali hlbšie a zložitejšie architektúry. Jedným z pozoruhodných pokrokov bolo zavedenie architektúry AlexNet od Alexa Krizhevského a kol. v roku 2012. AlexNet dosiahol prelom v klasifikácii obrázkov víťazstvom v ImageNet Large Scale Visual Recognition Challenge (ILSVRC) s výrazne nižšou chybovosťou v porovnaní s predchádzajúcimi prístupmi. Tento úspech pripravil pôdu pre široké prijatie CNN v úlohách rozpoznávania obrazu.
CNN boli úspešne aplikované aj na iné úlohy počítačového videnia. Napríklad pri detekcii objektov môžu byť CNN kombinované s ďalšími vrstvami na lokalizáciu a klasifikáciu objektov v rámci obrázka. Slávna regionálna konvolučná neurónová sieť (R-CNN), ktorú predstavili Ross Girshick a kol. v roku 2014 je príkladom takejto architektúry. R-CNN dosiahla najmodernejšie výsledky v testoch detekcie objektov využitím sily CNN na extrakciu funkcií a jej kombináciou s metódami návrhu regiónu.
Konvolučné neurónové siete boli najprv navrhnuté pre úlohy rozpoznávania obrazu v oblasti počítačového videnia. Priniesli revolúciu v tejto oblasti automatickým učením relevantných funkcií z obrázkov, čím sa eliminovala potreba manuálneho inžinierstva funkcií. Vývoj CNN viedol k významnému pokroku v klasifikácii obrázkov, detekcii objektov a rôznych ďalších úlohách počítačového videnia.
Ďalšie nedávne otázky a odpovede týkajúce sa EITC/AI/ADL Advanced Deep Learning:
- Prečo potrebujeme v strojovom učení aplikovať optimalizácie?
- Kedy dochádza k nadmernému namontovaniu?
- Môžu konvolučné neurónové siete spracovať sekvenčné údaje začlenením konvolúcií v priebehu času, ako sa to používa v modeloch konvolučných sekvencií na sekvencie?
- Spoliehajú sa Generative Adversarial Networks (GAN) na myšlienku generátora a diskriminátora?