Ang mga convolutional neural network (CNNs) ay unang idinisenyo para sa layunin ng pagkilala ng imahe sa larangan ng computer vision. Ang mga network na ito ay isang espesyal na uri ng artipisyal na neural network na napatunayang lubos na epektibo sa pagsusuri ng visual na data. Ang pag-unlad ng mga CNN ay hinimok ng pangangailangang lumikha ng mga modelo na maaaring tumpak na mag-uri-uri at magkategorya ng mga larawan, at ang kanilang tagumpay sa domain na ito ay humantong sa kanilang malawakang paggamit sa iba't ibang mga application tulad ng pagtuklas ng bagay, pagse-segment ng larawan, at maging sa natural na pagproseso ng wika.
Ang mga CNN ay inspirasyon ng istraktura at pag-andar ng visual cortex sa utak ng tao. Tulad ng visual cortex, ang mga CNN ay binubuo ng maraming layer ng magkakaugnay na mga neuron na nagpoproseso ng iba't ibang aspeto ng input data. Ang pangunahing pagbabago ng mga CNN ay nakasalalay sa kanilang kakayahang awtomatikong matuto at mag-extract ng mga nauugnay na feature mula sa mga larawan, na inaalis ang pangangailangan para sa manual feature engineering. Ito ay nakakamit sa pamamagitan ng paggamit ng mga convolutional layer, na naglalapat ng mga filter sa input na imahe upang makita ang iba't ibang visual na pattern at feature, gaya ng mga gilid, sulok, at mga texture.
Ang unang tagumpay sa CNN ay dumating sa pagpapakilala ng LeNet-5 na arkitektura ni Yann LeCun et al. noong 1998. Ang LeNet-5 ay partikular na idinisenyo para sa sulat-kamay na pagkilala sa digit at nakamit ang kahanga-hangang pagganap sa MNIST dataset, isang benchmark na dataset na malawakang ginagamit para sa pagsusuri ng mga algorithm ng pagkilala ng larawan. Ipinakita ng LeNet-5 ang kapangyarihan ng mga CNN sa pagkuha ng mga hierarchical na feature mula sa mga imahe, na nagbibigay-daan sa tumpak na pag-uuri kahit na sa pagkakaroon ng mga pagkakaiba-iba sa sukat, pag-ikot, at pagsasalin.
Simula noon, ang mga CNN ay nagbago nang malaki, na may mas malalim at mas kumplikadong mga arkitektura na binuo. Ang isang kapansin-pansing pagsulong ay ang pagpapakilala ng arkitektura ng AlexNet ni Alex Krizhevsky et al. noong 2012. Nakamit ng AlexNet ang isang pambihirang tagumpay sa pag-uuri ng imahe sa pamamagitan ng pagkapanalo sa ImageNet Large Scale Visual Recognition Challenge (ILSVRC) na may makabuluhang mas mababang rate ng error kumpara sa mga nakaraang diskarte. Ang tagumpay na ito ay nagbigay daan para sa malawakang paggamit ng mga CNN sa mga gawain sa pagkilala sa imahe.
Ang mga CNN ay matagumpay ding nailapat sa iba pang mga gawain sa computer vision. Halimbawa, sa pagtuklas ng bagay, ang mga CNN ay maaaring isama sa mga karagdagang layer upang i-localize at i-classify ang mga bagay sa loob ng isang imahe. Ang sikat na Region-based Convolutional Neural Network (R-CNN) na ipinakilala ni Ross Girshick et al. noong 2014 ay isang halimbawa ng naturang arkitektura. Nakamit ng R-CNN ang mga makabagong resulta sa mga benchmark sa pagtuklas ng bagay sa pamamagitan ng paggamit ng kapangyarihan ng mga CNN para sa pagkuha ng tampok at pagsasama nito sa mga pamamaraan ng panukala sa rehiyon.
Ang mga convolutional neural network ay unang idinisenyo para sa mga gawain sa pagkilala ng imahe sa larangan ng computer vision. Binago nila ang larangan sa pamamagitan ng awtomatikong pag-aaral ng mga nauugnay na feature mula sa mga larawan, na inaalis ang pangangailangan para sa manual feature engineering. Ang pagbuo ng mga CNN ay humantong sa mga makabuluhang pag-unlad sa pag-uuri ng imahe, pagtuklas ng bagay, at iba't ibang gawain sa computer vision.
Iba pang kamakailang mga tanong at sagot tungkol sa EITC/AI/ADL Advanced Deep Learning:
- Bakit kailangan nating maglapat ng mga pag-optimize sa machine learning?
- Kailan nangyayari ang overfitting?
- Maaari bang pangasiwaan ng Convolutional Neural Networks ang sunud-sunod na data sa pamamagitan ng pagsasama ng mga convolution sa paglipas ng panahon, gaya ng ginamit sa mga modelong Convolutional Sequence to Sequence?
- Umaasa ba ang Generative Adversarial Networks (GANs) sa ideya ng generator at discriminator?