當(dāng)前位置:首頁(yè) > 學(xué)習(xí)資源 > 講師博文 > 計(jì)算機(jī)視覺(jué)發(fā)展歷史
計(jì)算機(jī)視覺(jué)發(fā)展歷史
時(shí)間:2024-12-04 來(lái)源:華清遠(yuǎn)見(jiàn)
雛形階段:
20世紀(jì)50年代前后:
計(jì)算機(jī)視覺(jué)剛剛起步,依舊屬于模式識(shí)別領(lǐng)城,主要處理對(duì)二維圖像的分析和識(shí)別。
20世紀(jì)60年代中期:
Lawrence Roberts的(三維固體的機(jī)器感知》描述了從二維圖片中推導(dǎo)三維信息的過(guò)程,開(kāi)創(chuàng)了以理解三維場(chǎng)景為目標(biāo)的三維計(jì)算機(jī)視覺(jué)研究。
初始階段:
20世紀(jì)70年代:
馬爾在計(jì)算機(jī)視覺(jué)領(lǐng)域做出了最具開(kāi)創(chuàng)性和最重要的貢獻(xiàn),提出了第一個(gè)完善的視覺(jué)框架--視覺(jué)計(jì)算理論框架。在視覺(jué)計(jì)算中, 視覺(jué)被作為不同層次的信息處理過(guò)程,實(shí)現(xiàn)目標(biāo)是計(jì)算機(jī)對(duì)外部世界的描述,以獲得物體的三維形狀。他提出三個(gè)層次的研究方法,即計(jì)算理論層、表征與算法層和實(shí)現(xiàn)層,由此提出了自上而下無(wú)反饋的視覺(jué)處理框架。
繁榮階段:
由于視覺(jué)計(jì)算理論框架的魯棒性不夠,因此無(wú)法在工業(yè)界得到廣泛應(yīng)用。隨后,出現(xiàn)了主動(dòng)視覺(jué)、定性視覺(jué)、目的視覺(jué)等各個(gè)學(xué)派。
中興階段:
繁榮階段持續(xù)的時(shí)間不長(zhǎng),且方法繁多,對(duì)后續(xù)計(jì)算機(jī)視覺(jué)的發(fā)展產(chǎn)生的影響并不大,猶如曇花一現(xiàn)。隨后,人們發(fā)現(xiàn)多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度,由此,計(jì)算機(jī)視覺(jué)進(jìn)入中興階段。
現(xiàn)代階段:
1989年,Yann LeCun將反向傳播算法應(yīng)用于Fukushima的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
LeCun發(fā)布了 LeNet模型,這是第一個(gè)現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)。
2006年前后, Geoffrey Hilton提出了用GPU來(lái)優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的工程方法,并在《科學(xué)》雜志上發(fā)表了論文,首次提出“深度信念網(wǎng)絡(luò)”的概念,他賦予多層神經(jīng)網(wǎng)絡(luò)一個(gè)新名詞--深度學(xué)習(xí)。
隨后,深度學(xué)習(xí)在各個(gè)領(lǐng)域大放異彩。
2009年,F(xiàn)eiFeiLi在CVPR上發(fā)表了一篇名為ImageNet: A Large-Scale Hierarchical Image Database的論文,發(fā)布了ImageNet數(shù)據(jù)集,這改變了在人工智能領(lǐng)域人們對(duì)數(shù)據(jù)集的認(rèn)識(shí),這時(shí)人們才真正開(kāi)始意識(shí)到數(shù)據(jù)集在研究中的地位,就像算法一樣重要。ImageNet是計(jì)算機(jī)視覺(jué)發(fā)展的重要“推動(dòng)者”,也是深度學(xué)習(xí)的關(guān)鍵“推動(dòng)者”。
2012年,Alex Krizhevsky, Ilya Sutskever 和 Geoffrey Hinton創(chuàng)造了一個(gè)大型的深度卷積神經(jīng)網(wǎng)絡(luò),即AlexNet。此模型在ImageNet數(shù)據(jù)集中表現(xiàn)得極為出色,識(shí)別錯(cuò)誤率從26.2%降低到15.3%。他們的論文ImageNet Classification with Deep Convolutional Networks,被視為計(jì)算機(jī)視覺(jué)最重要的論文之一,自此,卷積神經(jīng)網(wǎng)絡(luò)成為計(jì)算機(jī)視覺(jué)的標(biāo)準(zhǔn)算法。
2014年,蒙特利爾大學(xué)提出生成對(duì)抗網(wǎng)絡(luò)(GAN):擁有兩個(gè)相互競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò)可以使機(jī)器學(xué)習(xí)得更快。一個(gè)網(wǎng)絡(luò)嘗試模仿真實(shí)數(shù)據(jù)生成假的數(shù)據(jù),而另一個(gè)網(wǎng)絡(luò)則試圖將假數(shù)據(jù)區(qū)分出來(lái)。隨著時(shí)間的推移,兩個(gè)網(wǎng)絡(luò)都會(huì)得到訓(xùn)練,生成對(duì)抗網(wǎng)絡(luò)(GAN)被認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域的重大突破。
2017-2018 年,深度學(xué)習(xí)框架的開(kāi)發(fā)發(fā)展到了成熟期。PyTorch 和 TensorFlow 已成為首選框架,它們都提供了針對(duì)多項(xiàng)任務(wù)(包括圖像分類)的大量預(yù)訓(xùn)練模型。
2019, BigGAN,同樣是一個(gè)GAN,只不過(guò)更強(qiáng)大,是擁有了更聰明的課程學(xué)習(xí)技巧的GAN,由它訓(xùn)練生成的圖像連它自己都分辨不出真假,因?yàn)槌悄蔑@微鏡看,否則將無(wú)法判斷該圖像是否有任何問(wèn)題,因而,它更被譽(yù)為史上最強(qiáng)的圖像生成器。
2020年5月末,F(xiàn)acebook發(fā)布新購(gòu)物AI,通用計(jì)算機(jī)視覺(jué)系統(tǒng)GrokNet讓“一切皆可購(gòu)買(mǎi)”。
至今,計(jì)算機(jī)視覺(jué)與其他學(xué)科交叉融合日益加深,推動(dòng)了多模態(tài)感知和認(rèn)知智能的研究。
課程分享:華清遠(yuǎn)見(jiàn)聯(lián)合NXP推出i.MX8M Plus開(kāi)發(fā)與實(shí)踐
課程分享:鴻蒙HarmonyOS系統(tǒng)及物聯(lián)網(wǎng)開(kāi)發(fā)實(shí)戰(zhàn)課程(
課程分享:HaaS EDU K1開(kāi)發(fā)教程(附課程視頻及源碼下
新版C語(yǔ)言編程之控制語(yǔ)句視頻教程重磅贈(zèng)送(嵌入式入
價(jià)值2000元的嵌入式精裝教程大禮包免費(fèi)送!(搞懂嵌入
價(jià)值1000元的最新ARM系列視頻完整版教程新鮮出爐(免
【最新】ARM課程課堂實(shí)錄精華版視頻免費(fèi)領(lǐng)取(內(nèi)含源
如何利用機(jī)器學(xué)習(xí)構(gòu)建個(gè)性化推薦系統(tǒng)
嵌入式系統(tǒng)從上電到操作系統(tǒng)運(yùn)行的完整啟動(dòng)流程
如何在不同工作場(chǎng)景下優(yōu)化嵌入式系統(tǒng)的電源消耗
硬件抽象層(HAL)的設(shè)計(jì)如何提高代碼的可移植性
批量歸一化在深度學(xué)習(xí)訓(xùn)練中的作用和實(shí)現(xiàn)方法
物聯(lián)網(wǎng)項(xiàng)目中設(shè)計(jì)嵌入式系統(tǒng)時(shí)的關(guān)鍵技術(shù)和考慮因素
通過(guò)自然語(yǔ)言處理技術(shù)理解文本的深層含義
如何基于RISC-V架構(gòu)設(shè)計(jì)高效能的嵌入式系統(tǒng)
LSTM和GRU在時(shí)間序列預(yù)測(cè)中的應(yīng)用
JTAG和SWD的調(diào)試技術(shù)及應(yīng)用
