中國自動化學(xué)會專家咨詢工作委員會指定宣傳媒體
新聞詳情
gkongbbs

中國工程院院士王耀南專訪:人工智能讓機(jī)器視覺正走向智能化

http://casecurityhq.com 2024-01-04 14:47 來源:南方都市報(bào)

“得益于大語言模型推動人工智能發(fā)展,圖形圖像學(xué)的研究和應(yīng)用迎來新的機(jī)遇,正在推動大語言模型向大視覺模型發(fā)展。”2023年12月30日,在辭舊迎新之際,中國工程院院士、機(jī)器人視覺感知與控制技術(shù)國家工程研究中心主任王耀南在第十九屆中國圖象圖形學(xué)學(xué)會青年科學(xué)家會議上,分享機(jī)器視覺智能化發(fā)展的最新趨勢。

在接受南都記者專訪時(shí),王耀南表示,人工智能讓機(jī)器視覺走向智能化,更高的算力能夠支撐大視覺模型的訓(xùn)練。不過,更聰明的大視覺模型還需要更高的算力水平、更好的模型架構(gòu)和更有效的學(xué)習(xí)算法。

本次會議由中國圖象圖形學(xué)學(xué)會主辦,琶洲實(shí)驗(yàn)室、華南理工大學(xué)、中山大學(xué)、中國圖象圖形學(xué)學(xué)會青年工作委員會承辦。

談行業(yè)趨勢

從視覺計(jì)算走向視覺智能

王耀南:我國的機(jī)器視覺研究已有接近40年的歷史,最初是從傳感器的研究開始的,即:將光的信息轉(zhuǎn)化成圖片信息。接下來要做的是視覺的處理,包括將獲得的圖片增強(qiáng),使其變得更清晰。

有了清晰的圖像后,我們需要從圖片中獲取我們感興趣的目標(biāo)。例如,在無人駕駛領(lǐng)域,機(jī)器視覺需要對圖片中的目標(biāo)進(jìn)行檢測,要回答哪些是人、哪些是車的問題。

這就是我們所說的機(jī)器視覺的三大領(lǐng)域。我把它歸結(jié)為:成像、處理和理解。

機(jī)器視覺已經(jīng)從過去的視覺計(jì)算走向了今天的視覺智能。視覺計(jì)算結(jié)合人工智能后,認(rèn)知水平得到了提升,增強(qiáng)了對復(fù)雜環(huán)境的理解能力,整個(gè)視覺智能化行業(yè)在去年得到了快速發(fā)展。

機(jī)器視覺智能化發(fā)展的方向是進(jìn)行廣泛應(yīng)用,應(yīng)用到工業(yè)檢測、智能制造以及衛(wèi)星遙感等領(lǐng)域。

談機(jī)器視覺,一定要談它的應(yīng)用,應(yīng)用驅(qū)動技術(shù)發(fā)展。中國圖象圖形學(xué)學(xué)會有30個(gè)專委會,主要圍繞圖形圖像展開研究,為國民經(jīng)濟(jì)服務(wù)。這些技術(shù)的應(yīng)用場景十分廣泛,包括工業(yè)、農(nóng)業(yè)、地理信息系統(tǒng)、遙感、國土資源等。

一個(gè)人一出生就能看到這個(gè)世界,之后理解這個(gè)世界,80%的信息靠視覺獲取。機(jī)器視覺是要模擬人的眼睛,最終達(dá)到人眼的水平,并在部分方面超過人眼,要看得更遠(yuǎn)、看得更清。

談大視覺模型

大視覺模型會越來越聰明

王耀南:大語言模型是用書本上、語言上、文字上的知識作為數(shù)據(jù),進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,能夠根據(jù)它所學(xué)的知識進(jìn)行推理和回答,是一種數(shù)據(jù)驅(qū)動的人工智能。

大視覺模型的數(shù)據(jù)則主要來自各種圖像,包括人類和自然界產(chǎn)生的視覺數(shù)據(jù)。例如,醫(yī)學(xué)大視覺模型就是將人的器官、病變的圖像等作為視覺數(shù)據(jù)輸入到大模型中,進(jìn)行訓(xùn)練得到,可以像大夫一樣看懂CT照片,能夠達(dá)到病人來看病后,拍照完便能推理出病人病情的效果。

當(dāng)前的視覺大模型并沒有大家想象的和人腦一樣,差距還很大。隨著學(xué)習(xí)的數(shù)據(jù)的增多、模型參數(shù)的調(diào)整,模型會越來越大、知識也會越來越多,其智能水平就會越來越高,越來越聰明。

我們需要提高算力水平,加快計(jì)算速度,以能夠更快地建立模型;設(shè)計(jì)更好的模型架構(gòu),包括可解釋性更強(qiáng)、更安全可控;還需要研究更有效的學(xué)習(xí)算法。

事實(shí)上,視覺大模型并不是這幾年才有的,是一步一步發(fā)展過來的。在上世紀(jì)80年代,隨著人工智能的發(fā)展,人們開始研究神經(jīng)網(wǎng)絡(luò)的時(shí)候,就已經(jīng)有了。只是,最近幾年的算力和算法能力提高了,人們可以嘗試構(gòu)建大模型,產(chǎn)生了大語言模型和大視覺模型。過去算力不夠的時(shí)候,大家做的模型沒有那么大。

談2024年展望

希望業(yè)務(wù)從廣州增長推向全國和世界

王耀南:湖南大學(xué)機(jī)器人視覺感知與控制技術(shù)國家工程研究中心在2022年已經(jīng)入駐到位于粵港澳大灣區(qū)的廣州增城,建立了湖大粵港澳大灣區(qū)創(chuàng)新研究院(廣州增城)。

研究院主要進(jìn)行機(jī)器智能視覺的研究和應(yīng)用,包括智能制造、醫(yī)療制藥等領(lǐng)域的特殊作業(yè)機(jī)器人,以及通用的大視覺模型。例如,這些研究運(yùn)用到制造業(yè)中,可以替代大量的人工,完成產(chǎn)品質(zhì)量的檢測,特別是3C和高端零部件行業(yè)。當(dāng)前,研究院已經(jīng)開發(fā)了軟硬件系統(tǒng),主要的功能是賦能廣東企業(yè)數(shù)字化、智慧化轉(zhuǎn)型,推動制造業(yè)發(fā)展。

此外,研究院也開展智能的機(jī)器視覺和控制系統(tǒng),主要用于高端智能裝備的生產(chǎn),例如工業(yè)互聯(lián)網(wǎng)軟件,這其中有非常多的算法。

廣東是改革開放和經(jīng)濟(jì)主戰(zhàn)場的前沿,產(chǎn)業(yè)鏈、供應(yīng)鏈齊全,制造業(yè)企業(yè)很多,我們來到廣東布局一是出于市場需求。此外,我們研究中心此前已有不少研發(fā)團(tuán)隊(duì)在廣東落地了很多項(xiàng)目,進(jìn)行科技成果的轉(zhuǎn)化。

在2023年的上半年,我們確實(shí)遇到了一些挑戰(zhàn),主要體現(xiàn)在零部件的供應(yīng)方面。2024年,我相信這些問題都會解決,廣東人工智能產(chǎn)業(yè)的產(chǎn)業(yè)鏈、供應(yīng)鏈以及研發(fā)能力都會有所提升。在國內(nèi)這個(gè)大市場里,會開辟出新的賽道。在活力的氛圍下,大家主動作為、擔(dān)當(dāng)和創(chuàng)新,挑戰(zhàn)都能解決。

我對廣東的人工智能產(chǎn)業(yè)發(fā)展充滿信心。過去30年里,我們在科技自立自強(qiáng)方面下了很多功夫,積累了很多科研成果。廣東是我國經(jīng)濟(jì)第一大省。

我們所從事的人工智能與機(jī)器人這個(gè)領(lǐng)域趕上了一個(gè)好機(jī)遇,這兩年爆炸性地增長,帶來很多新市場,拉動了新的產(chǎn)業(yè)賽道。未來智能終端將越來越多,也將帶動生產(chǎn)型設(shè)施設(shè)備行業(yè)的發(fā)展。在2024年,我希望我們位于廣州增城的研究院能夠?qū)I(yè)務(wù)推向全國和世界。

版權(quán)所有 中華工控網(wǎng) Copyright?2024 Gkong.com, All Rights Reserved