機器人如何做到自主決策？機器人視覺給出答案

清華校友總會先進製造專業委員會聯合專場

工業機器人視覺——

賦予機器柔性與智慧

吳哲明

清華大學機械工程系博士

清研先進製造產業研究院（洛陽）有限公司常務副總經理

吳哲明 @ 演繹 inSite 演講視頻：

以下為吳哲明演講文字稿：

（根據演講現場整理，基於原意有所刪減，完整版請看視頻）

大家好，我是來自清研先進製造研究院（洛陽）有限公司的吳哲明，今天我將帶領大家走進未來機器人的世界。

讓工業機器人做重複性工作，而把人的智能發揮到最大程度

首先問大家一個問題，平時住在家裡最讓你頭疼的一件事是什麽？對於有兩個孩子的我來說，最頭疼的是每次回到家裡，都要面對孩子弄得一團糟的房間，而每次收拾這個房間，重複的勞動讓我累覺不愛，相信很多人都跟我有一樣的煩惱，那你們希不希望有個智能的機器人能替你收拾這個房間呢？

圖 | 工業機器人在打掃房間（來源：the Salisbury Robotics Lab, Stanford University）

正如上圖的工業機器人，它可以走進你的房間，把沙發收拾乾淨，把你給孩子講的故事書羅列整齊，把孩子玩的玩具放進箱子裡，你只需要在旁邊葛優躺，家裡的一切都會嶄新如初，是不是很吸引人？

但現在市面上沒有這個機器人，那視頻裡的機器人是怎麽做到的？實際是旁邊有個人通過一個遙控搖桿一點一點地控制這個機器人把所有的事情做成，幹了幾個小時，甚至比人親自做的時間還長。那機器人離我們想象中的未來機器人差了些什麽？還差感知世界的能力和作出自我決策的能力，也就是相當於有了手臂和身體，但沒有眼睛和大腦，這個機器人不具備智能。

其實我們在家裡可以一邊聽音樂一邊乾活，並不是那麽枯燥，但在工廠裡，工人要面對的是焊接的粉塵撲面而來，是打磨飛濺的火花甚至鐵屑環繞身體，是旁邊金屬性的撞擊刺痛耳膜，這些都會對人的身體造成永久的傷害。

（來源：Pixabay）

這就是為什麽現在 90 後、00 後，寧可領個並不高的工資，也要待在辦公室或宅在家裡，哪怕再高的工資都不願意去工廠，或者可能這個年輕人幹了半年就辭職了，或者心情不好導致工件質量出現問題，所以在工廠環境裡，更需要工業機器人把人類從惡劣的環境裡解脫出來，用工業機器人替代人去幹焊接、打磨、搬運重物這些繁重的工作，而把人的智能發揮到最大程度。

圖 | 特斯拉機器人工廠（來源：OPPORTUNITYENERGY）

其實上世紀很早就有了工業機器人，例如在汽車行業這種產品一致性非常高的領域裡，工業機器人應用已經非常廣泛了。這張圖是特斯拉最新的、全球最先進的機器人工廠，它造的特斯拉的模型都比較統一，機器人要幹什麽？只要給它編好程從 A 到 B，它就可以一直這樣乾，製造的汽車都是一樣的。

賦予機器人智能的視覺，真正做到機器換人

然而在通用工業領域件尺寸並不固定，可能今天來了一個一米的工件，明天客戶要求你做一個半米的工件，原先的工業機器人的程序就不能用了，或者今天的物流是個箱子，明天是個柔性的塑膠袋，而且隨機地放置，這些問題都不能讓不夠智能的機器人來解決。

那解決這些問題要通過什麽？就像前面的視頻裡，需要一個遙控搖桿，在機器人行業裡實際就是個操縱盒，告訴機器人要走一米的長度，或者半米的長度。而如果換了一個物件，人不去盯著它，就會像盲人摸象一樣，機器人不知道要做什麽事，很有可能把這個工件做錯。那怎麽解決這個問題？我們提出的解決思路是給工業機器人一雙慧眼。

什麽是慧眼？慧眼就是智能的視覺，我們給機器人智能的視覺，機器人就具備了柔性的能力。

機器人視覺到底是怎麽工作的？它其實就是具備了人眼的功能，人眼幹什麽機器人視覺就幹什麽。右邊是替代人眼的工業相機，跟手機相機沒太大區別，只不過更結實，能夠在工廠環境裡抗干擾。

用工業相機替代人眼實現視覺的功能，人眼看到的是蒙娜麗莎的畫像，而工業相機獲得的是一個二維陣列，二維陣列裡每一個數字都代表圖像裡的每個像素，通過獲得的陣列加上開發的智能軟體和算法就可以獲取想要的信息。

工業機器人在工業中經常要解決三維的問題。剛才所說的是一隻眼睛，只能看到二維的世界，在三維到二維的過程中損失了一個深度信息，而我們要做的就是利用雙目或者多目的方法把丟失的信息找回來，用兩個攝影頭從不同的角度去看，可以把特徵匹配起來，把二維又重構成三維，甚至用多目的方法會比人的眼睛更加出色、更加智能。

圖 | 搭配眼睛的工業機器人（來源：PICKIT3D）

這個視頻裡右邊是一個工業機器人，左邊則是我們給它配的眼睛，它的眼睛可以不斷地識別不同種類不同樣子的物體，隨機擺放也可以找到物體的位置，獲取物體的形狀信息。而機器人有了眼睛、有了決策能力，就可以進行自主地隨機地碼放，這機器人就有了柔性和智慧。

圖 | 工業相機（來源：AGTROBOTICS）

在工廠裡並不是都用雙目的方式，還會採用更加可靠的方式。這張圖片上是 CCD，就是常用的工業相機，下面是用一個抗干擾的強雷射打到一個物體上，近的時候雷射反射到相機上是一個位置，遠的時候是另一個位置，通過兩個位置的變化就知道物體到底離我們近還是遠，這是一個點的問題。

而線的問題上，打一個橫的雷射可以獲得一個線上物體的三維位置，而把這個線通過運動掃描就可以獲得完整物體的三維位置，通過這個物體的三維位置加以我們的算法，就可以告訴機器人應該怎麽做這件事。

圖 | 工業機器人掃描工件（來源：YaskawaUK）

這個視頻裡工業機器人終端的一個焊槍上，加了三維的傳感器，通過結構光掃描把整個物體的形貌掃下來，然後告訴機器人應該從工件哪裡開始焊接在哪裡停止，如果工業變了照樣可以通過掃描來確定運動軌跡。從視頻中可以看到，最後機器人通過掃描發現了終點，運動應該停止它就會抽身離去，這樣的工業機器人就具備了完整的視覺，不需要人再去操控它。

這兩個視頻都說明了工業機器人搭配視覺的好處，首先不需要再雇一個懂機器人編程的人去控制機器人，真正做到了機器換人的目的，同時可以實現柔性的加工，通過加入視覺大大地提高生產效率，而且可以保證生產質量，機器人不會像人一樣鬧情緒。

未來機器人如何提高智能？

接下來跟大家分享一下工業機器人的發展趨勢，工業機器人上世紀中代就已經開始發展，最早期經歷了第一代機器人，也就是現在使用的主流，機器人需要教它怎麽乾，它才知道怎麽乾，這種使用已經受限了。

現在機器人正處在第二個階段，就是增加視覺乃至觸覺等一系列的傳感的方法，讓這個機器人更加智能，更加具有柔性。而接下來我想給大家展望一下未來機器人的模樣，就是我們期望的主流，要提高它的智能、做自主的決策。

圖 | 上世紀 60 年代 IBM 開發的計算機（來源：CHILTON-COMPUTING）

從我的角度來看，機器人未來發展方向是加上 AI 和 AR。首先來看 AI，上圖是上世紀 60 年代 IBM 開發的世界最新型的計算機，大概有一個小房間那麽大，正是用它把人類通過阿波羅計劃送上了月球，可這個計算機的計算能力甚至不如現在手機計算能力的 1% 甚至 1‰，人類已經通過摩爾定律掌握了大量處理數據的硬體計算能力，所以我們可以引入深度學習這種人工智能方法。

圖 | 通過圖片訓練得到人名（來源：RESEARCHGATE）

左邊是喬治華盛頓的圖像，我們通過不斷地圖片訓練，不斷的大數據的引入，給它供應很多人臉的數據，最後可以得出我們要的結果——他的名字。而工業機器人通過大量的訓練，也可以通過視覺判斷這是什麽樣的東西，我應該怎麽做，有了 AI 的功能，機器人未來將會更加強大。

而通過 AR 使得人和機器人相互作用，可以達到更加智能的效果，我們說的機器換人並不是把人完全用機器人替掉，而是人乾人最適合乾的工作、更智能的工作，機器乾重複的有傷害性的工作，而人機協作是未來的一個大方向。

我們通過 AR 的方式，可以讓人的智能發揮非常好的作用，人看見機器人將要做的工作，只需要給個指示告訴機器人，1 號 2 號工件應該怎樣裝配，大大發揮人的智能性。而擰螺絲甚至焊接這種傷身體的工作，重複性勞動的工作由機器人來乾，通過 AR 和機器人技術的結合，會讓我們的未來世界中機器人應用更加廣泛。

最後我想用一句話來總結今天的演講：智能視覺讓機器人看見我們的世界，也讓我們的世界因為機器人更加美好。我是來自清研洛陽的吳哲明，謝謝大家！

-End-

演繹 inSite 是 DeepTech 近期推出的一檔青年科學家劇場式演講欄目，內容聚焦“硬核”科學的現實應用價值，追尋從“科學”到“科技”再到“產業”的實現過程。從發起至今，已邀請到數十位青年科學家就各熱門議題展開討論，節目在多個視頻平台收獲了數百萬點擊。接下來的一段時間，我們將定期分享科學家們在演繹 inSite 上的演講，一起為新知發聲，打造未來洞見者。

在新浪微博、今日頭條、抖音、愛奇藝、優酷、騰訊視頻、Bilibili、一點資訊上尋找 @ 演繹 inSite