除此之外,在室外的一些定位當中,可以用關(guān)鍵點回歸的方法去回歸路牌的定點??梢酝ㄟ^這個點反饋在地圖上,更加精確地知道我們實時的位置。對路牌來說,2D 目標檢測并不能全面描述其信息,因為圖像中有很多傾斜的路牌。通過點回歸的方式,可以清晰地得到它在圖像中的真實形狀與位置。通過一些攝像機的成像原理,或其他的修正手段,可以把這個位置信息投影到真實的三維信息當中去,更好地幫助我們確定車輛自身在三維世界當中的位置。
在圖象當中做二維 bounding box 之或做三維bounding box 的目標檢測,點和點之間的關(guān)系后剩下的頂點其實就可以看做是關(guān)鍵點,去掉的這個關(guān)系就是它的框,也就是它的連接關(guān)系。所以,去掉連線之后,就可以看成一個點回歸的問題。做目標檢測或者是做三維目標檢測當中,比較重要的研究問題是如何把這個點回歸的問題做得更精確。有很多人用一些模板的方式,比如說像目前百度的 Apollo 2.5 當中,其實有一個模式是相當于把這邊真實的三維的候選做了很多匹配,看哪個跟檢測出來的更相近或者更相匹。
這個方法,其他公司也有類似的狀況,在做點回歸的時候,都是直接在圖片當中做三維的點回歸,因為二維的點回歸是比較相似的。我們可以看到在比較遠處時候,就直接二維回歸,在稍微近一點的時候,可以做三維的點回歸。因為在遠處的時候,這個側(cè)面是很難看出來的,在相對比較近的時候,可以精確地描述。目標車輛下面這個斜邊代表著它的航向角,這個航向角和公共的航向角定義不太一樣,相當于這個車身的航向角,這個航向角對我們來說很主要的,可以判斷出或者是輔助我們判斷出前方車輛運動的趨勢或者是運動的范圍。
因為結(jié)合多幀信息,這個航向角會有變化的曲線,我們根據(jù)這個曲線可以預測出這個車輛是否有變道,或者是否有急轉(zhuǎn)這樣的趨勢。通過這樣的信息,可以幫助決策模塊做一些重要的決策。比如預測出前方車輛要變道插隊了,防插隊也是我們自動駕駛當中遇到的很重要的問題;比如很多車,做 L1 和 L2 的方案當中,在嘗試編程當中,前方車輛如果要插隊,對我們自動駕駛的車輛來說很難識別。前面的車有沒有插隊的趨勢,一般都是是有一定經(jīng)驗的司機能夠準確或者是最高精度地判斷出來。因為是否能夠判斷出前方車輛司機有插隊趨勢,對于我們正常的人類司機來說,也造成了很多的事故。因為判斷不出來前面的車輛是否有插隊的趨勢,而前面的很多新手司機突然變道,這樣就會發(fā)生一些比較經(jīng)典的擦碰或者是追尾事故。這類事故放在自動駕駛車輛上來說,理論上可以做到比人類更高的精度。
用點回歸的方式,可以去解決在一些場景當中三維目標檢測的問題。對于點回歸來說,需要根據(jù)周圍的關(guān)系去判斷這個點是不是應該在這里。而在三維檢測的時候,經(jīng)常會出現(xiàn)目標不全或者是目標存在一定遮擋的問題,這就需要我們?nèi)ピ黾铀母惺芊秶?,或者是增強它在這方面的處理能力,這是可以去有效規(guī)避的事情。
可以用一些小的網(wǎng)絡(luò)去做,比如說這張表當中描述的是用不同的方法去回歸點不同的任務(wù),如人體、箭頭、車位線、路牌、車輛等,還有很多其他類型的點回歸任務(wù),都可以用這種方法,總體上來說,都是可以去解決,但是處理的能力是有限的。比如在車輛的關(guān)鍵點上來說,車輛的關(guān)鍵點回歸的時候,整體回歸的效果一般,因為車輛本身也是一個比較難的問題,整體的精度也比 2D 的要低很多。目前精度比較高的方法仍然是以激光雷達數(shù)據(jù)為輔助的方法,以視覺為主的方法目前還沒有打進前三名,甚至只能排前十。
另外一方面,在用經(jīng)典的 mask-rcnn 方法去做這類問題的時候,也受限于剛才所說的精度問題,下采樣的倍數(shù)越高,回歸得到的結(jié)果精度就越難以保證。這方面用到了很多級聯(lián)的方法來提高精度,比如先用一個 28 x 28 的,再用 56 x 56 的,再用一個 112 x 112 的,這樣精度逐漸提高了,但是它的運算量并沒有被提高,或者復雜度并沒有被提高,不是乘的關(guān)系而是加的關(guān)系,用兩者的策略做的事情。這在我們的算法工程師或者是同行業(yè)當中,應該不是什么難的問題。