近日,清華大學(xué)自動化系系統(tǒng)工程研究所副教授李力作為第一作者以及林懿倫,鄭南寧,王飛躍,劉躍虎,曹東璞,王坤峰,黃武陵等發(fā)表了一篇關(guān)于人工智能測試和無人車測試的英文論文《Artificial intelligence test: a case study of intelligent vehicles》,集中探討了人工智能應(yīng)用領(lǐng)域中關(guān)于智能性的測試和設(shè)計方法。文章認(rèn)為,智能性測試和機(jī)器學(xué)習(xí)的過程類似,兩者如同一個硬幣的兩面,“終生測試”將是一場持久戰(zhàn)。文章最后還提出了虛實(shí)結(jié)合的平行測試方法。
以下是人工智能測試與無人車測試的中文版介紹。
1. 概述
本篇文章主要是講述在人工智能應(yīng)用領(lǐng)域?qū)χ悄苄缘臏y試,基于場景和任務(wù)的測試體系的描述,以及介紹了如何設(shè)計智能性測試中基于仿真的測試及其測試指標(biāo),并在智能車這一典型人工智能領(lǐng)域舉例說明。
2. 無人駕駛和人工智能
人工智能(AI)通常是指機(jī)器表現(xiàn)出來的和人類類似的智能?,F(xiàn)如今,人工智能已經(jīng)極大的改變了我們的生活,大到自動駕駛汽車,小到掃地機(jī)器人,都是人工智能的應(yīng)用領(lǐng)域。我們堅信,人工智能將會在未來的20年內(nèi)進(jìn)一步的改變我們生活包括健康,教育,娛樂,安全等各個領(lǐng)域。在享受人工智能的帶來的各種便利的同時,也帶來一些疑問:如何保證人工智能機(jī)器按照人類設(shè)計的思路來正確運(yùn)行?無人駕駛車輛是否會在某些極端環(huán)境中失控照成事故?廚房機(jī)器人是否會把房子點(diǎn)燃?基于以上,我們迫切的需要對人工智能的可靠性進(jìn)行規(guī)范的測試和衡量。
為了回答以上問題,我們需要思索一下人工智能的定義:維基百科對于人工智能的定義:機(jī)器所展現(xiàn)出來的智能;我們對其進(jìn)行擴(kuò)展,給出的定義:人工智能是指機(jī)器(在同樣的任務(wù)中)表現(xiàn)出(和人類似的、或一樣的、甚至是超過人類的)智能,明斯基(Minsky 1968)對人工智能給出過類似的定義“ [AI] is the science of making machines capable of performing tasks that would require intelligence if done by [humans]”. 明斯基的定義更加注重對完成任務(wù)的所需要的智能(原因?qū)颍?,而本文的定義則更加傾向于所完成的任務(wù)所表現(xiàn)的智能(結(jié)果導(dǎo)向)。
同時必須注意到的是,為測試智能性所選擇的任務(wù)也是有特定針對性的,不同的任務(wù)測試不同方面的智能性,例如,一個文盲可能能成為一個很好的司機(jī),但是一個眼盲的飽學(xué)之士卻無法開車。
圖靈測試是迄今為止我們所知的最早的針對智能性的測試。圖靈測試是圖靈對于人工智能的睿智思考,其核心思想是:要求計算機(jī)在沒有直接物理接觸的情況下,盡可能把自己偽裝成人類回答人類的詢問。但是,圖靈測試在無人車智能性測試方面也無法全盤套用。
當(dāng)今,智能性測試有越來越多的應(yīng)用領(lǐng)域,那么我們到底應(yīng)該用何種方法來測試智能性呢?我們所提出的基于任務(wù)的智能性測試方法又有哪些優(yōu)越性呢?接下來,我們將會列舉智能性測試的難點(diǎn),以及我們提出測試方法如何解決這些難點(diǎn),以及如何更好的設(shè)計基于“任務(wù)”的測試用例。
3. 無人駕駛智能的設(shè)計和測試
3.1. 智能性測試的困境
3.1.1. 任務(wù)的定義/描述
第一個困境是如何來更好的定義智能性測試中的任務(wù):
圖靈測試中最大的短板就是任務(wù)的描述。需要指出的是,當(dāng)今的無人駕駛車輛智能測試和中文屋等早期圖靈測試已經(jīng)有了很大差別:其一,早期圖靈測試并未明確的規(guī)定測試任務(wù)以及何種答案可以視為正確,這導(dǎo)致一些試圖通過圖靈測試的機(jī)器經(jīng)常采用摸棱兩可的方式來試圖避免直接回答。而當(dāng)今的無人駕駛車輛智能測試都對任務(wù)進(jìn)行了明確的界定;其二,早期圖靈測試有人來判定測試結(jié)果,而為了檢驗(yàn)無人駕駛車輛的識別算法是否通過各種可能場景的測試,我們必須使用機(jī)器來幫助判定數(shù)以萬記的測試任務(wù)是否通過。
總之,我們需要建立一系列的可以量化的測試任務(wù),這是智能性測試最根本的基礎(chǔ)。