引言
人們對人機(jī)系統(tǒng)關(guān)系的認(rèn)識問題,伴隨著人機(jī)關(guān)系基本觀點(diǎn)的變化由來已久。在計(jì)算機(jī)出現(xiàn)的不足半個(gè)世紀(jì)的時(shí)間里,人機(jī)交互技術(shù)經(jīng)歷了巨大的變化。以下從幾個(gè)不同的角度來觀察和總結(jié)人機(jī)交互技術(shù)發(fā)生的變化及發(fā)展趨勢:
(1) 就用戶界面的具體形式而言,過去經(jīng)歷了批處理、聯(lián)機(jī)終端(命令接口)、(文本)菜單等多通道――多媒體用戶界面和虛擬現(xiàn)實(shí)系統(tǒng)。
(2) 就用戶界面中信息載體類型而言,經(jīng)歷了以文本為主的字符用戶界面(CUI)、以二維圖形為主的圖形用戶界面(GUI)和多媒體用戶界面,計(jì)算機(jī)與用戶之間的通信帶寬不斷提高。
(3) 就計(jì)算機(jī)輸出信息的形式而言,經(jīng)歷了以符號為主的字符命令語言、以視覺感知為主的圖形用戶界面、兼顧聽覺感知的多媒體用戶界面和綜合運(yùn)用多種感觀(包括觸覺等)的虛擬現(xiàn)實(shí)系統(tǒng)。在符號階段,用戶面對的只有單一文本符號,雖然離不開視覺的參與,但視覺信息是非本質(zhì)的,本質(zhì)的東西只有符號和概念。在視覺階段,借助計(jì)算機(jī)圖形學(xué)技術(shù)使人機(jī)交互能夠大量利用顏色、形狀等視覺信息,發(fā)揮人的形象感知和形象思維的潛能,提高了信息傳遞的效率。早期的計(jì)算機(jī)系統(tǒng)只有單調(diào)的峰鳴聲,雖然多媒體技術(shù)將聲頻形式和視頻形式同時(shí)帶入人機(jī)交互,但仍缺少聽覺交互手段,即人處于被動收聽狀態(tài),聲音缺少位置和方向的變化,交互輸入方面仍沿用圖形用戶界面所采用的鍵盤和鼠標(biāo)器等交互設(shè)備。當(dāng)前,在人機(jī)交互中結(jié)合進(jìn)視覺的、聽覺的以及更多的通道是必然趨勢,特別是將聽覺通道作為補(bǔ)充的或替換的信息通道已顯示出重要性和優(yōu)越性[1]。
(4) 就人機(jī)界面中的信息維度而言,經(jīng)歷了一維信息(主要指文本流,如早期電傳式終端)、二維信息(主要是二維圖形技術(shù),利用了色彩、形狀、紋理等維度信息)、三維信息(主要是三維圖形技術(shù),但顯示技術(shù)仍利用二維平面為主)和多維信息(多通道的多維信息)空間。
不論從何種角度看,人機(jī)交互發(fā)展的趨勢體現(xiàn)了對人的因素的不斷重視,使人機(jī)交互更接近于自然的形式,使用戶能利用日常的自然技能,不須經(jīng)過特別的努力和學(xué)習(xí),認(rèn)知負(fù)荷降低,工作效率提高。這種“以人為中心”的思想特別是自80年代以來,在人機(jī)交互技術(shù)的研究中得到明顯的體現(xiàn)。本文通過簡要回顧和分析人機(jī)交互技術(shù)的變化過程,進(jìn)而展望未來發(fā)展的趨勢。
1、命令語言用戶界面
真正意義上的人機(jī)交互開始于聯(lián)機(jī)終端的出現(xiàn),此時(shí)計(jì)算機(jī)用戶與計(jì)算機(jī)之間可借助一種雙方都能理解的語言進(jìn)行交互式對話。根據(jù)語言的特點(diǎn)可分為:
a. 形式語言。這是一種人工語言,特點(diǎn)是簡潔、嚴(yán)密、高效,如應(yīng)用于數(shù)學(xué)、化學(xué)、音樂、舞蹈等各領(lǐng)域的特殊語言,計(jì)算機(jī)語言則不僅是操縱計(jì)算機(jī)的語言,而且是處理語言的語言;
b. 自然語言。特點(diǎn)是具有多義性、微妙、豐富;
c. 類自然語言。這是計(jì)算機(jī)語言的一種特例。
命令語言的典型形式是動詞后面接一個(gè)名詞賓語,即“動詞+賓語”,二者都可帶有限定詞或量詞。命令語言可以具有非常簡單的形式,也可以有非常復(fù)雜的語法。
命令語言要求驚人的記憶和大量的訓(xùn)練,并且容易出錯(cuò),使入門者望而生畏,但比較靈活和高效,適合于專業(yè)人員使用。
2、圖形用戶界面
圖形用戶界面(GUI-Graphics User Interface)是當(dāng)前用戶界面的主流,廣泛應(yīng)用于各檔臺式微機(jī)和圖形工作站。比較成熟的商品化系統(tǒng)有Apple的Macintosh、IBM的PM(Presentation Manager)、Microsoft的Windows和運(yùn)行于Unix環(huán)境的X-Window、OpenLook和OSF/Motif等。當(dāng)前各類圖形用戶界面的共同特點(diǎn)是以窗口管理系統(tǒng)為核心,使用鍵盤和鼠標(biāo)器作為輸入設(shè)備。窗口管理系統(tǒng)除基于可重疊多窗口管理技術(shù)外,廣泛采用的另一核心技術(shù)是事件驅(qū)動(Event-Driven)技術(shù)。圖形用戶界面和人機(jī)交互過程極大地依賴視覺和手動控制的參與,因此具有強(qiáng)烈的直接操作特點(diǎn)。
雖然菜單與圖形用戶界面并沒有必然的聯(lián)系,但圖形用戶界面中菜單的表現(xiàn)形式比字符用戶界面更為豐富,在菜單項(xiàng)中可以顯示不同的字體、圖標(biāo)甚至產(chǎn)生三維效果。菜單界面與命令語言界面相比,用戶只需確認(rèn)而不需回憶系統(tǒng)命令,從而大大降低記憶負(fù)荷。但菜單的缺點(diǎn)是靈活性和效率較差,可能不十分適合于專家用戶?;趫D形用戶界面的優(yōu)點(diǎn)是具有一定的文化和語言獨(dú)立性,并可提高視覺目標(biāo)搜索的效率。圖形用戶界面的主要缺點(diǎn)是需要占用較多的屏幕空間,并且難以表達(dá)和支持非空間性的抽象信息的交互。
3、直接操縱用戶界面
直接操縱(Direct manipulation)用戶界面是Shneiderman[2]首先提出的概念,直接操縱用戶界面更多地借助物理的、空間的或形象的表示,而不是單純的文字或數(shù)字的表示。前者已為心理學(xué)證明有利于“問題解決”和“學(xué)習(xí)”。視覺的、形象的(藝術(shù)的、右腦的、整體的、直覺的)用戶界面對于邏輯的、直接性的、面向文本的、左腦的、強(qiáng)迫性的、推理的用戶界面是一個(gè)挑戰(zhàn)。直接操縱用戶界面的操縱模式與命令界面相反,基于“賓 語+動詞”這樣的結(jié)構(gòu),Windows 95設(shè)計(jì)者稱之為“以文檔為中心”[3]。用戶最終關(guān)心的是他欲控制和操作的對象,他只關(guān)心任務(wù)語義,而不用過多為計(jì)算機(jī)語義和句法而分心。對于大量物理的、幾何空間的以及形象的任務(wù),直接操縱已表現(xiàn)出巨大的優(yōu)越性,然而在抽象的、復(fù)雜的應(yīng)用中,直接操縱用戶界面可能會表現(xiàn)出其局限性。從用戶界面設(shè)計(jì)者角度看:
a. 設(shè)計(jì)圖形比較因難,需大量的測試和實(shí)驗(yàn);
b. 復(fù)雜語義、抽象語義表示比較困難[7];
c. 不容易使用戶界面與應(yīng)用程序分開獨(dú)立設(shè)計(jì)。
總之,直接操縱用戶界面不具備命令語言界面的某些優(yōu)點(diǎn)。
4、多媒體用戶界面
多媒體技術(shù)被認(rèn)為是在智能用戶界面和自然交互技術(shù)取得突破之前的一種過渡技術(shù)。在多媒體用戶界面出現(xiàn)之前,用戶界面已經(jīng)經(jīng)過了從文本向圖形的過渡,此時(shí)用戶界面中只有兩種媒體:文本和圖形(圖像),都是靜態(tài)的媒體。多媒體技術(shù)引入了動畫、音頻、視頻等動態(tài)媒體,特別是引入了音頻媒體,從而大大豐富了計(jì)算機(jī)表現(xiàn)信息的形式,拓寬了計(jì)算機(jī)輸出的帶寬,提高了用戶接受信息的效率。
多媒體信息在人機(jī)交互中的巨大潛力主要來自它能提高人對信息表現(xiàn)形式的選擇和控制能力。同時(shí)也能提高信息表現(xiàn)形式與人的邏輯和創(chuàng)造能力的結(jié)合程度,在順序、符號信息以及并行、聯(lián)想信息方面擴(kuò)展人的信息處理能力。多媒體信息比單一媒體信息對人具有更大的吸引力,它有利于人對信息的主動探索而不是被動接受。另一重要原因是多媒體所帶來的信息冗余性,重復(fù)使用別的媒體或并行使用多種媒體可消除人機(jī)通信過程中多義性及噪聲。
多媒體用戶界面豐富了信息的表現(xiàn)形式,但基本上限于信息的存儲和傳輸方面,并沒有理解媒體信息的含義,這是其不足之處,從而也限制了它的應(yīng)用場合。多媒體與人工智能技術(shù)結(jié)合起來而進(jìn)行的媒體理解和推理的研究將改變這種現(xiàn)狀。另一方面,多通道用戶界面研究的興起,將進(jìn)一步提高計(jì)算機(jī)的信息識別、理解能力,提高人機(jī)交互的效率和用戶友好性,將人機(jī)交互技術(shù)和用戶界面設(shè)計(jì)引向更高境界。
5、多通道用戶界面
多媒體用戶界面大大豐富了計(jì)算機(jī)信息的表現(xiàn)形式,使用戶可以交替或同時(shí)利用多個(gè)感覺通道。然而多媒體用戶界面的人機(jī)交互形式仍迫使用戶使用常規(guī)的輸入設(shè)備(鍵盤,鼠標(biāo)器和觸摸屏)進(jìn)行輸入,即輸入仍是單通道的,輸入輸出表現(xiàn)出極大的不平衡。
多媒體用戶界面豐富了信息表現(xiàn)形式,發(fā)揮了用戶感知信息的效率,拓寬了計(jì)算機(jī)到用戶的通信帶寬。而用戶到計(jì)算機(jī)的通信帶寬卻仍停留在圖形用戶界面(WIMP/GUI)階段的鍵盤和鼠標(biāo)器,從而成為當(dāng)今人機(jī)交互技術(shù)的瓶頸。80年代后期以來,多通道用戶界面(Multimodal User Interface)成為人機(jī)交互技術(shù)研究的嶄新領(lǐng)域,在國際上受到高度重視。多通道用戶界面的研究正是為了消除當(dāng)前WIMP/GUI、多媒體用戶界面通信帶寬不平衡的瓶頸,綜合采用視線、語音、手勢等新的交互通道、設(shè)備和交互技術(shù),使用戶利用多個(gè)通道以自然、并行、協(xié)作的方式進(jìn)行人機(jī)對話,通過整合來自多個(gè)通道的精確的和不精確的輸入來捕捉用戶的交互意圖,提高人機(jī)交互的自然性和高效性。國外研究(包括上述項(xiàng)目)涉及鍵盤、鼠標(biāo)器之外的輸入通道主要是語音和自然語言、手勢、書寫和眼動方面,并以具體系統(tǒng)研究為主。
多通道用戶界面與多媒體用戶界面一道共同提高人機(jī)交互的自然性和效率。多通道用戶界面主要關(guān)注人機(jī)界面中用戶向計(jì)算機(jī)輸入信息以及計(jì)算機(jī)對用戶意圖理解的問題,它所要達(dá)到的目標(biāo)可歸納為如下方面:
a. 交互自然性,使用戶盡可能多地利用已有的日常技能與計(jì)算機(jī)交互,降低認(rèn)識負(fù)荷;
b. 交互高效性,使人機(jī)通訊信息交換吞吐量更大、形式更豐富,發(fā)揮人機(jī)彼此不同的認(rèn)知潛力;
c. 吸取已有人機(jī)交互技術(shù)的成果,與傳統(tǒng)的用戶界面特別是廣泛流行的WIMP/GUI兼容,使老用戶、專家用戶的知識和技能得以利用,不被淘汰。
研究者心目中的多通道用戶界面具有以下幾個(gè)基本特點(diǎn):
a. 使用多個(gè)感覺和效應(yīng)通道。盡管感覺通道側(cè)重于多媒體信息的接受,而效應(yīng)通道側(cè)重于交互過程中控制與信息的輸入,但兩者是密不可分、相互配合的;當(dāng)僅使用一種通道(如語音)不能充分表達(dá)用戶的意圖時(shí),需輔以其它通道(如手勢指點(diǎn))的信息;有時(shí)使用輔助通道以增強(qiáng)表達(dá)力。需要特別強(qiáng)調(diào)的是,交替而獨(dú)立地使用不同的通道不是真正意義上的多通道技術(shù),反之,必須允許充分地并行、協(xié)作的通道配合關(guān)系。
b. 三維的和直接操縱的。人類大多數(shù)活動領(lǐng)域具有三維和直接操縱特點(diǎn)(也許數(shù)學(xué)的和邏輯的活動例外),人生活在三維空間,習(xí)慣于看、聽和操縱三維的客觀對象,并希望及時(shí)看到這種控制的結(jié)果。多通道人機(jī)交互的自然性反應(yīng)了這種本質(zhì)特點(diǎn)。
c. 允許非精確的交互。人類在日常生活中習(xí)慣于并大量使用非精確的信息交流,人類語言本身就具有高度模糊性。允許使用模糊的表達(dá)手段可以避免不必要的認(rèn)識負(fù)荷,有利于提高交互活動的自然性和高效性;多通道人機(jī)交互技術(shù)主張以充分性代替精確性[4]。
d. 交互雙向性。人的感覺和效應(yīng)通道通常具有雙向性的特點(diǎn),如視覺可看可注視,手可控制、可觸及等,多通道用戶界面使用戶避免生硬的、不自然的、頻繁的、耗時(shí)的通道切換從而提高自然性和效率。例如視線跟蹤系統(tǒng)可促成視覺交互雙向性,聽覺通道在利用三維聽覺定位器(3D Auditory Localizer)實(shí)現(xiàn)交互雙向性,這在單通道用戶界面是難以想象的。
e. 交互的隱含性。有人認(rèn)為,好的用戶界面應(yīng)當(dāng)使用戶把所有注意力均集中于完成任務(wù)而無需為界面分心,即好的用戶界面對用戶而言應(yīng)當(dāng)是不存在界面。追求交互自然性的多通道用戶界面并不需要用戶顯式地說明每個(gè)交互成分,反之是在自然的交互過程中隱含地說明。例如,用戶的視線自然地落在所感興趣的對象之上;又如,用戶的手自然地握住被操縱的目標(biāo)。
6、虛擬現(xiàn)實(shí)技術(shù)
虛擬現(xiàn)實(shí)(Virtual Reality)又稱虛擬環(huán)境(Virtual Environment)。虛擬現(xiàn)實(shí)系統(tǒng)向用戶提供臨境(immerse)和多感覺通道(multi-sensory)體驗(yàn),它的三個(gè)重要特點(diǎn),所謂的I3