Ohita navigointilinkit
Vexi Savijoki - 
takaisin etusivulle

T-121.200 Käytettävyyden psykologia
Essee
13.1.2005

Äänen mahdollisuudet ihmisen ja koneen välisessä vuorovaikutuksessa

1. Tiivistelmä

Teknisten järjestelmien käyttöliittymät tukeutuvat nykyään hyvin vahvasti visuaaliseen esittämiseen. Ääntä hyödynnetään lähinnä tukikanavana, jota käytetään esim. toimintojen palautteiden tehostamisessa. Laajemmin ääntä käytetään lähinnä erilaisissa puhelinpalveluissa ja näkövammaisten käytättämissä sovelluksissa. Ihmiselle ääni on äärimmäisen luonnollinen vuorovaikutuskanava ja sen tarjoamia mahdollisuuksia voisi hyödyntää laajemminkin erilaisissa teknisissä tuotteissa. Teorian lisäksi tässä kirjoituksessa annetaan konkreettisia ohjeita äänikäyttöliittymien toteutukseen ja esitellään kaksi esimerkkitapausta, joissa äänen laajempi käyttö voisi avata uusia mahdollisuuksia.

2. Johdanto

Ihmisten välisessä vuorovaikutuksessa äänellä on erityisen tärkeä merkitys. Ihmislapsi oppii hyvin nuorena kertomaan tunteistaan ja tarpeistaan äänen avulla. Iän karttuessa puhumisesta ja kuuntelemisesta muodostuu entistäkin tärkeämpi kommunikoinnin väline. Yleensä ihminen ymmärtää puhetta ja osaa tuottaa puhetta, vaikka hän ei osaisi lukea tai kirjoittaa.

Ihmisen ja koneen välisessä vuorovaikutuksessa tulee pyrkiä mahdollisimman luonnolliseen dialogiin (Nielsen 1993, s. 115-123). Vuorovaikutuksen suunnittelussa voidaan ottaa mallia ihmisten välisestä kommunikoinnista. Biologian kannalta katsottuna ihminen ei kehity samalla nopeudella kuin tekniikka, joten ihmisen asettamat mahdollisuudet ja rajoitukset ovat siten tekniikan tarjoamia ratkaisuja tärkeämpiä.

Ääneen perustuvan vuorovaikutuksen yksinkertaisuus ja luonnollisuus tekevät siitä erityisen mielenkiintoisen myös ihmisen ja koneen välisen vuorovaikutuksen kanavaksi. Tämän päivän tekniset sovellukset eivät mielestäni hyödynnä täysipainoisesti äänen tarjoamia mahdollisuuksia.

Tässä työssä pyritään esittelemään lyhyesti äänen hyödyntämiseen liittyvää teoriaa ja käytännön mahdollisuuksia. Käytännön sovelluksissa keskitytään olemassa oleviin ratkaisuihin tai ratkaisuihin joiden toteuttaminen olisi nykytekniikalla mahdollista.

Kolmas kappale käsittelee lyhyesti äänikäyttöliittymien teoreettisia näkökulmia. Kappaleessa neljä esitellään yksinkertainen jaottelu erilaisille ääntä hyödyntäville järjestelmille. Viidennessä kappaleessa annetaan käytännöllisiä neuvoja ääntä hyödyntävien käyttöliittymien toteutukseen. Kuudennessa kappaleessa esitellään esimerkin omaisesti kaksi kohdetta, joissa äänen laajempi hyödyntäminen voisi laajentaa tuotteiden käyttömahdollisuuksia.

3. Äänikäyttöliittymien teoriaa

Sinkkosen mukaan (Sinkkonen et al. 2002, s. 84) kuulemista on tutkittu paljon, mutta siihen liittyviä ihmisen ja koneen välisen vuorovaikutuksen käytettävyysnäkökulmia ei ole juurikaan tutkittu. Edelleen sekin vähä, mitä on tutkittu ei ole suunnittelijoiden tiedossa. Tässä kappaleessa perehdytään muutamiin äänen hyödyntämiseen liittyviin erityiskysymyksiin.

Havainnoinnin kannalta äänikäyttöliittymän merkittävin ero graafisiin käyttöliittymiin on äänen yksiulotteisuus (Jaakkola 2002). Kuuloaistin avulla saatua informaatiota ei voi helposti "silmäillä" tai selailla haluamassaan järjestyksessä ja haluamallaan nopeudella. Verrattuna äänellä toteutettuun valikkoon graafisista käyttöliittymistä on huomattavasti nopeampaa valita tietty kohde.

Toinen äänikäyttöliittymien erityispiirre on niiden näkymättömyys (Beasley et al. 2002). Matkapuhelinliittymään liitetty vastaajapalvelu on olemassa vain puhelinkeskuksessa ja sen äänikäyttöliittymä ei ole kovinkaan konkreettinen. Äänikäyttöliittymä rakenne on käytännössä olemassa vain käyttäjän mielessä. Tämä asettaa erityisiä vaatimuksia äänikäyttöliittymien käyttäjille aiheutuvalle kognitiiviselle kuormalle.

Äänen erityispiirteisiin kuuluu myös sen kattavuus - ääneltä ei voi kääntää päätä pois samalla tavalla kuin näkyvästä kuvasta (Sinkkonen et al. 2002, 83). Kattavuus on selkeästi myös äänen etu, sillä ääntä hyödyntävä toiminto voi olla taustalla ilman, että siihen tarvitsee jatkuvasti kiinnittää huomiota visuaalisen näytön tapaan.

4. Erilaisia ääntä hyödyntäviä järjestelmiä

Ääntä hyödyntävät tekniset järjestelmät voidaan jakaa yleisellä tasolla kolmeen eri ryhmään:

  1. Ääni on ainoa viestintämenetelmä käyttäjän ja koneen välillä.
  2. Ääni toimii järjestelmän palautekanavana tai syöttövälineenä.
  3. Ääni toimii yhtenä palautekanava tai syöttövälineenä.

Ensimmäisen kategoriaan kuuluvat järjestelmät, joissa tiedon syöttäminen ja järjestelmän palautteen antaminen tapahtuu pelkästään äänen avulla. Tällaisia käytännön sovelluksia on varsin vähän ja mieleen tuleekin lähinnä tieteiselokuvien puheella ohjattavat puhuvat tietokoneet. Ihmisen kannalta tämä on kuitenkin näistä kolmesta vaihtoehdosta kaikkein luontevin vuorovaikutustapa.

Järjestelmät, joissa ääni toimii joko palautekanavana tai syöttövälineenä, ovat huomattavasti edellisiä yleisempiä. Tunnetuin näistä on todennäköisesti tavallinen lankapuhelin, jonka toiminnasta saa useimmiten tietoa vain äänen perusteella. Näkövammaiset tietokoneen käyttäjät voivat käyttää useimpia tietoteknisiä sovelluksia korvaamalla näytön ruudunlukuohjelmalla, joka lukee näytöllä olevan informaation ääneen. Näkökyvyn omaavatkin käyttäjät voivat hyödyntää puhuvia järjestelmiä sellaisissa tilanteissa, joissa näköaisti on jo muussa käytössä (Preece 1994, s. 248). Tällaiset tilanteet ovat tyypillisiä esimerkiksi ilmailussa ja autolla ajettaessa.

Kolmanteen ryhmään kuuluu suuri joukko järjestelmiä, joissa ääntä käytetään muiden vuorovaikutustapojen rinnalla. Monissa tavallisissa teknisissä järjestelmissä erilaisiin kuittaus- ja virheilmoituksiin liittyy näkyvän palautteen lisäksi myös äänipalaute. Esimerkkinä voidaan mainita nykyaikainen matkapuhelin, jonka "soiminen" ilmoitetaan äänen lisäksi vilkkuvalla näytöllä ja usein myös värinällä. Äänivihjeet ovat yleisiä myös monissa tavallisissa tietokoneohjelmissa (esim. linkin klikkaamisesta kuuluu ääni). Joissain järjestelmissä äänivihjeillä on merkittävä vaikutus suorituksen tuloksellisuuteen. Buxton et al. (1989 ref. Preece 1994, s. 248) on todennut, että hyvin suunnitellut äänet parantavat merkittävästi etenkin tietokonepelien suorituksia.

Tässä työssä keskitytään pääasiallisesti keskimmäiseen järjestelmätyyppiin, koska pelkästään ääneen perustuvat käyttöliittymät eivät ole vielä yleistyneet ja niistä ei ole tarjolla juurikaan käytännön esimerkkejä. Kolmanteen ryhmään kuuluvia järjestelmiä käsitellään kuudennen kappaleen esimerkeissä.

Tunnetun käytettävyystutkija Jakob Nielsenin (2003) mukaan pelkästään puheeseen ja ääneen perustuvat käyttöliittymät eivät sinällään ole mikään oikotie hyvään käytettävyyteen. Nielsen haastatteli vuonna 1986 57 tietotekniikan asiantuntijaa ja kysyi mikä heidän mielestään on suurin muutos, joka tietotekniikassa tulee todennäköisesti tapahtumaan vuoteen 2000 mennessä. Eniten kannatusta keränneen ehdotuksen mukaan suurin muutos tulisi olemaan puheeseen perustuva vuorovaikutus koneen ja käyttäjän välillä. Vuonna 1986 graafiset käyttöliittymät eivät olleet vielä saavuttaneet suurta suosiota, mutta nykykokemuksen valossa on epätodennäköistä, että puheeseen perustuvat käyttöliittymät tulisivat korvaamaan graafisia käyttöliittymiä.

5. Ohjeita äänikäyttöliittymien toteutukseen

Pelkästään ääneen tukeutuvien käyttöliittymien suunnittelu ja toteutus eroavat melko paljon graafisten käyttöliittymien toteutuksesta. Graafisten käyttöliittymien suunnittelijat voivat hyödyntää monia tunnettuja konventioita ja mm. hahmolakeja suunnittelun tukena, mutta vastaavia konventioita ei juurikaan ole olemassa äänikäyttöliittymille. Judit Baur (2004) on listannut avaintekijät, jotka on syytä ottaa huomioon äänikäyttöliittymien suunnittelussa:

  • Matala kognitiivinen kuorma
  • Tehokkuus
  • Täsmällisyys
  • Virhetilanteiden selkeä käsittely
  • Selkeys - Mitä järjestelmä tekee? Mitä voin sanoa? Missä olen järjestelmässä? Miten saan työt tehtyä?

Monet listan asiat on helppo yhdistää Nielsenin (1993, s. 26) määrittelemiin yleisiin käytettävyystekijöihin (opittavuus, tehokkuus, muistettavuus, virheiden vähyys, miellyttävyys), mutta erojakin on.

Äänikäyttöliittymien erityishaasteen muodostaa ihmisen työmuistin koko, sillä äänikäyttöliittymän pitää mahtua oleellisimmilta osiltaan aktiiviseen muistiin. Tulkinnoista riippuen (Sinkkonen et al. 2002, s. 196) ihminen voi muistaa 3-5 erikokoista mieltämisyksikköä. Valikkorakenteissa kognitiivista kuormaa voidaan keventää kertomalla ensin komennon ehto ja vasta sen jälkeen komennon suorittamiseen vaadittava valinta, esim. "Jos haluat äänittää vastaajaviestin uudestaan, paina 2".

Tehokkuudella ja virhetilanteiden käsittelyllä Baur tarkoittaa pääosiltaan samoja asioita kuin Nielsen. Täsmällisyyden ja selkeyden vaatimukset korostuvat äänikäyttöliittymissä, sillä esim. komennot olisi hyvä ymmärtää jo ensimmäisellä kuuntelukerralla. Järjestelmän selkeydellä on hyvin kriittinen asema äänikäyttöliittymän toiminnassa. Jos käyttäjä ei ymmärrä helposti järjestelmän tilaa tai toiminnallisuutta, voi käyttäjä turhautua helposti ja luopua järjestelmän käytöstä.

Oman haasteensa äänikäyttöliittymien suunnittelulle asettaa myös niiden käyttökohteiden moninaisuus. Monia äänikäyttöliittymäsovelluksia käytetään ympäristöissä, joissa voi tulla jatkuvia keskeytyksiä ja käyttäjän huomio on usein poissa järjestelmästä.

6. Tulevaisuuden mahdollisuuksia

Seuraavassa esitellään kaksi olemassa olevaa teknistä järjestelmää, joiden käyttömahdollisuuksia voisi laajentaa suhteellisen yksinkertaisesti vahvistamalla ääneen perustuvan vuorovaikutuksen roolia.

6.1. Esteettömyyttä ja erilaisia oppimistyylejä oppimisympäristöissä

Internetin suosion vanavedessä 1990-luvun puolivälissä alkoi syntymään erilaisia verkkopohjaisia oppimisympäristöjä, joissa pystyi suorittamaan erilaisia kursseja. Nykyisin järjestelmissä on monipuolisia työkaluja mm. erityyppisten tehtävien ja tenttien tekemiseen. Monipuolisten käyttöliittymien kääntöpuolena on yleensä ollut joidenkin käyttäjäryhmien poisrajaaminen. Usein ulkopuolelle ovat jääneet etenkin näkövammaiset käyttäjät. Rajauksia perustellaan valitettavan usein taloudellisilla näkökulmilla - pienien ryhmien huomioiminen ei ole kannattavaa.

Näkövammaiset käyttävät tietokoneen kanssa erityistä puhesyntetisaattoria, joka lukee ääneen näytöllä olevan tekstimuotoisen informaation. Syntetisaattorit eivät osaa tulkita mitään graafisia elementtejä, ellei sisällöntuotannossa ole annettu grafiikalle tekstimuotoista vaihtoehtoa.

Ihmiset oppivat eri tyyleillä. Toiset omaksuvat parhaiten lukemalla, katselemalla ja piirtämällä kuvia. Toisille taas asia jää paremmin mieleen, jos informaatio on auditiivisessa muodossa esimerkiksi puheena. Verkko-oppimisympäristöjen haasteena on erilaisten oppimistyylien tukeminen. Miten saada auditiivisesti motivoituneet opiskelijat innostumaan verkko-opiskelusta? (Tuomola & Maijanen 1999)

Näkövammaisten asettamien vaatimusten ja erilaisten oppimistyylien välinen yhteys ei ole välttämättä kovinkaan ilmeinen. Näiden vaatimusten väliltä voidaan kuitenkin löytää tiettyjä yhtymäkohtia. Puhesyntetisaattorit ovat tähän asti olleet lähinnä pienien ryhmien käytössä, mutta teknisesti ei ole mitään esteitä sille, että syntetisaattorit olisivat laajemmassakin käytössä. Auditiivinen oppija voisi omaksua verkkokurssin materiaalin tehokkaammin, jos hän voisi hyödyntää itselleen sopivinta oppimisen muotoa eli tässä tapauksessa kuuntelua. Tukemalla erilaisia oppimistyylejä voidaan verkko-oppimisympäristöstä saada samalla kertaa aiempaa myös esteettömämpi väline näkövammaisille. (Savijoki 2004, s. 7-8)

6.2. Puhuva internet taskussa

Matkapuhelimet ovat kehittyneet vuosikymmenessä tiiliskiven kokoisista möykyistä taskukokoisiksi ja suorituskykyisiksi multimediapuhelimiksi. Langattoman sovellusprotokollan (WAP) lanseerauksen yhteydessä luvattiin, että internet tulee "taskuun". WAP ja sen ajan puhelimet eivät kuitenkaan lunastaneet niille asetettuja lupauksia. Osasyynä oli varmasti käytettävissä olevien puhelimien vaatimattomuus - käyttäjät eivät halunneet surffata verkossa pienellä näytöllä ja hitaalla yhteydellä. Nykyisten puhelimien vakiovarustukseen kuuluu useimmiten melko tehokas prosessori ja värinäyttö. Yhteyden nopeusongelmaankin on saatu ainakin osittainen ratkaisu. Vaikka näyttöjen koot ovat suurentuneet ja värien määrä on lisääntynyt, ei matkapuhelimen näyttö edelleenkään sovellu pidempien tekstien lukemiseen.

Lähinnä autoilijoita koskettanut lainsäädännön muutos on tuonut puhelimiin uuden lisävarusteen, jossa on yhdistetty kuulokkeet ja mikrofoni. Nämä hands free -laitteet on tehty mahdollistamaan puhelimen käyttö ilman käsiä. Useimmiten kuulokkeita ja mikrofonia hyödynnetään vain puheluun liittyvän puheen välittämiseen. Joissakin malleissa kuulokkeista voi kuunnella myös puhelimeen tallennettua musiikkia tai yhdysrakenteista FM-radiota ja mikrofoniin puhumalla voi valita puhelinnumeroita. Kuten edellisessäkin esimerkissä, voisi puhelimen käyttömahdollisuuksia laajentaa melko yksinkertaisesti puhesyntetisaattorin avulla. Hälytysäänen sijaan puhelin voisi sanoa, että "Ville soittaa" ja tekstiviestin saapuessa viesti voitaisiin lukea käyttäjälle kuulokkeiden kautta. Sama teknologia toisi myös internetin tekstimuotoisen sisällön helpommin saataville - pitkän artikkelin voisi kuunnella vaikka bussissa istuessa. Äänen hyödyntäminen toisi siten pieneen puhelimeen isomman "näytön".

7. Pohdinta

Mielikuvituksen avulla on helppo keksiä mitä innovatiivisempia kohteita äänikäyttöliittymille, mutta eivät ne silti kuitenkaan ole patenttiratkaisu kaikkiin ongelmiin! Graafiset käyttöliittymät ovat kehittyneet erittäin monipuolisiksi, miellyttäviksi ja silti tehokkaiksi työkaluiksi. On vaikea nähdä, että mikään tulevaisuuden tekniikka voittaisi graafisten käyttöliittymien ylivallan.

Äänikäyttöliittymien mahdollisuudet voidaan nähdä graafisten käyttöliittymien rinnalle toteutettavissa palveluissa. Esteettömyysnäkökulmasta katsottuna informaatio olisi hyvä olla saavutettavissa monilla eri menetelmillä. Tällainen multimodaalisuus antaa käyttäjälle mahdollisuuden valita itselleen sopivimman tavan käsitellä tietoa. Toimistotietokoneen äärellä työskentelevä käyttäjä todennäköisesti lukee uutiset netistä isolta monitorilta, kun taas näkövammainen tai autolla ajava käyttäjä voi haluta uutiset puheen muodossa.

Äänen rooli käyttöliittymissä oli minulle ennestään melko tuntematon aihe. Laajaan materiaaliin tutustuminen on kuitenkin antanut paljon uusia ajatuksia. Oppimisen tuloksena on toivottavasti syntynyt myös hiukan uutta näkemystä - aina ei tarvitse toteuttaa asioita ensimmäiseksi mieleen tulevalla tekniikalla. Ihmisen aistien laajempi hyödyntäminen tulee todennäköisesti parantamaan tulevaisuudessa tuotteiden käyttökokemuksia.

Lähteet

Baur, Judith 2004. Voice User Interfaces - speech applications - User Interface Design WS 03/04. Special Lecture User Interface Design, Universität des Saarlandes, Saar-brücken. [Viitattu 12.1.2005] Saatavissa: < http://w5.cs.uni-sb.de/~butz/teaching/uid-ws03/pdf/ voiceUserInterface.pdf >

Beasley, Rick; Bonnewell, Veta; Farley, Mike; O'Reilly, John; Squire. Leon 2001. Design Differences: VUIs Versus GUIs. Teoksessa: Voice Application Development with VoiceXML. Indianapolis, SAMS. ISBN 0672321386. [Viitattu 12.1.2005] Saatavissa: < http://www.informit.com/articles/article.asp?p=26669&redir=1 >

Buxton, Bill; Gaver, Bill; Bly, Sara 1989. Use of non speech audio at the interface. CHI'89 Tutorial notes.

Jaakkola, Mia 2002. WWW-sivujen toteuttaminen ääniselaimille. Luk-tutkielma, Tietotekniikan laitos, Jyväskylän yliopisto, Jyväskylä. [Viitattu 12.1.2005] Saatavissa: < http://www.mit.jyu.fi/luk/toteutettuja/Aaniselaimet/ >

Nielsen, Jakob 1993. Usability Engineering. New York, Academic Press. ISBN 0-12-518406-9.

Nielsen, Jakob 2003. Voice Interfaces: Assessing the Potential. Alertbox-kolumni [Viitattu 12.1.2005] Saatavissa: < http://www.useit.com/alertbox/20030127.html >

Preece, Jenny 1994. Human-Computer Interaction. Wokingham, Addison-Wesley. ISBN 0-201-62769-8.

Savijoki, Veikko 2004. Verkko-oppimisympäristöjen käytettävyyshaasteita. Espoo, Teknillinen korkeakoulu, Tuotantotalouden osasto, Johtamisen ja työpsykologian seminaari. [Viitattu 12.1.2005] Saatavissa: < http://savijoki.net/kurssit/tps/Verkko-oppimisympäristöjen käytettävyyshaasteita.pdf >

Sinkkonen, Irmeli; Kuoppala, Hannu; Parkkinen, Jarmo; Vastamäki, Raino 2002. Käytettävyyden psykologia. Helsinki, Edita Oyj. ISBN 951-826-574-7.

Tuomola, Reijo; Maijanen, Ari 1999. Mukautuvat www-sivut ja oppimistyylit. Tampereen yliopisto, Tietojenkäsittelytieteiden laitos, Internet-pohjaiset oppimisympäristöt 1999 -kurssi. [Viitattu 12.1.2005] Saatavissa: < http://www.cs.uta.fi/ipopp/www/ipopp99/maijanen-tuomola/ >


00730 Helsinki
p. 040 713 1576
S‰hkˆpostiosoite: vexi ‰t savijoki piste net