本篇文章5064字,读完约13分钟

HC Security Network News最近,《连线》杂志撰文指出,随着计算机处理、语音识别、移动通信、云计算、神经网络等技术的不断成熟,语音接口技术迎来了一次飞跃,虚拟语音助理业务的发展迎来了一个变革时期。你可能听过这样的故事。1979年,年轻的史蒂夫·乔布斯参观了位于加州帕洛阿尔托的施乐帕洛阿尔托研究中心,目睹了帕克开发的计算机图形用户界面。帕洛阿尔托研究中心的一名工程师用鼠标原型操作电脑,下拉菜单,点击重叠的电脑窗口。在整个演示过程中,乔布斯看到了一种与以前完全不同的操作方式。乔布斯后来说:“不到十分钟,我就知道有一天所有的电脑都会以这种方式运行。” 传说乔布斯带领苹果团队复制了parc的用户图形界面。在接下来的40年里,个人电脑技术开始以前所未有的速度发展,从第一台麦金塔到最新的iphone。计算机的用户图形界面克服了命令行和文本界面的缺点,将更多的普通人带入计算机世界,使更多的人能够使用计算机。他们所需要的只是操作鼠标指向、点击或拖动的技能。 在不远的将来,我们仍将哭泣,因为parc创建的用户图形界面及其决策失误导致错过了个人电脑发展的黄金时代。但是当乔布斯访问parc时,另一个独立的团队正在研究一种新的人机交互模式,这就是今天所说的对话式用户界面。这些科学家想象一个世界,几十年后计算机如此强大,以至于让用户记住所有关于计算机操作的命令是完全不现实的。科学家认为,用户会倒退,以一种变形的方式使用计算机,这种方式的界面是普通的人类语言。 在会话式用户界面的研究团队中有一位科学家,名叫ronkaplan。他看起来很胖,但是说话很温柔,留着山羊胡子,但是头发很薄。卡普兰是语言学家、心理学家和计算机专家。他将著名语言学家诺姆·乔姆斯基的理论应用于人机交互语言的重构。卡普兰指出,在20世纪70年代,他的团队开发的对话式用户界面还远远没有实际应用。他们设法开发了一个会话用户系统,用户可以用标准英语预订机票。但是这种技术不能用于大规模的系统工作,所以不能推广。卡普兰说:“当时,这项技术的成本太高,每个用户大约需要100万美元。”事实上,这种技术需要分布式处理计算机具有更快的处理速度、更智能和更高效。卡普兰估计需要15年。卡普兰现在说:“四十年后,我们终于准备好了。” 现在,卡普兰是语音识别软件公司nuancecommunications的首席科学家和副总裁。该公司是世界上最大的语音接口公司之一。公司为福特开发了车载语音系统syncsystem,这对苹果siri的发展也非常重要,与各行业有着良好的合作关系。但是最近,nuance发现许多公司正在涌入语音接口市场。从亚马逊、英特尔到微软谷歌,几乎每一家大型科技公司都在开发会话用户界面,数十家初创企业也在从事相关研究。我们正处于语音接口技术的变革之中。这些公司相信,很快,用户将能够像与朋友交谈一样与他们的设备互动。用户的设备可以听到用户在说什么和表达什么。 您可能对当今社会的技术发展感到惊讶,但这些新工具和界面将进一步扩展您的数字生活,并克服图形用户界面在安全性、友好性和易用性方面的缺点。一个更接近自然语言的对话界面会进一步拉近你和科技之间的关系,变得更加亲密、友好和个性化。 这一重大技术变革不仅有益于硅谷,也有益于公众。史蒂夫·乔布斯在1979年看到了图形用户界面的重要性,知道这是扩大计算机市场的一个重要途径。然而,即使是图形用户界面也仍然让大量的观众无法进入空.的网络空间它仍然需要用户学习计算机语言。现在,随着语音技术的发展,计算机最终将学会如何与人直接交谈。随着不断的学习和进步,人类将打开通向科学技术世界的通天塔。 但是我们也应该知道,虽然语音技术已经存在了很多年,但是到现在还不够成熟。当然,你可以举一个例子来说,目前的自动电话应答系统还不错(拨入付费,并说“付费”来调用相应的功能)。事实上,今天的语音接口都依赖于固定的语言,但在某些情况下,它们不具备自然语言的功能。例如,你可以问谷歌纽约市的人口,它的回答就像一个流程;如果你问帝国大厦在哪里,它可以处理。但是如果你问他关于纽约的人口,包括帝国大厦,他会不知所措。同样,苹果的语音助理siri也一直是这样的。它的主要技能是帮助你调用谷歌搜索。目前的语音界面和电影中描述的场景之间仍有明显的差距。 然而,当你漫步在硅谷,与人们谈论语音接口的相关技术时,他们的回答完全一样:现在不同了。 六月初的一天,语音识别技术公司soundhound的首席执行官keyvanmohajer向我展示了该公司近十年来开发的一个应用程序原型。Soundhound此前发布了一款可以通过语音识别和搜索流行音乐的应用。当用户对着手机哼唱一首曲子时,应用程序可以识别并搜索哼唱的曲子的名称。事实证明,这种应用只是莫·哈杰梦想的一部分:开发世界上最先进的基于语音的人工智能技术。 莫·哈杰向我展示的这个应用程序的原型叫做猎犬。莫·哈杰手持智能手机nexus5,点击麦克风图标打开程序,开始向猎犬提问。起初,只是一些简单的问题,比如柏林的当地时间或者日本的人口,应用程序给出了正确的答案。然后莫·哈杰转过他的峰问道:“那么他们之间的距离是多少?”猎犬通过理解前面的对话很快给出了答案——“大约5536英里”。 这种问题开始一个接一个地出现,但是猎犬像木头一样回答它。莫·哈杰要求猎犬根据要求的利率和条件计算出一百万美元贷款的每月抵押额,猎犬很快计算出是4270.84美元。 莫·哈杰又问,“太空针所在国家的首都人口是多少?”猎犬指出,莫·哈杰问的是华盛顿的人口,并立即给出了答案。“日本和中国的人口是多少?首都在哪里?他们有多少平方英里?有多少平方公里?有多少人住在印度?德国、意大利和法国的区号是多少?”莫·哈杰问了一系列问题,但猎犬给出了正确的答案。#hc360 page break # hound仍处于测试阶段,但它可能是迄今为止速度最快、功能最强大的语音识别系统。它可以同时进行语音识别和自然语言处理,符合当前的技术和市场需求。事实上,各种语音识别系统的快速发展只是时间问题。 毕竟,目前,卡普兰称之为“门控技术”的语音接口技术的基础技术已经成熟,成本也可以接受。这是一个关于技术集成的经典:计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展已经成熟,并且成本已经达到可以接受的水平,这可以使会话用户界面面向市场。 此外,不仅相关技术的成熟促进了会话式用户界面的研发,客观的市场需求也是推动其发展的重要因素。随着越来越多的非显示设备连接到网络,例如您家中的灯和烟雾报警器,我们也需要一种可行的方式来与设备进行交互,而不需要按钮、菜单或图标。 另一方面,图形用户界面已经接近其自然极限。随着程序功能越来越多,图形用户界面中的菜单和图标选项变得越来越复杂。你可以想象photoshop或excel功能强大,但有大量的菜单项,或者你需要记住如何使用各种快捷键。即使你剪了一张照片,你也应该从各种工具栏中找出正确的选项。卡普兰指出,“图形用户界面已经达到了它的极限,现在它处于超载的边缘。” 这是即将到来的虚拟语音助理市场。当您沉浸在复杂的界面窗口、工具栏和菜单选项中时,它会节省您的时间,并在您和您的设备之间建立一个方便高效的连接。 也许我们与虚拟语音助理的关系目前还不密切,但这种情况很快就会改变。今年秋天,随着一些新型智能手机的推出,相应的对话式用户界面的开发也将很快实现飞跃。当你升级到ios9、安卓6或windows10时,你会发现直接使用内置应用程序的频率会越来越低,越来越多的用户会使用苹果的siri或谷歌的googlenow以及微软的cortana。在不久的将来,数十亿facebook用户将能够打开聊天窗口,通过智能语音助手调用各种功能。语音界面将不再是一种辅助方式,而是将成为主流和首选。即使在某些情况下,它也将是用户的唯一选择。例如,在苹果的homekit系统中,确保所有设备关闭的唯一可行的操作是对苹果的语音助手说“晚安,siri。” 这些虚拟语音助理的初衷是简化复杂性。对于今天的用户来说,频繁的下拉菜单操作过于复杂,调用一个函数需要一步一步的操作,过程过于繁琐。相比之下,虚拟语音助手知道手机中的每个程序和每个功能,你可以通过说话来调用这些功能。同时,随着时间的推移,这种人工智能会知道一切。 应该指出的是,语音技术不会完全取代触摸屏,甚至是鼠标和键盘。如果你需要使用桌面,你肯定会保持这些人机交互方式。虽然更多的时候你可能会问虚拟语音助手如何调用功能,比如“刀具在哪里?” 然而,对于某些特定人群来说,会话式用户界面技术的发展将在很大程度上取代他们对图形用户界面的使用。例如,一些年轻人通过麦克风而不是键盘输入文本。语音信息应用软件cord的创始人兼首席执行官托马斯加亚诺(Thomasgayno)指出,“他们就是不会打字。”对于大多数人来说,图形用户界面完全不适合他们使用。那些有视觉障碍的人和老年人在图形用户界面出现之前就受到这种障碍的影响。因此,有人称现代计算机界面为“直觉”并不十分准确。[/h/2010年夏天,这位24岁的企业家在攻读博士学位期间辍学创业。然而,长时间熬夜逐渐降低了他的视力,一名医生诊断他患有鲟鱼病,这将逐渐降低他的视力,甚至完全失明。作为一名技术人员,默里不得不考虑如何处理他看不见电脑屏幕的情况。但是在整个美国,对于2000万视力受损的人来说,除了屏幕阅读器别无选择。 要使用屏幕阅读器,用户需要通过键盘移动光标,选择要阅读的屏幕文本,将其转换为一长串网址,并通过机器语言读出。这种相关设备花费数千美元,需要数十个小时的培训。随着数字环境的日益复杂,屏幕阅读器的使用越来越不方便。穆雷说:“即使打开谷歌搜索也需要很多步骤,这太可怕了。”当默里的视力开始恶化时,他经常访问blindtwitter了解情况。默里开始明白视障人士迫切需要一种技术。他意识到语音界面对某些特定用户来说更加方便,几乎与此同时,相关的语音技术也在整个硅谷流行起来。因此,默里开始为视障人士开发相关技术。他创立了一家名为“健谈实验室”的公司来开发语音接口技术。该公司推出的第一款产品是一款名为sayshopping的iphone应用,它可以完全通过语音从target购物。然而,默里有一个更大的想法,该公司将在今年年底发布一个语音界面框架,为ios应用程序开发人员提供一个对话界面。默里还希望开发一个完全基于语音技术的计算机应用环境,并且还可以通过头部运动给出指令。默里指出,“这些实现都是可能的,只是需要创造。” 2014年秋季,亚马逊发布了一款名为echo的新产品,该产品创建了一个名为alexa的虚拟语音助手,口号是“觉醒的话语”。回声采用远场语音识别技术,即使在嘈杂的房间里也能准确识别单词。此外,它还有监控功能,所以你可以在家里随时和它通话。 当我开始使用alexa时,它可以告诉我天气,回答基本问题,显示购物清单,或者在我的智能手机上播放音乐,这没有什么特别的。但是随着时间的推移,阿列克谢变得更加聪明和完美。它熟悉我的声音,可以开玩笑,还可以同时运行多个计时器。测试版发布七个月后,公开版终于在2015年推出,alexa的可用性变得越来越强。我知道,它也知道我。 这也是会话技术的一个根深蒂固的事实:你只会在与语音助手的深度互动中发现它的功能。同行业的许多公司都意识到了这一点,他们正试图让他们的语音助理在个性和适应性之间取得平衡,这样他们就更有吸引力,也更容易被接受。例如,当微软开发语音助手cortana时,它的名字来源于游戏光环中的重要角色。“cortana代表机智和坚韧,”cortana工程团队负责人mikecalcagno说。事实上,即使它的可靠性很低,在产品的早期阶段它的好处很少,它也会引起人们的注意。 这种方法也有战略考虑。在微软、nuance和其他公司的研究中,当语音助理无处不在时,当他们知道你的习惯、你的环境和生活时,他们是不可或缺的。通过这种人工智能控制所有的应用和设备是不可避免的。 为此,亚马逊、谷歌、微软、nuance或soundhound都致力于会话平台技术的研究和开发。这些公司知道用户会选择最了解他们的语音助理。让我们为虚拟语音助手做好准备。更重要的是,一旦你选择了其中一个,你就不会轻易放手。

标题:语音接口 我们已站到下一个交互时代的边缘

地址:http://www.hcsbodzyz.com/hcxw/1806.html