生成式人工智能需要它的捏合、滑动,才能成为像 iPhone 那么大的事物。旧金山那些时髦的年轻人,他们想象着你的下一台计算机会像水银一样流动,像雪一样有延展性。
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:技术的能力再强,到头来还是需要界面与用户交互。在1984年Macintosh电脑的图形用户界面出现之前,一个过分讲究的命令行提示就是与计算机通信的唯一方式,难道未来的人工智能用户界面也是这样?人工智能正在让一些工作变得无关紧要,令人难以置信的是,工程效率可能会让设计师成为其又一个受害者。在这样的背景下,本文探讨了人工智能时代的用户界面应该是什么样的。文章来自编译。
一
给客人倒免费饮料的调酒师无所事事地环顾四周,喧嚣的屋内挤满了初创企业创始人与软件开发者,他们都被自己最喜欢的毒品所吸引:拉关系。
在被ChatGPT与Midjourney等生成式人工智能平台颠覆的世界里,霞多丽与熟食店倒不存在任何竞争。人工智能革命已经进入到大概第八个月份,由风投公司 NFX 在旧金山海耶斯谷(Hayes Valley)附近的写字楼举办的这场仅限受邀者参加的欢乐时光,很可能是这场革命的中心。该公司可以说是生成式人工智能领域最著名的投资者。它已经设立了一支4.5 亿美元的种子基金,目前正在寻找值得掏出其中部分资金的新人才。
普通合伙人James Currier正坐在隔壁安静的房间里,他在用疲惫的眼睛观察着旁边的热烈讨论。他估计自己已经跟 200 家人工智能初创企业见过面,其中大多数似乎仍然没有明白这一点。技术是已经准备好了。技术已经就绪。缺的将人工智能技术应用到一个可以颠覆软件行业、产生决定性影响的战略视角。
于是我提出:“所以你正在投资人工智能的设计层”。
Currier 回道:“完全正确”。
Currier 穿着一件会得到老爸认可的那种 90 年代的开领系扣衬衫,他的语速很快,说自己正在寻找一家能够弄清楚未来界面会是什么样子的公司。在他眼里,这种界面应该可以让用户充分利用这些新兴的人工智能模型,不是写首诗或画幅画那么简单,而是能改变我们所知道的日常生活和工作。 对于他想等待的这种转变,Currier 举了一个例子:即便在 2007 年 iPhone 推出之后,开发者仍用了三年时间才意识到,将触摸屏、GPS、数据连接以及应用商店分发结合在一起,可以做出像Uber这样寒冬社会的企业。 对于人工智能的爆发,Currier用一种隐晦的,类似禅宗公案的口吻说道:“我认为这里面是会有大事物的,但大家连偷偷讨论这个话题都不愿意,因为他们害怕,发自内心的害怕,他们在内心深处害怕这会意味着什么。他们没有考虑大的想法。”
他向我介绍了人工智能技术栈的五层模型,以及他可以对这个领域投资的五种类型的公司。基础是大型人工智能模型,比方说 OpenAI 的 GPT-4。这些公司已经筹集了数十亿美元的资金,但他(还有很多其他人)已经将这些大模型看作是可互换的、商品化的东西。然后会有特定的人工智能模型,比如非常擅长优化 3D 照片的系统。这也不适合他。
然后就会到达他更感兴趣的地方:他所谓的“超本地模型”层。想象一下,如果耐克将其所有知识产权放入自己专有的运动鞋设计(shoe-dreaming)系统里面会怎样。有人需要帮他们维护这个数据库,并开发工具来管理这个数据库。如果这家公司随后用它来服务整个 4000 亿美元的鞋类市场呢?
最重要的是,下一代人工智能驱动的操作系统和API将融入到这个世界里。 2005 年的时候,谷歌只用 5000 万美元就收购了 Android,但这对他们来说现在值多少钱了呢?
但现在,所有这些跟技术栈顶部的应用层相比都是相形见绌。谁能够制造出突破性的人工智能软件体验,能够学习你的习惯,交叉引用你以及这个世界的知识,并适配性地不断发展自己的形式来满足你的需求呢?
当Currier讲到这个技术栈的顶层时,他的兴奋感消退了。他已经上气不接下气,这样的演讲他已经说过很多次了。从他脸上的表情以及他刻意避开隔壁的喧嚣来看,他似乎并不确信他要找的东西就在此时此地。
但他知道,它就在某个地方,我也知道。
二
我来到旧金山是为了寻找设计在这个人工智能驱动的新世界里面的位置。毕竟,设计一直是计算领域每一次重大转变的重要伙伴,而在过去几十年的时间里,这些转变都发生在硅谷这里。
在Hartmut Esslinger 与 Jonathan Ive等一代设计人才的帮助下,史蒂夫·乔布斯把计算机从业余无线电爱好者的玩物和 Radio Shack 后房变成了家用消费电器。进入到 20 世纪 90 年代是,苹果的资深人士,以及Esslinger的 Frog Design 再加上其他公司,让旧金山这个远离硅谷郊区文化、与酷相差很远的地方,变成了设计公司创造精致的软硬件事实上的中心。
(得益于设计巧妙的智能手机,将物理按钮重新想象为可触摸的像素)当移动时代到来时,新一波的创始人已经接受了优秀设计的原则,不需要说服其相信设计的价值。这个时代标志性的初创公司,它们的设计都是由首席执行官亲自打造的:比方说Square、Airbnb、Instagram、Pinterest、Snap、Uber,甚至还包括 Tinder。这是说得过去的。技术终究只是技术。但设计可以将技术塑造成可供人类使用的,实用的、难以抵挡的工具。
尽管对优秀设计的需求只会随着技术复杂性的增加而增加,但目前人工智能已经表明设计的未来(如果有的话)相当黯淡。专业人士以及消费者与生成式人工智能互动的主要方式是通过“提示”,这是一种既粗野又粗糙的界面,把我们拽回到了 20 世纪 60 年代。一个经常被引用的统计数据是,OpenAI 的 ChatGPT 在两个月内吸引了 1 亿用户,但智能手机将小小的硬件与灵活的软件设计结合起来,让全球近 70 亿人手里都拥有了一台超级计算机。如果人工智能也可以产生这种影响(所有它的支持者都狂热地相信这一点),光凭这样的用户界面真能实现这一点吗——在1984年Macintosh电脑的图形用户界面出现之前,一个过分讲究的命令行提示就是与计算机通信的唯一方式,难道未来的人工智能用户界面也是这样?人工智能正在让一些工作变得无关紧要,令人难以置信的是,工程效率可能会让设计师成为其又一个受害者。
这就是我来这里的原因,寻找Currier正在寻找的东西。因为在遍布湾区大街小巷的地方,在公寓、共享工作空间以及那些估值达数十亿美元的创业公司里,正在描绘着一幅关于设计在人工智能时代所承担角色的蓝图。这些公司可能还不是那些重新定义设计新纪元的公司,但它们让我们得以瞥见未来,那个Currier以及所有人都相信的未来,如果我们能克服恐惧的话,就能见证那个未来。
三
我走进了 Krea 位于海耶斯谷的办公室——事实上,这是一套商住两用的公寓——我首先注意到的是一堆 La Croix 的空罐头。在这个白墙和白地毯组成的空间里,点缀着蓝色的圣诞灯和咖啡杯。我确信,在这个办公空间角落里的这堆东西,很快就会堆出一座铝罐奇迹,就像埃菲尔铁塔一样。三张坐站式办公桌靠墙并列排在一起,每张办公桌上都配有一台 iMac。
Krea 的联合创始人兼首席执行官Victor Perez 渴望展示的是他植入到软件里面的东西,而不是苏打水。 西班牙人Perez 是一位很酷的年轻人,他身着一件 Odd Future 连帽衫,穿了一双黑白大理石花纹的洞洞鞋,并称这是自己这家初创公司的官方用鞋(公司人数:三人)。自 2022 年 3 月以来,他和他的团队一直在打造一款 AI 工具,希望用它来生成和完善视觉创意,这是一种情绪板风格的程序,类似于Figma(这是几十年来最成功的设计软件之一,Adobe 已经用 200 亿美元将其收归囊下)。通过让用户可以轻松地逐屏创建应用模型及其他用户体验工作流程,然后再交给工程师进行编码,Figma 得以不断发展壮大。同样地,按照科技界的说法,Krea 的设计目标是先让一个想法实现从 0 到 1的飞跃,然后设计师再把它移植到 Photoshop 等更正式的编辑平台。
Perez说道:“我们要打造的是你的创意伴侣”。在康奈尔大学攻读硕士学位的时候,他与联合创始人Diego Rodríguez一起辍学,加入了一个加速器,并筹集到种子资金来启动 Krea。他解释说,在过去 40 年的时间里,计算机已经“将画笔数字化,从而让你可以用像素进行绘画。”拿他的目标是什么? “将画家数字化。”
我试用的时候Krea 仍处在 alpha 阶段,但这款产品提供了人工智能与用户界面如何结合的体验。要想使用 Krea ,你只需要一张空白画布以及一个梦想,但Krea提供了一系列看起来更传统的 UI 工具让梦想得以落地,整个产品看起来就像Midjourney与 Adobe Creative Cloud 的混搭。 Illustrator风格的垂直栏把工具放在了屏幕左侧,一旦突显图像,就会弹出另一个工具栏。其中部分工具你也许很熟悉,比方说“添加文本”和“删除背景”。然后系统提供了“生成”供你开始创作——当你点击创建图像时,它会向你提供提示,上面还有一个“风格化”按钮,让你可以修改人工智能模型(从吉卜力工作室风格到照片级真实感都可以)。正如你猜测那样,“脸部交换”可以将任何生成的脸部换成你选择的特定脸部。
Perez 向我介绍了他预计未来几个月内将要增加的一系列功能,在此期间, Krea 将会成长为一位更强大的合作伙伴。他想象 Krea 会运用各种人工智能魔术,比方说拍摄 2D 产品图像然后将其变成 3D 图像,或者马上更新产品包装上的品牌形象。这些人工智能绝技我们以前可能都见过,但Krea把它们整合到了一个平台内,让这些绝技很容易就能访问到。
不过,Krea 最吸引人的想法也许是最简单的一个:在要求系统生成一朵花时,Perez希望他的程序能够弹出一个自定义滑块,调整它的花瓣数量。向左拖动滑块,人工智能会绘制花瓣较少的花朵。将其拖到右侧,你会得到花瓣更多的花朵。
从技术上来讲,滑块是用户的交互层,而软件会在背后向开源的文本生成图像工具 Stable Diffusion 以及 Krea 自己的人工智能模型发出必要的提示,让它们重新渲染花朵。这样就不是仅靠语言来对想法进行调整了,并且你很容易想象,这类物理控制可以用到实现更抽象的想法上,比方说“让这个茶杯的哥特式风格更浓厚一点”。
着还预示着新兴的 AI-UX 场景里几乎每个人都想去的地方在哪里。 Perez 说:“我们现在看到的(趋势)是,以后的软件将不是静态的,而完全是动态的。软件可以了解谁在使用自己、如何使用自己以及他们使用自己的目的是什么。”
四
Perez 建立未来的动态界面的抱负令人鼓舞,但他正在两头下注:他还把Krea做成了 Figma 的插件——表面上看,Krea是为了超越这款应用而设计的。对于这个新兴的 AI-UX 场景来说,这是一个经常被忽视的元素:如果一个人工智能应用的应用范畴不够雄心勃勃——如果它的目标过于精简、过于明确、过于狭窄——则它会被另一个(更加野心勃勃的)应用吞噬的可能性就会增加。
Yana Welinder 的家位于诺布山阳光明媚的街道上。当我抵达那里时,我的脑海里浮现出了这个想法。她用腼腆的微笑向我打了个招呼。她的公司 Kraftful 刚刚被两份 newsletter (Product Growth” 与 “The AI Product Report)做了专题报道,她从未见过又这么多人使用她的应用。 Welinder 笑着说:“这一切有点像爆炸的感觉!”。
虽说将人工智能看作创意伴侣或虚拟助手的解释我见过很多,但Kraftful这款web应用却是高度聚焦的,它的目标只有一个,帮产品经理改进自己的产品。它从应用商店、X/Twitter 以及 Zendesk 等地方导入成千上万挑用户评论,并利用人工智能的对话分析将它们合成为简单的列表,比方说用户的“热门功能请求”。甚至请求特定功能的人所占百分比你都可以一目了然,并且点击该百分比就可以直接看到真实的用户评论。
Kraftful 的仪表板很整洁,看起来跟你在过去十年见过的任何精美的web应用没什么两样。一个写着“Chat”的方框是这个系统建立在 ChatGPT 基础之上的唯一标志。虽然这一切看起来毫不费力,但Kratful把 Twitter 以及其他公司的 API 集成到其后端方面所做的工作可不小,而且是持续性的, Welinder预计,这款应用的能力随着时间的推移只会越来越强。本月早些时候, Kraftful推出了将任何功能请求转换为 Jira 工单(产品开发所使用的标准订单格式)的选项。像这样的用户研究可能需要数月的时间,而Kraftful已将整个流程简化为只需几分钟。
还有没有更好的? Kraftful采用了 NFX 的 Currier 等人所谓的“嵌入”服务策略,这项令人羡慕的服务策略的要点是,应用对具体性和必要性进行了平衡,使得企业一旦注册订阅了它的服务就离不开了,因为程序嵌入到企业流程之中已经变得根深蒂固,以至于做出改变会很痛苦。
Kraftful凭借扎实的设计与商业套餐(订阅范围从免费到每月 300 美元以上不等)成为了热门的人工智能应用,并且已被福特、谷歌、强生以及 Netflix 等数千家公司采用。尽管如此,正如Welinder所说那样,这并不能让它避免被“与一切事物交互的通用接口”纳入进来的风险。跟Krea 的 Perez一样,她也对冲了自己的赌注。尽管她对自己的web应用感到非常自豪,但还是把Kraftful开发成 OpenAI ChatGPT 的插件。 Welinder 颇为爽快地承认:“我们的大多数用户将通过其他形式跟我们互动”。
其他什么样的形式?Welinder也拿不准。她提出,也许Kraftful是人们整天使用的其他一些核心人工智能的扩展,就像手机上的人工智能助手一样。她说: “对于我们来说,可能不存在一个大多数用户可以与之交互的可视化界面。我们只需要对这种可能性持开放态度即可”。
不管这个人工智能的未来会是怎样,Weinder相信她的工具都将占有一席之地,但如果你没有把握住人工智能的前门——Welinder知道,如果你不是起点的话(也许这个起点不仅仅是相对于你的对话而言,而是相对于每一次对话而言),你注定要成为别人的管道。但她也认识到,这个世界也还是需要水管工的。
就像 NFX 的 Currier 一样,她还知道另一件事,那就是她发现这个界面与改变我们使用技术的方式之间的差异非常小。
Welinder 说:“不管进化成什么样子,速度都会发生得非常快。”
五
并不是所有人都相信人工智能会成为“与一切事物交互的通用界面”。 工程师Linus Lee 是已成为新兴的 AI-UX 运动当中的明星,他认为人工智能会引领我们更深入地了解我们已经拥有的那个关键界面:书面语言。
2021 年底,他辞去了在一家小型初创企业所担任的产品工程工作,好享受为期一年的休假,并研究文本界面的未来。他后来做了 15 个不同的人工智能项目。Lee开始痴迷起来,这种痴迷与其说是想弄清楚机器在正确的提示下能想象出什么,不如说是人工智能如何为已经存在的文字解锁出另一个层面的意义。他做了一款叫做 Notation 的应用,这款应用可以将大块文本以热图的形式呈现。如果你之前用 Notation 写过一些东西,那么相应想法在页面上就会以更丰富的突出显示形式出现。一旦点击那个想法,“就会被链接到你探索过的该主题的其他实例。”
这种链接听起来也许像是一次微不足道的实践,但请记住,谷歌搜索一开始不就是是用来跟踪学术论文引用的一种工具吗?在Lee看来,人工智能“改变了[文字]的基本物理原理,以及它们的组合方式”。
Lee 在 2023 年伊始加入 Notion 似乎是必然的。Notion 是一家价值 100 亿美元的企业软件公司,其同名产品可跨文档、列表以及电子表格进行文字的交叉链接。借助去年 11 月推出的人工智能工具,Notion 可以将会议总结为要点表格,并以更“自信”或“友好”的语气重写备忘录。
但我认为它对 AI-UI 的贡献比这两种产品更为基础:Notion 将电子表格从一种处理数字的形式变成了一种处理文字的形式。虽然我们已经用计算机打字已经打了几十年,但只有在人工智能时代,计算机才能真正理解了这些文字,而不仅仅只是做做拼写检查。Notion 正在抓住这里面的机会。
Lee 和我坐在 Notion 占地 6000 多平米的三层开放式办公室里。他刚给我演示了Notion新推出的人工智能功能,这是Notion 一个流行功能,也就是剪辑用户稍后想要阅读的文章的增强。就像你可以用“求和”函数往 Excel 添加单元格一样,单击 Notion 里面的列会弹出“人工智能自定义自动填充”的选项。输入你希望 Notion 执行的操作,比方说“列出本文所提到的公司”,电子表格就会自动执行此操作,并且一直执行下去,直到你告诉它停止为止。
毫无疑问:Notion做的还是列表和电子表格生意,而我们当中有很多人可能希望这些冗长、笨重的文档消失。Notion只是给用户提供了“构建块”,还是得经常标记这些建构块地来源,并按照自己的需要组织信息排序方式。从这个意义而言,Notion 感觉像是某一类人的终极人工智能梦想。哪一类人?现实版的《公园与游憩》(Parks and Recreation)里面的莱斯利·诺普 (Leslie Knope),因为她有一本超大的活页夹,里面贴满了各种标签,随时都能索引到各种非常具体的信息。
但Lee认为,通过将人工智能植入到现有的企业框架之中,Notion 可以管理用户的期望,而且可以承诺一个保证实用性与质量的基准,让它成为更实用的工具,简洁的演示。 Notion 不是靠提示表明自己可以执行任何操作的承诺,而是一个可以通过列表或电子表格执行某些操作的工具。
Lee 说:“通用性是这些人工智能模型的真正强大之处。但很多好的界面设计其实与约束和特殊性有关,它们会为你提供完成特定任务所需的特定工具。所以这两个之间是有点矛盾的。”
Lee 骨子里对文字很痴迷,因其聚焦文本的分析而成为生成式人工智能领域的名人。Lee表示,他去年“令人兴奋的想法”之一是界面之内到处都是可点击按钮。那些连接物理电路来实现某些事情(比方说呼叫电梯)的原始机械对象,现在是软件的数字化抽象。
我告诉Lee,在他的界面里,文字现在正在变成按钮——这比我们迄今为止在软件看到的任何东西都要具象。这就是提示符首先作为 UI 工具的原因。
在结束谈话前,我提出了自己的一个理论:未来,我们不会被困在电子表格以及其他 Office 风格的界面中,因为我们的软件会根据每个时刻的需求,即时生成最佳的界面,我们看到的屏幕上的每一个像素都会引用一个庞大的人工智能模型,从而让任务尽可能的高效。
其中的一些问题Lee 有考虑过,但他认为要求软件生成任何类型的新颖 UI 都得有个“上限”。 他说:“从根本上来说,界面之所以有用是因为它们为我们提供了一个共享的词汇表”。并指出,如果完全让人工智能自己决定的话,它可能会想象出各种我们甚至不知道该如何操作的界面。
尽管如此,他还是想象了 Notion 的未来,当人工智能本身可以自动生成适合你独特工作的专用电子表格和列表时,用户对 Leslie Knope 的生活的责任就会减少。
Lee说:“理想情况下,人工智能能够理解你的问题是什么,并据此为用户设置最合适的方案。如果每个 Notion 用户都有一位类似 [人工智能] Notion 专家或 Notion 大使这样的人的话,那不是很有趣吗?”
六
午饭时间, 在旧金山市中心的一间蓝瓶咖啡厅里,我被一群同质化的年轻职场人士挤在中间。然后看到了Jason Yuan 漫步向我走来。他拿优雅的脸部轮廓,仿佛动漫里的吸血鬼猎人一般,一身黑衣的他穿着 Maison Margiela Tabi 的靴子,金属感的护目镜仿佛 AR 头显一样包裹着他的脸。Yuan喜欢给传统智慧贴上标签:大自然对我们有好处! TikTok 可能对我们不利!——作为“婴儿潮一代”,在谈话中他强调了自己最喜欢的一句话,“哦,是个app的好名字!”
Yuan曾是苹果的人机界面设计师,后来创立了一家名为 New Computer 的公司,为的是重新思考“PC”的基础是什么。他认为,PC现在已不再是个人电脑,而是更像是个人策展人(personal curator)。
Yuan说:“我们用基于这些视觉设计隐喻(如按钮)的计算机开发出这个辅助的共享语言层。大语言模型的有趣之处在于,现在我们可以回归到人本原则,也就是你想做的究竟是什么?计算机如何帮助你达到目的呢?”
关于人工智能时代界面的未来,他的回答富有诗意。他设想这样一个用户界面,这个界面会融化和变形,以字面意义和象征意义的方式满足你的需求。 他问道:“如果它是一种更具延展性的物质会怎样?可不可以像液体一样?或者像煤气一样?可以是雪吗?”他想知道,“这种界面在什么地方会像固体一样”但你可以拿起它并按照你的意愿去塑造计算机,“就像你可以堆雪人一样?”
这样你可能就不会对这个事实感到惊讶,苹果聘用Yuan为的是以这种物质隐喻命名的一个操作系统:MercuryOS。
New Computer 的app——NC-1——想要做到这一点。前提?想象一下一个私人助理……不,那是不对的。太老套了。想象这样一位生活伴侣,你可以在持续的对话中通过文本或图像向它发送消息。它能永远记住你以及你感兴趣的一切。如果你跟它解释希望回复的时候不要那么啰嗦,它就会在设置中将这个请求变成一个可点击的切换开关,在你眼前重塑自己的形态。
虽然核心界面是一个提示——与大语言模型的对话——但你可以通过捏合进行放缩,交互突然变成了按时间顺序或主题分类的各种子标题的集合。这只是Yuan设想我们熟悉的手势在人工智能时代找到新用途的一个例子,其本质是让我们直接触摸信息。
Yuan表示:“你认为理所当然的隐喻,比如触摸、滑动、捏合等等,在生成式人工智能里面都有了新的含义。放缩意味着你想要了解多一点或者少一点关于细节的信息,对吧?那怎么把这个应用到一段文本上呢?”
现在,我们已经离开了拥挤的咖啡店,去到附近的公园,坐在遛狗者与茂密的树木中间。Yuan又开始借助我们周围的风景来阐述他的观点。 他说:“自然界当中有什么东西是生成性的呢?鲜花盛开?”并暗示他正在努力解决的一个大问题是“对我来说,将一个想法的种子植入计算机并让它开花结果意味着什么?”
NC-1 里面的种子是它所了解的有关你的信息。在 Notes 上面记录下一个正在播放的笑话列表,你就可以让 NC-1 将它们组合成一个 10 分钟的笑话集。让它推荐一首歌曲,它可能会意识到你最喜欢的一些歌是由同一歌曲制作人创作的,然后向你推荐更多他们的作品。 (人工智能极客可能会发现AutoGPT等平台在功能上有一些相似之处,但在观看了 20 分钟的安装视频以及另一个有关AutoGPT 的API 集成的视频后,我可以告诉你,AutoGPT不是雪人。)
NC-1也可以表现出主动性,它会利用对你的了解,尝试在合适的时间绽放一朵“礼物”给你。这份礼物既可以平淡无奇,就像去超市购物时把你想试的菜谱再呈现在你面前一样,也可以意义深远,比方说Yuan给后来的 NC-1 想了很多名字,但有一天这个软件给出的一个建议给了他惊喜。它问他有没有考虑过“Enigma”这个名字,因为这个名字跟他那份取名候选清单上的其他名字是一致的。
他补充道:“人工智能可以帮我们建立错过的连接。但它不需要取代我们自己建立的连接。”他认为,这甚至对建立与其他人的联系也适用。 “如果我把我的宇宙——我的想法主题——跟你的宇宙打通会怎样?人工智能层的沟通可以不仅仅是“下周找个时间见面”。还可以是我们共同经历的交集是什么?”
说罢,Yuan静思了片刻。
然后笑着说:“其实我还不知道该怎么做到这一点。我想这可能是 A 轮以后的事情了。”
我们究竟希望人工智能为我们做些什么?我们的工作?或许吧。某件我们无法想象的令人惊奇的事情?当然。也许我们并不像 NFX 的 Currier 所说的那样,害怕思考宏大的想法,而只是需要一些帮助来思考那些问题。
译者:boxi。
|