或者,“被社交媒体用作表情包生成器的自然语言图像生成AI可能会如何影响您的业务。”

欢迎来到未来——这里有人工智能生成的艺术

让我们玩一个小游戏。下面哪张图片是由人工智能系统根据文字提示生成图像制作的?

让我们假设你猜对了所有三个。因为这就是答案:所有人。野生的,对吧?人工智能生成的图像已经取得了令人难以置信的长足进步。更重要的是,它们是基于以下命令创建的:

  • “一只悲伤的机器猫坐在月球表面的一棵日本枫树下”
  • “一只睡在敞篷车旁的短尾矮袋鼠的高质量照片”
  • “一幅金发戴眼镜的人类龙卷风漫画插图”

多亏了这项技术,如果你能打字,你就能看到它。当然,这对企业有一些意想不到的影响,比如影响人类对技术的期望,我们如何与所述技术一起工作,甚至人类如何与技术一起工作(不道德地)影响我们。

对于上下文,每个图像- A, B和C -是由Dall-E 2.你可能见过Dall-E和Dall-E迷你图在社交媒体上走红,其中有“莫奈画的垃圾箱大火”和“科学家试图让橙色和香蕉押韵”等杰作。

项目背后的团队已经将技术从这些出色但抽象的狂热梦幻效果图提升到令人震惊的真实感。

出乎意料的是,而且可能是不明智的,我们中的一个人得到了dall - e2的早期访问,能够拍摄上述照片真实的图像。过去一周,我们这些在Forrester研究对话式人工智能和设计的人一直在愉快地进行研究。

虽然现在还处于早期阶段,但我们还是想分享一下我们在各个领域的初步收获:

  • 人们对聊天机器人和对话式人工智能等自然语言处理系统的期望将大幅提高。
  • 数字艺术和平面设计的工作流程将会改变,但这个职业不会被机器取代。
  • 深度造假将更容易产生,这对社会来说将是一场噩梦。

自然语言处理的期望将会提高

Dall-E、dall - e2和谷歌的Imagen等产品最显著的功能之一是能够直接将自然语言输入转换为合成图像。Dall-E 2甚至支持多种不同的特定艺术风格,并允许在结果中具有令人难以置信的特异性。

例如,输入“一幅斑马戴着珍珠项链和头饰的油画”生成了下面的图像。

这个系统并不完美,在一定程度上依赖于训练图像/数据集,但这些技术能够在如此有限的人类指导下立即产生的东西是惊人的。

由于一般人都接触到类似的自然语言系统,这些系统既可以即兴发挥,也可以理解特定的命令和模糊的请求,这不仅推动了对语言驱动系统的进一步接受,而且提高了期望。用户希望会话系统同时处理他们的冗长(长)和间接(模糊)输入。

当今设计大多数对话式AI系统的最大问题之一就是:针对各种不同的功能,同时满足模糊和明确的输入。以一家餐厅的聊天机器人为例:它可能有几个不同的职责,比如为用户预订,为客户提供最新的菜单,以及支持诸如“你们今天开门吗?”

人们通常从结果的角度与组织互动;他们想要做些什么或者知道些什么。对于人类来说,“你开门了吗”和“你的露台开着吗,如果是的话,我想预订四个人的座位”可能会产生相同的结果——获取餐馆的状态信息,如果它开门了,就预订一张桌子。

对于对话式人工智能系统,它必须解析话语,以便从多种可能的意图和资源中进行选择,以组成一个简单问题的答案。例如,关于开放时间和预订系统的信息可能需要后续交互才能触发或位于不同的位置。但对于用户来说,系统无法理解或对他们的请求采取行动将是令人沮丧的。未来人们对这种“简单”失败的容忍度会更低,因为人工智能可以自发地画出一只穿着华丽服饰的斑马。

当然,这是一种不公平的比较。Dall-E所做的是对大量带有特定相关术语标记的图像库进行排序,并使用附加过程(扩散)来创建这些新图像。它所做的是非常专业的,但对于一个普通的观察者来说,它似乎可以做任何事情。所以从逻辑上讲,他们的下一个问题将是“为什么你的聊天机器人不能表现得那么好?”

创造性工作流程将越来越多地利用AI作为合作伙伴,而不是替代品

不幸的是,有些人在看到dall - e2的能力时的第一反应是“好吧,我不再需要平面设计师或数字艺术家了。”这是一个不准确的评估。同样,面对自然语言图像生成的日益流行,数字艺术家和平面设计师可能会对他们的未来感到困惑。

今天,Dall-E非常出色,但也不是绝对正确的。例如,“吉姆·汉森的布偶作为高达飞行员”很吸引人,但并不是我们想要的:

平面设计师和数字艺术家的创造性技能将继续帮助组织更有效地沟通和连接。

然而,dall - e2和类似的系统这将对创意工作流程产生重大影响,特别是迭代和起草,最终使平面设计师和数字艺术家的工作速度大大加快。我们已经开始在人工智能驱动的人类增强的多个创意领域看到这一趋势加速人类的工作流程,并允许更有效地利用人类的时间。但对于创造性工作来说,理解辅助AI和代理AI之间的区别至关重要

例如,这两张“椒盐脆饼在日落时爆炸”的照片。

Dall-E 2为自然语言提供了可能性,而不是花费周期寻找参考图像和跟踪/素描迭代的图像。这使得人们可以将他们的时间从返工中重新集中起来,而不是专注于初步的构思(想出最好的方法来表达想法),调整和完成,与人工智能系统合作以快速实现项目目标。令人惊讶的是,我们已经看到有人在测试这种工作方式

对于上面的椒盐卷饼的例子,人类可以从每个椒盐卷饼中提取最佳元素并快速合成它们,而不是花费时间手动创建初始生成。

然而,尽管dall - e2类别中的技术将越来越多地发挥辅助作用图形设计师,他们不会影响许多其他的设计子学科,如用户界面(UI)设计。UI的目的与平面设计和数字艺术的目的没有太多重叠。UI设计很大程度上不是关于视觉效果,而是关于交互设计、信息架构等等。这意味着平面设计之外的设计学科不会受到影响,直到基于人工智能技术的不同工具出现,更类似于OpenAI的GPT-3中使用的工具,而不是Dall-E和Imagen中使用的工具。

深度造假将更容易创作

Dall-E团队对有害内容的前瞻性态度值得赞扬。研究人员已经采取措施防止“有害的产生”,包括防止“有害的产生”。真实感的几代人的真实面孔,包括公众人物“他们预见到了深度造假,并正在采取行动遏制这种潜在的滥用。”此外,甚至还有人承认他们试图纠正训练数据中的潜在偏差

然而,引入变革性技术的一个不幸的副作用是,它可能很快就会被效仿。虽然Dall-E团队和研究人员坚定地负责任地使用这项技术,但并不是所有利用(甚至使用)这里首创的技术的人都遵守这些相同的标准。

过去十年举办了一次深度造假悄然展开军备竞赛在美国,生成高质量假图像的资源需求越来越低,这使得制造深度假图像的能力越来越多。自然语言图像生成代表了使每个人都能访问图像编辑的最后步骤之一。

虽然已经出现了标记深度造假和篡改照片的技术,但坏人很快就会有更多工具来加速和扩大他们的行动,这足以说明,这不是一件好事。

虽然这张加油站闭路电视上的战队图像在今天显然是假的,但明天可能就更难分辨了。

总之,在一个更有趣的地方,请欣赏这张生成的中世纪风格的Wi-Fi信号。