Google的文本到图像的人工智能模型Imagen有限公开亮相正在收集早期反馈

来源：cnBeta | 2022-11-03 08:09:11

Google在发布其文本到图像的人工智能系统方面极为谨慎。尽管该公司的Imagen模型产生的输出质量与OpenAI的DALL-E 2或Stability AI的Stable Diffusion相当，但Google还没有向公众提供该系统。不过今天，这家搜索巨头宣布它将把Imagen--以非常有限的形式--添加到其AI Test Kitchen应用中，作为收集对该技术早期反馈的一种方式。

AI Test Kitchen是在今年早些时候推出的，是Google对各种AI系统进行测试的一种方式。目前，该应用程序提供了一些不同的方式与Google的文本模型LAMDA(是的，就是那个工程师认为有知觉的模型，然后他被开除了)进行互动，该公司很快将增加类似的限制性Imagen请求，作为其所谓的应用程序"第二季"更新的一部分。简而言之，将有两种方式与Imagen互动，Google在今天的公告前演示了这一点。演示项目分别是："城市梦想家"和"摇摆不定"。

在"城市梦想家"中，用户可以要求模型生成围绕他们选择的主题设计的城市元素--例如，南瓜、牛仔布或黑颜色。Imagen创建了样本建筑和地块(城市广场、公寓楼、机场等等)，所有的设计都以类似于《模拟城市》中看到的等距模型出现。

城市梦想家"任务让用户要求以等距设计为主题的城市建筑

与其他文本到图像的模式相比，这些互动是非常受限制的，用户不能随便要求他们喜欢的东西。不过，这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德(Josh Woodward)向The Verge解释的那样，AI Test Kitchen的全部意义在于：a)获得公众对这些AI系统的反馈;b)找出更多关于人们将如何打破它们的信息。

伍德沃德不愿意讨论任何关于AI Test Kitchen用户如何破坏其LaMDA功能的具体例子，但他指出，当模型被要求描述具体地点时，就出现了一个弱点。

伍德沃德说："在历史上的不同时期，一个地点对不同的人意味着不同的东西，所以我们看到了一些相当有创意的方式，人们试图把某个地方放到系统中，看看它产生了什么，"。当被问及哪些地方可能产生有争议的描述时，伍德沃德举了俄克拉荷马州塔尔萨的例子。"20世纪20年代，塔尔萨发生了一系列种族骚乱，"他说。"如果有人输入'塔尔萨'，模型甚至可能不参考这个......你可以想象世界各地的复杂情况。"

"摇摆"功能让用户设计一个怪物并让它跳舞

想象一下，如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营?你怎么知道用户是否在寻找这些信息?在任何情况下省略它都是可以接受的吗?在许多方面，设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似：需要以一种让用户满意的方式解释用户的请求。

Google不会分享关于有多少人在实际使用AI Test Kitchen的数据("我们并没有打算把它变成一个10亿用户的Google应用，"伍德沃德说)，但他说它得到的反馈是非常宝贵的。"参与度远远高于我们的预期。并且这是一个非常活跃、有主见的用户群体。"他指出，该应用程序在接触"某些类型的人--研究人员、政策制定者"方面非常有用，他们可以用它来更好地了解最先进的人工智能模型的局限性和能力。

不过，最大的问题是，Google是否会想把这些模型推向更广泛的公众，如果是这样，会采取什么形式?目前，该公司的竞争对手OpenAI和Stability AI正急于将文本-图像模型商业化。

Google是否会觉得自己的系统足够安全，可以走出人工智能测试阶段，从而直接提供给用户?

标签：谷歌公司文本到图像人工智能模型早期反馈