智东西(公众号:zhidxcom)
编译 | 曹玉蓓
智东西10月11日消息,根据CNBC报道,过去的一年里,生成式AI(generative AI)发展得更好了。此前,谷歌、微软、Meta等AI(人工智能)领域的软件巨头们已在其企业内部推进该技术,让生成式AI融合到自己的产品里。
美国风投机构Next View Ventures的风险投资家大卫·贝塞尔说:“在过去三个月里,‘生成式AI’这个词从没有人讨论变成了流行语。”
这项技术已经激发了不少人离开工作岗位创办新公司,并畅想着AI可以为新一代科技巨头提供更有动力的未来。
在过去五年左右的时间里,人工智能领域一直处于繁荣阶段,但其中大部分进步都与分析理解现有数据有关。AI模型的效率也迅速提高,达到足以识别手机拍摄的照片中是否有猫的程度,识别结果的准确性也很高,AI模型还可以每天为谷歌搜索引擎提供数十亿次的搜索结果。
但是生成式AI可以产生前所未有的全新事物,换句话说,生成式AI是在创造,而不仅仅是分析。
美国生成式AI企业 Craiyon的创始人鲍里斯·戴马(Boris Dayma)说:“即使对我来说,令人印象深刻的部分也是它能够创作新的东西,不仅仅是理解既有的旧图像,生成式AI可以创造出与以前完全不同的新事物。”
图像生成功能使用了来自机器学习的一项分支技术——深度学习。自2012年一篇具有里程碑意义的关于图像分类的论文发布,深度学习重新点燃了行业对它的兴趣,也推动了人工智能领域的大部分进步。
深度学习用模型在大型数据集中进行训练,直到程序理解数据中的关系。这些模型可用于应用程序中,例如翻译文本,或者识别图片中是否有狗。
图像生成器则通过改变这个过程来工作。举例来说, 图像生成器的工作不是将英语翻译成法语,而是将英语短语翻译成图像,它工作时通常有两个主要部分,第一部分是处理初始短语,第二部分是将数据转换为图像。
生成式AI是基于一种称为GAN(生成对抗网络)的方法。GAN因生成了一张现实中根本不存在的人的照片而出名。
从本质上讲,GAN的工作原理是通过让两个AI模型相互竞争来更好地创建符合目标的图像。
比GAN更新的一种方法就是使Transformer。这种方法曾在2017年谷歌论文中首次被提出,是一种新兴技术,可以利用花费数百万美元来训练更大的数据集。
▲谷歌论文《Attention is all you need》李沐(AWS AI首席科学家)
DALL-E是第一个引起广泛关注的图像生成器,由美国初创公司OpenAI于2021年推出,OpenAI在今年发布了其更强大的版本——DALL-E 2。
“DALL-E 2的出现,就意味着我们跨越了恐怖谷时期。”专注生成式AI的开发人员克里斯蒂安·坎特雷尔(Christian Cantrell)说。
另一个常用的基于AI的图像生成器是Craiyon(前称:Dall-E Mini),该生成器用户可以直接在网络浏览器上搜索使用。
据戴马称,自2021年7月推出以来,Craiyon每天生成约1000万张图像,增加了多达10亿张以前不存在的图像。今年早些时候Craiyon的使用量猛增后,运营Craiyon平台就成为了戴马的全职工作,戴马表示自己会继续用接广告的方式来保持网站对用户的免费,毕竟网站的服务器成本很高。
▲ Craiyon 官网
Craiyon的受欢迎程度到了只是一个专注发现Craiyon上最奇怪、最有创意的图片的Twitter帐户,就拥有超过100万的关注者。该账号定期推送荒谬的场景图片,例如,可以拧出意大利面酱的意大利水龙头,或者是正在越南战争中战斗的小黄人。
值得一提的还有火爆一时的Stable Diffusion,Stable Diffusion于8月正式向公众发布。目前,其代码可以在GitHub上使用,可以直接在计算机上运行,而不仅是在云端或通过编程接口,这激励了许多用户开始调整Stable Diffusion的程序代码,或者直接在代码基础上进行构建,以得到自己满意的产品。
这种构建调整包括了将Stable Diffusion通过插件集成到Adobe Photoshop中,允许用户生成背景和图像的其他部分,然后使用图层和其他Photoshop工具直接在应用程序内进行操作。这种方式让生成式AI从一个产生成品图像的东西转变为可供专业人员使用的工具。
“我想与这些创意工作者会面,我想让他们把生成式AI运用到他们的工作流程中。”这款插件的开发者坎特雷尔说道。
坎特雷尔是一位在Adobe有20年工龄的老员工,于今年离开Adobe专注于生成式AI,此前他曾谈道,这款插件已被下载数万次。创意工作者们告诉他,他们以他无法想象的各种方式使用他开发出来的这款工具,比如制作哥斯拉的动画,或者以艺术家可以想象到的任何姿势创作蜘蛛侠的照片。
坎特雷尔说:“通常人们都是从灵感开始的,对吧?所以我当时的初步计划就是,先得解决一下空白画布的问题。你只需用文本描述一下所想的东西,我们给你一张画,把想法告诉我们,我们就会给你一些东西。”
关于使用生成式AI的新兴技术是如何构建这些提示点或用单词串生成图像的,一个叫Lexica的搜索引擎对Stable Diffusion图像和可用于生成它们的确切字符串进行了编目。目前,Reddit和Discord上已经出现了一些指南,介绍了用来输入人们想要的图片的技巧。
红杉资本是AI行业内经验丰富的风投机构,其早期押注于苹果和谷歌等公司。在红杉资本官网上的一篇博客文章中提到:“生成式AI有潜力产生数万亿美元的经济价值。” 红杉资本预测,生成式AI可以改变每个需要人类创造原创作品的行业,从游戏到广告再到法律。
在文章的一个转折处,红杉还在文中指出,该文章部分由GPT-3编写,而GPT-3是一种生成文本的生成式AI。
一些投资者将生成式AI视为一种潜在的变革,就像智能手机和早期的网络一样。这类转变极大地扩大了将使用该技术的人的总体潜在市场,适用人群会不断扩大。
坎特雷尔认为生成机器学习类似于一种更基础的技术:数据库,最初由美国甲骨文等公司开创在20世纪70年代。作为一种像一个巨大的Excel电子表格的,在行和列中存储和组织离散信息的方式,数据库已被重新设定为能存储Web、移动设备等计算应用程序中的每种类型数据。
“我们在生活中使用过的几乎每个应用程序都建立在数据库之上。”坎特雷尔说:“没有人关心数据库是如何工作的,人们只知道如何使用它。”
美国风投机构Compound VC执行合伙人迈克尔·登普西(Michael Dempsey)表示,被封闭在实验室里的技术能进入主流市场是非常罕见的,这些技术吸引了风险投资者的大量关注,他们喜欢在有潜力的领域下注。尽管如此,他仍警告说,生成式AI的这一阶段最终可能处在一个炒作高峰的“好奇阶段”。在这个时期成立的生成式AI公司可能会失败,因为他们没有专注在企业和消费者支付意愿强的特定用途上。
处在领域中的其他人则认为,今天开创这些技术的初创公司们最终可能会挑战目前主导AI领域的谷歌、Meta和微软等软件巨头,为下一代科技巨头铺平道路。
美国聊天机器人技术服务商Hugging Face的CEO克莱门特·德朗格(Clement Delangue)说:“将会出现一群价值数万亿美元的公司,整整一代初创公司将在这种新的技术开发方式上发展。生成式AI会是一个类似GitHub这样的开发者平台,托管预先训练的模型,包括用于Craiyon和Stable Diffusion的模型,目标是让程序员更容易构建AI技术。”
在今年早些时候,从加拿大和欧洲的家族办公室机构Lux Capital和红杉资本在内的投资方那里筹集到资金后,Hugging Face的估值为20亿美元;该领域最著名的初创公司OpenAI已从微软和Khosla Ventures获得超过10亿美元的资金。
与此同时,据《福布斯》报道,Stable Diffusion的制造商美国Stability AI正在洽谈以高达10亿美元的估值筹集风险投资。Stability AI的一位代表对此拒绝置评。
Meta和谷歌已经聘请了生成式AI领域的一些最杰出的人才,以其能将这种前沿技术融入到自己的产品中。9月,Meta 宣布了一项名为“Make A Video”的AI程序,该程序通过生成视频而不仅仅是图像,使生成式AI技术又往前进了一步。
“这是相当惊人的进步。”Meta CEO马克·扎克伯格在他的Facebook页面上的一篇帖子中提到,“生成视频比生成照片要困难得多,因为除了正确生成每个像素之外,系统还必须预测它们将如何随时间变化。”
上周三(10月5日),谷歌也公告并发布了一个名为Phenaki的程序代码,该程序也可以将文本转换为可以长达几分钟的视频。
这种技术的繁荣还可能提振AMD、英伟达、英特尔等芯片企业,这些企业推出先进的图形处理器,非常适合训练和部署AI模型。在上周的一次会议上,英伟达CEO黄仁勋强调,生成式AI是英伟达最新芯片的关键用途,称这类程序可能很快就会彻底改变通信。
生成式AI的可以盈利的用途目前很少见,人们大多只围绕着免费或低成本的实验去使用,比如一些作者已经尝试使用图像生成器为文章制作图像。
在英伟达,生成式AI已经产生了有效作用,英伟达使用模型生成虚拟游戏世界中的人、动物、车辆或家具等3D图像。
最终,每个开发生成式AI的人都必须解决图像生成器带来的一些伦理问题。
首先是就业问题。尽管许多程序需要强大的图形处理器,但计算机生成的内容仍然比专业插画师的工作便宜得多,后者每小时可能要花费数百美元。
这可能会给艺术家、视频制作人和其他从事创造性工作的人带来麻烦,比如一个人的工作是为宣传片或其他营销材料设计图像,那他的工作可能很快就会被这些计算机程序取代。
“事实证明,机器学习模型可能会比那个人更好、更快,也便宜几个数量级。”Compound VC的登普西说道。
生成式AI接受了大量图像的训练,在该领域,关于原始图像的创作者是否对用技术生成的含有原创作者风格的图像有版权主张,法庭上仍然在争论。
一位艺术家用名为MidJourney的生成式AI创建的图像赢得了科罗拉多州的一场艺术比赛。他在获胜后接受采访时表示,他是从生成的数百张图像中选择了一张,然后在Photoshop中对这张图片进行了调整处理。
▲ 艺术家在科罗拉多州艺术比赛获奖的画
此外,Stable Diffusion生成的一些图像似乎带有水印,这就意味着原始数据集中的一部分是受版权保护的。
上个月,美国摄影平台Getty Images禁止用户将生成的AI图像上传到其股票图像数据库,他们担心会牵扯到和版权有关的法律问题。
图像生成器还可用于创建有商标权的角色或对象的新图像,例如小黄人、漫威角色或《权力的游戏》中的王座。
随着图像生成软件变得越来越成熟,其生成的图像或视频可能会显示出一些欺骗用户相信一些从未有的虚假信息。
开发人员还必须应对这样一种可能性,即在大量数据上训练的模型可能包含了数据内部有关性别、种族或文化的偏见,从而导致在最终输出结果时显示出这种偏见。对此,模型共享网站Hugging Face发布了道德通讯等文件,并就人工智能领域的负责人进行了会谈。“我们在这些模型中看到的是短期内的挑战之一,由于生成式AI属于概率模型,在大型数据集上训练时,它们往往会编码很多偏见。”德朗格说着,并提供了一个例子,输入“软件工程师”,生成式AI会默认将其画成“白人”。
▲ Hugging Face发布了道德通讯
内容生产这事,已经由传统的PGC(专家生成内容)、UGC(用户生成内容)阶段,迈入全新的生成式时代。根据美国信息技术研究和分析机构Gartner发布的《2021年预测:人工智能对人类和社会的影响》,至2023年,将有20%的内容被生成式AI所创建。至2025年,生成式AI产生的数据将占所有数据的10%,而今天这个比例不到1%。
生成式AI的出现意味着AI开始在现实内容中承担从“观察、预测”拓展到“直接生成、决策”的新角色。
在目前具体应用中,多模态形式呈现的数字人、虚拟偶像等都是生成式AI的应用方向。数字主播的声音、表情、动作等大多也是通过背后的大模型实时生成呈现的。
来源:CNBC