您的位置: 首页 > 技术杂谈 > 正文

借AI之势，打破创意与想象的边界

2023-03-29 16:00 https://my.oschina.net/u/4713941/blog/8591876 阿里云视频云次阅读条评论

IMMENSE、36氪｜作者

01 “未来是属于AI的”

3月2日，内容创作圈大地震。

就在3月2日凌晨，OpenAI宣布开放ChatGPT本体模型API，其价格为1k tokens/$0.002。也就是说，从这一天开始，任何企业都能让ChatGPT为自己打工，而价格仅仅是每输出100万个单词18元人民币（2.7美元）。

如果对这个价格没有概念的话，举个例子。今年，河南省鹤壁市淇县某机动车维修店招聘文案编辑，店里开出的最低薪酬是2000元/月，学历不限。

图片方面，早在ChatGPT走红之前，AI绘画早已引发了艺术圈的一场大地震。

去年9月，一幅由AI创作的绘画作品《太空歌剧院》获得美国科罗拉多州艺术博览会数字艺术类别冠军，几乎标志着AI作画的“AlphaGo时刻”。

《太空歌剧院》（Théâtre D'opéra Spatial）

这幅作品是基于AI生成的画作加上人类画师的后期绘制，这一点被业内人士大为诟病，指责作者以AI为噱头，实际上依旧需要人类加工。

这些质疑AI作画能力的人忽略了一个重要因素——进化。

人们往往极大低估了AI大模型的学习与进步能力。仅仅在几年之前，人工智能还是被戏称为“人工智障”的存在。人们时常拿间或出现的“翻车”案例证明AI与人类的差距，却忽略了这项技术在最近数年间突飞猛进的进化能力。

在知乎“AI绘画半年了，到目前为止，AI绘画让多少画师失业了？未来又会有多少?”的这条问题底下，3202人点赞了同一条回答：

“AI对美术行业的冲击是巨大的，这个效应会在未来两三年随着显卡升级大爆发，美术行业会变的卷中卷，50%的人可能面临转行。”

“……我只是在做劝退而已，我希望新人不要跳火坑了，未来是属于AI的。”

也许有人认为，文字与图片都是高度结构化的信息，能够被轻易替代无可厚非。但是，视频内容信息量大、非结构性数据多，是AI尚未攻克的坚固堡垒，也是内容创作者最后一块自留地。

事实并非如此。

早些年DeepFake换脸带来的恐慌暂且不论，近年间，谷歌、Meta（Facebook）陆续发布Phenaki、Imagen Video、Make-A-Video AI视频自动生成模型，其效果有时足以以假乱真。

没有创作者能够和这样的力量抗争。

02 “没有人的文明，毫无意义”

在ChatGPT刚火起来那阵子，网上流传过一个笑话：

“快进到10年以后，乙方方案全部由ChatGPT生成，甲方方案全部由ChatGPT审核。双方合作大半年，一点工作没干过。”

这个笑话引人发笑的荒谬之处显而易见——双方的工作都没有意义。

如果更进一步思考，什么是意义？

无独有偶，在今年春节档爆款电影《流浪地球2》中，一句广为流传的台词给出了答案：“没有人的文明，毫无意义。”

是的，ChatGPT本质上依旧是为人类所设计、制造、使用的工具，认为这项技术将会替代人类文明实际上是一种本末倒置。

就像历史上其他人认为怀疑自我存在意义的时刻一样，在工业革命之后，电视、计算机、手机、互联网、云计算，这种种新兴科技产品都曾在不同时间段引发过人们的恐慌。

人工智能也不例外。早在1997年，IBM的深蓝计算机就已在国际象棋比赛中打败了世界冠军卡斯帕罗夫。全球在深蓝赢得比赛之后陷入了兴奋与恐慌，“机器将会在未来取代人类，占领地球”的言论层出不穷。

可事实上，20多年过去了，如今我们每一个人的智能手机算力都足以与当年的深蓝相匹敌，但人类文明并没有因此而终结。

正如美国政治记者与作家诺曼·卡曾斯在其1935～1974年所撰写的《人的选择》一书中所载：文明的建立，靠的不是机器，而是思想。

21世纪的今天，机器占领人类文明的事件不但没有发生，科技、工业、自动化的进步反而让边远山区通水通电，让大规模消费日用品的价格低到人人可享，让每一个人的生活都比我们两个世纪以前最优渥的祖先都要更便捷、更丰腴、更自由。

即便是如今引发大量恐慌的ChatGPT类AIGC技术，也在不断被运用于普惠人类、降低服务门槛的地方。

比如，基于人口统计学、相关的病史或流行病学风险因素，Glass.health AI能够辅助医生更快速、更准确地诊断病人；

而基于AI文档分析技术，Humata.ai能够快速帮助用户提取文档中的有价值信息，降低技术文档、法律文档等专业文件的阅读难度，让缺乏相关训练的普罗大众能够更好地保护自身利益；

基于AI文本摘要和TTS技术生成的口播文案，AI绘画生成的贴纸、特效等不断应用在短视频生产领域，进一步降低了短视频生产门槛，越来越多的内容创作者搭上了短视频的“快车”。

其他关于AI写作、AI绘画、AI视频等的AI创作工具则更是层出不穷。小到脚本错别字检查，大到分镜设计与画面排版，曾经困难重重的内容创作环节被不断拆解重构，降低入门门槛。

而AI与AI使用者的关系，也在这一次次的工具迭代之中，被时代所不断解构、重组、赋予了新的内涵。

举个例子，2021年5月，安徽的一名小伙子突然在网络上走红。

此前的几年间，通过AI技术，他累计帮助了超过500人“复活”了亲人们的老照片。那些泛黄模糊的照片经过他一顿操作，不仅变得更清晰明亮，还能朝着电脑前的亲人眨眼、微笑、摆头。

看着自己6岁时就去世的父亲重新在电脑屏幕上“活过来”，那些哭得情难自禁的情景，也许才是AI与文明的真实意义。

03 是颠覆者，更是解放者

在祛除了对AI的盲目崇拜与盲目恐惧之后，我们终于可以稍微理性地看待AIGC这回事。

一直以来，在内容创作的过程中，都存在着大量的重复动作，它们繁琐、冗余、耗时极长却又本质上与创作无关。

比如，文稿校对者为了找出错别字，一次又一次地重复阅读一篇文章，读得眼睛都发酸、发胀。

再比如，画家灵感迸发，在画布上挥毫而就一幅巨作，然后花上十倍的时间对整幅画面的每一处细节重复勾线、加阴影、卡闭塞、勾线、加阴影、卡闭塞……

视频制作则更是重灾区。视频拍摄的原始素材动辄长达几十、甚至几百小时，后期剪辑师不仅要用肉眼逐一观看，还要一而再再而三地对其进行重复识别、筛选、剪辑切割，在AI出现之前还要用耳朵一遍遍听原片内容，手动添加字幕。

这些过程既无趣，又冗长，而且与真正的人类创造力几乎毫无关系。创作者们的大量精力都被分散到了这些重复环节，真正用来创作的部分少之又少。

AIGC对于内容创作者的意义，正是将他们解放出来，让创作者的精力更好地用于探索创意极限，而重复、冗杂的工作交给AIGC，让创作者的产能不再受到制约，让优质内容能够爆炸式增长。

听起来这一天似乎很遥远，但实际上，由AI辅助生成的创意内容已经来到了我们身边。

去年冬奥期间，央视体育新媒体和总台技术团队联合阿里云视频云、达摩院,打造了“AI云智剪”智能视频剪辑工具。

基于阿里AI视频理解技术EMC2与阿里云强大的流媒体处理能力，AI云智剪能够实时解析并提取赛事视频中的运动员信息、精彩动作、镜头类型、赛程信息、运动员特点等，并自动生成多种类型的集锦视频，大规模解放剪辑师压力。

去年整个冬奥期间，阿里AI云智剪共生产出39878段素材，时长超过200小时，覆盖超200场比赛。

除了AI视频生成之外，通过和云计算结合，AIGC还能够从根源上颠覆电视台与演播室的工作流程，将原本庞大、复杂、昂贵的演播环节，全部集成在一台普通的手机上。

比如，在连续多届的全国两会期间，人民日报新媒体记者的手机里就装进了一款内容创作增效“神器”：两会“AI编辑部”移动版。

这是基于阿里云视频云的“AI编辑部”衍生而来的定制化智能媒体生产产品。通过“AI编辑部”，记者所拍摄的现场视频素材既能由5G网络同步回传后方，也能由记者在前方即时剪辑。从发现线索、获取素材，到拍摄制作、审核签发，以及发起直播、连麦访谈等系列动作，都能通过一部手机实时完成。

在当前的AIGC领域，AI全自动生成的文字与图片，在不少时刻都几乎能达到“以假乱真”的效果。在视频制作领域，对比文字、图片，视频的信息量最大、非结构化数据最多，AI需要对于视频内人物、物品、场景、关系等高阶信息进行理解，加之视频制作本身对于审美、节奏、画面、BGM的极高要求……

AI全自动生成过程虽然略显漫长，但并不是那么天方夜谭的未来。

冬奥会的AI云智剪，面向特定的赛事场景，限定了素材集的范围，套用成熟的编排模式，由AI负责素材的预处理，并按预设模版进行编排，这是AIGC的序曲，实现了视频全智能生产的第一个阶段。

AIGC的第二个阶段，AI除了负责素材的预处理，还能完成本属于视频创意环节的编排工作，从而实现智能批量混剪。

第三阶段，面向特定场景和特定要求的成品，由AI根据已有成片反向解构分镜头，负责素材的搜索、筛选、处理、编排，并最终制作合成。

第四阶段，面向特定场景，AI负责理解场景的要求，包括素材的搜索、筛选（以及部分素材生成）、处理、编排，并最终制作合成。

AIGC视频生成的终极阶段，由AI挖掘视频制作的兴趣点及创意点，并完成相应的制作。

当然，在此之前，AI视频制作依旧面临着一个迫在眉睫的挑战——算力。

一段文字、一张图片、一段视频，处理它们所需要的算力级别呈指数型爆炸上升。

这道题，云计算成了唯一的答案。

目前，云计算和人工智能的结合正处于技术突破和发展的关键时期，生成式AI正在发生颠覆性突破，阿里巴巴将全力构建自己的AI预训练大模型，并为市场上风起云涌的模型和应用提供好算力的支撑，阿里董事会主席兼首席执行官张勇在今年2月的财报会上表示。

04 结语

早在1956年，以约翰·麦卡锡、马文·明斯基、克劳德·香农等为代表的科学家们就在美国达特茅斯组织了一场为期两个月的人工智能夏季研讨会，开启了人工智能技术的探索之路。

半个多世纪后的今天，在云计算、深度学习、万亿级参数大模型等相关技术的发展之下，AIGC才第一次真正走进我们的生活，它在绘画、作曲、视频等创作领域几乎完美地替代了重复人工，进而将成为革命性意义的新时代生产力工具。

3月15日凌晨，OpenAI正式上线了新一代人工智能大模型 GPT-4。与它的上一代相比，这款多模态模型不仅可以接受文本输入，甚至已经可以接受图像等其他模态的信息输入，离真正的通用型人工智能又近了一步。

回望那场发源于英国的卢德运动，它曾轰轰烈烈地盛极一时，却不曾阻止英国在第一次工业革命中迅速崛起，不断发展工业化技术，生产效率迎来跨时代的大爆发，终成一代霸主。

同理，不要温和地走进这场AIGC，也不要做这个时代最后一只恐龙。

当人类优渥于一种状态，总有想象力来冲破平衡。Cloud Imagine《云想之力》是阿里云联合36氪共同打造的系列报道，旨在探索云计算大背景下爆发的应用场景和新兴技术，以想象的高维碰撞之力，窥探“云”上的无限空间。从蒸汽机到人工智能，一切生产力工具都是为了将人类从繁冗的劳动中解放出来，将时间与精力留给创意与想象的破界。

展开阅读全文