小时候看《哈利波特》,对里面光怪陆离的魔法世界充满了好奇和羡慕。报纸上会动、会跳的各类人物,栩栩如生~
当我们还在感叹《哈利波特》魔法世界的时候,殊不知过了20几年这种魔法被照进现实。例如捅了马蜂窝的爆款短视频“吗咿呀嘿”,还有今年上半年网红人手一个会动的“全息数码屏”,都在展示科技的力量。
在大家感叹“照片活化”技术强大的同时,也存在许多风险。今天我们就来浅谈一下“照片活化”这项技术。
被污名化的“照片活化”和背后的深度伪造技术
什么是“照片活化”?
首先,“照片活化”是通俗的口头称呼,专业名称为面部重现“Face-reenactment”,属于大名鼎鼎的深度伪造“deepfake”的一部分。Deepfakes的技术主要为:
换脸(Face-swapping):替换整张人脸
面部重现(Face-reenactment):仅仅替换动作
检测(Deepfake Detection)
“照片活化”发展至今有很多种算法,较常见的一种名为动作迁移,通俗点讲就是在采集几个关键点数据后将人物A脸上的动作交由人物B的脸进行驱动。这一点与换脸技术非常相似,但换脸更多用于视频或在线直播。
深度伪造自出现之日起到今天在几年内经历了迅速的迭代发展,从恶搞马斯克的deepfakes到日前大火的虚拟偶像都属于广义上的深度伪造技术。
它的爆火源于2017年Reddit发生的换脸事件(ID为“DeepFakes”的用户上传了一段以当时正火的盖尔加朵制作的小视频),视频下架后他将代码上传至GitHub,随之掀起了第一波AI换脸热。技术基础则来自Goodfellow 与同事在2014年发表的全球首篇关于GAN的论文。
生成对抗网络(GAN)技术由两个神经网络(ANN)组成,两个网络可以分别看作是造假币的犯罪组织和负责追查的公安部门。犯罪组织伪造美元,公安部门负责鉴别假币。如果被发现是假币,那么犯罪组织会持续提高技术水平研制更加难以甄别的假币。通过这样的方式,犯罪组织和公安部门在对抗中积累了强大的技术。假币制造也有了极深的行业壁垒,于是市面上就出现了无法分辨的假币(等同于深度伪造生成的人类几乎无法分辨的虚构图像),顺带说一句,人脸识别就属于两者中的公安部门。
“照片活化”的娱乐化与商业化
短视频爆火的“蚂蚁呀黑”,B站鬼畜短视频《生而为猴,我很抱歉emo》,苹果Livephoto的照片,曾风靡一时,掀起全名模仿热潮。短时间带来流量的爆炸式增长甚至连社交巨头都无法忽视,娱乐之余,更多人想到是如何让这种黑技术商业化。
ZAO是2019年的一款陌陌换脸应用,曾是App Store免费排行榜娱乐类榜单第一。比起和其他有相似功能的应用ZAO对用户肖像权下的霸王条款有着严重的法律侵权和道德风险,最终不得不下线处理。
以检测基因创建家谱闻名的公司my heritage开发的一款名为“deep nostaligia”的应用。当然其中不仅仅运用了活化,也包括了细节提升和赋色等技术,几个固定driver与滤镜的搭配使产品拥有一种独特的怀旧风格。据说这款软件开发不是为了恶搞,而是为了纪念逝去的亲人。就算是有这样美好的科技愿景,这款软件至今也无法在国内使用。
由此可见,想要实现商业化变现目前情况还不是很明朗,其中不仅存在着诸如版权,隐私安全,损害他人形象等风险,纯粹从商业角度来说也有着可替代性强,用户黏性偏低,难以留存等问题,最后可能仅仅“昙花一现”或者作为社交平台的一个补充插件。
抛开生态和差异化服务只做技术的情况下,如果在抖音里就能完成那为什么还要再下载一个单独的App呢。马克思说人是所有社会关系的总和,在社会进入原子化时代后即使是工具类应用也或多或少会带上社交属性。
从照片活化看深度学习在图像处理领域的意义
人工智能出现之前,专业人员已经能熟练地通过photoshop处理类似照片活化这类任务。但深度学习的出现则直接掀起了一场工业革命,举个例子,两者相当于人工和流水线的区别:在发展初期,只能靠手动操作,所以相较而言耗时长,人力成本高。
甚至由于这个原因一度出现类似“大神你好,可以帮我把…p掉吗”这样的梗。人工智能出现带来的优势就是随着技术的发展,手工需要反复修改,但是机器在通过学习之后出错率可以达到一个极低的水平。
人工产品可能会有艺术审美价值,但是流水线一定有着更大的商业价值(只要样本足够甚至连人工仅有的价值都可以取代,参考“公式相声”,AI 小说生成器等)。深度学习这套技术的背后就像是随时可以自我学习并作出微调的工业软件和按照需求精细化加工的车床,强大的人工智能力量。
数字化:数字化是图片处理的基础,只不过在数码相机出现之后就省去了从信息转化为数据这一步。只有经过数字化才可以对数据进行外科手术式的精密处理。在批量处理数据之后产生一个样本足够大的数据库,也可以运用模型对用户的喜好需求做出大数据预测,亦或是算法自己以及能作出比人更好的判断,从而为客户提供更好的服务。
模块化:图像处理下面的应用分支很多,把实物数字化之后通过深度学习可以把每一个部分物尽其用。在屠宰厂中能把一只猪处理切割为:猪脑,猪耳,口条,五花,里脊,大肠,猪肝,对应的可以是上色,增强,活化,抠图等等,甚至是文本生成图像,以图搜图。合成意味着我们就是加工厂,就需要不同原料,在有一定处理能力后实现不同功能间的联动以及应用端生态的构成。存量市场的需求来源于单一功能,用户往往着眼于处理现有问题。增量市场的需求来源于组合功能,需要企业主动创造新的需求。哪怕是单一功能的使用也依赖不同图像处理技术的组合。比如照片活化在驱动之后依旧需要加强细节和颜色的处理。
随着人脸识别等技术的发展,技术的双面性也显现出来。数据和算法的正当应用使得人们的生活更便利,滥用则使人们似乎在AI中裸奔。
AI落地中的数据隐私问题常为人们讳莫如深,但引发雪崩的最后一片雪花值得人们警醒。为此,行业需要应用开发方、运营方、相关监管部门各司其职,跟上AI技术攻防战的步伐,打赢AI滥用治理战。
用户场景
如果能解决上述提到的风险问题,其实照片活化还有着更为广阔的市场前景,一些可以由类似应用或者场景延伸出来,另一些则完全建立在想象的空间上。
从应用于苹果电子相册的live photo到Kindle的应用Kindle in Motion。从像霍格沃兹肖像画一样会动的元宇宙到结合3d打印的合成照片,甚至可以作为一件艺术品用来为NFT数字资产证券化。
如果考虑到对旧照片进行驱动,甚至可以开发出公益性功能:例如从照片中重现历史人物的那些精彩瞬间,甚至可以参考会动的古画和博物馆联名制作文创,像上文提到的深度回忆在应用上除了针对老人和逝去的之外,还可以包括动物,孩子或者每一个值得记录的瞬间。照片处理甚至可用于辅助心理治疗。
甚至可以从生成对抗,换脸与换脸检测的角度出发,生成一段虚拟数据用以欺骗,来保护真实的人,比如可以为一些特殊行业进行处理,例如缉毒警察或者是其他国家安全方面的运用。
皮卡智能“照片活化”技术可以精准到动作、语言、唇语等,李白实验室算法团队还引入了人脸合成图像鉴别的进程,能够提高每张照片的准确率和真实性。
如果问我这项技术的终点在哪里?那么答案是,没有终点。人类用相机把那些需要屏住呼吸的瞬间浓缩为一张照片。我们则负责用照片活化把你再一次带回到那个时刻。