对ChatGPT，Sora的一些想法

datatune · 发表于 2024-2-28 05:50:28

作者：深圳宁南山

来源：宁南山（ID：ningnanshan2017）

最近这段时间，OpenAI公司的Sora火爆了，查了下时间是2月15日（美国当地时间）发布的。

当然了，每一次有新的东西出来，都是我们学习的机会，比如AGI这个词，最近因为Sora火了，我们就经常看到，但这个词是什么意思呢？平时我们不是都说AI（人工智能）吗，怎么又出来一个AGI。

像360的董事长周鸿祎就针对Sora的发布评论说“AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现”。

AGI是Artificial General Intelligence的的缩写，直译过来就是通用人工智能，直接点说就是能在各个领域都达到人类水平的人工智能。

人类是智慧的生物，所以一个人可以训练为医生，护士，司机，飞行员，士兵，工程师，快递员等等，表现出从事各行各业工作的通用性，对现实世界有强大的理解能力，而且还可以在工作中不断学习成长。

当然了，AGI是未来的事情，相对于人类的水平而言，现在普遍应用的人工智能有以下几个特点：

一

只能做特定的工作

比如你家里的智能摄像头，它能做的就是图像识别，再比如我们手机里面的智能语音输入法，它能做的就是把你说的汉语转化为文字。

再比如我们汽车里面的各种车机对话机器人，什么理想同学，小艺，小P等等，它能做的就是听懂你说的指令然后打开空调，调温度，打开车窗，导航什么的。

二

缺乏对世界的理解

我们现在登录一些程序的时候，经常会弹出一些图片，让你把它指定的选出来，比如汽车，自行车，女性，海边的男孩什么，这样做的目的是确认你是人类在登陆，因为人类有对世界的理解，我们脑子里不需要去存储记忆那么多海边男孩的画面，而是凭着对描述的这个画面的理解可以把相关图片筛选出来。

现在智能手机已经可以很方便的用文字搜索图片了，比如在相册里面搜索驾驶证，那么驾驶证的图片就可以很快的显示出来，我今天就在我的华为手机上用了这个功能，因为在试驾车需要出示驾照。

而且如果搜索“两个人”，也能把含有两个人的照片显示出来。

但是如果如果搜索复杂一点的东西，比如搜索“父亲和儿子“，就显示不出来了。

如果再搜索“认真工作的照片”，就更搜不出来了。

这就是自然语言理解能力还不行。

再比如有的AI画出来的画，或者做出来的视频，感觉就是怪怪的，和现实物理世界不一样，以至于人类可以分辨出这就是AI风格图片视频。

三

自主学习功能较差

像现在新能源汽车的车机对话机器人，我过去的半年开了一些火热的国产新势力新能源车型，有时候让它放一首歌，它放出来的是错的，不是我想听的版本，那能不能做到我说话告诉它放出来的歌不对，什么版本才是我想听的，然后它下次就能把正确的歌放出来了？目前还不能。简单的说，就是没有记忆功能，就像是一个没有记忆的人。

现在还只能依靠后台的工程师，通过不断搜集反馈的数据在云端训练，然后发布更新版本再推送到端侧，而且更新的版本也不一定是我们想要训练出的效果。

如果能够达到AGI的话，我们就可以自己把车机聊天机器人越训练越聪明了，训练成我们想要的样子了。

当然等AGI通用人工智能实现了，上面的问题也就解决了。

这次Sora出来，之所以能够出现这么大的震撼，是因为在第二点上，也就是对世界的理解上实在是太惊艳了，根据文本生成的视频居然没有什么逻辑错误，和人类生存的物理世界表现一致，让人难以分辨这是AI生成的视频还是人类做出来的视频。

我们看一下OPENAI公司是怎么介绍自己的产品的。

首先说Sora是一个能够通过文本描述来创造现实和想象的场景的AI模型。

然后具体介绍说：

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.

Introducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.

我们教AI来理解和模拟一个运动中的物理世界，目的是训练模型来帮助人们解决需要真实世界互动的需求。

Sora可以生成长达一分钟的视频，同时保证视频质量和遵守用户的指示。

接下来OpenAI公司说了下他们在邀请技术专业人士评估技术能力，包括对视觉艺术家，设计者以及影视从业者开放了使用，以获得他们的反馈来改进。

Today, Sora is becoming available to red teamers to assess critical areas for harms or risks. We are also granting access to a number of visual artists, designers, and filmmakers to gain feedback on how to advance the model to be most helpful for creative professionals.

We’re sharing our research progress early to start working with and getting feedback from people outside of OpenAI and to give the public a sense of what AI capabilities are on the horizon.

接下来说Sora能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不仅了解用户的要求，还了解这些东西在物理世界中是如何存在的。

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

然后说该模型对语言有着深刻的理解，使其能够准确地解释Prompt(也就是用户输入的文本），并生成令人信服的人物，表达充满活力的情感。Sora还可以在一个生成的视频中创建多个镜头，准确地保持角色和视觉风格。

The model has a deep understanding of language, enabling it to accurately interpret prompts and generate compelling characters that express vibrant emotions. Sora can also create multiple shots within a single generated video that accurately persist characters and visual style.

最后说目前的模型还是有弱点。它可能难以准确模拟复杂场景的物理特性，也可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后，饼干可能没有咬痕。

该模型还可能混淆提示的空间细节，例如混淆左右，并可能难以准确描述随着时间的推移发生的事件，例如遵循特定的相机轨迹。

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark.The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory.

然后提到了安全的问题，这个比较长，简单的说主要就是想避免Sora的技术被滥用，不仅要通过专业团队测试来确保Sora能拒绝用户输入有害文本，而且还要确保Sora产生的视频中没有各种误导性，仇恨和偏见的有害内容，而且还在开发工具来检测产生的视频内容是否包含有害信息。

We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who will be adversarially testing the model.

We’re also building tools to help detect misleading content such as a detection classifier that can tell when a video was generated by Sora. We plan to include C2PA metadata in the future if we deploy the model in an OpenAI product.

In addition to us developing new techniques to prepare for deployment, we’re leveraging the existing safety methods that we built for our products that use DALL·E 3, which are applicable to Sora as well.

For example, once in an OpenAI product, our text classifier will check and reject text input prompts that are in violation of our usage policies, like those that request extreme violence, sexual content, hateful imagery, celebrity likeness, or the IP of others. We’ve also developed robust image classifiers that are used to review the frames of every video generated to help ensure that it adheres to our usage policies, before it’s shown to the user.

We’ll be engaging policymakers, educators and artists around the world to understand their concerns and to identify positive use cases for this new technology. Despite extensive research and testing, we cannot predict all of the beneficial ways people will use our technology, nor all the ways people will abuse it. That’s why we believe that learning from real-world use is a critical component of creating and releasing increasingly safe AI systems over time.

最后是一段关于技术的描述，很技术化，包括Sora是一个diffusion的模型，并且和GPT一样是Transformer架构，这个非技术人员不需要去了解细节。

但在最后提到，Sora除了能够仅根据文本指令生成视频外，还能够获取现有的静止图像并从中生成视频，从而准确地动画化图像内容，并注意小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。

最后说Sora是能够理解和模拟真实世界的模型的基础，我们相信这一能力将是实现AGI的重要里程碑。

In addition to being able to generate a video solely from text instructions, the model is able to take an existing still image and generate a video from it, animating the image’s contents with accuracy and attention to small detail. The model can also take an existing video and extend it or fill in missing frames. Learn more in our technical report.

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.

看完OpenAI公司的介绍，我的感受是OpenAI公司强调的是对物理世界的理解能力，包括对人类语言（文本）的理解能力，以及生成的视频对物理世界的模拟真实度，相比之前有了很大的进步。

我完整的说一下我对Sora的看法，以下不分先后：

1：当前AI的三个特点（弱点），只能用于特定领域，物理世界理解能力，自主学习能力这三项。

Sora主要是在第二项也就是物理世界的理解能力方面实现了进步，尽管其承认在辨别左右，以及吃饼干后的变化等场景还不行，但相比之前已经是进步。

Sora目前来看，仍然是一个特定领域的工具，OpenAI公司提高其邀请的进行评估反馈的行业人士为“visual artists, designers, and filmmakers”，也就是都是艺术家，视频创作者和电影行业人士。

2：一项技术最后的价值是体现在商用，而Sora的潜在市场并不小，因为Sora最终商用的话，将极大的降低视频制作门槛。

Sora最终应用的市场空间有多大，这个我还没有查到比较公认的数字，但就我想到的应用，就已经有广告，安全教育，电影，短剧，电视剧，自媒体文章，短视频平台作者发视频等等了。

其中尤其是广告市场是个极大的市场，像字节跳动，百度，快手，拼多多（没错，一个电商企业收入大头居然是广告），微博和谷歌等等的收入都是主要来自广告，靠着广告的收入，就能成为巨头企业。

2023年光是谷歌的总营收超过3000亿美元，其中大部分是来自广告，而视频是广告的主要形式之一。

2022年外界估计字节跳动的总营收超过800亿美元，其中大部分也是来自广告。

而广告产业的收入，相当一部分会进入到广告视频制作公司和作者的钱包。

例如作为播放广告平台的互联网公司，如果实现了超低门槛制作视频的话，为什么不可以向自己的客户提供广告视频制作服务呢？这可是巨大的市场。

不仅是给广告客户，而且互联网公司还可以把这项服务提供给普通用户，让普通用户可以极快的生成视频，这可能也会产生巨大的引流能力，像现在B站，西瓜视频，油管等等都有大量的自媒体视频作者，而视频制作本身有一定的技术门槛，

如果人人都能很容易生成视频，那可能会造成视频作者数量大大增加，那些率先实现低成本视频制作的互联网平台，可能会迎来大量的视频新作者，实现平台的繁荣，获得发展的机会。

当然由于Sora当前还没有商用，其实用性还需要验证，比如理论上假设1万个用户输入同样的文本，那么Sora应该输出1万个不同的视频，因为用户不想要雷同重复的内容，那么当前Sora具备这样的能力吗？

同时不管是广告行业，还是电影行业，还是自媒体视频作者，客户的个性化需求极多，这就要求对视频进行各种调整，我前几个月就在当甲方做一段两分钟左右的演示视频，我回想了一下，由于负责做视频的人的理解和我要求的不一致，前后我提出的各种修改意见真的不少，Sora能够承担这种工作吗？还是只能用户自己手动调整？

如果Sora能够做到以上能力，那么价格是多少呢？能做到低成本吗？如果成本很高，还不如继续用人工呢。

这些问题都要到商用的时候才有答案。

而之前ChatGPT语言模型的发展已经给OPENAI公司带来了越来越高的收益，因为能够低成本的提供服务：

2018年6月，OpenAI公司发表了题为《Improving Language Understanding by Generative Pre-Training》的论文，提出了GPT（Generative Pre-trained Transformer），这是一种预训练的大型自然语言（NLP）处理模型。

2019年2月：GPT-2

2020年6月：GPT-3

2022年11月：ChatGPT（火爆）。

根据媒体的报道，OpenAI公司在2023年10月的年化收入（也就是当月收入*12）达到了13亿美元，同时在2023年12月的收入，乘以12之后达到了20亿美元的里程碑。算下来单月收入大约1.7亿美元。

3：尽管可能不如Sora惊艳，但中国公司预计也会推出同类的产品。

ChatGPT的发布时间是2022年11月30日，2023年3月16日百度就开放了文心一言语言大模型邀请测试，2023年5月6日，科大讯飞发布了讯飞星火认知大模型。

其他中国公司也纷纷发布。

尽管水平参差不齐，但是在紧跟美国公司的步伐的。

今年的技术挑战显然比去年大，但我认为先不说技术水平如何，国内公司也会跟进并且较快的推出类似的产品。

因为两个原因，其一是由于视频新技术可能会带来对视频平台，广告，影视等行业的改变，这就直接影响到国内相关互联网企业的未来发展，会让相关企业产生不确定感和危机感，有很大的动力去投入研发类似产品。

像广告，电商，游戏是互联网公司三大收入之一，如果广告行业因为新技术发生了改变，会不会影响到公司长期发展？

像阿里，拼多多，京东这类电商公司，如果电商广告技术发生了改变，会不会影响到电商的收入？

例如国内的各种视频平台已经不少了，从字节跳动，快手，腾讯（腾讯视频，视频号）等等，现在不管是制作长中视频还是制作短视频还是门槛较高的，很多人就不知道如何剪辑10分钟视频，如果技术变革了，门槛降低了，谁都能够更快的生成有趣的视频，会不会发生新的变革？

举个例子，我经常上B站，但是我自己从来没有自己做过视频并且在B站上传，为啥呢，因为剪辑视频费时费力而且收益又低，一个粉丝较多的up主一个月流量收入就几千块。

如果B站推出了新技术，我写文字就能够一键制作成视频，而且基本符合我的原意，而且成本还低，内容还不会和其他人重复，那我何乐而不为呢？这可能会大大的增加B站的up主活跃度。

再比如腾讯的视频号如果率先推出了这种低门槛低成本的文字生成视频技术，会不会导致大量用户涌向视频号发作品尝鲜，结果影响其他短视频平台的用户数量和时长？

所以我觉得应用市场大，其结果就是国内不少公司会受到影响，他们是有很大动力去把这个技术搞下来，毕竟跟他们的切身利益有关系。

不怕在技术上暂时的落后，落后是可以追赶的，怕的是国内没有相关公司，尤其是大公司投入这个赛道搞研发。好在中国的视频产业够大，也有足够的驱动力。

企业的重视很重要，像OpenAI公司就是微软投的钱。

其二是中国在国家和省市层面都已经高度重视人工智能，算力中心的发展了。各种政策不断出台，我就不再一一列举了，这说明中国从政府到企业对人工智能的态度是一致的，而且是积极的。

就在2月19日，国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会。

会议明确中央企业要把发展人工智能放在全局工作中统筹谋划，加快布局和发展人工智能产业，把主要资源集中投入到最需要、最有优势的领域，加快建设一批智能算力中心，开展AI+专项行动。

像Sora发布后，已经有省委副书记+市委书记这样的地方主官已经公开提及其重要性。

4：要改造人类的物理世界，即使最终达到AGI也是不够的，需要有物理层面的感知，算力和执行，最终还是要有强大的制造业。

可以把人，比如我自己看成一个AGI，虽然我的头脑智力就是人类水平，比现在的人工智能还要先进，但没有物理层面的配合，仍然无法改造世界。

如果没有眼睛，我就无法输入世界的实时画面信息，如果没有低功耗的神奇生物大脑，那我就无法长时间思考，也不能具备复杂思考能力；

如果没有双手，以及我使用的各种物理工具和装备，就无法实现对世界的改造，当然也包括对物理世界的破坏。

就跟人其实就是高水平智能，但是如果我们没有自行车，汽车，飞机这些硬件帮忙，我们一天的最高移动距离也就是几十公里；

没有大型工程机械，即使我们智能水平很高，光靠双手也无法快速完成大型工程。

美国也是对此有深刻理解，因此限制了英伟达向中国所有公司出售先进算力芯片，迫使中国公司大量转向华为购买。

但美国制造业的总体势头，我觉得还是有些问题的，重设计轻制造，电子产品方面苹果手机100%在中国印度生产，大部分零部件也采购自东亚地区。

英伟达因为AI的爆发现在如日中天，但其计算芯片当前100%由东亚地区制造，主要是台积电（其中H100更是100%来自台积电），少量由三星制造。

汽车方面电动化转型最好的特斯拉，上海工厂成为其全球最大工厂，实际上如果没有上海工厂的高速度扩产和销售，特斯拉能不能挺过当年的困境都不好说。

因为需要算力的关系，因此不管是英伟达这样的全球计算芯片巨头，还是华为等国产计算芯片公司都成为关键变量，尤其是现在国内已经买不到英伟达的先进计算芯片了。

自从去年8月底华为Mate 60系列发售，华为海思芯片已经可以在国内批量生产开始，我就非常关注华为旗舰手机的销量情况，因为华为的旗舰手机销量越大，那么国产高端手机处理器芯片的销售数量就越多，对上游国产芯片制造业的拉动也就越大，从而也会惠及到计算芯片的制造。

其实我对人工智能这种中国从国家，企业，民间都一致重视，并且都认为应该大力推进，同时又有大量国内巨头企业参与其中的产业并不是很担心，不管是上次的ChatGPT，还是这次的Sora，都在国内掀起了巨大的舆论热潮，这是大好事，也说明了国内各方面认为这很重要。

同时它是个庞大的产业，最终还要在硬件设备上落地才能真正发挥改造世界的作用，因此美国其实挺难全方位的超越和领先，也意味着中国有赶超的机会。

倒是那些舆论上重视不多，投入资本也少，缺乏民间巨头企业参与的产业，我国追赶速度就很慢，比如科研用的科学仪器仪表，我查询了行业报告，每年国内市场就高达三千多亿人民币，这方面我国落后欧美就很多，大量依赖进口，虽然国家有部署专项国产化任务，但是缺乏民间巨头企业参与。

再比如机床产业，现在居然还要从台湾进口不少机床，而台湾机床本来相比日本德国等是要低一档的。

还有2018年之前的半导体生产设备和材料行业，国内都不重视国产化，反正能从美国日本荷兰等国买到，后来被美国制裁才被打醒了，下游企业开始大量采购和扶持国产设备和材料，从国家，企业到公众，对半导体产业链国产化的重视程度空前提高了，这才有了这几年的高速增长。

实际上对于我们个人而言，也要关注AI时代带来的变革，比如现在各种AI工具越来越多，能不能用这些AI工具提升我们的工作效率？

像我老婆给孩子买的学习机，只需要把作业本放在桌上上，学习机就可以通过摄像头识别作业本的内容，并且把作业本内容的图片显示在屏幕上哪些题做对了，哪些题做错了，大人轻松了很多。

我在想如果学校给老师配置了这种AI设备，老师批改卷子，作业是不是高效了很多？老师只需要看一眼屏幕，就知道哪个地方错了，知道该在卷子上哪个地方打叉，连分数都算出来了。

天天做PPT焦头烂额的社畜，被各种排版，素材，字体搞的很痛苦，有没有关注有哪款AI工具可以帮助自动写PPT，你只需要输入文字内容就可以了？

那些想在工作之外开辟第二职业的打工人，有没有想过关注AI视频技术的发展，有没有哪款AI视频制作工具，可以把你拍摄的视频内容迅速自动剪辑好，配好字幕，这样你也可以当一个视频作者，通过视频分享自己的行业知识，在各个视频平台赚取流量费？

现在各个视频平台的作者都是有流量收益的。

中国广大各行各业的大中小企业也是一样，要思考什么样的AI工具能够帮助自己的企业更加高效，更加高质量的运行，这不仅能给自己带来好处，反过来也是给国内搞AI的企业带来市场机会，拉动国产AI产业的发展。

面对AI技术的发展，包括美国AI技术的发展，不需要恐惧AI会不会把我的工作替代了，也不需要担忧美国会不会又把中国远远甩在后面了。

人类的恐惧和担忧主要来自于未知，研究它，学习它，使用它，不仅能给我们带来极大的好处，而且各种恐惧和担忧也就烟消云散了。