广告 ☭马列毛主义与革命左翼大群☭ 上电报大群找真同志与真战友
https://t.me/longlivemarxleninmaoist
加井冈山机器人Chingkang(@maoistQAIIbot) 电报(纸飞机)为好友,可获得大群发言权
编者按:
1, 任何科技产品脱离人的劳动是毫无价值的,用于训练AI的数据不是凭空产生的,而是根据人类日常生产生活中所积累的大量成果和为之产生的交流所形成的。资产阶级却总是掩盖、否认这一点,将产品的价值归功于AI自身,其目的便是掩盖阶级矛盾,推崇拜物教。将人与人之间的关系异化为物与物的关系。
2,只有人类的劳动才能创造出产品,不存在脱离人类劳动而存在。AI作为人类科研的新进展更是体现了人类劳动的属性。失去了人类提供数据,失去了人类活动而产生的各类信息,AI是不可能诞生的,只有看到物与物背后的人的关系,我们才能抓到事情的重点,认清资本家鼓吹拜物教的目的。
叠甲:本文作者并不是什么科技学者,也没有做过太多的考察,内容上可能有错误,请多多指正。
最近,中修大肆宣扬自己新开发了一款生成式AI应用deepseek,声称要比美帝的老牌AI模型ChatGPT更加强大。中修借此吹嘘自己突破美国的封锁,并鼓吹民族主义情绪,用以缓和国内日益紧张的阶级矛盾。美帝对中修的技术封锁本质上是因为帝国主义争霸,中修作为一个新兴的帝国不断挑战美帝的霸权,为此两国资产阶级互相争夺又勾结,其中争夺的一面日益占据主导地位,即使是在当下经济危机愈演愈烈的状况下。中修为了掩饰自己的帝国主义性质,把美帝对自己的技术封锁庸俗成眼红、抢夺经济利益等,给本国的无产阶级造成一种只要在科学技术上超越美帝,自己就能生活更好的错觉,从而达到分化无产阶级,麻痹无产阶级阶级意识的目的。
根据报道,deepseek在保证了准确率的同时,还具有成本低、开发周期短的优势,尤其是其付费使用价格只有ChatGPT的1%;从而在很大程度上戳破了AI泡沫——原来开发大模型并不需要极高的成本,大量用于大模型的投资都被用在了无用功上面,导致使用大模型的开销也水涨船高;从而严重拖累了AI模型的发展。为此我们就需要对AI模型的生产过程做出一点分析。
开发一个大模型产品需要哪些东西,资产阶级研究者像他们的经济学家一样,架空实际的生产场景,简单地总结为是代码+数据的有机组合,在他们眼中,代码是自己的脑力劳动的结果,而数据则是来源于网络上现成的不需要考虑的东西。当然马列毛主义者要科学地分析AI大模型的生产过程就要从劳动价值论和剩余价值理论来回答。(1)在模型训练过程中需要用到显卡等各种硬件设备,以及用于放置硬件设备的场所以及劳动者的办公场地;(2)训练过程中消耗的电力、用于冷却的水资源等;(3)数据标记员辛苦的重复劳动,他们需要事先把各种问题和答案联系起来,把这种联系丢给AI模型让其记住,从而AI模型才能根据这种联系做出正确的推断;(4)程序员编写代码的劳动;(5)互联网上已有的人类活动产生的数据,这里面有的属于劳动成果,比如说一位画师在网站上发布他的作品,自动驾驶模型训练中用到的人类正常开车的影像;也有一部分不属于劳动成果,比如说一位热心网友解答其它网友提出来的问题,甚至是网络贴吧上的闲聊等;这些东西都可以变成训练AI模型的数据。这里面,第一点和第二点分别作为不变资本中的固定资本和可变资本,第三点和第四点都是可变资本,其中的人类劳动为资本家生产剩余价值附加到大模型产品上,从而为资本家赚取利润。
为什么deepseek开发周期相较于老牌模型要短得多,并且能够使用相对小得多的成本在几个专业领域内追上老牌的openAI呢?一般认为其采用了模型蒸馏的技术,也就是以成熟的大模型如ChatGPT等作为标准,将ChatGPT的回答作为标准答案反馈到自己开发的模型中,从而省去了上述第三步以及第五步中所涉及的大量劳动,节省了大量成本和时间。
有的人因此认为在模型蒸馏的过程中,标准模型生成参考结果的过程类似于于人类劳动,替代了人类作为数据标记员的重复劳动,也就是说AI模型自己创造了价值;而在这个过程中就是说ChatGPT给deepseek创造了价值,这也是资产阶级喜欢忽悠无产阶级的一点——给未来生活购买什么东西来投资。显然这是违背劳动价值论的。事实上,一旦AI模型开发过程中,其所使用的数据脱离了人类劳动,那么这个数据本身就是无意义的,甚至有可能对这个模型自己造成损害。去年七月资产阶级科学杂志nature就报道过某个研究小组将AI模型生成的数据再喂给这个AI模型继续训练,重复这个过程不超过9次,这个AI模型就已经彻底崩溃不能输出正常结果了[1]。deepseek模型蒸馏的过程只是将ChatGPT这个商品中的一部分价值搬移到自己的产品中,而人类劳动者在这个过程中必须进行监督——防止大量错误的数据流入,同时还要甄别哪些数据是有意义的,这一部分人类劳动才真正创造价值。就比如说ChatGPT能正确把人和猴子分开是因为人类标记员已经在模型开发的过程中做出了大量劳动,deepseek蒸馏的过程实际上就是在这个基础上转移了ChatGPT的部分价值,因此deepseek也可以区分人类和猴子;如果deepseek不在这个过程中添加新的数据、添加进新的人类劳动,那么它就永远不可能做的ChatGPT更好,甚至会做的更差。也就是说,对于上文中第三部分过去的人类标记员的劳动以及第五部分网络上现存的数据,它们经过了ChatGPT等模型作为中介将价值最终转移到deepseek中去,而在deepseek开发的过程中又积累了新的劳动数据。由此我们也可以回答模型蒸馏的过程并不算是抄袭(即使资本主义意义下的),因为这是人类生产活动中十分正常的不变资本发生价值转移的现象;禁止ChatGPT生产的数据用作商业活动,这就好象是说某个资本家A向资本家B购买了机器,但是出卖这个机器的资本家B却说告诫A说不能用这个机器生产类似的机器,否则就可能打破自己的垄断。
AI模型产品在人类生产活动中所起的作用更像是固定资本。也就是说:
(1)它们不是在物质形态上流通,而仅仅是在价值上流通;
(2)它们的价值是按照它们在生产过程中损耗的程度而逐渐地、一部分一部分地转移到新的产品中去,并随着产品的出售而逐次地周转回来,其余尚未转移的价值部分,则仍然固定在原来的使用形态内,并在生产过程中继续发挥作用。
如从COBOL语言,看固定资本更新难——兼试证一种固定资本的新形式,编程语言中所论述的那样。AI模型在生产过程中区别于传统固定资本的是,它并不发生有形的损耗,但是无形损耗还是存在的,随着时间的流逝,基于旧模型的开发变得又耗费时间又耗费金钱,以至于在生产生活中已经不适用了;因此旧的模型被淘汰,其价值全部流入到新开发的模型中。比如说ChatGPT3.5虽然还在个人生活以及学习中应用,但是已经在生产端见不到了,它的价值就全部转移到了新的模型中;新的模型一旦用于生产中,它愈是将旧的模型从生产过程中挤出来,旧的模型的价值就愈是少一分。同时,如固定资本那样,ChatGPT仅仅是在价值上流通而又不发生无形的损耗,旧的模型失去价值的过程中依然能够被使用,依然具有它从一开始所具有的全部功能(需要人类进行维护);但是人类社会的矛盾运动已经使得它贬值了。
最后,如开源软件的开发模式揭示了社会主义的生产组织方式中论述的。deepseek所使用的MIT许可证,虽然是开源许可证,但它不像是自由软件Linux所使用的GPL协议那样具有传染性(即如果程序A所使用的程序B遵循GPL协议,那么程序A也应该是开源的)。MIT许可证允许商业使用就类似于把网络上人类活动产生的数据重新收集到个人腰包中,由此AI生成的图片也要受到资产阶级的法律保护了,正如资产阶级法权再扩张:AI生成图片可以认定为著作权法保护作品文章中所报道的那样。但是现在的生产力已经远远超出生产关系,AI模型的生产过程甚至已经宣告了MIT许可证的死亡。训练AI模型使用的数据并不是某一家AI公司的可变资本购买的劳动力所完成的,绝大多数都是网络上存在的过去几十年人类生产以及活动中产生的数据,也没有哪个资本家会重新再花费可变资本招揽劳动者为新的模型训练用于判断是人还是猴子的数据,哪怕他冒着侵权的风险也要使用旧的AI模型生成的数据,新的AI模型就在旧的人类劳动中积累新的人类劳动,迅猛地走向更加成熟的明天。
[1] https://news.qq.com/rain/a/20240725A06DVK00
原文 https://www.nature.com/articles/s41586-024-07566-y