不久前我的一位好友向我诉说他的遭遇,他原创的一套在线课程被一家知识付费平台用爬虫剽窃并公开收费,他感到非常愤怒,但是又无可奈何。当下我们常说互联网信息爆炸的同时也应该看到,大量垃圾信息充斥着网络,普通人难以辨别真伪。久而久之,原创内容越来越少,导致网络上的信息质量越来越低,形成恶性循环。

有意思的是,网上盛传一个说法,互联网可用于训练模型的语料数据即将在两年内耗尽,大模型的训练都已开始使用合成数据了。这倒是形成了另一种循环黑洞,大模型用自己造的数据训练大模型,很难想象大模型的能力还有什么突破,人类用这样的大模型还有什么进步。本来大模型的认知是来自人类的积累,结果人类自身早早地依赖了基于过往的知识库的 AI,有点不思进取了。

不管怎么说,为了传承也好,留下回忆也罢,我们还是要努力地用自己的思想和语言,记录更多对过去、当下和未来的思考,AI 还远没有到达它该有的样子,我们同样也得尽可能地产出原创的内容,这或许是人机协同发展之路上的“人机协同”的需要吧。