大模型训练数据的收集方式,以后企业最重要的资产不是厂房而是数据 原创
“ 大模型的本质,是一种能够处理特定类型任务的数学模型”
现在大模型可以说是人工智能的代表,但目前的大模型还只是一种基于数学逼近算法的概率统计模型。
因此,其需要大量的训练数据来让模型学习,找到其中的规律,然后就有了大模型。因此,也间接说明了训练数据的重要性。
那么应该怎么收集训练数据呢?
01、收集训练数据的渠道
马云说:“二十一世纪是大数据时代,数据是一家企业最重要的生产资料”。
而在人工智能时代来临的时候,数据果然成了重要的生成资料。大模型的训练成了实现人工智能的主要途径,而数据的收集也成了重中之重。
其实,说到底数据的来源无非有两种,第一种是自己的数据,第二种是别人的数据。
但对很多企业来说,自身的数据还不足以维持大模型的训练;因此数据的收集主要集中在别人的数据上。
而别人的数据又分为几种情况,第一种是人家的企业内部数据;第二种是网络上公开的数据。
人工智能聊天小程序,感兴趣的可以点击查看:
因此根据以上情况,收集数据的渠道无非以下几种:
第一种在自己企业内部收集数据,比如多年来的企业经营的数据等。
第二种是收集网络上公开的数据,但网络上公开的数据有的可以收集有的还是需要别人的同意才行。
比如,弱智吧的数据,抖音,公众号,小红书等的内容数据;这些数据虽然网上都可以看得到,但你不能直接使用。
第三种是收集人家企业内部的数据,比如某某公司的运营数据等。
02、数据的收集方式
在前面说了数据的重要性,以及数据的收集渠道,这里讲一下收集数据的方式。
为什么要讲这个?
是因为不同的数据有不同的收集方式,如果使用错误的方法很可能造成违规操作,给企业带来损失,严重的甚至会去吃皇粮。
第一种数据收集渠道,最简单,成本最低,风险也最低。
因为所有的东西都是自己的,然后自己想怎么用就怎么用,只要别做违法的事情,那么就可以合理的利用。
第二种收集别人的数据,就需要注意了。一些公网上的公开数据,企业可以通过爬虫去获取,这个合理合法。
但如果你用爬虫爬取其它企业的内部数据,或者导致人家的系统瘫痪,那么就是爬虫写的好,皇粮少不了。
还有一种就是购买别人的数据,但购买别人的数据也不是可以随便买。比如,企业的一些经营数据可以买,但如果涉及到用户信息和隐私,那么不论是买数据的还是卖数据的,都会去喝茶。
最后人工智能时代,机器学习的技术很重要,但数据处理的技术也同样重要。没有数据,再强大的机器学习模型也没有用武之地。
因此,人工智能时代,参与的不一定是懂得机器学习的,也需要懂得大数据处理技术,和前后端开发技术。因此,技术的根本价值在于使用,技术很重要,但技术的应用更重要。
这就类似于,美国的人工智能技术强,中国的人工智能应用强。
本文转载自公众号AI探索时代 作者:DFires
原文链接:https://mp.weixin.qq.com/s/9T-_17lZneG2bncNtinRoQ