(原标题:AI时代数据需求爆发, “数据确权”渐成投资焦点)


(资料图片)

红周刊 本刊特约 | 李欣妍

在今年大红大紫的AI产业链中,投资者目光大多被算力、算法、光模块等吸引,但实际上数据是迭代AIGC模型的核心要素,中国有全球最大的数据量。数据流通是数据资源体系构建的关键,是数据要素建设重点方向。

不过,稳定的流通就要确定数据的权利归属,才有可能产生交易的价值,并且保证安全可追溯。当前,国家层面正在加速这一方向的发展,数据相关的上市公司有持续关注的价值。

从二级市场看,截至6月15日收盘,人工智能板块指数连续第三个交易日创年内新高。从中期维度看,AI板块的投资人气仍可能维持较高热度。在整个AI领域中,市场非常关注算力和算法,AI芯片、光模块、服务器、PCB龙头股在6月以来的上涨中率先反弹。随着行情不断演绎,数据确权相关板块股价出现异动,截至6月15日,相关板块指数过去一个月涨幅11.02%。

AI驱动数据需求爆发

数据要素相关公司景气度上扬

通过国有企业搭建的平台,国内的数据确权服务得到推动和支持。随着数字经济快速发展,这些平台有望在数据确权领域发挥更重要的作用,推动数据产业繁荣和创新。而以ChatGPT为代表的人工智能加速发展,数据要素市场需求爆发。

拆分来看,数据要素产业链包括数据生产、流通和使用三大环节。数据是以ChatGPT为代表的人工智能进一步发展不可或缺的基础。数据相当于AI算法的“饲料”,用于AI的数据越多,AI的算法能力则越强。作为数据的一大需求方,未来人工智能领域的加速发展,有望驱动数据需求的爆发,同时有望增加数据要素交易,促进数据要素市场建设。

据国家工信安全中心测算数据,2020年我国数据要素市场规模达到545亿元,“十四五”期间,这一数值将突破1749亿元,整体进入高速发展阶段。随着数据要素相关政策进一步落地,技术发展使得数据要素交易易于实现,数据要素相关公司将迎来较大的机会。

从投资细分的角度来看,数据要素产业链及数据交易所,数据存储、采集、处理、运营、确权及安全环节,数据所有者等几类参与者。

例如浙数文化位于经济及信息发达省份,目前持有浙江大数据交易中心48.2%股份。易华录经营重点由数据湖建设转向数据要素运营;云赛智联以云服务与大数据、行业解决方案及智能化产品三大板块为核心业务,布局数据要素产业链多个环节。上海钢联植根大宗商品数据服务业23年,对大宗商品几乎全覆盖,目前公司已在上海数据交易所挂牌相关数据产品。深桑达中国电子云为中国电子旗下惟一云平台。

实际上,高质量数据对模型性能提升至关重要,预计大模型厂商将加大高质量数据需求,拥有高质量数据库的相关公司,价值有望提升。当前时点,就AI驱动下的数据要素而言,短期有望迎来做多窗口,但对结构牛市来说,胜负手的关键在于主线选择和笃定追随。

数据确权是数据交易的前提

人民网、新华网专业对接优势彰显

从ChatGPT面世以来,AIGC产业迎来爆发式发展,国内企业加快拥抱大模型时代,百度、360、阿里等互联网公司以及商汤、科大讯飞等人工智能企业相继发布自研大模型,大模型军备竞赛拉开序幕。

今年4月,国家互联网信息办公室发布了《生成式人工智能服务管理办法(征求意见稿)》,公开征询管理建议,这是国家首次向生成式人工智能领域发布产业规范性政策文件,其把数据安全、数据确权、数据隐私等数据有关内容放在较为重要的篇幅。由此,我们能明确看到其利好数据确权细分赛道。从文件发布以来,截至6月14日,AIGC指数涨幅达到10.28%。

实际上,对于AI大模型而言,数据为贯穿其全身的血脉,对AI发展影响重大;除通用数据外,行业数据也是各垂类模型的关键。在整个AI贯穿的领域里面,算力和算法关注度最高。毋庸置疑,单纯比拼算力,我国尚且存在一定差距,但是投资者不应忽视我国的数据资源优势,这是我们的长板所在。

关于数据,坊间有一种观点认为AI文本生成较高质量的数据来源于学术论文、专业书籍、专业新闻、专业的全球数据库、各细分领域龙头数据库以及高质量的论坛,而目前高质量数据库仍以英文为主,给中文大模型训练提升了难度。其实这是狭义的定义数据,中国互联网数据庞大,沉积下来全球最大的数据量,海量优势无可比拟。

根据《国家数据资源调查报告(2021)》,我国2021年数据产量6.6ZB,同比增加29.4%,其中个人数据产量为1.4ZB,各类行业机构产生数据5.2ZB。从行业分布看,数据产量排名前五位的行业分别为政府、互联网、媒体、公众服务及专业服务、交通,前五大行业数据产量占全国行业机构数据总产量的65%。

从具体架构来看的话,不仅有顶层制度设计,各地也纷纷成立数据交易所。面对各级政府在数据大开发上面的发力,未来或许有可能先于其他国家挖掘出更深的数据价值。

从逻辑关系上看,AI训练的核心资源是数据,AIGC想要取得好的生成结果,离不开基于海量数据的训练,而数据确权应该是人工智能能够持续发展的基石之一。严格意义上讲,确定数据的权利属性即做好数据确权,一方面可解决AIGC作品的知识产权保护或规避侵权等问题;另一层面其不仅影响和制约着数据流通环节,还涉及到数据资产的入表问题。

结合二级市场看,从事数据确权的相关公司并不多,目前国内的数据确权服务工作主要由一些国有企业搭建的平台承担,比较典型的平台包括人民网旗下的人民数据确权流通平台和人民数保平台,自2019年起,人民网就开始积极研究和创新应用区块链技术,并将其运用于数据确权业务的探索中。

具体说来,人民数据资产服务平台是我国首个数据确权平台。它作为国家队具有先发优势,不过数据确权目前尚属较新的数字产业,我们能看出相关业务自2019年布局后,2020年在财报中已经有所体现,但具体能给公司带来多少产出目前还无法得知。从年报数据及信息服务相关财务指标中,可以看到相关营收过去三年均有下降,分别为3.31亿元、2.82亿元、2.56亿元;然而毛利率有所攀升,分别为47.03%、47.44%、49.02%。

无独有偶,新华网通过持有新华智云(与阿里合资)39%的股份来推动数字资产中心的建设,并利用区块链技术提供数据确权服务。对此有券商预计2022-2023年,公司归母净利润分别为2.52亿元/2.90亿元,同比增长19.61%/15.02%,6月15日收盘价对应PE分别为78.71/67.31x。

(作者为深圳某基金公司基金经理。本文已刊发于6月17日《红周刊》,文中观点仅代表作者个人,不代表《红周刊》立场。文中提及个股仅做分析,不做投资建议。)

推荐内容