关键词搜索
顶部横幅广告

国家数据集平台上线,查数据、发布数据都在这里

【金色港湾资讯网为您推荐阅读】

开篇故事:AI创业公司“喂数据”的烦恼

这家位于杭州的医疗AI初创公司的CTO李明,去年为训练一个罕见病诊断模型,团队先是花了三个月时间四处找数据,接着去谈合作,之后签订相关协议,最麻烦的是从不同省份获取的心电图数据格式并不统一,清洗工作耗费了项目70%的预算。这种存在找数困难状况以及用数缓慢情况的困境而言,恰恰是当下国内人工智能产业发展过程中的一大痛点。就在昨天,国家数据集管理服务平台正式上线并开始试运行,如此一来这一局面或许将会迎来根本性改变。

国家级平台上线 数据供给进入“超市模式”

4月29日,第七届数字中国建设峰会在福建福州举办,国家数据集管理服务平台在此次峰会上正式启动试运行,此平台由国家数据局指导,由国家数据发展研究院建设和运营,该平台被业内视作中国数据要素市场化配置改革的关键基础设施。其核心定位是构建数据集管理体系,该体系“物理分散、逻辑集中”,类似一个覆盖全国的“数据超市”。

和传统的数据交易所模式不一样,这个平台不是直接去存储数据,是以统一的目录汇聚机制,把分散于全国各地、各个行业的高质量数据集集中展示及管理。到发布当日的时候,平台已经认证了200余家供需主体,发布的数据集超出1000个了。这表明我国高质量数据集建设从以往的各自为战,正式跨进集约化、标准化的新阶段了。

三类用户各取所需 全生命周期服务闭环

针对数据价值链方面不同角色,平台设计了差异化功能,是服务功能。对于各地数据管理部门,平台提供了工具,此类工具为数据集目录管理以及建设情况监测工具,这相当于给管理者赋予了一套可视化指挥系统,借助该系统能够实时掌握辖区内数据资源的分布态势以及建设进度情况。

国家数据集平台上线,查数据、发布数据都在这里(图1)

供给方,其手握数据资源,平台针对他们开放了一站式的多种功能,比如数据集发布功能,凭证申领功能,质量测评功能等。这就表明,数据拥有方能够如同在电商平台开店那般,把自己的数据集上架处理,进而获取具有权威性的质量认证凭证。而对于那些迫切需要数据的AI企业而言,平台又提供了强大的查询检索功能以及需求发布功能,企业借助这些功能,能够精准地找到自身所需的数据,还能够发布定制化的需求。

对接国家数据基础设施 地方试点同步展开

尤其值得予以关注的是,此平台并非处于孤立运行的状态。依据国家数据局所发布的消息来看,该平台已然同国家数据基础设施以及安徽省等地方平台达成了技术对接。这样一种“国家级平台 + 地方节点”的架构设计,乃是借鉴了电子政务外网的建设经验,它既确保了全国统一标准得以实现,又能够让地方依据自身产业特色来进行灵活扩展。

成为首批接入试点省份的是安徽省,省内有一家参与测试的智能制造企业,其负责人透露,借助省级平台跟国家平台的联动,他们成功对接上了某发达地区的高质量工业传感器数据集,用此来优化产品缺陷检测算法,整个流程从以往的两三个月缩短至不到一周时间。

破解AI“数据饥渴” 产业生态迎重大利好

时至今日,中国人工智能产业正处在爆发的前夕,然而,高质量中文数据集的供给不够充足,这始终是限制大模型训练的关键所在。好多AI企业表明,公开能够使用的中文训练数据,在规模方面、多样性方面以及标注质量方面,跟英文数据有着显著的差异,众多企业不得不耗费高昂代价自行去采集数据,还要自行清洗数据。

国家数据集管理服务平台上线,直接回应了这项产业痛点,通过构建标准化的质量测评以及凭证申领机制,平台给数据交易打下了信任基础,削减了供需双方的交易成本,有投资人剖析觉得,这等同于给AI产业修筑一条“数据高速公路”,未来有希望催生出一批专门致力于数据清洗、标注、评测的专业服务商,使整个数据要素市场走向繁荣。

国家数据集平台上线,查数据、发布数据都在这里(图2)

从政策到落地 一年时间跑出“加速度”

回顾时间方面的线条,国家数据局自从在2023年10月挂牌成立起来以后,就把数据要素市场化配置方面的改革当成首要的核心任务 ,在2024年初发布的《“数据要素×”三年行动计划》当中明确地提出要去建设国家数据资源体系 ,现在平台开始上线进行试运行,从政策文件一直到实际系统落地仅仅只用了一年多的时间,推进的速度超过了业内原有的预期。

针对国际上类似的探索情况来看,欧盟曾致力于推动共同数据空间的建立,然而其主要是依靠行业联盟进行自发组织的情况;美国在这方面更多是依赖科技巨头所主导的商业化数据市场的情形。中国所选择的是一条有着政府指导、多方参与的别具特色的建设路径,这种路径既成功避免了纯市场模式之下会出现的信任缺失方面的问题,又成功避免了过度行政化进而导致的活力不足的状况。

普通用户也有获得感 医疗教育领域最先受益

这条新闻给普通人造成的影响,表面上瞧着挺遥远的,实际上距离很近。要是AI医生可以获取到更多具备高质量的罕见病影像数据,那它诊断的准确率就会有所提高;要是自动驾驶算法能够接触到更多处于极端天气状况下的路测数据,那么行车安全就会更具保障。数据供给能力得到提升,最终是能够转化成每个人都可以感受到的产品体验改善的。

在普通用户的视角来看,这项基础设施最为直接的变化或许是,当你开启手机里的智能应用时,会发觉它于处理繁杂问题之际的“犯错率”显著降低了。就医疗领域而言,北京协和医院有一位信息中心负责人称,他们打算把部分脱敏后的优质病例数据集借助平台进行开放共享,这能够助力基层医院的AI辅助诊断系统获取与顶级医院不相上下的训练水准。

交互性问题提出:于你平常所运用的智能类应用(像是AI助手、智能医疗、自动驾驶等)里面,你最为期望看到哪一方面的数据质量能够得以提高?欢迎于评论区域分享你的期盼,同时也千万不要忘记点赞转发从而让更多人知晓这一数据范畴的重大事件!

更多精彩文章请关注=>金色港湾资讯网 www.fzjsgw.com

分享更多
0
加载中~

您可能还会对下面的文章感兴趣:

底部横幅广告