
各位杜工谈谈的黄金会员、黑金会员及读者朋友们:
“杜工”团队专注中央财政项目及省级预算内项目谋划申 报,搭建科创、产业、企服运营新平台,与会员朋友共谋企投资补贴行业转型之路。提升产业投资认知,树立国家级项 目申报体系,协同产业科创新发展,利用中央财政帮助地方 政府及扶持企业共同穿越经济下行周期!
——文末二维码扫码加微信噢!!
数字经济专项的预通知已经下发了,很多朋友们在接到通知都懵逼了,怎么感觉跟别的公众号说的不一样,也跟去年申报的要求和内容也不一样??
去年一年的国家数据局的方向有那么多:
①数字化转型专项六个方向(区域综合服务)、②基础设施流通(可信空间、数场等)、③行业高质量数据集、④全域数字城市、⑤数字产业集群、⑥数据产业公共服务平台、⑦核心技术关键设备攻关。
今年的预通知只有三个方向但是有很多细分点:
①数据赋能(数字化转型)方向:
Ⅰ:重大场景建设:三医协同、多式联运、跨境贸易
Ⅱ:跨行业跨领域和产业链协同数字化转型
Ⅲ:全域数字化城市
Ⅳ:数字产业集群
②数据基础设施方向——加快构建数据高效供给、可信流通、便捷支付、场景应用四大方向;
③行业高质量数据集——17个领域

昨天我们看到国家数据局综合司征求行业高质量数据集的意见通知:

我们今天就针对行业高质量数据集写投资报告、写计划报告、写可研报告需要注意的点,需要审核的要素跟大家细说一下:
首先要理解什么是高质量数据集,我的一篇公众号已经讲过了,其次针对申报项目而言,哪些要素是必须的呢?
1、数据必须是明确权力所属,不能是公开开源数据;
2、企业作为龙头链主单位,汇聚一些专有机构的数据信息(比如我们公司要做口腔修复的行业质量数据集,我要汇聚武大口腔、整形医院、三甲医院、牙齿门诊、口腔影像等机构的数据)
3、数据量要足够大,因为高质量数据集分为三个方向:
泛通识数据集、行业通识数据集、行业专识数据集
我们最好要做的是行业专识数据集,就拿上面的这个口腔医学位列,我们要说明我们是属于“医疗卫生”行业——口腔外科整形与修复方向,所以采集的数据要多模态的(医疗影像数据、文字医嘱数据、整形前后的对比照片数据等等)
通过大量数据分析可以找到所属地区、同年龄、不同年龄、食物偏好、地区水质等一些医疗分析模型,比如30岁左右菏泽地区女性牙齿情况判断当地水质、食用食品适用情况等等;
4、要注意每个行业不同的学术术语,尤其是医疗领域;
5、要注意采集、清洗、汇聚、处理、分析、标注等等环节对行业的要求,比如口腔的要做去隐私化,患者名字、家庭住址、医保信息都不能有,其次就是伦理审查是否合理;
6、作为龙头企业做好的高质量数据集要赋能整个产业发展和高质量数据应用,所以你是否有做大模型训练的规划,其次对于产业链的运营实现和对接产业链上下游企业是否有框架协议,你做的数据集是否真有对产业链的痛点需求;
7、对于有数据基础基础也很重要,一个做产业投资的企业要做口腔的数据集,显然不和逻辑,是否有自己的自研研发团队也不一定,就像是一个19岁的男生说是一个中医专家显然是不合理的。以往的技术基础、数据基础也很重要,
8、其次国家数据局要求72个链主企业签约了任务书是必须要做数据集,这次是针对专识数据集,如果你说我们做医疗的全覆盖,你的数据即使有那么多,但是真不一定比人家签了任务书的厉害,走专识数据集是关键,比如江苏省镇江大全电气的数据集如果要申报应该突出大全作为铁道部特许系统集成商的独家资质,覆盖高铁/地铁/轻轨的H型钢立柱、GIS、刚性/柔性接触网等成套数据,名称杜工建议为:面向交通运输行业轨道牵引供电电气设备集成高质量专识数据集
跟相亲一样突出优势,先亮出来我的保时捷,再看我的劳力士。哈哈哈
9、建设行业高质量数据集有哪些功能:比如患者在牙根管治疗人工智能大模型中我的专识数据集可以根据患者的症状多轮对话、轮次比较高可以根据上下文的语义推测患者表达的想法、像专业医生一样给出方案甚至给出备用方案这种数据才是有价值的高质量数据;
10、我们发现如果是医疗数据还需要什么?还需要专家支持,比如企业要建立自己的专家库,只有三甲医院的副主任医师才能进入我们的专家库系统,才能成为标注辅助性的专家,专业教授成立了标注班,学校成立了标注专业(医疗实训课程),就减轻了企业养人标注的风险和资金压力还解决了就业问题;
11、作为龙头企业作为在数据要素元年得以批复的项目,你应该起到细分领域专识数据集的带头作用,要建立以“我”看齐的标准,都向排头兵看齐;
12、建议投资得超过“一个亿”,投资一个亿得有50%是资产投入投资,不然如何能带的动行业的数据集,出发是很细化的数据集(只针对牙科或者只针对14岁一下的婴幼儿牙科的数据集研究);
13、你还要解决两个问题:你做出来的数据集到底能不能用,应该怎么用?(场景) 项目谋划出来能做出来有没有人买单,有没有经济收入,有没有运营场景能不能赚得到钱哦?能不能用得做评估、评测,能不能赚得到钱就在于市场需求和痛点分析,你只有是行业专业资深老大或者协会搜集的痛点意见你能够通过数据集、大模型解除就行;
14、你还有解决的是:市面上有没有这样的数据集、大模型?如果已经有了,已经建成了,你为什么还要建设,还要投资,不能重复建设。数据是脱离了地理空间的存在,不像是产业园,所以如果有大厂在做了,肯定有细分没有建设的;比如科大讯飞做了外语翻译领域的数据集,但是不一定做了语言教育方向的数据集;
15、有很多会员在问,我如果是爬虫爬来的数据,比如司法数据能不能搞,答案是否定的,是公开信息的不行;
16、还有就是建设行业高质量数据集是我们自己的数据,数据安全保障很重要,所以你的操作系统、工具、硬件、设备国产化要高,其实确实不得不承认有些英伟达的GPU还是厉害一些,但是我们必须针对数据安全有保障;
如果预审没通过,要改报告的都可以找我们!!(一个省就10个)
“大道至简,实干为要。”
以下项目更有意思哦!!欢迎扫码咨询!
还有两业专项(磁性材料、疫苗、新型城镇化、西部专项)、农业领域、两重占频保轨、国产大飞机、金属与非金属材料、低空经济、人工智能+、农业设施更新等方向筹划、农机类两重国债新增专项资金,有需要可文末扫码联系!!部分项目已经开始了哦!!

郑重声明:严禁抄袭、违者必究,未经授权,不得转载!
撰稿:杜工
审核:穆图
编辑:小程