希尔贝壳:做好AI数据基础服务,实现人工智能民主化,我们任重而道远
人工智能时代已然来临,贝壳伴随着人工智能在各个场景中的做好智落地应用,算法、数据实现算力不再是基础高壁垒,为了不断提高算法精度,服务算法所必须的人工任重数据需求也空前爆发,一度催生了AI基础数据服务行业的民主繁荣。
行业繁荣的化们景象之下,还存在着一些问题,而道由于AI基础数据服务的贝壳数据标注业务相对门槛较低,玩家鱼龙混杂,做好智使行业标准模糊,数据实现服务质量参差不齐。基础目前多以人工标注为主,服务传统标注工厂在“人工成本”方面的人工任重优势正不断被削弱。因此,增强数据处理平台持续学习和自学习能力,利用机器学习辅助人工提升标注维度和精度,同时降低人工成本已经成为产业共识。另外,数据采集层面,针对数据源的版权问题、采集标准问题还没有很好解决;数据库的建设及服务还保持着一定的壁垒,通用场景的AI技术不断成熟,如何建设高精尖数据库在行业当下也需要去解决。
希尔贝壳成立于2017年,深耕场景AI数据服务,做好数据服务的技术创新同时并开始思考数据产业的下一步方向。
疫情肆掠过后,人工智能应用落地速度加快,而这背后,身处AI基础数据行业的希尔贝壳也在加速前行。
用机器辅助做数据标注切入AI基础数据服务行业
希尔贝壳创业初始聚焦语音数据服务,和创始人的背景密切相关。希尔贝壳CEO卜辉从韩国高丽大学AI实验室硕士毕业后,就一直从事智能语音技术及数据库建设方向的工作,对语音数据库以及语音智能产品有着深入的研究。
AI的算法需要大量带标签的数据,数据标注则是由人工为主导,在“有多少人工就有多智能”的产业背景之下,革新技术,行业标准和门槛的提升则显得更为迫切。
在人工智能快速迭代更新的节点,卜辉发现AI技术成本的变化速度惊人且市场竞争激烈,“比如一套通用AI系统相比一年前,价格基本折了三分之一,但是成就技术的数据并没有贬值。相反,数据处理、采集和加工的人力成本越来越高”。
在这样的背景下,智能化辅助标注平台显得尤为重要。这和卜辉最开始切入行业的初衷不谋而合。希尔贝壳的数据标注平台在工作高峰期拥有上万人在并行做数据标注的工作,如何在降低人工成本的情况下保证数据质量,卜辉认为,应当基于一个强大的智能化工作平台,通过完善算法模型和利用大数据分析来提高数据质量的管控和质检,将重复的标注工作做到智能化管理,提高数据标注效率。成熟的算法好比智能车间里的机器人,大数据分析系统好比智慧大脑在24小时做项目管理工作。
对此,希尔贝壳2018年研发并应用了四套智能标注系统来降低数据处理的成本:语音数据质量评测系统、语音自动标注系统、音频检索系统、智能化标注众包大数据分析系统。在数据任务分发、自动纠错、数据质量跟踪上,提高了数据标注的效率,降低了1/3的人工成本,实现从人工到技术,再让技术辅助人工完成高效的标注工作。
但卜辉对数据的思考并不止于此,“让懂技术的人去做数据,可以看到数据完整的生命周期。另外在数据采集方面,要确定版权除了人为的协议,还需要技术的加持,我们已经在开发电子认证、数据加密,既要考虑版权也要重视数据流通的安全。”在卜辉看来,好的数据能够帮助算法更好的去落地。
对此,希尔贝壳还拥有自建数据库的能力,并根据不同应用场景定制优质的数据库,以提高深度学习的算法精度,精准解决产品在场景下的技术痛点。
探索及制作高精尖数据库
自建数据库,是希尔贝壳创立之初就带有的基因,经过4年的探索之后,卜辉越发地重视数据库的业务,高精尖数据库的研发投入也不断扩大。并且在2019年,与西北工业大学音频语音与语言处理研究组联合成立“智能语音与多模态数据实验室” 。
目前,希尔贝壳的客户包括阿里、腾讯、京东、联想、百度等,“大部分客户更多的合作在于希尔贝壳的数据采标方案、数据的质量和专业的服务上。”此外,希尔贝壳持续在数据开源的项目上做投入,目前开源的数据库申请规模已经达到了500+,实现了我们开源数据助力产学研共同发展的目的,在希尔贝壳的品牌建设上也树立了口碑,在业务上也给希尔贝壳开拓了新的方向。而卜辉提到的开源数据项目,就是【AISHELL系列的精标语音数据集】。
响应国家号召,加深【开源】项目建设
今年3月12日,新华社播发 《 中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,其中【开源】首次被明确列入国民经济和社会发展五年规划纲要。从纲要提到的“支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码、硬件设计和应用服务”,可以看出国家在战略层面对「开源」的肯定和支持。这足以说明开源是大势所趋。
希尔贝壳成立之初就建立了开源社区,开源了178小时的AISHELL-1中文普通话精标语音数据集。同时搭载全球最大开源语音识别系统Kaldi做了一套开源方案,将有研发价值的数据贡献到科研教育机构。
AISHELL-1开源之后,卜辉发现,高校学生在使用这套方案的同时,很多中小型企业也在利用它进行语音识别技术的研发和产品相关研究,但效果就偏弱了一些。
因此,在2018年6月23日Kaldi第三届全国线下技术交流会上,作为联合主办方之一的希尔贝壳再次开源了全球最大的中文开源数据库AISHELL-2,时长1000小时。这个开源项目不只局限于数据,还包括Kaldi配套的recipe应用。同时成立了AISHELL Foundation来共同推进语音数据和技术的不断开源计划。
AISHELL-2由1991名来自中国不同口音区域的发言人参与录制,文本内容主要涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。并经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在98%以上。
AISHELL-2是全球最大的中文语音数据开源项目,也是最成功的。也正是因为这次开源,不仅让希尔贝壳被业界所知晓,更是让让希尔贝壳收获了全球的智能语音研究高校合作资源。 “AISHELL-2的开源项目,确定了数据开源的模式,即算法方案、优质的数据集、实验系统的描述这三个维度来做方案,让开源项目能够惠及更多的开发者。对比CV领域ImageNet这样的开源数据库,我们做的还远远不够,但我们会持续做下去,也希望整个产业有更多的人来贡献。”卜辉强调。
数据库做为数据产品需要经历投入成本、市场认可、数据库质量三个维度考核,这也形成了数据库的建设壁垒。AISHELL-1 & 2中文普通话精标语音数据集的建设与开源也验证了希尔贝壳自建数据库的能力。成熟的算法要解决场景化的匹配调优问题,让AI找到了新的挑战。相对AISHELL-1 & 2 赋能基础的语音应用技术,场景化的数据库建设更为复杂,需要考虑技术的满足指标和真实场景数据的匹配等等。场景数据开源的方案希尔贝壳也陆续公开发布了 HI-MIA,智能家居场景的语音唤醒开源项目;联合昆山杜克大学一起发布的多说话人语音合成项目AISHELL-3。 更是把智能语音技术+数据开源的方案树立起了希尔贝壳自有的能力门槛,前沿技术落地数据先行的理念在希尔贝壳充分得到验证。
今年希尔贝壳会推出AISHELL-4,聚焦会议场景的智能语音技术方案,目前开源项目的论文已经公布,该项目方案也是产学研最全面的会议场景方案,相信会推动智能语音技术在会议场景的研究及落地。
希尔贝壳目前已形成了智能语音技术+数据的矩阵开源方案,覆盖语音识别、声纹识别、语音合成、场景智能语音技术应用方案。
数据服务的创新思考:算法和数据的辩证关系
在不断拓宽业务的深度和广度的同时,卜辉更着重思考业务背后的技术逻辑,如何用技术助力和创新业务。创业期间,卜辉一直在思考数据标注、数据采集、数据库和算法之间的联系。在卜辉看来,数据和算法之间是一个辩证的关系,数据是算法的基础,但开源的算法也为数据质量助力,此外,数据库的建设也需要有前沿算法的意识。“因为数据库是为算法和应用层服务的,在对算法有一定的了解背景下去做数据库,则更为清晰。另外,技术落地数据先行是一个必然的趋势。当技术逐渐成熟后科研人员更聚焦用数据去验证技术。”
在AI基础数据服务行业中,希尔贝壳已经拥有了成熟的两大业务形式,包括数据集产品(自建并开源数据库)和数据需求的定制服务(数据采集/标注)。卜辉说道:“做好场景下的数据采标,垂直在场景建数据库,已经成为希尔贝壳的特色和亮点。在AI新基建的路上,非结构化数据的管理、标注、分析、安全等还有很多问题需要解决,基础数据服务要跟上产业的发展投入研发拓展创新,才能真正做到服务产业服务好产业。”
尽管身处在AI基础数据服务行业,但从希尔贝壳的4年发展路径来看,聚焦场景化数据业务,其对人工智能数据的思考和创新不止于此,这和创始人卜辉的创新思维有很大的联系。卜辉一直强调,创新的力量,“尽管数据服务属于人工智能产业的基础层,越基础越要做到扎实,思考不能局限在这一层,从产业的角度去思考和改变,不断提升我们的业务能力。”
在卜辉看来,希尔贝壳用4年的时间做数据层面的创新只是第一步。谈及未来的规划,卜辉说道:“通过技术引领数据业务的发展,通过数据带动技术产业的成熟,在未来用前沿的数据库去服务开发者和科研人员,降低企业在算法落地层面的成本。还要用更多的开源数据与教育、研发、产品等相结合让技术落地走进更多的场景,为实现人工智能民主化希尔贝壳还需要更努力。”
雷锋网雷锋网
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
4988
-
浏览
15786
-
获赞
42
热门推荐
-
马丁内利:外界的人怎么说都无所谓,我们相信我们自己
北京时间1月20日,阿森纳主场5-0战胜水晶宫。赛后,在补时阶段攻入两球的马丁内利接受了媒体的采访。 马丁内利表示:“我为球队感到开心。我觉得我们需要这样的表现。哪怕我只为球队踢1分钟、2分钟、3分钟揽获五项大奖! A.O.史密斯“健康厨房”领跑2023中国厨卫产业创新峰会
近日,“2023中国厨卫产业创新发展峰会”圆满落幕。本次峰会由奥维云网主办,以“穿越周期 共谋增长”为主题,汇集了横跨家电、家居、五金、燃气具、建材等多天河机场多点位免费供应热姜茶
湖北日报讯 记者李源、通讯员包倩、龙潇)新一轮雨雪冰冻天气来袭,为给旅客提供愉悦温暖的就餐和购物体验,自2月20日起至本轮寒潮结束,湖北机场集团实业公司联合T3航站楼内30余家餐饮店铺,为往来机场旅客俄外长称美企图没收并窃取俄全球资产
当地时间2月21日,二十国集团外长会议在巴西里约热内卢召开。据俄罗斯媒体当地时间22日报道, 出席会议的俄罗斯外长拉夫罗夫表示,美国正酝酿没收并窃取俄罗斯在全球的资产,美国商业资本也在征用并开发乌克兰天猫双11服饰品牌成交爆发,首小时3754个品牌成交同比翻倍
10月21日晚8点,天猫双11现货开卖,开卖首小时,3754个服饰品牌成交同比去年开卖首小时翻倍。羽绒服成交同比双位数增长,Moncler、高梵首小时成交超去年全天。头部服饰品牌集体爆发,Miu Mi华北空管局通信网络中心召开2024年培训工作准备会议
本网讯(通讯员:刘蜀燕)12月21日,华北空管局通信网络中心召开了2024年培训工作准备会议,中心陶乐副主任、技术业务室和各运行单位分管培训副主任及三个技术小组负责人参加。 会上,陶乐副主任对年度培坚守岗位 保障通信畅通
通讯员:金鑫)近日,民航东北空管局通信网络中心东塔有线通信部设备保障人员在冬季复杂天气情况下,值班员加强设备巡视检查,确保通讯畅通,设备运行正常。滴滴金融:纾解小微企业融资难问题
滴滴金融:纾解小微企业融资难问题随着经济社会的发展,小微企业发挥的作用越来越显著,越来越多的人选择做些小买卖,为社区提供民生服务,郭春宇就是其中的一员。据了解,郭春宇在互联网行业辗转奋斗了10年。从O瓦茨克:非常尊重克洛普离开利物浦的决定
1月26日讯 多特蒙德CEO瓦茨克今天接受了媒体采访,并谈到了赛季末将离开利物浦的克洛普。克洛普曾在2008年至2015年执教多特蒙德,瓦茨克说道:“我对于克洛普的决定感到无比尊重,并对此极为欣赏。”《烟火人家》让家庭题材剧冲破窠臼
由杨晓培担任艺术总监及总制片人,徐帆、马思纯领衔主演的家庭话题全景群像剧《烟火人家》,正在CCTV-1黄金档、腾讯视频热播。该剧开播以来,就以当下人们真实的生活状态还原和“女性群像”的成功塑造,展现鲜中南空管局气象中心成功完成世界区域预报系统国产化数据替代工作
12月28日上午9:00,随着航空气象综合信息服务系统上的“航空飞行气象资料提供”、“重要天气预告图”、“风、温预告图”页江西空管分局开展无线电干扰培训
12月21日,江西空管分局技术保障部针对无线电干扰防控监测技术开展培训,旨在提高技术人员的基础理论与实际操作能力。本次培训邀请了甚高频设备厂家专家授课,包括无线电干扰产生的原因,主要干扰源,应对解决办新质生产力“普渡”众生,渡有“盐电优能﹒建真心”
报载:最近,盐城建湖供电公司“盐电优能﹒建真心”服务队,来到普渡商服机器人建湖工厂生产车间,与管理人员真诚交流,了解企业数天前投运的4台变压器及配套电力设备运行状况,并协助企业锡林浩特机场开展离港系统中断应急演练
本网讯锡林浩特机场葛丽娟 报道)为进一步加强机场应急处置能力,提升机场航班保障能力,12月26日,锡林浩特机场组织开展离港系统中断应急演练。本次演练模拟在办理乘机手续过程中,发生离港系统突然中断、同时亿缕阳光|文化传承看少年
一个个耀眼的新生代力量,让中华优秀传统文化在传承中更加璀璨!