众所周知,数据对于人工智能产业的重要性就如同石油之于工业一样。传统的人工智能数据生产过程是人工采集标注大量的数据给机器去学习,这样的处理数据方式是高成本的,低效率的,并且无法大规模生产的。
数据堂自主研发的“Human-in-the-loop人在回路”的技术应用到人工智能数据生产中后,可以将人工的采集标注与智能工具标注相互迭代,融为一体,从而显著提高数据生产效率,降低生产实施成本,扩大产能。(完整视频请搜索:数据堂“Human-in-the-loop”智能数据工厂)
简单来说,Human in the loop数据处理过程是:人处理的数据,教给机器学习,机器将学习的结果反馈给人工进行校对,持续提升准确率。当最后有大量的原始数据给机器的时候,机器便可以很快的处理,直接提供出结果数据。
车辆检测
半监督深度学习的图像分割数据标注技术,可以有效提高无人驾驶标注数据集的生产效率,实现精确的目标检测和像素级分割,并半自动地完成上百个属性的标注。这样无人驾驶数据的生产方式,才能满足国内外日益增长的智能无人车市场需求。
文字识别
也称为OCR,数据堂基于半监督深度学习的文字识别技术,通过注入海量标注数据做预训练,并伴随人工的监督性学习,可以明显提高OCR标注数据集的质量,提升OCR标注数据产品生产效率。
语音识别
自语音识别技术进入深度学习时代,语音识别准确率突飞猛进。数据堂半监督深度学习的语音识别数据标注技术,利用Kaldi识别引擎对语音数据做预识别和自然语言辅助纠错,再加上人工的监督性校对,可以显著提高语音识别标注数据集质量。
人脸检测
人脸检测常用的数据集,包括FDDB、AFLW、WIDER FACE等。应用人机交互式的标注技术,将人脸预识别结果通过人机交互式修正,如此往复,可以有效提高数据处理速度,人脸关键点标注数据,从68点快速过渡到95点、106点、202点等,有效降低人工成本。
视频追踪
视频追踪是也是当下人工智能技术研究的重点方向,数据堂视频目标跟踪数据标注技术,通过人机交互、过程纠偏、自学习反馈机制,实现近乎逐帧的目标对象框选、主体ID对齐、显现片段等,有效解放人工操作,进而降低生产成本、提高数据质量。
数据堂跟踪统计结果表明,“Human in the loop”技术的应用,使数据处理的效率平均提升25%以上,数据堂坚信智能数据处理工具的普及将带来的不仅仅是AI数据产业的提升更是整个AI产业革命性的创新。
数据堂的AI开放实验室目前已聚集数位人工智能数据科学家。专注于多模态数据采集、大数据处理、人工智能数据标注加工等方面的研究。我们欢迎更多的伙伴加入我们,数据堂有海量的数据和训练集群,我们希望有更多的算法和调优技巧的融入,让我们共建智能数据工厂,助力AI产业创新。
关于数据堂
数据堂(北京)科技股份有限公司,成立于2011年(股票代码:831428),专业的人工智能数据服务提供商,致力于为全球人工智能企业提供数据获取、处理及数据产品服务。数据堂总部位于北京,拥有8家全资和控股子公司,并在硅谷设立美国子公司,目前在南京、保定、合肥、贵阳等地设有多个专业数据处理中心。数据堂数据采集范围遍及全球30多个国家,合作伙伴遍布世界10多个国家。公司创始人及合伙人来自Stanford University、NEC、中国移动等知名高校和高科技公司。数据堂已成功为国内外众多企业提供人工智能数据产品与服务,包括百度,腾讯,阿里巴巴、奇虎360、联想、科大讯飞等国内顶级互联网和高科技企业,Microsoft、NEC、Canon、Intel、Samsung、Nuance、Fujitsu等企业及在华研发机构。
|