| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 存储>

数据质量:大数据和机器学习的数据质量怎样演变?

2020-11-26 14:10 作者:CPDA数据分析师网 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

大数据会影响质量,因为大数据的定义特征是数量,种类和速度使验证变得困难难以捉摸的“第四”,即准确性组件(关于数据可靠性),由于可能会聚集大量的数据源而面临挑战,每个数据源可能会遇到不同的质量问题,大数据还释放了可能引入新类型数据错误的新的和更复杂的查询的可能性,同时由于非结构化数据比结构化数据具有更大的不确定性,因此非结构化数据会产生问题,并且机器学习算法倾向于充当“黑匣子”,其中数据中包含的偏差可能永远不会消失。您的数据质量工具箱尽管已经开发了许多工具来解决数据质量问题,但是如果不小心应用自动条目更正本身可能会降低数据质量,所有影响数据清晰度的因素(例如准确性,一致性,及时性,重复性,易失性,完整性和相关性)都可能导致进一步的问题,因为企业会更正数据并将其调整为适合处理的形式,每个转换都可能会丢失可能与给定查询相关的信息,当前的数据质量工具由主要的分析公司,利基公司和开源提供,它们提供诸如数据清理,数据概要分析,数据匹配,数据标准化,数据丰富和数据监视之类的功能,诸如金融服务之类的利基工具专注于特殊类型的问题,并且正在开发新的工具,这些工具采用机器学习技术进行数据分类和数据清理。在将大数据与机器学习相结合的地方,还会出现其他质量问题为规范化数据而进行的更改可能导致机器学习算法在解释上出现偏差,大型数据存储中错误发生的频率相对较低,可以说使得对数据质量检查的需求变得不那么重要了,但现实情况是,质量问题只是转移到了其他领域,自动校正和一般假设可能会在整个数据集中引入隐藏的偏差。

保持真实必须根据业务需求了解数据质量,在某些情况下,需要采用涉及无数变量的严格方法,但是对于许多查询而言,更宽容的方法是可以接受的,在及时性和准确性,查询值和数据清理以及准确性和可接受的错误之间始终需要权衡取舍,在复杂的数据和分析环境中,没有一个适合所有大小的空间,查询需要不同级别的准确性和及时性。以一种方式构造的数据可能适用于某些用途,但会导致其他用途的结果不准确或有偏差。数据质量的最终测试是它是否产生所需的结果这要求进行严格的测试,并考虑引入错误的潜在原因,尽管用于数据清理,规范化和整理的工具越来越受欢迎,但可能的因素的多样性意味着这些过程不会在短期内完全实现自动化,随着自动化的普及,您必须确保自动化解决方案不会由于转换规则而在数据流中引入新问题。确定性的不确定性由于数据集和结构化数据有限,因此数据质量问题相对明确,创建数据的过程通常是透明的,并且会遇到已知错误:数据输入错误,表格填写不正确,地址问题,重复等,可能的范围相当有限,并且要严格定义处理的数据格式,随着机器学习和大数据的出现,数据清理的机制必须改变,除了更多,更快的数据外,非结构化数据的不确定性也大大增加,数据清理必须解释数据并将其放入适合处理的格式,而不会引入新的偏差,此外质量过程将根据特定用途而有所不同。数据质量比绝对质量更重要

根据研究目标和业务目标,需要使查询与数据集更好地匹配,数据清理工具可以减少数据流中的一些常见错误,但始终存在潜在的意外偏见,同时查询需要及时且负担得起,从未迫切需要一种谨慎的数据质量方法,机器学习和高级软件工具无疑提供了解决方案的一部分,从而有可能为质量问题带来新的方法,但是没有万能药,更高级别的复杂性意味着需要更仔细地检查数据。来源:CPDA数据分析师网 / 作者:数据君 /

【对“数据质量:大数据和机器学习的数据质量怎样演变?”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·大数据流量矩阵的崛起 大数据用户数量将会不断上
·JetBrains深耕大数据工具领域,助力企业挖掘数据
·业内首次融合数据仓库与数据湖 阿里云推出下一代
·大数据杀熟什么意思?大数据杀熟行为明令禁止怎
·借助MLOps大规模运行ML组织认识到机器学习
·用大数据解码 起底百亿潮玩市场背后的生意经什么
·同盾科技联手浙江交投共建高速大数据平台
·中科院计算所大数据研究院联合实验室,助力河南
头条
用大数据解码 起底百亿潮玩市场背后的生意经什么样 用大数据解码 起底百亿潮玩市场背后的生意经
2020年6月初,以潮流玩具为主营业务的泡泡玛特,向港交所递交招股书,正式迎来第二次……
·降低云基础架构的复杂性 更好的云基础架构设
·9大云计算焦点趋势 50位顶尖机构分析师云栖大
·用大数据解码 起底百亿潮玩市场背后的生意经
·中国推进“上云用数赋智”行动 培育新经济发
·联泰集群在北京发布水晶静音工作站产品 性能
图文
助力新基建典范城市建设,厦门神州数码云计算有限公司成立
助力新基建典范城市建设,厦门神州数码云计
融云构建完整产业生态 输出通信云全能力
融云构建完整产业生态 输出通信云全能力
提升竞争地位,谷歌云计算业务部门裁员重组
提升竞争地位,谷歌云计算业务部门裁员重组
联通大数据上线多款精准防控查询工具 疫情信息全面掌握
联通大数据上线多款精准防控查询工具 疫情
热点
·拥有专属的家庭云NAS储存是种怎样的体验?
·提升竞争地位,谷歌云计算业务部门裁员重组
·联通大数据上线多款精准防控查询工具 疫情信
·企企通科技荣获2018爱分析中国云计算创新企业
·沈昌祥院士确认出席2019世界计算机大会并发表
旧闻
·2019云天大会召开 8个项目集中签约助力大数据
·共克时艰 解放号云端开启柳州数字转型新征程
·逆风前行,共渡难关 迪普科技解决方案获IDC认
·甲骨文大败局:中国区大裁员 错失云计算机会
·迅雷发布2018年度财报:云计算连续三年上涨
广告
硅谷精选
助力新基建典范城市建设,厦门神州数码云计算有限公司成立
助力新基建典范城市建设,厦门神州数码云计算有限公司
融云构建完整产业生态 输出通信云全能力
融云构建完整产业生态 输出通信云全能力
新华三x86服务器稳居中国前三,刀片持续领跑
新华三x86服务器稳居中国前三,刀片持续领跑
隐私安全水平全球领先 华为终端云服务获颁BSI卓越绩效大奖
隐私安全水平全球领先 华为终端云服务获颁BSI卓越绩效
开发者云上第一站 阿里云推出全新“开发者成长计划”
开发者云上第一站 阿里云推出全新“开发者成长计划”
「巨量算数」平台重磅上线,为行业提供前沿内容消费趋势洞察
「巨量算数」平台重磅上线,为行业提供前沿内容消费趋
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved.

硅谷网备案号:京ICP备12003855号-2