搜狐媒体平台-搜狐网站>IT

他一出家就成中国最帅和尚

眼眸深邃、轮廓分明、身材颀长,活生生的一幅画。

大学副教授与在押服刑女结婚

这在监狱民警看来,那么令人不可思议。

【走进源代码】Vertica的噪音检测,让分析更精准!

HPE大数据 阅读(0) 评论()
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。举报

  “听说、传闻、坊间流传...”,在这个信息泛滥的时代,你能辨清其中的真真假假吗?对于吃瓜群众来说,不够可信的信息可能仅仅会混淆视听。

  而对基于数据做分析的企业来说,“差之毫厘,失之千里”,不够准确的数据,往往会影响一系列业务决策的制定。

  为了获取真知灼见,对鱼龙混杂的海量数据进行的纠偏尤为重要。“数”中自有黄金屋,Vertica正在帮助具有复杂信息的公司找到异常值,获取更精准的数据分析来提升业务效益。

  Vertica8.0.1中,新增加了一个DETECT_OUTLIERS函数,该函数允许您能够找出那些特殊值(噪音数据),并进行处理。通常情况下,您在基于数据做预测分析之前,都需要清洗噪音数据,避免造成分析结果的偏差。

  该函数利用最新的robust z-score方法,找出异常值,避免对于分析结果的影响。该函数用法如下:

  

  您可以检测多属性的异常值,例如,下面我们检测hr、hits和salary字段是否有异常值:

  

  表baseball_hr_hits_salary_outliers中罗列了所有异常数据,我们可以创建一个视图排除噪音值,为客户提供可以信赖的参与分析运算的正常数据。例如:

  

  我们通过下面的例子,来理解z-score算法,通过下面数据观察,id等于1和3的数据明显和其他数据有着明显的不同:

  

  采用常规的Z-score方法,可以给定一列值中距离平均数多少个标准差。这种方法可以看出给定值在分布中相对位置的方法。在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。

  robust z-score使用中位数代替平均值,这样有助于消除一些离群数据的影响。如:

  

  HPE Vertica

  更灵活的分析引擎,助您快速查询数据

  HPE Vertica,适用于包括硬件、虚拟机、云在内的各种运行环境。同时,Vertica易于安装和部署,能满足您的各种业务需要。欢迎您的试用!

号外号外??Vertica China中文网站开!通!啦!

丰富的案例介绍

实用的视频呈现

更多精彩,不容错过

mt.sohu.com true HPE大数据 https://mt.sohu.com/20170327/n485049478.shtml report 3274 “听说、传闻、坊间流传...”,在这个信息泛滥的时代,你能辨清其中的真真假假吗?对于吃瓜群众来说,不够可信的信息可能仅仅会混淆视听。而对基于数据做分析的企业来说
阅读(0) 举报
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。

热门关注

搜生活

搜生活+关注

搜狐公众平台官方账号

MAGIC杨梦晶

MAGIC杨梦晶+关注

生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者

搜狐教育

搜狐教育+关注

搜狐网教育频道官方账号

星吧GEO

星吧GEO+关注

全球最大华文占星网站-专业研究星座命理及测算服务机构

热门图片

  • 热点视频
  • 影视剧
  • 综艺
  • 原创
锦绣缘

同步热播-锦绣缘

主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
神雕侠侣

大结局-神雕侠侣

主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
封神英雄榜

同步热播-封神英雄榜

主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓

六颗子弹

主演:尚格·云顿/乔·弗拉尼甘/Bianca Bree
龙虎少年队2

龙虎少年队2

主演:艾斯·库珀/ 查宁·塔图姆/ 乔纳·希尔

《奔跑吧兄弟》

baby14岁写真曝光

《我看你有戏》

李冰冰向成龙撒娇争宠

《明星同乐会》

李湘遭闺蜜曝光旧爱

《非你莫属》

美女模特教老板走秀

《一站到底》

曝搬砖男神奇葩择偶观

搜狐视频娱乐播报

柳岩被迫成赚钱工具

大鹏嘚吧嘚

大屁小P虐心恋

匆匆那年第16集

匆匆那年大结局

隐秘而伟大第二季

乔杉遭粉丝骚扰

The Kelly Show

男闺蜜的尴尬初夜

我来说两句排行榜

客服热线:86-10-58511234

客服邮箱:kf@vip.sohu.com