“听说、传闻、坊间流传...”,在这个信息泛滥的时代,你能辨清其中的真真假假吗?对于吃瓜群众来说,不够可信的信息可能仅仅会混淆视听。
而对基于数据做分析的企业来说,“差之毫厘,失之千里”,不够准确的数据,往往会影响一系列业务决策的制定。
为了获取真知灼见,对鱼龙混杂的海量数据进行的纠偏尤为重要。“数”中自有黄金屋,Vertica正在帮助具有复杂信息的公司找到异常值,获取更精准的数据分析来提升业务效益。
在Vertica8.0.1中,新增加了一个DETECT_OUTLIERS函数,该函数允许您能够找出那些特殊值(噪音数据),并进行处理。通常情况下,您在基于数据做预测分析之前,都需要清洗噪音数据,避免造成分析结果的偏差。
该函数利用最新的robust z-score方法,找出异常值,避免对于分析结果的影响。该函数用法如下:
您可以检测多属性的异常值,例如,下面我们检测hr、hits和salary字段是否有异常值:
表baseball_hr_hits_salary_outliers中罗列了所有异常数据,我们可以创建一个视图排除噪音值,为客户提供可以信赖的参与分析运算的正常数据。例如:
我们通过下面的例子,来理解z-score算法,通过下面数据观察,id等于1和3的数据明显和其他数据有着明显的不同:
采用常规的Z-score方法,可以给定一列值中距离平均数多少个标准差。这种方法可以看出给定值在分布中相对位置的方法。在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。
robust z-score使用中位数代替平均值,这样有助于消除一些离群数据的影响。如:
HPE Vertica
更灵活的分析引擎,助您快速查询数据
HPE Vertica,适用于包括硬件、虚拟机、云在内的各种运行环境。同时,Vertica易于安装和部署,能满足您的各种业务需要。欢迎您的试用!
号外号外??,Vertica China中文网站开!通!啦!
丰富的案例介绍
实用的视频呈现
更多精彩,不容错过
我来说两句排行榜