`

大数据读书笔记(1)

 
阅读更多
Data Mining的目的:
为数据建模。为数据建模的主要有一下的几个方向:
1、统计模型:统计数据的可视化就是其中最常见的用途。
2、机器学习:机器学习应用方向主要是我们都不知道能从数据获得什么信息,通过机器学习渐进式的获取数据的信息。 对于哪些我们明确知道想从其中获取什么信息的数据分析领域并不适用。
3、计算领域建模:该模型的主要作用是提升对该数据进行复杂查询的效率。
4、数据归集:最典型的例子就是PageRank算法,它把一个网页上的所有的数据最后归集为一个数字,这个数字就代表了该网页对你的查询条件来说的重要性;另一个方向就是把数据投射到多维空间变为一个点。然后通过点之间的距离对数据进行归类,所有数据集的特征总和就是该数据集的值。
5、特征提取:这个模型的主要目的是发现数据集中的一些现象级的数据特征。常见的现象级数据特征有:频繁出现的数据集,比方说,在超市买啤酒的人总会还买一袋花生之类的;相似的数据项,比方说推荐系统,发现某人和你的口味差不多,系统会向你推荐那个人还买了些什么东西。

Data Mining的误区:
Data Mining最常见的误区就是试图去发现海量数据中不常出现的事件特征,比方说布什政府的TIA(Total Information Awareness)项目曾经尝试从所有用户数据中找出有嫌疑的恐怖分子。
因为在数据量足够大的时候,会出现一些随机的状况,我们却有可能把一些随机的现象当做特征事件对待,从而导致误判。如上面提到的TIA计划,有可能错误的把一个普通人当做恐怖分子给处理了,这是非常危险的。 在统计学界有专家专门研究了如何避免这种误判,这个方法被称作:Bonferroni’s Correction。
其具体原理是:如果在同一数据集上同时检验n个独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。举个例子:如要在同一数据集上检验两个独立的假设,显著水平设为常见的0.05。此时用于检验该两个假设应使用更严格的0.025。即0.05* (1/2)。该方法是由Carlo Emilio Bonferroni发展的,因此称Bonferroni校正。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics