Data Mining的目的:
为数据建模。为数据建模的主要有一下的几个方向:
1、统计模型:统计数据的可视化就是其中最常见的用途。
2、机器学习:机器学习应用方向主要是我们都不知道能从数据获得什么信息,通过机器学习渐进式的获取数据的信息。 对于哪些我们明确知道想从其中获取什么信息的数据分析领域并不适用。
3、计算领域建模:该模型的主要作用是提升对该数据进行复杂查询的效率。
4、数据归集:最典型的例子就是PageRank算法,它把一个网页上的所有的数据最后归集为一个数字,这个数字就代表了该网页对你的查询条件来说的重要性;另一个方向就是把数据投射到多维空间变为一个点。然后通过点之间的距离对数据进行归类,所有数据集的特征总和就是该数据集的值。
5、特征提取:这个模型的主要目的是发现数据集中的一些现象级的数据特征。常见的现象级数据特征有:频繁出现的数据集,比方说,在超市买啤酒的人总会还买一袋花生之类的;相似的数据项,比方说推荐系统,发现某人和你的口味差不多,系统会向你推荐那个人还买了些什么东西。
Data Mining的误区:
Data Mining最常见的误区就是试图去发现海量数据中不常出现的事件特征,比方说布什政府的TIA(Total Information Awareness)项目曾经尝试从所有用户数据中找出有嫌疑的恐怖分子。
因为在数据量足够大的时候,会出现一些随机的状况,我们却有可能把一些随机的现象当做特征事件对待,从而导致误判。如上面提到的TIA计划,有可能错误的把一个普通人当做恐怖分子给处理了,这是非常危险的。 在统计学界有专家专门研究了如何避免这种误判,这个方法被称作:Bonferroni’s Correction。
其具体原理是:如果在同一数据集上同时检验n个独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。举个例子:如要在同一数据集上检验两个独立的假设,显著水平设为常见的0.05。此时用于检验该两个假设应使用更严格的0.025。即0.05* (1/2)。该方法是由Carlo Emilio Bonferroni发展的,因此称Bonferroni校正。
分享到:
相关推荐
对于一个企业,最理想的是建立一个类似人类神经系统的数据管理系统,采用各种信息终端采集内部和外部信息,通过分析、归纳、筛选,形成管理数据,某些数据可以成为系统的"本 大数据读书笔记全文共9页,当前为第1页。...
大数据时代读书笔记2021年.pdf
GFS大数据论文阅读笔记
大数据时期读书笔记.pdf
《大数据》读书笔记.docx
主要记录了我阅读架构大数据-大数据技术及算法分析时觉得是重点的知识,涉及以下内容:大数据、云计算、Hadoop、Spark、推荐算法等 ps:请用XMind软件打开
大数据时代读书笔记范文5篇.docx
《走近大数据》读书笔记模板.pptx
我们现在做的只是冰山一角,但是由于庞大的数据新来源而带来的定量化方法,将横扫学界、商界和政界,所有领域都将被触及——哈佛大学定量社会研究所主任加里 • 金(Gany King),《大数据》读书笔记ppt模板。
bigdata大数据时代读书笔记精华观点和核心语句.pdf
《大数据》PPT读书笔记.pptx
ACP大数据笔记,幸辛苦苦整理的,希望大家可以仔细阅读
《大数据与机器学习-实践方法与行业案例》读书笔记&思维导图,看书时做的笔记,分章节写的,比较全,方便查找。
读书笔记大纲内容
《大数据挑战-NoSQL数据库技术》读书笔记
bigdata《大数据时代》读书笔记-精华观点和核心语句.pdf
读书笔记1: 《大数据时代》生活、工作和思维的大变革 【英】维克托·迈尔—舍恩伯格 肯尼斯·库克耶著 大数据标志着人类在寻求量化和理解世界的道路上前进了一大步。过去不可计量 、储存、分析和共享的很多东西都被...
教师暑假读书笔记-读《大数据》随感.doc
读书笔记-028号《大数据时代》.ppt