问答题
简述离群点挖掘问题的构成。
(1)定义在一个数据集中什么数据是不一致或者离群的数据。 (2)找出所定义的离群点的有效挖掘方法。
问答题 为什么要关注离群点?
问答题 下表所示的相依表汇总了超级市场的事务数据。其中hot dogs指包含热狗的事务,指不包含热狗的事务。hamburgers指包含汉堡的事务,指不包含汉堡的事务。 假设挖掘出的关联规则是“hot dogs=>hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%,这个关联规则是强规则吗? 计算关联规则“hot dogs=>hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?
问答题 分别说明利用支持度、置信度和提升度评价关联规则的优缺点。