1. 我的消息
  2. 鸿运国际
  3. 我的学院
  4. 我的下载
  5. 我的收藏
  1. 消息
  2. 搜索条件:
    点击返回全部
      1. MADlib——基于SQL的数据挖掘解决方案(20)——时间序列分析之ARIMA

        一、时间序列分析简介1. 时间序列的定义        所谓时间序列就是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周、月等。这一组数据可以表示各种各样的含义,如经济领域中每年的产值、国民收入、商品在市场的销量、股票数据的变化情况等;社会领域中某一地区的人口数、医院...
        原创
        2018-02-11 15:36:26
        86
        0
      2. MADlib——基于SQL的数据挖掘解决方案(19)——回归之聚类方差

                Clustered Variance模块调整聚类的标准误。例如,将一个数据集合复制100次,不应该增加参数估计的精度,但是在符合独立同分布假设(Independent Identically Distributed,IID)下执行这个过程实际上会提高精度。另一个例子是在教育经济学的研...
        翻译
        2018-02-08 13:45:39
        51
        0
      3. MADlib——基于SQL的数据挖掘解决方案(18)——回归之稳健方差

        Robust Variance模块中的函数用于计算线性回归、逻辑回归、多类逻辑回归和Cox比例风险回归的稳健方差(Huber-White估计)。它们可用于计算具有潜在噪声异常值的数据集中数据的差异。此处实现的Huber-White与R模块“sandwich”中的“HC0”三明治操作完全相同。    ...
        翻译
        2018-02-07 14:56:36
        68
        0
      4. MADlib——基于SQL的数据挖掘解决方案(17)——回归之Cox比例风险回归

        一、Cox比例风险回归简介        Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归模型,由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。 1.  基本...
        原创
        2018-02-06 11:39:18
        74
        0
      5. MADlib——基于SQL的数据挖掘解决方案(16)——回归之弹性网络回归

        一、弹性网络回归简介        要想理解弹性网络(Elastic Net)回归,正则化是必须要首先知道的,其次是岭回归和Lasso回归,知道了这些,弹性网络回归自然也就明白了。 1.  正则化        假设利用最小二乘法来做线性回归,最小二乘法回归成功的条件是:        即上面这个函...
        原创
        2018-02-05 16:32:17
        46
        0
      6. MADlib——基于SQL的数据挖掘解决方案(15)——回归之序数回归

        上篇介绍的多类回归,因变量的多个分类是无序的,即所谓的定类数据。还有一种分类数据,其类别存在大小顺序,即定序数据。这两类逻辑回归的原理是不同的。本篇介绍MADlib的序数回归模型。 一、序数回归简介        在统计学中,序数回归(Ordinal Regression,也称为“序数分类”)是一种...
        原创
        2018-02-02 13:42:51
        55
        0
      7. MADlib——基于SQL的数据挖掘解决方案(14)——回归之多类回归

        一、多类回归简介1. 基本介绍        如上篇所述,逻辑回归比较常用的是因变量为二分类的情况,这也是比较简单的一种形式。但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效”“显效”“痊愈”三类,当然可以把其中两类进行合并,然后仍然按照二分类逻辑回归进行分析,但是合并的弊端是显而易见的,...
        原创
        2018-02-01 14:15:21
        49
        0
      8. MADlib——基于SQL的数据挖掘解决方案(13)——回归之逻辑回归

        一、逻辑回归简介        在回归分析中,因变量 y 可能有两种情形:(1)y 是一个定量的变量,这时就用通常的回归函数对 y 进行回归;(2)y 是一个定性的变量,比如y=0或1,这时就不能用通常的回归函数进行回归,而是使用所谓的逻辑回归(Logistic Regression)。逻辑回归方法...
        原创
        2018-01-31 15:09:30
        76
        0
      9. MADlib——基于SQL的数据挖掘解决方案(12)——回归之广义线性模型

        一、广义线性模型简介        在一些实际问题中,变量间的关系并不都是线性的,这种情况就应该用曲线去进行拟合。用曲线拟合数据首先要解决的问题是回归方程中的参数如何估计。下面以一元非线性回归为例,讨论解决这一问题的基本思路。        对于曲线回归建模的非线性目标函数,通过某种数学变换,使之“...
        原创
        2018-01-30 14:38:44
        52
        0
      10. MADlib——基于SQL的数据挖掘解决方案(11)——回归之线性回归

        一、回归方法简介        事物之间的关系可以抽象为变量之间的关系。变量之间的关系可以分为两类:一类叫确定关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大血压越高,但人的年龄和血压之间没有确定...
        原创
        2018-01-29 16:21:35
        139
        0
      11. MADlib——基于SQL的数据挖掘解决方案(10)——数据探索之主成分分析

        数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。例如,网站的“浏览量”和“访客数”往往具有较强的相关关系,而电商应用中的“下单数”和“成交数”也具有较强的相关关系。这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低)。...
        原创
        2018-01-25 14:55:40
        107
        0
      12. 一个有趣的时间段重叠问题

        一、问题描述        某一直播业务记录了如下格式的用户进出直播间日志数据: roomid | userid | s | e --------+--------+---------------------+--------...
        原创
        2018-01-24 17:09:55
        91
        0
      13. MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计

        样本是随机变量,统计量作为样本的函数自然也是随机变量。当用它们去推断总体时,有多大的可靠性与统计量的概率分布有关。本篇学习概率统计的基本知识,以及在此基础上的统计推论。MADlib提供了概率函数和统计推论两个模块,分别用于实现概率和假设检验相关的函数。一、概率1.  概率的定义        我们从...
        原创
        2018-01-17 17:49:09
        229
        0
      14. MADlib——基于SQL的数据挖掘解决方案(8)——数据探索之描述性统计

        对数据进行统计是从定量的角度去探索数据,是最基本的数据探索方式,其主要目的是了解数据从统计学上反映的量的特征,以便我们更好地认识这些将要被挖掘的数据。        我们先要清楚两个关于统计学的基本概念:总体和样本。统计的总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品。总体中的每一个基...
        原创
        2018-01-16 13:11:44
        95
        0
      15. MADlib——基于SQL的数据挖掘解决方案(7)——数据转换之其它转换

        本篇介绍MADlib提供的的另外三个常用数据转换方法,即透视表、分类变量编码和词干提取。透视表最主要的用途是行列转置,常被用于报表需求。MADlib的分类变量编码可以理解为一种特殊的单列变多列的数据转换,对每个类别值新增为一列,列的取值是0或1,表示行对象是否属于该类别。词干提取则用于提取英文单词的...
        原创
        2018-01-09 09:57:10
        103
        0
      16. MADlib——基于SQL的数据挖掘解决方案(6)——数据转换之矩阵分解

        矩阵分解(Matrix Factorization)简单说就是将原始矩阵拆解为数个矩阵的乘积。在一些大型矩阵计算中,其计算量大,化简繁杂,使得计算非常复杂。如果运用矩阵分解,将大型矩阵分解成简单矩阵的乘积形式,则可大大降低计算的难度以及计算量。这就是矩阵分解的主要目的。而且,对于矩阵的秩的问题,奇异...
        原创
        2018-01-04 17:30:41
        191
        3
      17. MADlib——基于SQL的数据挖掘解决方案(5)——数据转换之邻近度

        MADlib的线性代数模块(linalg module)包括基本线性代数操作的实用函数,其中包括多种范式、距离、相似度、向量均值、矩阵聚合等函数。本篇先从讨论相似性和相异性的基本概念,然后对照概念说明MADlib的线性代数函数,并用简单示例描述这些函数的用法。一、邻近度的度量        相似性要...
        原创
        2017-12-29 18:45:57
        157
        0
      18. MADlib——基于SQL的数据挖掘解决方案(4)——数据类型之矩阵

        矩阵可以用来表示数据集,描述数据集上的变换,是MADlib中数据的基本格式,通常使用二维数组数据类型存储。MADlib中的向量是一维数组,可看作是矩阵的一种特殊形式。MADlib的矩阵运算模块(matrix_ops)实现SQL中的矩阵操作。本篇介绍矩阵的概念,说明MADlib矩阵运算相关函数,并举出...
        原创
        2017-12-26 17:31:25
        144
        0
      19. MADlib——基于SQL的数据挖掘解决方案(3)——数据类型之向量

        通常数据挖掘操作的数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征(如物体质量或事件发生的时间)的属性描述。属性有时也叫做变量、特性、字段、特征或维。而在数学上,向量和矩阵可以用来表示数据对象及其属性。        ...
        原创
        2017-12-22 15:56:56
        198
        0
      20. MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础

        一、MADlib简介        MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据进行分析和挖掘。用户可以非常方便地将MADlib加载到数据库中,扩展数据库的分析功能。2015年7月M...
        原创
        2017-12-19 17:22:04
        360
        0
    1. 学院
    2. 下载
    3. 消息