,我们已经学习了 R 语言的基础知识,包括其语法以及语法所对应的语义,现在准备使用 R 向统计学领域进发。本文是 R 系列的第十一篇文章,我们将学习如何使用 R 语言 stats 包中提供的统计函数。,与此系列之前的文章一样,我们将使用安装在 Parabola GNU/Linux-libre(x86-64)上的 R 4.1.2 版本来运行文中的代码。,在 R 中 mean
函数用来计算算术平均值。该函数接受一个 R 对象 x
作为参数,以及一个 trim
选项来在计算均值之前剔除任意比例的数据(LCTT 译注:比如对于一个含有 7 个元素的向量 x
,设置 trim
为 0.2 表示分别去掉 x
中最大和最小的前 20% —— 即 1.4 个 —— 的元素,所去掉的元素的个数会向下取整,所以最终会去掉 1 个最大值和 1 个最小值;trim
取值范围为 [0, 0.5]
,默认为 0)。逻辑参数logical argument(TRUE
或 FALSE
)na.rm
可以设置是否忽略空值(NA
)。该函数的语法如下:,该函数支持数值、逻辑值、日期和 时间区间time intervals。下面是使用 mean
函数的一些例子:,我们使用 UCI 机器学习库提供的一个采集自葡萄牙银行机构的“银行营销数据集”作为样本数据。该数据可用于公共研究,包含 4 个 csv 文件,我们使用 read.csv()
函数导入其中的 bank.csv
文件。,下面是计算 age
列均值的示例:,R 语言 stats
包中的 median
函数用来计算样本的中位数。该函数接受一个数值向量 x
,以及一个逻辑值 na.rm
用来设置在计算中位数之前是否去除 NA
值。该函数的语法如下:,下面是使用该函数的两个例子:,现在我们可以计算银行数据中 age
列的中位数:,pair
函数用来合并两个向量,接受向量 x
和向量 y
两个参数。x
和 y
的长度必须相等。,该函数返回一个 Pair
类的列数为 2 的矩阵,示例如下:,该函数常用于像 T 检验和 Wilcox 检验等的 配对检验paired test。,dist
函数用来计算数据矩阵中各行之间的距离矩阵,接受以下参数:,该函数提供的距离测量方法包括:欧式距离euclidean、最大距离maximum、曼哈顿距离manhattan、堪培拉距离canberra、二进制距离binary 和 闵可夫斯基距离minkowski,默认为欧式距离。,下面是使用欧式距离计算 age
列距离矩阵的示例:,改用二进制距离的计算结果如下:,quantile
函数用于计算数值向量 x
的分位数及其对应的概率。当设置 na.rm
为 TRUE
时,该函数将忽略向量中的 NA
和 NaN
值。概率 0 对应最小观测值,概率 1 对应最大观测值。该函数的语法如下:,quantile
函数接受以下参数:,rnorm
函数可用于生成正态分布的随机数。它可以接受要生成的观测值的数量 n
,一个均值向量以及一个标准差向量。下面是一个计算 rnorm
函数生成的随机数的四分位数的示例:,下面是生成银行年龄数据对应概率下的分位数的示例:,IQR
函数用于计算向量中数值的 四分位距interquartile range。其语法如下:,参数 type
指定了一个整数以选择分位数算法,该算法在 Hyndman and Fan (1996) 中进行了讨论。下面是计算银行年龄四分位距的示例:,sd
函数用来计算一组数值中的标准差。该函数接受一个 数值向量numeric vector x
和一个逻辑值 na.rm
。na.rm
用来设置在计算时是否忽略缺失值。该函数的语法如下:,对于长度为 0 或 1 的向量,该函数返回 NA
。下面是两个例子:,下面是计算 age
列标准差的示例:,R 语言 stats 包中还有很多其他函数,鼓励你自行探索。
文章版权声明
1 原创文章作者:cmcc,如若转载,请注明出处: https://www.52hwl.com/27072.html
2 温馨提示:软件侵权请联系469472785#qq.com(三天内删除相关链接)资源失效请留言反馈
3 下载提示:如遇蓝奏云无法访问,请修改lanzous(把s修改成x)
4 免责声明:本站为个人博客,所有软件信息均来自网络 修改版软件,加群广告提示为修改者自留,非本站信息,注意鉴别