R 语言 stats 包中的函数- 汇维网

,我们已经学习了 R 语言的基础知识，包括其语法以及语法所对应的语义，现在准备使用 R 向统计学领域进发。本文是 R 系列的第十一篇文章，我们将学习如何使用 R 语言 stats 包中提供的统计函数。,与此系列之前的文章一样，我们将使用安装在 Parabola GNU/Linux-libre（x86-64）上的 R 4.1.2 版本来运行文中的代码。,在 R 中 mean 函数用来计算算术平均值。该函数接受一个 R 对象 x 作为参数，以及一个 trim 选项来在计算均值之前剔除任意比例的数据（LCTT 译注：比如对于一个含有 7 个元素的向量 x，设置 trim 为 0.2 表示分别去掉 x 中最大和最小的前 20% —— 即 1.4 个 —— 的元素，所去掉的元素的个数会向下取整，所以最终会去掉 1 个最大值和 1 个最小值；trim 取值范围为 [0, 0.5]，默认为 0）。逻辑参数logical argument（TRUE 或 FALSE）na.rm 可以设置是否忽略空值（NA）。该函数的语法如下：,该函数支持数值、逻辑值、日期和时间区间time intervals。下面是使用 mean 函数的一些例子：,我们使用 UCI 机器学习库提供的一个采集自葡萄牙银行机构的“银行营销数据集”作为样本数据。该数据可用于公共研究，包含 4 个 csv 文件，我们使用 read.csv() 函数导入其中的 bank.csv 文件。,下面是计算 age 列均值的示例：,R 语言 stats 包中的 median 函数用来计算样本的中位数。该函数接受一个数值向量 x，以及一个逻辑值 na.rm 用来设置在计算中位数之前是否去除 NA 值。该函数的语法如下：,下面是使用该函数的两个例子：,现在我们可以计算银行数据中 age 列的中位数：,pair 函数用来合并两个向量，接受向量 x 和向量 y 两个参数。x 和 y 的长度必须相等。,该函数返回一个 Pair 类的列数为 2 的矩阵，示例如下：,该函数常用于像 T 检验和 Wilcox 检验等的配对检验paired test。,dist 函数用来计算数据矩阵中各行之间的距离矩阵，接受以下参数：,该函数提供的距离测量方法包括：欧式距离euclidean、最大距离maximum、曼哈顿距离manhattan、堪培拉距离canberra、二进制距离binary 和闵可夫斯基距离minkowski，默认为欧式距离。,下面是使用欧式距离计算 age 列距离矩阵的示例：,改用二进制距离的计算结果如下：,quantile 函数用于计算数值向量 x 的分位数及其对应的概率。当设置 na.rm 为 TRUE 时，该函数将忽略向量中的 NA 和 NaN 值。概率 0 对应最小观测值，概率 1 对应最大观测值。该函数的语法如下:,quantile 函数接受以下参数：,rnorm 函数可用于生成正态分布的随机数。它可以接受要生成的观测值的数量 n，一个均值向量以及一个标准差向量。下面是一个计算 rnorm 函数生成的随机数的四分位数的示例：,下面是生成银行年龄数据对应概率下的分位数的示例：,IQR 函数用于计算向量中数值的四分位距interquartile range。其语法如下：,参数 type 指定了一个整数以选择分位数算法，该算法在 Hyndman and Fan (1996) 中进行了讨论。下面是计算银行年龄四分位距的示例：,sd 函数用来计算一组数值中的标准差。该函数接受一个数值向量numeric vector x 和一个逻辑值 na.rm。na.rm 用来设置在计算时是否忽略缺失值。该函数的语法如下：,对于长度为 0 或 1 的向量，该函数返回 NA。下面是两个例子：,下面是计算 age 列标准差的示例：,R 语言 stats 包中还有很多其他函数，鼓励你自行探索。

1 原创文章作者：cmcc，如若转载，请注明出处： https://www.52hwl.com/27072.html

2 温馨提示：软件侵权请联系469472785#qq.com（三天内删除相关链接）资源失效请留言反馈

3 下载提示：如遇蓝奏云无法访问，请修改lanzous(把s修改成x)

4 免责声明：本站为个人博客，所有软件信息均来自网络修改版软件，加群广告提示为修改者自留，非本站信息，注意鉴别

R 语言 stats 包中的函数

关于作者

cmcc

相关推荐