拓端tecdat|R语言CRAN软件包Meta分析

神瑛侍者
• 阅读 1293

原文链接:http://tecdat.cn/?p=3050 

我一直在寻找各种方法来查找有关R包的信息,但我最近才了解CRAN\_package\_db()了基本tools包中的函数。如果一位同事没有向我指出,我确信我永远不会自己找到它。

当被调用时,这个函数发送到由环境变量指定的CRAN镜像,R\_CRAN\_WEB并返回一个数据帧,其中包含有关CRAN上当前每个包的大量信息。它是元数据的宝库。

作为处理角色数据的一个例子。我有兴趣了解编写典型R包所需的协作感,以及感受其他包开发人员对包的适用性。我选择进行协作的代理是每个软件包列出的作者数量。我对其他软件包开发人员有用的代理是反向依赖和反向导入的联合。

我做的第一件事是选择数据框的一个子集来处理。

## Observations: 12,123## Variables: 6## $ Package"A3", "abbyyR", "abc", "abc.data", "ABC.RAP", "ABCanal...## $ Dep"R (>= 2.15.0), xtable, pbapply", "R (>= 3.2.0)", "R (...## $ ImpNA, "httr, XML, curl, readr, plyr, progress", NA, NA, ...## $ Aut"Scott Fortmann-Roe", "Gaurav Sood [aut, cre]", "Csill...## $ RDNA, NA, "abctools, EasyABC", "abc", NA, NA, NA, NA, NA...## $ RI NA, NA, "ecolottery", NA, NA, NA, NA, NA, NA, NA, NA, ...

拓端tecdat|R语言CRAN软件包Meta分析

另外,事实证明,作者字段需要一些工作,以便从作者字符串中删除像“[aut,cre]”和“[ctb,cph]”这样的限定性文本。

一旦我有了一些干净的文本,我使用了以下代码的非常混乱的初步版本来获取我正在查找的计数数据。请注意,派生的特性DepImp以及RDRI需要的某些预处理与从我选择的其他特性中提取计数所需的预处理不同。在这里,我做了一件非常不整洁的事情,并创建了两个初步的数据框架 - 效率不高,但对我来说更容易完成和调试。

##      Package Aut Dep Imp RD RI DepImp RDRI## 1          A3  1  3  0  0  0      3    0## 2      abbyyR  1  1  6  0  0      7    0## 3        abc  4  6  0  2  1      6    3## 4    abc.data  4  1  0  1  0      1    1## 5    ABC.RAP  4  1  3  0  0      4    0## 6 ABCanalysis  3  1  1  0  0      2    0

一旦我有了清晰的数据,计算一些简单的统计数据就变得微不足道了。在这里,我们看到手段和中位数的数字很小,但是反向依赖和反向进口以及它们的联合的标准偏差反映了相当大的差异。

##  Features mean    sd median## 1      Aut 2.25  2.73      1## 2      Dep 1.53  1.57      1## 3      Imp 2.85  3.89      1## 4      RD 0.81  9.09      0## 5      RI 2.30 23.23      0## 6  DepImp 4.37  4.06      3## 7    RDRI 3.11 30.79      0

在A一目了然RDRI位数表明,这种变化是由于比较少的包。直方图表示很长的尾巴。

## 0% 25% 50% 75% 100%## 0 0 0 0 1239


## Warning: Removed 4 rows containing non-finite values (stat_bin).


## Warning: Removed 1 rows containing missing values (geom_bar).

拓端tecdat|R语言CRAN软件包Meta分析

  1. ## 0% 25% 50% 75% 100%## 1 1 1 3 97

## Warning: Removed 9 rows containing non-finite values (stat_bin).
```

![](data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== "点击并拖拽以移动")

  

我希望提供的软件包元数据的简单可用性CRAN_package_db()将激发一些分析R软件包特性的认真工作。
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Stella981 Stella981
3年前
R和python语言如何求平均值,中位数和众数
均值是通过取数值的总和并除以数据序列中的值的数量来计算。R语言平均值公式:mean(x,trim0,na.rmFALSE,...)\x<c(22,13,2,45,56,73,21,44,NA)\result.mean<mean(x,rim0.2,na.rmTRUE)rim0
Stella981 Stella981
3年前
360视频云Web前端HEVC播放器实践剖析
!(https://mmbiz.qpic.cn/mmbiz_jpg/CZeKj44ymYZoRoXzaAQc92dzfIYgRJpopwicoSVY1EKjYTVcxVWrgxaEmU1Vtia3R9UQjFAaQ5W44z4oHngUXuEQ/640?wx_fmtjpeg&tpwebp&wxfrom5&wx_lazy1&wx_co1)
Stella981 Stella981
3年前
Redis 6.0 正式版终于发布了!除了多线程还有什么新功能?
!(https://oscimg.oschina.net/oscnet/b8c8b22b9f44bd806c26b486e1893a263a4.jpg)这是我的第56篇原创文章!(https://oscimg.oschina.net/oscnet/8bf00bc92f6a1cd46596ee44bac64a801ae.pn
Wesley13 Wesley13
3年前
R语言练习代码
x<c(1:10)x<c(v11:4,v210:14)install.packages()install.packages("xlsx")install.packages("rJava")install.packages("xl
Stella981 Stella981
3年前
Serverless容器实例Cube的研发实践之路
!(https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9BMUhLVlhzZkhOazlxdXNRNjRlcXdKRk53TGFZaWFKdEIzTzhlTHFkbUtBenY4R01VV1RXV1hxbDJFZW44TWhvc0tuZmJvU1RhRG5MUF
Stella981 Stella981
3年前
PHP+jQuery寥寥几行代码轻松实现百度搜索那样的无刷新PJAX的分页列表和导航链接
!(https://static.oschina.net/uploads/space/2016/1208/171419_U00R_561214.png)PHP寥寥几行代码轻松实现百度搜索那样的分页列表和导航链接,某些语言的拥趸哭晕在厕所.<?php$apparray('db_prefix''
Wesley13 Wesley13
3年前
R语言相关关系可视化函数梳理(附代码)
当考察多个变量间的相关关系时,通常将多个变量的两两关系以矩阵的形式排列起来,R提供了散点图矩阵、相关矩阵等多种可视化方案,囊括了众多函数。本文对R语言相关关系可视化的函数进行了初步梳理(全篇框架如下),后续大家可根据个人需求及函数功能择优选择。!ca2a37780049afa7173657f022b8b242bc816d00(https://yqfi
Wesley13 Wesley13
3年前
R语言代写生存分析可视化分析
完整原文链接:http://tecdat.cn/?p5438(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Ftecdat.cn%2F%3Fp%3D5438)
Wesley13 Wesley13
3年前
R语言代写线性混合效应模型实战案例
原文链接: http://tecdat.cn/?p3015(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Ftecdat.cn%2F%3Fp%3D3015)