R包函数中的non-ASCII characters问题

在写R包的过程中遇到non_ASCII,谷歌+chatGPT解决问题。解决过程中,先尝试让chatGPT帮忙写代码找出R函数中的non_ASCII,无一例外都失败了;搜索谷歌,找到一个使用stringi::stri_enc_isascii()来检查每行non_ASCII的方法;让chatGPT使用stringi::stri_enc_isascii()写程序检查每行代码。

折腾R和Rstudio

最近Rstudio有新版本,不知道什么时候自动给我更新了🤣。我的R版本还是4.1的,只是懒得折腾,就只更新了R包。上个版本的Rstudio安装路径有些问题。导致现在使用Rstudio问题集中出现了~Tab键补全路径有问题,无法识别中文路径和中文文件名。在网上搜了几个小时都没有解决。压下怕麻烦的想法,一狠心,把Rstudio、R、Rtools都卸载了重新安装(你也可以哟)。现在使用起来终于变得正常了。我装的R包太多,不可能一下子都装回来,只能用到什么装什么了。这里我附上一个我常用的R包列表,方便下次重新安装后安装R包。

R中怎么定制字符串样式?

在bruceR包中注意到包中函数的打印结果很有意思,就单独将“Print()”函数拎出来研究研究。Print()函数主要利用了glue包中的glue()和glue_col()函数,可以改变打印结果的颜色和字体等。对Print()函数稍微修改了一下,方便理解,便重新命名了原函数中的字符。

record2-chatGPT会不会让敲代码的人失业?

前一段时间人工智能chatGPT火了,我也注册一个账号试试到底什么是人工智能。之前我对人工智能是没太大概念的,最多停留在小爱音响上面。chatGPT就像一个聊天机器人一样,不能说所有问题都回答的很完美,但也有理有据有总结了。最让我吃惊的是在写代码上...神了。

Genomic Selection-k折交叉验证可视化

最近参加了有关基因组选择的ASReml-R培训,培训中实现交叉验证的工具和我使用的不同,我使用的是rsample包,属于tidymodels,培训中中使用的是机器学习包caret,这个包了解不多,应该已经被tidymodels包替代。虽然知道交叉验证的基本概念,但这就像一个黑盒子,不清楚到底是怎么分的。同时,我也想比较一下两个R包进行交叉验证划分的训练集和验证集有什么不同。刚好在Wx公众号《R语言和统计》上看到一个可以实现缺失值可视化的R包naniar,那就开始干吧!

record2-新冠这三年...

从19年毕业到现在,整整三年,这是新冠的三年,对于我,也是经历非洲猪瘟的第三年。因为非洲猪瘟对养猪行业的冲击,养殖企业都很注重生物安全,在双疫情的影响下,猪场反而是最安全的地方。在猪场的日子和居家隔离没差别,新冠对我的影响也要比社会其他行业的影响小的多。宅是一方面,对于来说可能也就是少回几次家,少旅游几次。

record1-和平精英生存心得

玩和平精英好几年了,我一开始玩的时候还不叫和平精英,当时叫刺激战场。至今没有上过王牌,感觉匹配赛一局太长,还是喜欢玩快节奏的狙击模式和8分钟急速战场。这篇博客用于记录我的游戏苟活心得。

图表组合可视化plot+table

这篇文章是主要是记录图片中插入表格,是在推特中看到的,觉得做的很漂亮,这里想按照原作者的code重新跑一下(实在抵挡不住漂亮图表的诱惑🤣)。看到中间的统计表格,想起了今天看到的modelsummary包中也有类似的统计函数,之前的几篇有关描述性统计的文章也有其他包具有类似的函数(只有你想不到的包),顺便也使用iris数据集来可视化统计表格。

简单线性回归lm可视化

最近在推特上看到了一个很有意思的R包~ggols,顺带发现了ggxmean包,两个包是同一个作者开发的。ggols和ggxmean目前都只能从github上安装,ggols的开发目的不详(The goal of ggols is to ...)作者应该还在完善中,ggxmean和平均值有关,大致目的是在可视化过程中增加平均值线,但也有对简单线性模型可视化的作用,两个包需要配合使用。以下记录两种方法对一般线性模型进行可视化。

record1-第一次异地换身份证

最近遇到了一个对我来说比较棘手的问题~~~身份证到期。远在广西工作,对于家在河南的我来回一趟是真不容易,尤其是处在新冠疫情时期。从研究生毕业到现在,刚好三年,新冠疫情也刚好三年。每年基本回家一次,还是挑在疫情比较松的时候🤣,庆幸的是没有一次被集中隔离过。不过,现在身份证到期,银行、支付宝等都给我发消息说我有效证件到期,需要重新认证。不想回家办身份证了,开动脑子,印象中好像异地也可以办身份证。原谅我去哪办理身份证都不知道😅,后面偶尔做公交看到派出所户籍室有自动办理身份证的机器......,我的经历也给在外地该换身份证的有缘人一个提示,记录如下。

ggplot2+histgram+facet_grid

记录一下使用ggplot2在工作中画多品种多性状表型直方图。这种图的核心是要将多个性状的宽格式数据先转为长格式数据,这样才方便ggplot2进行可视化。

管理nedap瑞保乐测定站的一些想法

测定站是用来测定猪只料肉比的机器,国内常见的测定站类型有奥斯本和瑞保乐两种。而料肉比是猪只的一个重要的经济指标,对于种猪比较好的料肉比为2.0~2.3,大约每降低0.1,可节约成本约30元(非洲猪瘟时代以前,现在由于生物安全成本增加,节约成本可能小于30元)。既然是要使用测定站,目标基本都是根据所测性状表型对猪只进行选育,提高种猪质量。但测定站使用过程中也会受各种因素影响,从而影响了测定站的测定站和测定数据质量。这篇博客是基于我使用测定站一线的一些经验总结的,有不同的想法可以多多交流🤝。

使用R语言提取指定week包含的date

使用R语言将日期转化为周次📅,总感觉和中国的习惯不太一样,我找了很多周次表,基本都是每年的第1天开始就算作一年的第1周了,这和国外的好像不同,国外的可能会算做每一年的第0周或去年的第52或53周。我的观念中是每周的第1天从周一开始的,看也有从周日开始的。所以,记录一下R语言中看着顺眼的中国date格式。

R函数:map()+mutate()+across()

R中很多常用又很牛掰的函数,还记得在推上有个牛人,每天一个R函数,整整写了一年,最后出了一本书。我在数据处理过程中会遇到很多方便且功能强大的函数,特别是不同R包中函数的组合功能就更加强大了,所以我也有一个想法,将我在数据处理过程中使用到的强大的R函数或函数组合也记录下来,不是每天一个函数,而是遇到哪个写哪个🤭。

ggplot2漂亮的条形图和直方图-升级

我之前是写过关于bar plot和histgram plot的博客的,但是在实际应用的过程中总是忍不住要完善它们,让它们变得更漂亮一些😅。在这个过程中,还是有一些收获,对一些参数的使用更加清晰了。

利用gtExtras包做漂亮的描述性统计

之前有介绍过gtExtras包,结合gt包能发挥出了1+1>2的效果。在做月度总结汇报中需要用到比较漂亮的描述性统计图表,为了方便后续其它分析中继续用到,现整理代码,以iris数据集为示例,对变量Sepal.Length进行描述性统计。

SQL数据表查询querying data

先学习SQL中最简单的SELECT语句。因为和R中数据框的操作比较相似,所以我觉得自己接受的还是比较快的。这里主要是使用在MySQL中模拟的数据中熟悉SQL的操作,和R中的操作互相印证。

盘点那些牛X的R包💖

R中🐂🍺的📦太多了,很多可能都没听说过。不是这些R包不够好用,只是新的R包出来的速度太快太多了,而且小伙伴能接触到较新R包的机会也比较少,基本都是在知乎上了解到的。我是一个比较爱折腾的人,刚好喜欢R又在推特中关注了很多R包开发者和数据科学家,这让我有机会接触到最新的和最好用的R包。我的收藏夹了收藏好多R包参考网站,现在想整理出来分析给大家。

终于搞清楚了ggplot2主题

ggplot2包的内容比较多,并非经常使用,一般用法都没有刻意的去记忆过,往往需要用到的时候才在网上搜索怎么使用,不可避免的就导致了搜索——忘记——重复搜索的循环中。网上偶尔看到一张图片,是关于ggplot2的theme system的cheatsheet。我感觉做的非常棒,就自己找类似的数据集mpg跑了一遍,同时使用flipbookr包对代码的每一步的输出结果进行展示。算是对ggplot2的theme做了一个系统的学习。

在jupyter notebook中学习SQL

感觉自己太喜欢折腾了😂。明明学习SQL,任何一个工具都可以学,还是想把相关的使用途径都摸索清楚。目前已经搞清楚的是在vscode中可以直接建立SQL脚本使用,也可以在jupyter notebook中的.ipynb文件使用,在Rmarkdown中插入chunk感觉也挺好用。还没有摸清的是在R中的SQL脚本。顺便总结一些相关软件的使用经验,R和python两个软件,不管是单独下载安装还是在Anaconda中安装,都需要将软件路径添加入到系统环境变量中;不管是使用Rstuido还是jupyter notebook,都需要下载相关的R包和python库,vscode中也都需要下载相应的插件。上述的这些都可以在必应或谷歌中找到写的非常好的安装教程。