数据匠

Huashan

一键搞定 Windows 下的路径输入

给学生做R培训，我总会先讲数据码农编码三板斧：代码文件必须有文件说明；像写论文那样写注释；设好工作目录；说到第三点总是有点感觉对不起听众，一丝丝把人带到坑里去了的隐忧。因为在 Windows 系统下，R的文件路径总是这种画风： setwd('c:\\users\\xxx\\Documents\\R\\projects\\yyy') # 或者 setwd('c:/users/xxx/Documents/R/projects/yyy') 对于 Windows 的反斜杠(\)路径符号来说简直是逆行开车的节奏。Windows下码农兵器库中有一大堆武器可以很方便的提取路径名、文件名，最不济也可以从资源管理器直接复制路径名过来，但对于R的这种画风最后总不得不在 RStudio 中把 \ 换成 / 或 \\。查找替换用的再熟练，总归是项体力劳动。那么我为什么还要坚持这项无聊的枯燥活动呢？因为我不需要啊！看动画！再如图设个快捷键，Ctrl+Shift+V 搞定！…
如何打造基于 markdown 的论文工作流程（一）

这两年来 markdown 越发流行于各类网络客户端系统，各大博客系统、wiki系统、团队协作系统都纷纷支持 markdown 语法，支持 markdown 的编辑器也越来越多。但真正将 markdown 用于学术论文或出版物写作的实践却并不多。在此介绍一下本人自2012年来就开始打造的一套工作流程。先介绍流程的两大基石： knitr 背后的功臣——pandoc markdown 起源于email写作中的简单格式，其语法非常简单，可能对 markdown 略有耳闻的人会觉得它不过是个玩具。其实不然，markdown 本身并非一个统一的语法，事实上有很多版本的实现。比较有经验的R用户可能经常用 knitr 来做一些数据报告，甚至用 knitr book 来写数据类长篇大作，或许你们还不知道，knitr 背后有个默默无名的英雄—— pandoc。这是一款由一名伯克利大学哲学系教授领衔开发的 markdown 超级语法及文档格式转换工具。与普通网页版的简易 markdown 语法不同，pandoc 可以说是学术 markdown，除了常规的…
介绍一下 R 包 `ezdf`

目的在导入 SPSS Stata 等格式时，提供统一的处理标签的接口；在输出表格时提供对标签的自动化处理；什么是标签 SPSS 和 Stata 的用户最熟悉标签：变量标签 gender `性别` age `年龄` 数值标签 gender: 1 = 男性 2 = 女性 R 中如何处理标签首先，data.frame 没有变量标签的概念（attr 另外再说），变量名行使标签的功能： table(dt$`性别`) # 如果标签有空格 table(dt$`a variable`) 其次，可用 factor 提供数值标签功能（factor 其实就等价于字符型）： levels(df$`性别`) <…
谈谈R中的乱码（三）

前面讲过，R 中字符向量可以有多种编码。一般情况下，对于混合编码，R 都能很好的自动处理。例如： x1 <- '中国' x2 <- iconv(x1, 'GB2312', 'UTF-8') ## == 判断也没问题 x2 == '中国' ## [1] TRUE x <- c(x1, x2) grep('中', x) ## [1] 1 2 grep(iconv('中', 'GB2312', 'UTF-8'), x) ## [1] 1 2 在写命令时，无需特意为了目标字符将匹配条件转为相应的编码，R 自动就在后台做了转换。然而，…
罚似然图模型与社会网络测量（二）

罚似然图模型之扩展模型…
罚似然图模型与社会网络测量（一）

随着互联网及智能设备的普及，越来越多的行为轨迹和互动数据的获得成为可能并进入社会学研究者的视野。在大数据的背景下，互动数据的参与群体规模巨大、群体成员动态变化、事件具有时序特征、事件发生存在异质性等特征，传统的分析方法无法有效应对此类数据。对这类大规模互动数据的分析是个巨大的挑战。近十年来，高维高斯图模型在网络关系探测研究中取得了非常广泛的应用。本文拟对基于罚似然回归的高斯图模型的应用做一个综述，针对罚似然图模型及其扩展模型对社会科学具体应用研究所可能带来的贡献来做梳理。最后，本文亦对所涉及的相关模型及其R软件包做了汇总，以期拓展该方法在社会科学领域的应用研究。…
谈谈R中的乱码（二）

保真的读写方式…
谈谈R中的乱码（一）

之一，新手上路篇。在`R`教学中，首先要跨过去的一座大山就是乱码问题。很多学生在装好`R`和`RStudio`之后，刚刚运行`RStudio`，还未尝个鲜，写出`R`的第一段甚至人生第一段`hello world`代码，乱码就来立个下马威了。对于许多从 `Stata` 转过来的社科领域研究人员来说，在学习和使用`R`的过程中是如此频繁地遭遇乱码问题更是一件很不可思议的事情。乱码无处不在，令人抓狂，令人崩溃，茶饭不思，错过DDL，成为一块死肉。…