阅读视图

发现新文章,点击刷新页面。

这几个学术写作工具,或许可以帮你赢得审稿人青睐

一篇优秀的英文 EI / SCI 论文,除了要有新颖的创新点和严密的实验方法外,或许还有一些细节需要我们关注。

你着手写一篇论文,看到各出版社不同的排版要求,该如何下手? Word?Markdown?抑或是更专业的 Latex?

无论你是理工还是文、商科,一篇论文如果只是文字,未免有些枯燥,不如做个能让人眼前一亮的配图来呈现你的实验数据与结果。

在这个仍以英文为学术主流书写语言的时代,如何保证你的论文语法通顺、词句无纰漏?要知道,拙劣的语法与词汇可是期刊拒稿的很大原因。

层层细节到最后,都会决定你的论文能否打动审稿编辑。所以,除了要关注实验本身,科研人或许还要顺手点亮些技能,这样才不会因小失大,白白付出苦熬实验室时的时间与精力。

幸运的是,随着学术写作工具的不断涌现,这些技能的学习门槛越来越低,各位科研勇士大可把更多精力放在研究的要点和实验结果上。

本文会在论文排版、制图、英文润色三部分介绍相应工具及技巧,下面就开始我们的学术写作速成之旅。

排版:脉络与格式

首先,我们来聊聊排版。

大部分学术期刊都要求作者提交一个已按期刊要求格式排好版的 PDF 文件,很多人第一个想到的就是用 Word 来排版。

虽然 Word 是一个比较成熟的排版工具,界面与功能还算完整清晰,但排版后的结果仍有很大的不确定性。

这种不确定性可能来源于不同的软件版本与操作系统,但最大的不确定性还是来自于作者的 Word 使用技巧。

一篇惊世之作万事俱备,急于与审稿人碰撞出科学火花,竟然被鸡飞蛋打的格式困住了,连编辑这关都过不去,想必每个人都不希望看到。那么,有没有一种办法可以快速按照期刊要求的格式进行排版呢?

可能很多人已经注意到了,一些期刊提供了基于 Latex 的模版包,供读者用以排版。Latex 是在 Tex 语言基础上的一种排版系统。和我们所熟知的 Markdown 一样,Tex 也是一种标记语言。与之不同的是,Tex 的语法稍显复杂,可以支持更多复杂格式。

使用基于 Latex 的排版工具,在模版包的帮助下,不但输入数字公式时更加简便,而且不用挨个调整参考文献的格式,以至于短时间就能生成一篇格式规整,排版精美的论文,作者的内容可以精准而迅速地表现在这个 PDF 文档中。

我们在这里以电气电子工程师学会(IEEE)旗下的期刊为例,假装一把学术大佬,下载 Transaction(IEEE 旗下比较有影响力的期刊系列) 的模版:

模版

可以看到,模版下载下来是一个压缩文件。

img
Transaction 系列期刊的 Latex 压缩包

模版下好后,我们就需要一个排版工具,这里最推荐的是云端工具 Overleaf,它可以即时保存,云端备份,历史记录可追溯,多平台等,跑在浏览器中的 Overleaf 最大的优点就是无需安装软件,解放硬盘。

并且,它还支持 Google 、推特、IEEE 等多账号登录。

img
Overleaf 登录页面

现在,我们注册完并登录 Overleaf ,就可以开始我们的排版了。

首先,我们先新建一个项目,将刚才下载的模版压缩包导入进来,Overleaf 可以帮你自动解压。

img
Overleaf 新建项目

这里可以看到,Overleaf 还支持 GitHub 导入,同时还自带了很多模版:journal、book、letter等。

导入之后,Overleaf 会自动进入项目,可以看到,模版压缩包中有多个 .tex 文件,代表包含了几种模版,我们选择期刊模版对应的 .tex文件(bare_jrnl.tex)。然后点击右边布局上方的 Compile 按钮(有时会是 Recompile),可以看到该模版渲染后的初始样式。

img
模版渲染效果

Overleaf 在页面布局也较为常规,最左列为文件结构,中间修改,最右预览。

可以看到,模版中,基本的结构已经划分好了,我们所要做的,就是要在 .tex 文件中把自己的内容填进去,模版中已经给了非常明确的提示。

img
模版结构

除了源文件之外,这个工具还提供了富文本预览(类似于代码高亮)的贴心功能,还有一些格式快捷键可供选择,如加粗、插入数字公式、有序/无序列表等。

img
富文本预览效果

当然,我们输入的文本需要遵循 Tex 语法规则,以下是一些常用格式及规则。

空格{} 或 \
字体大小\tiny{}, \scriptsize{}, \footnotesize{}, \small{}, \normalsize{}, \large{}, \Large{}, \LARGE{}, \huge{}, \Huge{}
斜体\emph{} 或 \sl{}
一些需要转义的字符%->\%,_ -> _,# -> #,& -> &,{ -> {,} -> }
行内公式​$…$
换行\

一篇论文除了文字,还包括图片、表格、无序列表、伪代码和参考文献等等,使用 Latex 都能快速并优雅生成。

上传图片的方式也较为常规:

img
上传图片

上传好我们的图表之后,我们在 documentclass\begin{document} 之间通过命令\usepackage{graphicx} 添加图片的包。

然后在正文处(此处以引言为例)添加一段插入图片的指令,包含图片宽度,文件名称、图片标签名称和注解信息,然后点击编译,图片就出现在右侧 PDF 的预览中。

如想在文中提到该图片,需使用 \ref{图片标签} 进行绑定,Latex 会自动生成该图片对应的编号。

img
插入图片的效果

对于独立行并编号的公式,则可以放置在\begin{equation}\end{equation} 之间,同样通过 \ref{label}引用。Overleaf 网站中也提供了一些 关于数学公式的教程,可以参考相关语法。

img
插入公式的效果

类似地,一个简易的三线表的格式如下所示:

img
插入表格的效果

以上,论文中的一些常见要素基本就已经介绍过了。

但还有一个令 Word 选手最为棘手的环节,就是参考文献

在基于 Latex 的排版系统中,参考文献主要放在以 bib 后缀的文件中,但是内容是怎样的呢?我们以 artificial intelligence 为关键词在 Google 学术中查询一篇文献为例,假设我们相中了这篇发表于 Nature Medicine 上的论文,点击引用后选择 BibTex:

img
引用一篇文章

然后,我们新建一个bib文件,再上面网页跳转后生成的内容粘贴进来。

img
新建 bib 文件

红框中的内容是该文献的引用标签,在文中需要引用的地方输入 \cite{标签} 就可以完成引用。由于标签代表了该参考文献,因此 bib 文件中的内容无需有序,且会按照期刊的规范自动编号。

img
插入参考文献效果

通过以上几步,一篇格式规整,排版精美的论文 PDF 就顺利生成了,不仅节省了时间精力,还可以轻松查询论文修改的所有记录。

img
论文修改记录查询

Windows 平台和 Mac OS 平台也有相应的 Latex 排版软件,比较有代表性的是 Windows 平台的 TeXstudio 和 Mac OS 平台的 MacTex,使用方法与在线平台 Overleaf 别无二致,不再赘述,下图为 TeXstudio 的使用界面:

img
TeXstudio 界面

好的排版工具自然也是顺手的写作工具,它们可以帮我们缕清脉络,同时也能帮我们更专注在要写的内容而不是格式上。

绘图:灵魂与亮点

如果说思路脉络是论文的骨骼,那么图表就是论文的灵魂。

数据可视化图表:Echart

img
论文中的图表

论文,就是将你所做实验进行阐述、记录、归纳的一次书面沉淀。所以,典型的理工科论文必然会有大量的实验数据,这个时候,可视化图表就派上了用场。

论文中的图表不仅要表意清晰,还要注重美观。学术写作常使用一些编程语言完成绘图功能,如 Python,Matlab 等,但这些工具对于非 Computer science 的科研人来说,会有一定的上手难度。而且这些编程工具绘图的用户体验也不能算好,不能满足「所改即所得」的实时性要求,更达不到对比的连贯性。

这里推荐百度出品的第三方可视化 javascript 库 Echarts

在 Echart 网页上,我们可以使用自带的官方模版快速生成图表,支持各种精细配置,简单易用。官方实例不仅给出了折线图、条形图、饼图、散点图等等基础图表,还提供了盒须图、热力图、平行坐标系图等较为新颖的图表模版,基本可以囊括论文对于结果数据展示的需要。

img
Echarts 提供的丰富图表

点击任意一个模版,左边是用户修改的区域,主要内容是 json 格式的图表的配置项,右边是根据用户修改实时显示的图表预览。右下角提供了三种默认的配色方案,由于不提供云端保存功能,因此在切换配色方案之前需要事先保存左边的内容。

图表生成之后,我们如何得到这个图片呢?我们对其左边配置项进行简单的修改,然后在 toolbox 配置项中添加可以保存图片的功能。点击右上角的下载按钮图片就会以 png 的格式保存:

img
使用 Echarts 生成图表

如果不喜欢官方提供的配色,还可以在配置项里进行详细的设置,配置项在文档中有详细说明。

img
Echarts 配置项文档

虽然,Echart 需要一定程度的前端基础,但不深。之所以推荐 Echart 也是因为它提供了比较完整的官方案例,就算没有多少前端知识,对着左边配置项改改参数折腾折腾也可以得到不错的图表效果。

当然,如果实在对编程特别抵触,tableau 也是一个不错的选择,上手难度不高,基本不用改参数,直接根据 Excel 表拖拽相应行列就行了,可以参考之前的 一篇文章

流程图/思维导图:ProcessOn

img
论文中的流程图

除了图表之外,论文中还会出现一些描绘结构和流程的示意图,此类图表可以更好地呈现实验方法的先后步骤。

在这里,推荐一个在线作图工具 ProcessOn ,支持流程图,思维导图,结构图,UML 图等等多种示意图,使用方法也非常简单,按照相应提示,尝试几次即可上手。

img
ProcessOn 的操作步骤

复杂示意图:sketch

img
论文中的结构示意图

在论文中,还经常会绘制一些不仅能体现步骤,还能表现数据特征,元素结构的示意图。

上图是描述两种神经网络结构及训练过程的示意图,从图中不仅可以看出方法执行的步骤,其中数据的组织方式以及网络的具体结构也一目了然。这样的图比流程图的结构更加复杂,元素的形态也多种多样,我们使用的是 Mac OS 平台下的设计绘图软件 Sketch。

Sketch 是一款矢量图绘制软件,具有和 PPT 相似的形状导入功能,并附有参考线,上手简单,以下是一个简单的例子:

img
Sketch 简易使用示意

可以看到,一些规则图形都能够通过简单的拖拽得到,修改填充和边框颜色以及长宽位置等属性也可以非常容易地进行修改。

图表作为文字与数据的抽象表达,可以更直观地向读者传达出你的观点,选择易上手的工具与合适的图表之后,还要注重美观、简洁,这样可以让你的论文更有亮点。

英语润色:保险

作为非英语母语的作者,英语近乎是最令人头痛的部分。令人惭愧的是,暂且不论流畅地道的表达,单是拼写语法,就能够牵扯我们很大一部分精力。有时圆睁双眼看上一整天,都不能发现其中若干的拼写语法错误,这时候我们就需要一个智能工具来帮我们查找并改正这些错误,在这里推荐一个英语润色工具 Grammarly,使用方式非常简单粗暴:

img
Grammarly 界面

并且它的插件可以集成在文本框内,在使用其他在线文本工具时,也可以方便地使用它的润色服务:

img
集成在文本输入框中的 Grammarly 插件

如果更正拼写及语法错误的简单功能不能满足你对于润色的需要,还可以使用人工润色,当然是需要加入会员并支付一定的费用:

img
人工润色入口

结语

一篇学术论文,操作周期上大概要 1 到 3 个月,这也决定了它和其他写作形式的不同之处:周期长、琐碎、强度高。

我们在写学术论文时,相比于前文提到的诸多细节,还应把更多精力聚焦在实验的思路,方法上,只不过是有些时候,众多琐碎总是会牵扯我们的时间与精力,而无法集中在将「实验完整还原在书面上」这一最基本的任务上。

也就是说,工具只能起到部分去除干扰的作用,论文能否在心水的期刊上发表,还要取决于实验本身以及你的呈现方式上。

至于科研捷径,应该是没有的。

如果说真有什么窍门,周末投论文好像不是好主意,周二周三倒是不错。

感谢 Dr. Li 对本文的大力支持,本文首发少数派,同步 WEB VIEW,未经许可,不得转载。

爬取2000篇少数派文章,这是一份可视化踹门教程

KEY POINT:

  • 少数派 Matrix 精选2000篇文章
  • 677位作者
  • 110K 点赞,45K 评论
  • 时间跨度780天(2017.3.27 —— 2019.4.23)
  • 从数据角度分析:如何写一篇受欢迎的文章?
  • 无需任何编程基础
  • 教程全文9K 字,配图70+,前四章主讲实战工具用法,五六章为可视化的一些方法论

零、数据可视化效果预览:

点赞评论双轴图
单篇文章点赞数集中在0到50
实操教程类文章最受欢迎
理财类作者也谈钱最受欢迎

一、前言

这不是入门,而是踹门教程,要的就是立竿见影的上手速度。

我们处在一个高度信息化的时代, 时刻都会在互联网上留下大量的访问痕迹——数据,小到日常的消费账单,大到一笔一笔的银行流水。

这些留下来的海量数据无疑是对现实世界的简化和抽象表达,但对于大部分人来说,它们只是 Excel 里面的行行列列,不仅可读性差,而且晦涩难懂。

如何提高数据的可读性,很大程度上取决于你看数据的方式,解读数据的方式。

比如,我们可以将抽象的数据再抽象,经过二次抽象的数据变成了图表,反而可读性更高,更利于人们理解。

提到数据可视化,Python、R、D3 甚至是 Excel,能够产生美妙图表的工具数不胜数,但它们大多都有一些技术门槛,要求你至少有一些编程基础,这对于非科班出身的人来说,并不友好。

所以,我希望能减少对技术的依赖,去寻找一些优秀工具,同样能获得不错的可视化效果。

本文需要用到的工具分别如下:

  • 数据收集工具 Chrome 插件:Web Scraper
  • 数据简单清洗工具:Excel
  • 数据可视化工具:Tableau

正文开始。

数据可视化,正如提到的三个工具,它们也代表了可视化的三个阶段,收集、清洗、可视化。就像记者需要提前掌握大量信息,才能更好地接近自己的采访对象一样,数据可视化中比较繁琐的步骤也正是前期的数据收集和清洗工作,由于工具的辅助,可视化反倒不难。

可视化始于数据,有现成的数据最好,但大多时候需要我们自己动手收集,比如文章开头的 Matrix 文章数据。

举个例子,我们现在想对少数派 Matrix 文章进行一个简单的数据分析,观察少数派网页后发现,可以采集到以下数据:

  • 文章标题
  • 文章作者
  • 点赞数
  • 评论数
  • 发布时间

如果我们将数据粗略分为数字和非数字两种,点赞数、评论数以数字(度量)的形式出现,而标题,作者则可以看成非数字(维度),发布时间也是一种非数字(维度)。

我们暂且先对要采集的数据有一个简单的认识,后面用 Tableau 可视化时还用得着。

二、数据采集:Web Scraper

拿到数据是我们的第一步。

我们打开少数派 Matrix 网站首页:

图中红框部分就是我们需要采集的数据。

2.1 Web Scraper 使用流程

2.1.1 下载 Chrome 插件 Web Scraper:

2.1.2 然后打开浏览器的检查模式,或者快捷键 com+opt+i 打开操作台,点击 Web Scraper,并创建新的 sitemap

2.1.3 Sitemap name 起个英文名,URL 填写 Matrix 网址

创建好之后,我们开始选择要收集的数据。

2.1.4 创建选择器

我们先看下需要采集的数据都在什么位置:

可以很明显看到,少数派单篇文章展示上,最外层大框(DIV)把所有元素都聚合在一起,我们需要采集的信息都在这个框子中,所以在结构逻辑上,我们需要先建立一个最外层元素,然后再在其中选择具体的标题、作者等。

我们首先添加选择器,创建最外层的元素选择器,创建完之后选择左下角「save selector」。

这里需要注意几点:

  • Type 填 Element,意思是你定义它为母元素,我们需要其中的子元素(标题、作者等),最后下载的 Excel 数据才可以一一对应。
  • 勾选 Multiple,意思是收集页面上显示的所有文章数据。
  • 鼠标勾选 select 时,点选你要收集的单页面,一般从第一篇文章开始选,绿色表示确认中,点击后红色表示已选中,选完一个再选下一篇文章的区域,这个时候就会发现,页面中所有的文章都被自动选中了。
  • 选区正确的话,会在 Data preview 后显示 dl.artcle-card(DIV 的 class名)。

创建完母选择器元素后,我们需要在它里面创建子选择器来定位标题、作者、点赞等数据。

2.1.5 创建子选择器

我们从母选择器点进去创建新的子选择器。

设置子选择器的步骤和母选择器类似,只不过将 Type 改为 Text,并且不要勾选 Multiple。(所有子选择器都不要勾选此项)

采集作者信息:

采集标题:

采集喜欢:

同理采集完评论数后,我们可以得到这样一个选择器结构:

2.1.6 采集数据跑起来

等网页自动关闭后,就可以从 Browse 看到爬好的数据:(如果没有数据,可以尝试点击下下图中的「Refresh Data」)

2.1.7 下载数据的 CSV 格式:

以上是使用 Web Scraper 的一个基本流程。

2.2「加载更多」的翻页问题

但 Web Scraper 只能采集到浏览器目前能看到的数据,也就是一页面的数据,这明显不够。

如果想拿到更多的数据,就要向 Web Scraper 展示更多的文章。

回到网页,我们可以看到少数派使用「加载更多」来展示更多的文章内容。

我们回到母选择器中,修改母选择器的 Type 模式,将其改为 Element click,意思是需要机器自动点击「加载更多」来「翻页」,将更多的文章数据记录进来。

我们还需要让 Web Scraper 知道谁是「加载更多」这个按钮,和母选择器选区一样,在 click selector 中选中「加载更多」:

这时,从 Element 改为 Element click 后又有两个新选项:

第一个 Click Type 中有两个选项,图所示选项,意思是 Web Scraper 只会帮你点击一次加载更多,另外一个选项则是一直点,点到没有新文章为止。

Click element uniqueness 是指当「加载更多」中的字变成「什么」时,Web Scraper 停止爬取数据,比如文字改变,即「加载更多」变为「到头了」,Web Scraper 就会停止,选项还可以改成当 HTML 改变,CSS 样式改变等,Web Scraper 才停止,不过这里我们暂且选成 Unique Text。

我们再看下 Click type 这个选项,要不就只点击一次「加载更多」,要不就无限点下去,直到触发下面 Click element uniqueness 中的约定条件,不过这两种好像都不太符合我们要求。

点击一次肯定不行,数据不够,一直点下去,网页内容少还行,多的话确实需要等些功夫让 Web Scraper 跑完,而且 Chrome 是否稳定,是否会卡也是个问题。

我们能否只爬取部分数据,比如一定数量,2000条文章数据怎么样?

Web Scraper 本身并没有提供原生的解决方案,而且比较遗憾的是,当选择器 Type 是 element click 时也不能通过关闭跑数据的网页来终止数据,从而收集到部分数据。

不过我们可以通过 CSS 伪类做到。

我们先在母选择器随便选中一个文章页面:

然后在红圈位置改为:dl:nth-of-type(-n+2000)

如果这里不好理解,我们可以换种写法,可能更容易理解:

dl:not(:nth-child(n+2000))

二者含义相同,意思让 Web Scraper 只选中前2000项,前者写法要比后者简洁,优雅。

接下来别的地方不需要改动,跑数据,并将 Excel下载下来即可。

三、洗数据:Excel

我们跑下来的数据有时可以直接用,有时需要做一些处理,通常情况下,洗数据的难度不亚于爬数据,不过本次采集的数据相对来说比较干净,工作量不大。

我们可以先看下跑下来的数据。

前两列是 Web Scraper 自动生成的数据,对于后期可视化帮助不大,可以删去。最后一列的 date 看起来有些问题,有的单元格显示的都是「######」,这是由于 date 日期格式的不统一造成的:

  • 「#####」位置的日期格式:2017/7/4(我们想要的)
  • 其他位置的日期格式:01月21日(不正确的格式)
  • 没有日期:1天前(不正确的格式)

我们先将第二种格式转换成第一种,首先鼠标选中 date 整列,右键「设置单元格格式」,选择自定义,yyyy/m/d:

设置完之后,「####」中的数据可以正常显示,不过格式还是不统一:

我们再次选中 date 列,并点击 Excel 上方 Tab「数据」栏中的「分列」:

这时可以看到,date 格式已经统一的差不多,不过最近的文章,还有「一天前」这样数据格式:

我们可以通过 Excel 自动化处理,也可以自己处理一下:这里要改的数据不多,我们简单手动改下即可,比如将「一天前」改为「2019/4/22」,「两天前」改为「2019/4/21」,「11小时前」改为「2019/4/22」。(可以先鼠标选中日期列,然后搜索关键字「前」,可以快速定位到所有需要改的数据)

修改完毕后,date 格式已经统一了,然后我们开始最后一步:可视化。

四、数据可视化:Tableau

1. Why not Excel?

我需要先解释下为什么没有继续使用 Excel 来可视化。

其实,微软三件套中,Excel 的功能最为强大,定制能力最强,Excel 自带 VBA 编程环境,而且各种模版,各种函数,用好了就是一件大杀器,但遗憾的是,Excel Mac 版本的使用体验并不理想,暂且不说打开数据表格的速度要比 Windows 慢太多,更遗憾的是,Mac Excel 还是一个阉割版,比如 Mac 上就没有 Power Query 功能。

所以有必要再选一个 Mac 平台上的可视化工具。

2. Tableau:不止于可视化,更是BI工具

市面上可视化工具很多,国内也有很多网页端工具,方便,快捷。但我还是选择了 Tableau,首先它很好上手,其次它除了最基础的出图功能外,还提供了很多分析功能,也因此更接近一件半自动 BI(商业智能)分析工具。

Tableau 可以轻松创建和分发交互式数据仪表板,通过简单而有效的视觉效果提供对动态,变化趋势和数据密度分布的深入描述,Tableau 很容易理解为工作工具,其学习曲线非常温和,因为它努力为任何类型的用户提供其所有权力,甚至是那些以前从未接触过可视化工作流技术细节的用户。

对于工具软件来说,我认为大体分为两类:

  • 将业余「专业化」的工具
  • 将专业「业余化」的工具

前者如抖音、vue 这些视频工具,人们通过简单的操作也可以得到不错的效果。(业余专业化)

而 Tableau 则是面对那些不怎么具备专业技术的普通人员,让他们也可以通过简单的拖拽生成图表,它降低了数据分析的门槛。(专业业余化)

Tableau 是一个收费软件,不过我们可以下载它的免费 public 版本

下载好了之后,我们打开软件,我这里使用 desktop 举例,二者区别不大。

3. Tableau 上手流程

我们把已经下载好的 Matrix 文章 Excel 导进去:

然后我们点「转到工作表」:

可以看到面板上有三个大区:

先看第1大区。

这里需要先介绍一下,Tableau 将 Excel 中的数据识别为两种:维度、度量。

度量很好理解,大多数字都属于这一类,比如评论数和点赞数,图中后两个「记录数」和「度量值」是自动生成的,我们暂且不用管。

维度则是非数字,比如经纬度,字符串等,文章作者名、标题、日期都属于维度。

Tableau 的使用方法也比较简单,直接拖拽或点击数据到表3的行/列中,Tableau 会自动生成合适的图表。

比如我们可以拖拽「评论数」和「作者」分别到「列」和「行」:

点击右边的智能显示可以看到 Tableau 自动生成图表,比如我们选择水平条图表,智能显示的下方文字会提示你还需要再拖动哪些维度或度量才可以生成图表。

我们还可以点击上方的降序图标,让图表降序排列。

记录数是 Tableau 中主动生成的度量指标,它是所有数据的总记录,很多时候都可以用到它,比如我们现在将记录数拖拽到面板的第2区中的标签上:

图表也带上了具体数字的文字标签:

这个时候,我们还有一个问题,作者数量过多,导致图表过长,显示不全,出图效果不好,我们可以使用2区中的「筛选器」精简图表。

比如我们只需要总评论数的前20名作者,这个时候就需要用到排序,我们可以使用Tableau 自带的排序「快速表计算」。

先将记录数拖拽到2区中的标记面板,右键选择「快速表计算」中的「排序」:

再将计算好的总和(记录数)拖拽到上方的筛选器中,点击下一步,进入排序设定,我们设右区间为20:

这样图表就会显示一共前20列。

我们还可以在图表中添加平均值,中位数等辅助线。

将「记录数」和「作者」分别拖拽到列行后,点击左侧1区的「分析」,将平均线拖拽到右侧3区中,会如下显示,将线拖拽到第一个即可:

如果我们想导出图片,可以在软件上方 Tab 「工作表」中,选择导出图像,不过这样的出图经测试不如直接系统截图清晰:)

我们也可以将几张图表进行「拼盘」,也就是新建「仪表板」,在那里你可以将这些已经生成的图表进行排序,位置上组成任何你想要的样子。

如果还需要演示与交互效果,我们还可以将「仪表板」组合成「故事」。

其他的图表大同小异,大家可以自行尝试。

下面讲几个文章开头的图表做法。

4. tableau 实战

4.1 双度量图

这个图表使用了相同竖轴(作者),将点赞数和评论数展示在一张图上,优势是信息量比两张单图展示更大。

实现效果比较简单,分别将度量中的点赞和评论拖拽到3区中的列上即可。

4.2 散点图

散点图用来探讨两个变量之间的相关性,比如我们可以使用评论和点赞数制作散点图,找寻二者之间的关系。

我们从度量中将评论数与点赞数分别拖拽到3区的行/列中,然后在右边的智能提示边选择散点图。

现在,图上什么都没有,我们想在表中相显示作者信息,并且最好能从形状上看出作者与点赞之间的关系。

我们分别从度量中拖拽「作者」到2区的「颜色」和「标签」,不同作者就会用不同颜色显示,也会在图中显示作者名。

然后,再将度量中的「点赞」拖拽到「大小」,图中圆圈的大小就会反应作者收到的点赞量。

然后,我们想研究评论和点赞之间的相关性,我们可以在1区「分析」中引入「趋势线」

这里可以看到两个数值:R 平方值和 P 值。

简单解释下它们的统计学含义:

  • 显著性-P值:P 值小于0.05则表示结果解释为显著,P 值越小,模型的显著性就越高,两个变量的相关性越高
  • 显著性-描述模型- R平方:为模型解释的数据中的方差与数据中的总方差的比率,进行线性回归时,R^2介于0~1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合优度比较高

这里 P 值较小,相关性模型比较显著,模型拟合效果也还可以。

所以,一篇文章点赞多,评论也可能越多。

4.3 同轴显示柱形图和折线图

该图表一般用柱形图展示某变量数量上的变化,用折线图展示数量增长或降低的幅度,即变化趋势。

这张图,我们需要用到的数据是「发文日期」和「记录数」,也就是文章数。

由于我们数据采集周期是从2017年3月27日到2019年4月23日,为了数据的完整与客观性,我们选择2017年4月初到2019年3月底完整两年时间。

我们先筛选时间,将日期拖拽到2区的筛选器中,选择「日期范围」,并选择我们想要的区间:

然后将1区维度中的「日期」拖拽到列,并且点击列上的日期,让它按月显示数据:

我们将记录数拖拽到3区的行中,柱形图就出来了:

然后我们制作折线图。

将记录数拖拽到2区的标记中,选择「快速表计算」中的「百分比差异」,来计算各个月份之间的相对百分比差异:

然后将其拖拽到3区行上,并将其对应标记选择为线:

之后,我们需要合并两个坐标轴,选择行上最右边的总和(记录数)(三角),右键下拉菜单选择双轴:

图下方显示 null 值,我们点击它,选择从「默认位置显示数据」即可。

颜色也需要再处理下。

我们可以在图中所示柱状图中改变柱状条颜色:

4.4 堆叠图

在 Matrix 发表的文章,都有多少上过首页?

理论上来说,网页并没直接提供这样的数据,这里我根据点赞量做一个简单猜测:点赞量50以上的文章,就认为它上过首页,但这样有些武断,因为确实存在上首页后不超过50赞的文章,这样的结果是,图上显示的上过首页文章可能会比实际值低

时间上,我们选择2018年全年,数据最为完整。

筛选器选择年份为2018,然后分别将「发文时间」和记录数拖拽到列和行,发文时间选择按「月」展示,标记处改为条形图显示:

这时我们需要解决一个问题:将所有的记录数(文章)根据点赞数0-50和50以上进行分组,才能得到堆叠图:

  • 0-50点赞文章
  • 50点赞以上文章

我们需要用到 Tableau 中的分组功能,选择度量中「点赞」右键创建「组」

多选(0-50)和(51到最后)并进行分组:

分好两组之后,维度出现了新的like(组)1:

我们将like(组)1直接拖拽到2区标记中的「颜色」中,堆叠图就做好了。

4.5 词云图

最后说下词云图的制作方法:

词云图中各个词一般会对应某数值,数值越大,词字体越大

我们想制作一个根据点赞量显示作者名字的词云图,我们分别将「点赞」度量和「作者」维度拖拽到行列。

然后在智能提示中选择填充气泡图。

最后在2区中将标记改为文本即可:

五、可视化教程总结

1. 低门槛 Workflow

本文的初衷,是希望通过实践建立起一个简单的数据可视化 Workflow。因为在我看来,每个人都应该具有选择工具的权利与能力,来突破隔行如隔山的专业性「代沟」,增强自己的竞争力。

就算在少数派这样重实操,较极客的平台,对大部分人来说,编程还是有门槛,

任何一件事都有门槛,但我们能做的,就是不断把这个门槛降低,让更多的人感受「data is beautiful」。

2. 工具潜力未被完全挖掘

篇幅有限,本文对工具的介绍并不全面,也就是说它们还可以达到更高的水平。

比如我们想要对 Matrix 文章的调性做一个数据分析,其实 Web Scraper 还可以自动抓取跳转链接后的数据,也就可以通过 Web Scraper 跳转文章标题链接,拿到文章页面中「标签」这一维度的数据,从而分析出作者都爱写哪些类型文章,读者又都更偏爱哪些类型文章等。

再比如我们可以让 Web Scraper 跳转作者页面,拿到作者的总写作字数,这个时候就可以配合 Tableau 的参数化计算字段,找到一些新角度,比如计算点赞数/写作字数,就可以看出作者驾驭文字的能力。

这样的角度还有很多,等着你去挖掘。

3. 工具的局限性

再好用的工具也有自己的局限。

相比于 Python、D3、R、Echart 这些「正统」数据处理语言来说,Web Scraper 首先缺少实时性,也就是说它不能每时每刻监控网页上的数据变动,每次爬取数据都要手动开始,也不能提前定时,自动化水平不高,而且数据采集要在 Chrome 中模拟翻页,点击,耗时较长。而且 Web Scraper 和 Tableau 都有一定的性能瓶颈,当需要处理的是百万,千万级别的数据时,软件的响应速度远远不如编程语言。

所以说,工具的出现并不意味编程过时了,只是这些工具也能让普通人上手一些轻场景的数据分析,比如做新媒体,需要分析竞品网站,这个时候工具的优势就体现出来了,从数据采集到分析,都不太需要过多的编程知识。

而对于那些数据量级巨大,网页爬取不便,且对可视化出图样式要求较高的重场景数据分析来说,编程工具会更合适。

最后,简单谈下我对数据可视化的理解。

六、微谈数据可视化

1. 数据可视化的本质

数据可视化有着统计学渊源,但并不是只有严格意义上的传统图表才称得上可视化。不管是我们演示用的图例,还是基于气象模型的 R 语言的专业数据分析,或是好奇心日报的「好奇心小数据」这样的数据新闻,其实都算是数据可视化。

那可视化的本质是什么?

在知名可视化作者 Nathan Yau 看来:

我们手头的大堆数据反映了真实的世界,然后我们对它们进行分析,得到的不只是视数据的关联性,我们还能了解到身边正在发生什么。这些故事反过来可以帮助我们解决真实世界中存在的问题,例如降低犯罪率、提高卫生意识、改善高速上的交通状况,或者只是增长我们的见识。

数据可视化的本质是寻求真相,透过数据——世界的真实反应,来找寻各种事件间的相关性与事情发展的趋势,从而找到一些问题,然后我们才会想方设法解决这些问题,让这个世界变得更好。

寻找问题,解决问题,把你的想法通过图表顺畅的传达给读者,我认为这就是数据可视化的第一要义。

从本文前几章的工具教程可以看出,工具的上手难度并不高,但是如何着手做好数据可视化却很难,换句话说,可视化的「术」很简单,「道」却很难。

2. 「道」即是问题

图片最伟大的价值在于它迫使我们注意到从未预见到的事物。——约翰·图基

当我着手对 Matrix 的文章可视化时,我需要通过不断设问来推进可视化:

  1. 我可以拿到什么数据?
  2. 我想了解数据的哪些点?
  3. 数据背后的问题是什么?我对哪些问题有疑问?
  4. 选择哪些合适的图表?
来源:《数据之美》

我的回答

  1. 文章标题、作者、点赞、评论、发布日期
  2. 最好的是谁?勤勉(发文数)、受欢迎(点赞)等各种排名,时间的变化呢?
  3. 先从整体看数据,然后放大到具体的分类和独立的数据点,哪里增加、减少、离群值,数据中的差异与随机性相比是怎样的?
  4. 柱形图(排名)、折线图(增长率)、堆叠图/饼图(首页比例)等

当然,在可视化的过程中,你最好围绕一个核心问题出发,有时核心问题来源于你的核心需求,比如对于 Matrix,我的核心问题是:如何写一篇受大家欢迎的文章?

这个问题带到数据解读中,又可以转换成:什么样的文章最受大家欢迎?

我们再回顾下单篇最受欢迎文章:

指南、教程类文章榜上有名

我们可以看到,最受大家欢迎的文章高度集中在「指南」、「教程」中,一方面这说明少数派的读者都有很强的学习欲望,从而对教程类文章更感兴趣,另一方面,大家送出的「赞」在这些文章中更像是「收藏」,即某种标记,从而可以在需要的时候找出来再看一遍。

这里说句题外话,很多互联网产品,都会将「喜欢」、「赞」与「收藏」联系在一起,会更符合一些用户的使用习惯。(我个人就是把赞当收藏用)

比如第三方微博客户端,墨客:

现在说回来,如果你想开始可视化之旅,最好对已经采集到的数据抱有一个核心需求(你到底想获得什么),这个核心需求会激发你在阅读数据时找到核心问题,从而又能找出更多小问题,这样, 你的可视化之旅就会自驱动向前。

3. 你不一定需要炫酷图表

有时我们会见到一些炫酷的图表,比如桑葚图:

还有这样的:(我不知道名字)

它们的共同之处在于生活中都比较少见,人们看完觉得耳目一新,感觉很炫酷。但我推荐大家谨慎使用这样的图表,因为它们过于复杂了,可读性大打折扣,图上的视觉因素盖过了你本想要传达的信息。

文章开头很多图都是比较常见的图表,比如柱状图,折线图,饼图等等,之所以选择它们,并不是因为制图简单,而是它们对读者更友好。

世界上最早的柱状图出现于威廉·普萊菲1787年出版的《商业和政治图集(第二版)》。

描述了1780年圣诞节到1781年圣诞节这一整年的时间里,苏格兰对不同国家和地区的进出口情况。

柱状图沿用至今已经有200多年历史,这意味着它经受住了时间的考验,人们认可它简洁的可读性。

无论是新兴图表还是传统图表,让人们更好理解,更符合阅读习惯的图表就是好图表。

有时图表需要顾及传播性,我们当然可以选择一些新颖的设计,不过最基础的一条要求还是要考虑可读性,你必须简单直接地向读者传达出你想表达的意思。

七、附录

标题是踹门教程,一方面要求上手速度要快,另一方面,就是要有力量,也就是执行性要强,可以通过阅读文章制作大部分图表。

Web Scraper 和 Tableau 都可以导入「配置文件」,比如 Tableau 的配置文件类似于「源码」,你可以看到我在出图过程中所有操作。如果学习过程有不会的地方,可以做个参考,我把它们都打包到了百度云上(见后文)。

Web Scraper 的「配置文件」是一段 json,你可以在这里复制进去,然后可以看到所有的选择器结构与配置,并且可以直接跑数据:

Tableau 「配置文件」为 Matrix.twbx,下载后点击 Tab 栏「文件」「导入工作簿」即可。

这里再推荐一些可视化书籍与工具教程链接,书中的知识是更高级的方法论,从「道」上帮你理解可视化;教程你可以当成查询手册来用,在阅读本文时可以翻阅一些知识点,查漏补缺,

1. 书:

2. 教程:

3. 文章中用到的数据集与工具配置文件:

4. 可以用来练习的数据集(Excel):

这里再提供一些数据集网站,你可以在上面下载一些 Excel 文件,然后发动你的好奇心,大胆的可视化。几个例子下来,我相信你一定可以掌握这套低门槛的可视化 Workflow。

  • 世界银行
  • IMF(国际货币基金组织)
  • kaggle(推荐)
  • data is beautiful(Reddit 知名数据分析频道,时常会放出一些数据集,组织可视化比赛,而且还可以观摩很多优秀案例,推荐)

5. 题图:放松一下

最后欣赏一下来自 CLEVER°FRANKE 团队为红牛做的派对数据可视化,它也是本篇文章的题图。

CLEVER°FRANKE 为 redbull 做的派对数据可视化

完整图:

这个项目是 CLEVER°FRANKE 受邀与时尚品牌 BYBORRE 合作,在阿姆斯特丹舞会活动(ADE,电子乐派对)上,为派对客人定制的数据可视化。

数据来自于客人戴的手环。

手环上有检测器,可以检测动作、定位、温度、ID、分贝(声音)数据,然后通过联网实时将这些数据传到可视化团队,他们也配备了一套相当完善的可视化 Workflow:

他们用 java 分析数据。Processing creatice 出图。

最后派对结束,每个客人都会收到为自己定制的可视化纪念品。

再看两个效果:

怎么看这些图呢,简单来说,他们用不同的颜色表示温度、活动、位置(维度),用透明度来表示强度(度量)。

Data is beautiful, right?

希望这篇文章对你有帮助。

本文首发少数派,同步 WEB VIEW ,任何人未经许可不得转载。

❌