本地存储+线上获取:我的个人数据库建构路径

这是个信息轰炸的时代,除了必要的信息过滤手段外,每个人都应该构建属于自己的个人知识库。

一、个人数据库避坑指南

前两天有个用户给我邮件问了一些问题,我觉得非常有意思,也很有代表性,所以聊聊这个事情。

为免隐私问题,我把一些内容打码了,请勿对号入座。

使用过笔记类软件的朋友都知道,这位朋友遇到的可能是一个共性问题,也就是:我们自己的笔记究竟该如何处理才最方便、最有助于个人成长?不同的软件有不同的理念,有的服务注重开放性,能够与市面上的其他服务共通,便于定制自己的知识空间;有的软件则认为自己的知识整理理念独一无二且非常优秀,因此相对封闭,便于吸引用户且留住用户。在这篇文章中,针对笔记和知识整理领域,我们来共同探讨关于个人数据整理的问题:

究竟什么样的个人数据存储方案才是好的?

如何构建适合自己的数据存储空间?

构建自己的个性化服务应该注意哪些内容?

1. All-in-one VS All-in-all

打开凤凰新闻,查看更多高清图片

先来看第一个问题:什么样的存储方式才是「好」的?

现在是 21 世纪,因为疫情,云服务在这两年大热。在这两年,不少云存储服务也百花齐放。但说到存储,首先要搞清楚我们要存储些什么东西?既然是要存,我们希望的自然是能够「在我想要的时候找到它」,减少损坏、降低遗失的几率。各家云服务为我们提供了随时获取自己数据的权利,但也带来一个问题,那就是:我们存到云端的数据,还是我们的吗?随着不少云服务供应商的政策变化,我们越来越注意到,放在云端,虽然方便获取,但也方便丢失了。靠谱的供应商还给你数据导出和备份的机会,不靠谱的,直接关掉你的账户,你的数据、记忆、情感、心血,可能一瞬间就灰飞烟灭。所以,这两年回归本地仓储的声音也越来越高。因为,放到云里,实在太不稳定了。

那么,多备份几份数据不就好了?

是这样,一个服务商丢了,我们可以从另一家获取。我的还是我的。这就是 All-in-all 的存储,安全、稳定、便利。但我们当真需要花费这么多时间和精力对自己的数据进行整理、归档、存储吗?要知道,每多存储一份,需要付出的时间、金钱也多一份。

世界上还存在另一种服务,All-in-one 的服务,如果不能选择把数据交给所有服务商,那就交给一家放心的好了。如果说 All-in-all 的存储是一个极端,那 All-in-one 这种服务,则走向了另一个极端。前者过于耗费心思,后者则直接放弃了自己选择的权利,前者是「把每一个鸡蛋各自放在一个篮子里」,后者是「把所有鸡蛋都放到同一个篮子里」。任何一个明智的人都知道,凡事有度,走向任何一个极端都不合适。那么,怎么办?

2. 沉没成本与数据孤岛

有人讲,我交给自己放心的服务商,良好的互联网生态下,使用起来更为便利。虽然放弃了自己选择的权利,但我获得了优质的服务,何乐而不为?

当然是的,但这种情况的前提是:我们一辈子都呆在同一条船上,不导出自己的数据。就用它好了,不需要导出,这样在任何设备,登录一个账户,就能看到自己的信息了!

看似美好,但这样做的话,我们也陷入的一定的风险,比如「某笔记」的怪圈:

VIP VVIP VVVIP 不断地拿钱「续命」;

无法体验到新工具的优势,这都跟你无关,只能用它;

用得越多,沉没成本越高,越难以脱离这个工具,迁移所需要的成本也越高。

这就是所谓的 数据孤岛。用得越多,沉没成本越高,越难以脱离这个工具,迁移所需要的成本也越高。

3. 避坑指南

因此,为避免这种情况的发生,我诚挚地推荐大家构建自己的个人数据库。而且,当我们构建个人数据库时,需要仔细斟酌各项服务的优劣。依照我的个人经验,要想「避坑」,需要遵循两条原则:

尽量不要选择纯线上服务;

即便使用线上服务,也要选择「支持开放的 API 导出」的服务,而非手动导出;

二、什么是个人数据库

如果不了解这个概念的话,可以试想一个场景:

当你需要查询某个内容,你的做法并不是通过搜索引擎,而是在你的「个人数据库」中,通过模糊查询,就能找到你需要的这些内容。

不仅如此,这条信息的属性(标签),以及当初加入时你写的备注,甚至于这条信息的关键内容(标注),以及出处(原文链接)等有效信息都能被迅速找到。

而这条信息要比从搜索引擎得到的内容更加专门针对于你,这就是个人数据库,一个属于你自己的信息筛选 / 查询 / 编辑整理系统。

能做到上面这点工具有很多:

主打第二大脑的印象笔记,One Note,以及现在流行的 All-in-one 的 Notion 等。

现在流行的双链笔记工具:Obsidian / Logseq 等。

各种稍后读 / 书签服务:Pocket / Instapaper / Raindrop 等。

三、如何选用个人数据库

依照笔者的理解,个人数据库之所以称为「个人」数据库,不仅在于数据库本身的丰富体系及便利获取,更在于「个人」这两字所包含的意味,即「专属性」和「隐私性」。换句话说,个人数据库中,「数据信息」是元素、「库」是对信息的整理体系、「个人」是信息的拥有者。要想构建自己的个人数据库,三者缺一不可,而在当前的服务中,多数服务都是着重发展「数据库」为主,忽略了「个人」。

那么,一个良好的个人数据库应当是什么样的?或者说,选用或构建个人数据库,我们应该关注哪些特征呢?以下是笔者的拙见。

1. 多元的信息标识

首先,数据信息是数据库构建的基础,对数据加以整理形成数据库的基础在于信息标识。 所谓信息标识,是指对信息的描述、解释和控制,一般而言,基础的信息标识包括数据的标签、备注、描述等等。多元且丰富的信息标识使得我们对信息的检索和获取更加便利,因此,信息标识越多越好,或者讲,可添加的信息属性 / 维度越多越好。

例如,我们可以随意打开一本书,这本书的背后有许多「元数据」——作者、译者、编辑、上架建议、出版年份、关键词、摘要等等,这一系列「元数据」使得我们能迅速了解某本书是不是我们感兴趣的,作者、主题等是不是我们关注的,是不是已经过期了或者是不是经典。凭借这些元数据,我们不必每次都阅读同一篇文章的全部内容,所需要的只是将其中的关键信息和观点加以整理,以此形成自己的知识体系和观点。

在个人数据库中,我们凭借对信息的文件夹体系、标签系统、备注、标注、描述信息等来对其进行归类和消化。一般来说,上个时代的笔记服务,如某某笔记无法满足个性化的信息属性,仅支持标签 / 文件夹等,基本无法添加任何个性化的有效属性,而 Notion / Obsidian 这类现代的双链笔记,则可以添加任意多的个性化属性。

2. 本地化数据管理

其次,既然是「个人」数据库,就要注重数据信息的「专属性」和「隐私性」。「专属性」自不必言,当我们选择信息时必然围绕着自己的相关需求展开;而对于「隐私性」,在处处实名的今天,似乎成了一个笑话,大厂围绕数据安全的论战不断,也充分体现人们对隐私的关注。

我们不追求「隐私换取便利」,但也要尽可能把隐私安全放在重要位置。You are what you read,你阅读的东西造就了你,而如果你的阅读记录被泄露,也足以分析出你是什么样的人。因此,为了追求「隐私安全」,我们应尽量选用以本地管理为主的服务,凭借本地化存储和管理方式,我们可以完全控制数据的存储方式、访问权限以及信息安全协议等1。

在个人数据库的构建中,我们对数据的操作应尽可能建立在本地基础上,防止造成重大的泄露,使「个人数据库」变成「公共数据库」。例如,我们可以选择支持本地快照(离线数据)的服务,Obsidian / Logseq 这些支持本地系统的自不必言,部分在线笔记工具也支持这一功能。

线上服务的优势在于,导入即可,无需做任何额外操作,一个账户系统走遍全设备;而本地服务则需要配置(或设置),便利性不如线上服务。

这也是大家更喜爱用线上服务做仓储的原因。单纯地看,线上服务更方便,但纯线上的服务都无法满足方便迁移这个事情,越是主打快照功能的服务越是如此。这也就发生了上文截图反映的问题:不方便迁移。为什么这样讲?

主要有以下三个原因:

其一,仅仅支持导出到本地是不够的。导出后的数据若无法与线上数据形成对应关系,就无法形成系统的知识体系。若再给导出的数据增加一条「护城河」,仅支持导出专有格式,那这样的导出本地几乎没有意义。这意味着导出的数据对我来说是不方便处理的。如果无法构建「库」,再多的本地数据也是一片散沙。因此,支持本地快照和离线存储是把数据放到自己手上,而导出的格式是什么也同样重要。

其二,无法实现自动化方案。我们可以导入一条数据后再手动将其导出至本地,但这样做太费时间了,如果支持自动化,何乐而不为?

其三,后端流量消耗严重。设想一个用户有 100MB 数据,如果有 100 个这样的用户呢?

正所谓「导入一时爽,导出火葬场」。

3. 公有化数据结构

鉴于不少服务增加这条「护城河」来把用户锁在城里的做法过于无耻,笔者认为,优秀的本地存储应使用公有数据结构 ,以基于文本的格式为例,如 HTML、 JSON、 Text Bundle、 Markdown 等都是良好数据结构。Why?

首先,这些公有数据结构是互联网世界的普世价值,放在哪里都能保存其原貌,也就是说,不管在哪一台电脑上,很容易就被解析、解读,可以随地获取信息。

其次,这类数据结构是公有的、是经过历史检验的,可以在相当长的一段时间内不被淘汰,可以随时获取信息。

最后,公有化数据结构之间的相互转化相对成熟,如果我们厌恶了某一数据结构或在特殊情况下需要其他数据结构,还能方便地将其转为其他类型,而专属格式的封闭锁上了转化的通路。

4. 自由的数据导出

如果同时满足第二点和第三点,即为自由导出。可以离线 + 方便处理 ≈ 数据自有。

5. 方便的数据导入

如果支持 API 的话,可以通过各种线上的自动化平台,便利地从线上导入数据到本地。也就意味着,自己手上永远有一份数据备份。

四、符合要求的现有产品

1. 基于本地系统的双链笔记

根据上文的论述,要时刻把数据留在自己手里。我建议优先选择基于本地系统的双链笔记,如 Obsidian、Logseq 等,它们支持本地系统,并且基于文本格式,因此可以使用任意多的信息标识,方便索引,方便搜索,方便迁移。

它们可以满足个人数据库:

多元的信息标识

本地化数据管理

公有化数据结构

自由的数据导出

唯一不满足的是:

方便的数据导入

事实上,多数本地服务的问题都在于难以导入。我可以在手机上把一条链接甩给 Pocket,而在平板或电脑上的 Pocket 账户中,这条链接所包含的文本可以即时获得,但本地系统没有这么方便,即使可以导入,也需要复杂的操作。

2. 线上服务

如果你喜欢线上服务的便利性,则可以试试稍后读产品,如:Pocket / Instapaper / Pinboard / Raindrop 等。

它们可以满足个人数据库:

多元的信息标识

方便的数据导入

同时,它们无法满足:

本地化数据管理

公有化数据结构

自由的数据导出

是的,虽然大部分稍后读工具的增值服务都可以收藏快照,但依旧不是基于本地,在数据迁移上并不方便。

五、更好的方案

1. 简悦:贯通本地与线上服务的知识管理助手

有没有一种线上 + 线下的方案,不仅可以弥补本地仓储「不方便获取」的缺陷,也能弥补在线存储造成的「数据孤岛」?

不如试试简悦吧,它几乎可以完全满足个人数据库的要求。并且,由于高度的可定制化,弥补了线上和线下服务的劣势。

简悦是什么?多数朋友从「阅读模式」或「主打沉浸式阅读体验」了解到的简悦。但简悦已经存在四年多了,为什么要在这个时候再提起它呢?在这几年的版本迭代中,我发现,读者用户所需要的不仅仅是清爽的阅读体验,还有阅读过程的整理和思考。我个人比较喜欢阅读,也正是因为厌烦了不规范的页面和无处不在的小广告,才开发了简悦的最初版本。但如果简悦止步于「阅读模式」,我们不必再度提及。在历次版本迭代中,读者用户的需求各式各样,如何满足绝大多数人的不同口味?正是这个问题引发了我将简悦转型的许多思考。

也就是说,我希望简悦可以成为大家的知识管理助手,而非单纯一个 Read Mode 插件。

举例而言,在个人数据库的管理上,基于本地系统的 Obsidian、Logseq 等工具,由于其并没有官方提供的剪藏工具(本地化服务的剪藏能力先天不足),无法从手机端便利地导入本地,而第三方的剪藏工具的效果也参差不齐。为了弥补这一点,简悦增加了这几个功能:

导出到 Obsidian

复制 Makdown 到剪切板

Live Editor

Obsidian 与简悦都是本地优先,所以这里 有一大票 关于它们的联动方案。

此外,基于本地系统的服务大多有需要配置的问题,简悦也不例外,但简悦的将配置的门槛降低,凭借丰富的 解释文档 和 用户手册,以及社区的各路高手相助,「一次配置,长期使用」。你可以依靠开放的互联网生态借助简悦打造自己的个人数据库,因为:

简悦是基于本地系统的服务,主张隐私至上,此外依靠 同步助手,你的本地管理更为方便。

简悦本身就是阅读模式 + 标注 + 稍后读的服务。

简悦可导出到市面上几乎任意生产力工具。

简悦也支持多元的信息标识,可无限嵌套标签,增加备注,串接外链,思维导图以及双向链接,更近似于双链笔记形态。

简悦是一个开放性的系统,支持 API 导入以及导出,而且全部可以配置为自动化方案。

2. 简悦 API 2.0

如果说同步助手让简悦具有本地管理功能,那 API 2.0 的发布则让简悦拥有了线上服务的功能,同时本着开放的态度,用户可以完全脱离简悦的稍后读服务而仅仅把它当作个人数据库来使用。

借助于新的 API ,我们可以将收集文章的 URL 所对应的 HTML 保存到坚果云或 Dropbox 中(目前仅支持文本内容的保存),保存后的内容可以在 阅读列表 及 稍后读 直接查看。

一般而言,当一个新的稍后读服务出现后,首先要做的事便是「把用户留在新服务中」,甚至有些应用会提供导入功能,方便用户从其他服务中的导入数据。

但依靠简悦,你不需要这么做,你可以继续使用你喜欢的稍后读,无论是 Pocket 还是 Instapaper ,你依然可以使用它们,只需要将快照功能通过 API 交给简悦,你可以将离线数据及时保存在云端并在第一时间同步到本地。

这么做的优势有:

不用离开既有的 Pocket / Instapaper / Pinboard / Raindrop 系统

接入简悦后,可享受到简悦的全部服务,如:标注,导出,思维导图,知识图谱等,你可以不用,但你随时都有另一个选择

弥补了线上快照的不足,加强了本地数据管理,更私密更安全

基于此,可以衍生很多功能,如:

Inoreader 加星后自动保存到简悦的稍后读以及生成本地快照

保存到 Pinboard.in 同时也保存到简悦(包括本地快照)

Raindrop.io 加星后自动导入到简悦并生成本地快照

将简悦变成你的 RSS 阅读器(自动下载快照到本地)

加入 Pocket 后自动保存到简悦的稍后读(包含快照)

Instapaper 加星后自动保存到简悦的稍后读(包含快照)

3. 其它好物

除此之外,我们不止有单一的选择,以下两个服务也符合个人数据库的特点:

GoodLinks :大名鼎鼎的 1Writer 作者作品,基于 Apple 生态,支持快照到本地并支持 iCloud 保存(也就是基于本地保存)。

Marklist :与 GoodLinks 类似,同样基于 Apple 生态,支持快照和 iCloud 保存。

Wallabag:如果动手能力强,也喜欢丰衣足食的话,也可以试试这个自建服务。

简悦的伙伴们

感谢简悦社区小伙伴 jindunwaiting 帮忙校对和提供修改意见。

最后

希望这份个人数据库指南,能让你的数据归你所有,而不是为某个线上服务所垄断。