如何构建高机能可视化架构？一个交互式实时数据引擎的架构设计

yangsiwei

在剖析 SecDB、Athena、Quartz 几个实时金融与危险剖析平台的时分，发现了 Perspective —— 一个 FinTech 开源基金会 FinOS 旗下开源的交互式剖析和可视化组件库，由摩根大通（J.P. Morgan Chase）公司开源出去的流式数据可视化组件库。所以，从某种意义下去说也是《金融 Python 即办事：业务自助的数据办事模式》的后续展开，也能够算是低提早架构的后续探究。
后来，我只是对其中使用的 ExprTk 感兴致，起初发现这个库不简略：使用了 C++、Rust、Python、JavaScript、TypeScript 等言语。混合言语的名目都特别好玩，因而乎，我便开始探究它了。而我原先感兴致的 x
开始以前，先复制一下民间的引见：
Perspective 是一个交互式剖析和数据可视化组件，特别合适大型数据集或流数据。能够使用它来创立用户可配置的讲演、仪表板、Notebook 和运用顺序，而后在阅读器中独立部署，或与 Python 和/或 Jupyterlab 协同部署。简略来讲，就是能够提供实时图形渲染，并反对 Jupyter 集成。假如是 Jupyter 的集成，那末从某种来讲，它是一种金融任务台，相似于先前定义的架构任务台。
PS：写这样的工具太过繁杂了，所以先写篇文章记载一下，等将来有空的时分，再写一个。
高机能可视化架构：Perspective 架构剖析
初步绘制的 Perspective 架构图如下所示：

在 JavaScript 侧，零碎能够分为三层：
数据引擎。使用 C++ 与一系列的数据构造库等，进行封装，并提供数据操作 API。经过 Emscripten 构建和封装，以提供 WASM 接口。
wrapper 层。提供关于数据引擎的再次封装，以使 API 更合乎日常的编程习气，诸如于 table、view 等，还提供 worker、websocket等封装。
UI 组件。viewer 分为 d3fc、datagrid、openlayers 等不同的组件，大部份使用纯 Rust 编写，提供 Web Component API 等。
在 Python 侧，除了相反的 UI 部份，还需求构建 Jupyter 插件：
数据引擎。结合 pybind十一来提供 FFI （Foreign Function Interface，内部函数接口）才能。
wrapper 层。结合了 Python 数据迷信生态中的 Pandas、Numpy 等工具，来进行数据转换。
UI 层。结合 Lumino 对 UI 组件进行封装。
其中，对比无意思的是 Apache Arrow，提供了跨言语的数据反对。
密集计算下沉：C++ 与 WASM 应答应战
关于将密集型计算下沉到 WASM 部份，置信大家都对比相熟了。关于惯例的 WASM 使用来讲，需求均衡开发效力和运转效力，FFI 在调用的时分也存在机能损失。也因此，一种对比现实的形式是将数据操作，整个拜托给 C++ 部份去完成。
如下面的架构图所示，Perspective 的计算部份，次要是 Table 对象完成的，它是 Perspective中的根本数据容器。Table 是有类型的 —— 它们有一组不成变的列名，每个都有一个已知的类型。每当有对数据的处置时，都会经过 WASM 来处置。过滤与计算，在这里也是一个十分无意思的问题，即下面说到的 ExptTk，即是用来做这部份计算用的。
值得留意的是，Perspective之所以采取 C++ 来构建 WebAssembly 的形式，大略率是由于原本的一部份根底设施是基于 C++ 的。与此同时，原先采取的是 C++ 的 UI，以提供更好的机能。不外，Perspective 提供的 WASM 包，大略有 40M 摆布，在初始化的时分相对于慢了一点。
可是，又为何是 Table 呢？这就得从 Apache Arrow 提供的才能说起。
无序列化与内存剖析：Apache Arrow
关于序列化的机能优化，置信大家都对比相熟了。通常来讲一次数据传输操作包罗：
以某种格局序列化数据
经过网络衔接发送序列化数据
在接纳端反序列化数据
因而乎，在得多零碎中（如 ArchGuard），序列化就是零碎的瓶颈。既然序列化会带来问题，那末就不该该有序列化。因而乎，咱们就能在下面的架构图中，看到两个工具：
Apache Arrow。一个间接针对数据剖析需要的数据层，提供剖析所需的数据类型的综合聚拢。除了言语有关的规范化列式存储格局以外，它还包孕三个特性：零拷贝同享内存和基于 RPC 的数据挪动、读取和写入文件格局（如 CSV、Apache ORC 和 Apache Parquet）、内存剖析和查问处置。
FlatBuffers。一样的，无需解析/解包便可拜候序列化数据。
不外呢，FlatBuffers 只是 Arrow 用来序列化完成 Arrow 二进制 IPC 协定所需的模式和其余元数据。随后，咱们就能使用 Table 来调用 Arrow 的 API 来进行计算。
Apache Arrow 的相干引见能够见民间文档：http://arrow.apache.org/
灵敏的前端组件：无框架与渲染机制优化
简略来讲，只有是下列的两个特征：
无框架。关于一个以渲染为主的名目来讲，Perspective 不采取任何框架。从某种意义下去说，更小的包大小，也带来了更好的机能。除此，作为一个纯正的 web components 组件，它能够十分容易与几大主流框架结合到一同。
虚构渲染的 Table。在 Table 显示上， Perspective 采取的是 JMPC 的 regular-table，一样也是 Web Components 组件，能够间接引入名目使用。而且反对虚构渲染，即仅显示可视区域的数据，增加 DOM 节点以带来更好的机能。
关于 Web Component 和 Custom Element 部份，置信大家都对比相熟了。它们使用起来和正常的 HTML 区分不大，如下是一个不同 UI 组件之间的瓜葛示例：
每一个个组件分别在不同的工程中，倒是挺 componentless 的。一旦数据产生变动的时分，就会从 viewer 侧，调用 update_and_render从而更新 UI 部份的 render。
其它
参考资料：
《Apache Arrow 和 Java：大数据传输快如闪电》
《Perspective.js》官网

华人澳洲中文论坛

热图推荐

如何构建高机能可视化架构？一个交互式实时数据引擎的架构设计

发表回复

yangsiwei
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

如何构建高机能可视化架构？一个交互式实时数据引擎的架构设计

发表回复

yangsiwei 关注TA

图文推荐

yangsiwei
关注TA