Apache Arrow#
Apache Arrow 是用于内存分析(in-memory analytics)的开发平台。它包含了一套技术,使大数据系统能够快速处理和移动数据。它规定了一种标准化的、与语言无关的列式内存格式(language-independent columnar memory format),用于扁平(flat)和分层(hierarchical)数据,以便在现代硬件上进行高效的分析操作。
该项目正在开发多语言库集合,用于解决与内存内分析数据处理相关的系统问题。这包括以下主题:
零拷贝共享内存和基于 RPC 的数据移动
读取和写入文件格式(如 CSV、Apache ORC 和 Apache Parquet)
内存分析和查询处理
- PyArrow
pyarrow
快速上手- 数据类型和内存中的数据模型
- 计算函数
- 内存和 IO 接口
- 流式传输、序列化和 IPC
- 文件系统接口
numpy
集成- Pandas 集成
- DLPack 协议
- Apache Parquet 格式的读取与写入
- 表格型数据集
- CUDA 集成
- Arrow 列式格式
pyarrow.Tensor
pyarrow.DataType