[Release][2.3.9] update docs for seatunnel website

apache · Jan 19, 2025 · c054d9f · c054d9f
1 parent 5c03794
commit c054d9f
Show file tree

Hide file tree

Showing 490 changed files with 66,706 additions and 8 deletions.
diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.3.9/about.md b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.3.9/about.md
@@ -0,0 +1,70 @@
+# 关于 SeaTunnel
+
+<img src="https://seatunnel.apache.org/image/logo.png" alt="seatunnel logo" width="200px" height="200px" align="right" />
+
+[![Slack](https://img.shields.io/badge/slack-%23seatunnel-4f8eba?logo=slack)](https://s.apache.org/seatunnel-slack)
+[![Twitter Follow](https://img.shields.io/twitter/follow/ASFSeaTunnel.svg?label=Follow&logo=twitter)](https://twitter.com/ASFSeaTunnel)
+
+SeaTunnel是一个非常易用、超高性能的分布式数据集成平台，支持实时海量数据同步。 每天可稳定高效同步数百亿数据，已被近百家企业应用于生产。
+
+## 为什么需要 SeaTunnel
+
+SeaTunnel专注于数据集成和数据同步，主要旨在解决数据集成领域的常见问题：
+
+- 数据源多样：常用数据源有数百种，版本不兼容。 随着新技术的出现，更多的数据源不断出现。 用户很难找到一个能够全面、快速支持这些数据源的工具。
+- 同步场景复杂：数据同步需要支持离线全量同步、离线增量同步、CDC、实时同步、全库同步等多种同步场景。
+- 资源需求高：现有的数据集成和数据同步工具往往需要大量的计算资源或JDBC连接资源来完成海量小表的实时同步。 这增加了企业的负担。
+- 缺乏质量和监控：数据集成和同步过程经常会出现数据丢失或重复的情况。 同步过程缺乏监控，无法直观了解任务过程中数据的真实情况。
+- 技术栈复杂：企业使用的技术组件不同，用户需要针对不同组件开发相应的同步程序来完成数据集成。
+- 管理和维护困难：受限于底层技术组件（Flink/Spark）不同，离线同步和实时同步往往需要分开开发和管理，增加了管理和维护的难度。
+
+## SeaTunnel 相关特性
+
+- 丰富且可扩展的Connector：SeaTunnel提供了不依赖于特定执行引擎的Connector API。 基于该API开发的Connector（Source、Transform、Sink）可以运行在很多不同的引擎上，例如目前支持的SeaTunnel引擎（Zeta）、Flink、Spark等。
+- Connector插件：插件式设计让用户可以轻松开发自己的Connector并将其集成到SeaTunnel项目中。 目前，SeaTunnel 支持超过 100 个连接器，并且数量正在激增。
+- 批流集成：基于SeaTunnel Connector API开发的Connector完美兼容离线同步、实时同步、全量同步、增量同步等场景。 它们大大降低了管理数据集成任务的难度。
+- 支持分布式快照算法，保证数据一致性。
+- 多引擎支持：SeaTunnel默认使用SeaTunnel引擎（Zeta）进行数据同步。 SeaTunnel还支持使用Flink或Spark作为Connector的执行引擎，以适应企业现有的技术组件。 SeaTunnel 支持 Spark 和 Flink 的多个版本。
+- JDBC复用、数据库日志多表解析：SeaTunnel支持多表或全库同步，解决了过度JDBC连接的问题； 支持多表或全库日志读取解析，解决了CDC多表同步场景下需要处理日志重复读取解析的问题。
+- 高吞吐量、低延迟：SeaTunnel支持并行读写，提供稳定可靠、高吞吐量、低延迟的数据同步能力。
+- 完善的实时监控：SeaTunnel支持数据同步过程中每一步的详细监控信息，让用户轻松了解同步任务读写的数据数量、数据大小、QPS等信息。
+- 支持两种作业开发方法：编码和画布设计。 SeaTunnel Web 项目 https://github.com/apache/seatunnel-web 提供作业、调度、运行和监控功能的可视化管理。
+
+## SeaTunnel 工作流图
+
+![SeaTunnel Work Flowchart](../images/architecture_diagram.png)
+
+SeaTunnel的运行流程如上图所示。
+
+用户配置作业信息并选择提交作业的执行引擎。
+
+Source Connector负责并行读取数据并将数据发送到下游Transform或直接发送到Sink，Sink将数据写入目的地。 值得注意的是，Source、Transform 和 Sink 可以很容易地自行开发和扩展。
+
+SeaTunnel 是一个 EL(T) 数据集成平台。 因此，在SeaTunnel中，Transform只能用于对数据进行一些简单的转换，例如将一列的数据转换为大写或小写，更改列名，或者将一列拆分为多列。
+
+SeaTunnel 使用的默认引擎是 [SeaTunnel Engine](seatunnel-engine/about.md)。 如果您选择使用Flink或Spark引擎，SeaTunnel会将Connector打包成Flink或Spark程序并提交给Flink或Spark运行。
+
+## 连接器
+
+- **源连接器** SeaTunnel 支持从各种关系、图形、NoSQL、文档和内存数据库读取数据； 分布式文件系统，例如HDFS； 以及各种云存储解决方案，例如S3和OSS。 我们还支持很多常见SaaS服务的数据读取。 您可以在[此处] 访问详细列表。 如果您愿意，您可以开发自己的源连接器并将其轻松集成到 SeaTunnel 中。
+
+- **转换连接器** 如果源和接收器之间的架构不同，您可以使用转换连接器更改从源读取的架构，使其与接收器架构相同。
+
+- **Sink Connector** SeaTunnel 支持将数据写入各种关系型、图形、NoSQL、文档和内存数据库； 分布式文件系统，例如HDFS； 以及各种云存储解决方案，例如S3和OSS。 我们还支持将数据写入许多常见的 SaaS 服务。 您可以在[此处]访问详细列表。 如果您愿意，您可以开发自己的 Sink 连接器并轻松将其集成到 SeaTunnel 中。
+
+## 谁在使用 SeaTunnel
+
+SeaTunnel 拥有大量用户。 您可以在[用户](https://seatunnel.apache.org/user)中找到有关他们的更多信息.
+
+## 展望
+
+<p align="center">
+<br/><br/>
+<img src="https://landscape.cncf.io/images/left-logo.svg" width="150" alt=""/>&nbsp;&nbsp;<img src="https://landscape.cncf.io/images/right-logo.svg" width="200" alt=""/>
+<br/><br/>
+SeaTunnel 丰富了<a href="https://landscape.cncf.io/?item=app-definition-and-development--streaming-messaging--seatunnel">CNCF 云原生景观</a >。
+</p >
+
+## 了解更多
+
+您可以参阅[快速入门](start-v2/locally/deployment.md) 了解后续相关步骤。
diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.3.9/command/connector-check.md b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.3.9/command/connector-check.md
@@ -0,0 +1,35 @@
+# 连接器检查命令用法
+
+## 命令入口
+
+```shell
+bin/seatunnel-connector.sh
+```
+
+## 命令选项
+
+```text
+Usage: seatunnel-connector.sh [options]
+  Options:
+    -h, --help         Show the usage message
+    -l, --list         List all supported plugins(sources, sinks, transforms) 
+                       (default: false)
+    -o, --option-rule  Get option rule of the plugin by the plugin 
+                       identifier(connector name or transform name)
+    -pt, --plugin-type SeaTunnel plugin type, support [source, sink, 
+                       transform] 
+```
+
+## 例子
+
+```shell
+# List all supported connectors(sources and sinks) and transforms
+bin/seatunnel-connector.sh -l
+# List all supported sinks
+bin/seatunnel-connector.sh -l -pt sink
+# Get option rule of the connector or transform by the name
+bin/seatunnel-connector.sh -o Paimon
+# Get option rule of paimon sink
+bin/seatunnel-connector.sh -o Paimon -pt sink
+```
+
diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.3.9/concept/JobEnvConfig.md b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.3.9/concept/JobEnvConfig.md
@@ -0,0 +1,73 @@
+# JobEnvConfig
+
+本文档描述了env的配置信息，公共参数可以在所有引擎中使用。为了更好的区分引擎参数，其他引擎的附加参数需要携带前缀。
+在flink引擎中，我们使用`flink.`作为前缀。在spark引擎中，我们不使用任何前缀来修改参数，因为官方的spark参数本身就是以`spark.`开头。
+
+## 公共参数
+
+以下配置参数对所有引擎通用：
+
+### job.name
+
+该参数配置任务名称。
+
+### jars
+
+第三方包可以通过`jars`加载，例如：`jars="file://local/jar1.jar;file://local/jar2.jar"`
+
+### job.mode
+
+通过`job.mode`你可以配置任务是在批处理模式还是流处理模式。例如：`job.mode = "BATCH"` 或者 `job.mode = "STREAMING"`
+
+### checkpoint.interval
+
+获取定时调度检查点的时间间隔(毫秒)。
+
+在`STREAMING`模式下，检查点是必须的，如果不设置，将从应用程序配置文件`seatunnel.yaml`中获取。 在`BATCH`模式下，您可以通过不设置此参数来禁用检查点。在Zeta `STREAMING`模式下，默认值为30000毫秒。
+
+### checkpoint.timeout
+
+检查点的超时时间(毫秒)。如果检查点在超时之前没有完成，作业将失败。在Zeta中，默认值为30000毫秒。
+
+### parallelism
+
+该参数配置source和sink的并行度。
+
+### shade.identifier
+
+指定加密方式，如果您没有加密或解密配置文件的需求，此选项可以忽略。
+
+更多详细信息，您可以参考文档 [Config Encryption Decryption](../../en/connector-v2/Config-Encryption-Decryption.md)
+
+## Zeta 引擎参数
+
+### job.retry.times
+
+用于控制作业失败时的默认重试次数。默认值为3，并且仅适用于Zeta引擎。
+
+### job.retry.interval.seconds
+
+用于控制作业失败时的默认重试间隔。默认值为3秒，并且仅适用于Zeta引擎。
+
+### savemode.execute.location
+
+此参数用于指定在Zeta引擎中执行作业时SaveMode执行的时机。
+默认值为`CLUSTER`，这意味着SaveMode在作业提交到集群上之后在集群上执行。
+当值为`CLIENT`时，SaveMode操作在作业提交的过程中执行，使用shell脚本提交作业时，该过程在提交作业的shell进程中执行。使用rest api提交作业时，该过程在http请求的处理线程中执行。
+请尽量使用`CLUSTER`模式，因为当`CLUSTER`模式没有问题时，我们将删除`CLIENT`模式。
+
+## Flink 引擎参数
+
+这里列出了一些与 Flink 中名称相对应的 SeaTunnel 参数名称，并非全部，更多内容请参考官方 [Flink Documentation](https://flink.apache.org/) for more.
+
+|           Flink 配置名称            |            SeaTunnel 配置名称             |
+|---------------------------------|---------------------------------------|
+| pipeline.max-parallelism        | flink.pipeline.max-parallelism        |
+| execution.checkpointing.mode    | flink.execution.checkpointing.mode    |
+| execution.checkpointing.timeout | flink.execution.checkpointing.timeout |
+| ...                             | ...                                   |
+
+## Spark 引擎参数
+
+由于Spark配置项并无调整，这里就不列出来了，请参考官方 [Spark Documentation](https://spark.apache.org/).
+