[DOC] update schemas discover docs. (#72)

Qihoo360 · Apr 9, 2020 · 6c38d6b · 6c38d6b
1 parent aa3888f
commit 6c38d6b
Show file tree

Hide file tree

Showing 2 changed files with 2 additions and 1 deletion.
diff --git a/sql/xsql/docs/docs/datasources/elasticsearch.md b/sql/xsql/docs/docs/datasources/elasticsearch.md
@@ -16,7 +16,7 @@ Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它
 | spark.xsql.datasource.$dataSource.es.scroll.size             | 50      | 单个请求返回的条目（结果）数。目前仅在关闭下推时有效。请参阅https://www.elastic.co/guide/en/elasticsearch/hadoop/5.2/configuration.html中对es.scroll.size的详细介绍。 |
 | spark.xsql.datasource.$dataSource.es.scroll.limit            | 20      | 单个scroll所返回的条目（结果）总数。目前仅在关闭下推时有效。负数代表返回所有匹配的文档。请参阅https://www.elastic.co/guide/en/elasticsearch/hadoop/5.2/configuration.html中对es.scroll.limit的详细介绍。 |
 | spark.xsql.datasource.$dataSource.es.field.read.empty.as.null | yes     | 是否将空field作为null。目前仅在关闭下推时有效。请参阅https://www.elastic.co/guide/en/elasticsearch/hadoop/5.2/configuration.html中对es.field.read.empty.as.null的详细介绍。 |
-| spark.xsql.datasource.$dataSource.discover                   | None    | 是否启用并配置数据源的类型推断。实际会影响Elasticsearch的es.read.field.as.array.include配置。Elasticsearch中的字段（也可称为属性）默认都是可以存储Array的。XSQL没有办法准确获得一个字段是它的定义类型，还是数组类型。此配置用于告诉XSQL，哪些字段需要进行类型推断。有关详细信息，请参阅https://www.elastic.co/guide/en/elasticsearch/hadoop/5.2/configuration.html中对es.read.field.as.array.include的详细介绍。 |
+| spark.xsql.datasource.$dataSource.schemas.discover.config    | None    | 是否启用并配置数据源的类型探索。实际会影响Elasticsearch的es.read.field.as.array.include配置。Elasticsearch中的字段（也可称为属性）默认都是可以存储Array的。XSQL没有办法准确获得一个字段是它的定义类型，还是数组类型。此配置用于告诉XSQL，哪些字段需要进行类型推断。有关详细信息，请参阅https://www.elastic.co/guide/en/elasticsearch/hadoop/5.2/configuration.html中对es.read.field.as.array.include的详细介绍。注意：此配置必须在spark.xsql.datasource.$dataSource.schemas.discover开启时，才会生效。 |
 
 这里给出一个Elasticsearch接入XSQL的配置示例：
 

diff --git a/sql/xsql/docs/docs/tutorial/configuration.md b/sql/xsql/docs/docs/tutorial/configuration.md
@@ -14,6 +14,7 @@
 | spark.xsql.datasource.$dataSource.whitelist | None    | 用于指定数据源的Database及Table白名单。由于一些数据源中有大量的Database及Table，所以会导致启动XSQL时花费大量的时间。另一方面，每个用户只对其中的少数Database及Table感兴趣，因此可以提供白名单加速XSQL的启动。 |
 | spark.xsql.datasource.$dataSource.pushdown  | true    | 用于控制指定数据源的查询是否优先采用下推方式。此配置将建议XSQL对此数据源的查询使用下推方式，但是并不能保证。很多情况下，XSQL并不会下推，例如：数据源查询还包含有其他数据源的子查询，或者引用了外部查询的别名。 |
 | spark.xsql.datasource.$dataSource.schemas   | None    | 用于定义数据源中表的Schema信息。只适用于无严格Schema的数据源，例如：Redis、HBASE、MongoDB |
+| spark.xsql.datasource.$dataSource.schemas.discover | false | 对于无严格Schema的数据源，使用spark.xsql.datasource.$dataSource.schemas指定Schema配置文件，对于用户不太友好，而且一些复杂数据类型的定义（例如：ElasticSearch的nested类型）也十分繁琐。XSQL提供了对schema信息进行探索的能力，用户可以打开此开关，启用schema探索。注意：目前，此配置只对ElasticSearch和MongoDB有效。 |
 | spark.xsql.datasource.$dataSource.cache.level | 1     | 用于指定数据源的元数据缓存级别，1表示Level One，2表示Level Two。 |
 | spark.xsql.datasource.$dataSource.cluster   | None    | 用于定义数据源优先采用的Yarn集群。如果用户首次提交非下推的任务，那么此任务将会被提交到对应的Yarn集群。如果未指定此配置，对于Hive将选择Hive元数据服务所在的集群，其他数据源则仍然选择$XSQL_HOME/hadoopconf/yarn-site.xml文件所配置的Yarn集群。 |
 | spark.xsql.yarn.$clusterName                | None    | 用于指定用户使用的Yarn集群的名称及相关配置文件。             |