-
Notifications
You must be signed in to change notification settings - Fork 19
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[参赛项目] Flink任务自动伸缩服务 #7
Comments
Hi ,Can I join the team。 wechat:13521869069 |
I'll contact you later
在 2021年11月23日 ***@***.***> 写道:
Hi ,Can I join the team。 wechat:13521869069
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub, or unsubscribe.
Triage notifications on the go with GitHub Mobile for iOS or Android.
|
Hi ,Can I join the team。 wechat:lcg3234111 |
I'm sorry we have enough people
在 2021年11月24日 ***@***.***> 写道:
Hi ,Can I join the team。 wechat:lcg3234111
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub, or unsubscribe.
Triage notifications on the go with GitHub Mobile for iOS or Android.
|
有代码能看么 |
目前还没开源,后续整理下可能会放到GitHub上
在 2022年1月14日 ***@***.***> 写道:
有代码能看么
—
Reply to this email directly, view it on GitHub, or unsubscribe.
Triage notifications on the go with GitHub Mobile for iOS or Android.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
最近也在做这方面的项目,可以请教吗? |
有大致时间点么 |
你好,请问有开源代码吗 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
项目简述
通过自动伸缩服务来解决Flink任务背压问题或者资源利用率低的问题,实现资源合理利用。
背景
在用户使用Flink运行实时流任务时,当上游流量有周期性或者其本身波动存在随机性的时候,此时已经启动的任务其算子并行度和集群物理资源用量可能不足以支持当前流量,会出现严重背压和频繁GC的情况,导致上游数据积压、处理延迟增大、Checkpoint耗时增加的情况发生。当流量减小时,系统资源的占用又可能会回到非常低的水平,具体可能表现再CPU平均负载和内存占用都处于相对较低的位置,大量资源处于闲置状态,非常浪费。
目标
在任务出现背压或者资源闲置的情况下,一般都需要用户自行手动介入,去分析任务瓶颈点,去调整相应算子并行度,或者去调整集群中TaskManager的CPU、内存规格,然后再去重启任务。这种模式问题在于其总是需要人为去分析去调整,人是很难做到7*24小时自动值守的,而且分析任务加上调整任务基本上已经是在收到任务出现严重背压的报警后了,处理效率相对滞后,可能等到任务调整完,已经造成一定损失了。
所以,如果能够做到自动化地分析任务,并进行相应的资源伸缩来应对突发的流量波峰和持续的流量低谷,那么对于解放人力、降本增效将有巨大的作用。
实施方案
我们将Flink任务的自动伸缩分为四步走战略。
长远规划
在状态判断和目标资源计算这块,初步使用规则Pattern来做。但规则永远是滞后于任务本身的发展的,在未来,我们期待引入机器学习来根据历史上的任务监测数据去训练模型,去对任务的状态做超前预测,对调整规则做更合理的计算,期望在自动调优达到更好的效果。
成员介绍
阿里云天池昵称:giao桑故乡的樱花开了
The text was updated successfully, but these errors were encountered: