bugfix> configuration > 投稿

mesos dcosクラスターでいくつかのサービスを実行しようとしているときに、sparkプロセスとpythonサービスを実行している問題があります。したがって、小さなテストmesos dcosクラスターでは、1日に複数回使用されるcpusリソースの70%に達します。

そして、人々が開始したいサービスは、スレーブノードで十分に満たすことができますが、いくつかの理由で割り当てが許可されていないCPUのオファーを待ってハングします。

典型的な例は、合計7個の未使用CPUと、使用する0.5〜2 CPUリソースのCPUオファーを検索する1-3サービスです。それは満たすことができます。ビューでノードリソースを見る場合。

私の質問に、CPUの70%以上を同時に割り当てることを許可しない厳しい制限はありますか?

そして、この制限に共鳴があり、これをより高い値に変更するとどのような影響がありますか?

最後に、誰が制限を変更しますか?

回答 1 件
  • 答えは、デバッグシナリオ1の中間圏ドキュメントで述べられていることのようです。

    しかし、問題がロールの問題であるか、クラスターが処理できる範囲を超えてまっすぐに割り当てようとしているだけではありません。 https://docs.mesosphere.com/1.11/tutorials/dcos-debug/scenarios/scen-1/ 問題は、私たちのサービスの一部がCPUリソースを予約しておくことでした。

    reserved_resources ":{" cassandra-role ":{" disk ":10496.0、" mem ":5152.0、" gpus ":0.0、"cpus ":1.6、 "ports": "[7000-7001、7199-7199、9042-9042]"} "kafka-role":{"ディスク":5256.0、 "mem":2080.0、 "gpus":0.0、「cpus」:1.1、 "ports": "[1025-1025]"}}

    合計2.8またはmesos 2.81で

    この場合のスレーブノードの最大リッピング数は4 cpusであるため、1.19である必要があります。これは、要求してリソースを取得できる量です。

    GUIは、予約済みではなく使用済みを表示するだけなので、答えを見つけようとするとき、これは非常に誤解を招くものでした。

    答えを見つけることができました https:/// mesos/state-summary

    もう1つだけ表示するために、ノードが "hostname": "1.0.1.199"、 "port":5051、 "attributes":{}、 "pid": "slave(1)@ 1.0.1.199:5051"、 "registered_time":1526561517.17816、 "reregistered_time": 1526561517.17896、 "resources":{"disk":119266.0、 "mem":29476.0、 "gpus":0.0、 "cpus":4.0、 "ports": "[1025-2180、2182-3887、3889-5049、5052 -8079、8082-8180、8182-32000] "}、" used_resources ":{"ディスク ":15752.0、" mem ":6368.0、" gpus ":0.0、" cpus ":1.81、" ports ":" [1025 -1025、7000-7001、7199-7199、9042-9042] "}、" offered_resources ":{"ディスク ":0.0、" mem ":0.0、" gpus ":0.0、" cpus ":0.0}、" reserved_resources ":{" cassandra-role ":{"ディスク ":10496.0、" mem ":5152.0、" gpus ":0.0、" cpus ":1.6、" ports ":" [7000-7001、7199-7199、9042- 9042] "}、" kafka-role ":{"ディスク ":5256.0、" mem ":2080.0、" gpus ":0.0、" cpus ":1.1、" ports ":" [1025-1025] "}}、 」unreserved_resources":{"ディスク ":103514.0、" mem ":22244.0、" gpus ":0.0、" cpus ":1.3、"ポート ":" [1026-2180、2182-3887、3889-5049、5052-6999、7002 -7198、7200-8079、8082-8180、8182-9041、9043-32000] "}

    unreserved_resources: "cpus":1.3、 "を与えます。この値は1.19ではなく1.3である理由がわかりません。1.19はデバッグページに表示されるものであり、サーバー1.0.1.199で要求および取得できるものです。

あなたの答え