Nutanix CEの温度監視をしてみる

⏱この記事を読むのに必要な時間は約 14 分です。

Nutanix HCIのフリー版であるNutanix Community Edition(CE)は、概ね商用版と同じ機能が使えますが、細かなところで違いはいくつも存在します。その中の1つが温度監視です。

CEには温度関連のアラートがない

商用版のNutanixは、ハードウェアの温度に関する情報をセンサーから取得し、アラートを上げるようになっています。Prismのアラート一覧を温度(temperature)でフィルタリングすると、商用版ではこのように項目が存在することが分かります。

商用版の温度関連アラート

一方、CEで同じようにアラート一覧をフィルタリングしてみるとどうでしょう。なんと1項目もありません!このような状態になっている背景は、商用版とCEの対応ハードウェアの違いによるものです。

商用版は対応ハードウェアが幅広いものの、モデルや構成が明確に定義されています。一方、CEは大雑把な対応HW構成は示されているものの、不特定多数のハードウェアへのインストールが想定されています。不特定多数のハードウェアにインストールされるということは、インストール先HWがどのような温度センサーを何個搭載しているかもわからない、ということになります。

CE用のインストーラー等の一部例外を除き、CEでの利用に適さない機能を削ることはあっても、CEのためだけに機能拡張することは基本的にありませんので、温度監視の機能についても思い切って無効化されているのだと推測しています(開発側に確認したわけではないのであくまで推測)。

CEには温度関連のアラートがない

ということで、CEにおいては通常の手段では温度センサーからの情報を取得することはできないというのが結論なのですが、自宅ラボに置いているIntel NUC(NUC6i7KYK)が排熱に難ありのHW設計のため、どうにかして温度情報を取得したく、違う方法を考えてみました。

このブログを読んでいる方は恐らくご存じのとおり、Nutanix製のハイパーバイザーであるAHVはLinuxベース(現時点ではCentOS)です。ですので、Linuxにおける温度情報の取得がそのまま使えるかを試してみました。

なお、今回はそもそもサポートの存在しないNutanix CEなので好き勝手にやっていますが、商用版では自由に3rd partyのソフトウェアをインストールしたり、ドキュメントに記載されていないような独自カスタマイズしたりすることは認められていません。商用版では絶対にマネしないでください。

lm_sensors パッケージを入れてみた

Linuxで温度情報を取得するコマンドを探してみたところ、sensorsコマンドを見つけました。sensorsコマンドはAHVには標準では含まれないのでインストールする必要があります。lm_sensorsというパッケージに含まれており、yumコマンドでインストール可能です(しつこいようですが、商用版では勝手なパッケージの追加はNGです)。

※CVMではなくAHVのコンソール 
 [root@NTNX-6b758039-A ~]# yum install -y lm_sensors
 Loaded plugins: fastestmirror, post-transaction-actions  Determining fastest mirrors 
 <中略>
=========================================================================================
  Package           Arch          Version                               Repository   Size
=========================================================================================
 Installing:
  lm_sensors        x86_64        3.4.0-8.20160601gitf9185e5.el7        base        141 k

 Transaction Summary
=========================================================================================
Install  1 Package

 <中略>
Installed:
  lm_sensors.x86_64 0:3.4.0-8.20160601gitf9185e5.el7
Complete!

これで温度センサーから情報を取得できるはずです。

[root@NTNX-6b758039-A ~]# sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +58.0°C  (high = +100.0°C, crit = +100.0°C)
Core 0:        +55.0°C  (high = +100.0°C, crit = +100.0°C)
Core 1:        +58.0°C  (high = +100.0°C, crit = +100.0°C)
Core 2:        +57.0°C  (high = +100.0°C, crit = +100.0°C)
Core 3:        +57.0°C  (high = +100.0°C, crit = +100.0°C)

CPUコアの温度が取れました。X-Playと組み合わせればSlackで定期的に通知を受け取ったりできますね。そのあたりはまた別途。

なお、別のマシン(Lenovo M75q/M75s)では温度センサー自体を検出できませんでした。とはいえ、こちらのマシンは特に排熱問題を抱えていないため、ひとまず放置しています。

[root@NTNX-abf76025-A ~]# sensors
No sensors found!
Make sure you loaded all the kernel drivers you need.
Try sensors-detect to find out which these are.
[root@NTNX-abf76025-A ~]# sensors-detect
# sensors-detect revision 3.4.0-8 (2016-06-01)
# System: LENOVO 11JDCTO1WW [ThinkCentre M75s Gen 2]
# Board: LENOVO 318E
# Kernel: 4.19.84-2.el7.nutanix.20190916.276.x86_64 x86_64
# Processor: AMD Ryzen 7 PRO 4750G with Radeon Graphics (23/96/1)

This program will help you determine which kernel modules you need
to load to use lm_sensors most effectively. It is generally safe
and recommended to accept the default answers to all questions,
unless you know what you're doing.

Some south bridges, CPUs or memory controllers contain embedded sensors.
Do you want to scan for them? This is totally safe. (YES/no): YES
Module cpuid loaded successfully.
Silicon Integrated Systems SIS5595...                       No
VIA VT82C686 Integrated Sensors...                          No
VIA VT8231 Integrated Sensors...                            No
AMD K8 thermal sensors...                                   No
AMD Family 10h thermal sensors...                           No
AMD Family 11h thermal sensors...                           No
AMD Family 12h and 14h thermal sensors...                   No
AMD Family 15h thermal sensors...                           No
AMD Family 16h thermal sensors...                           No
AMD Family 17h thermal sensors...                           No
AMD Family 15h power sensors...                             No
AMD Family 16h power sensors...                             No
Intel digital thermal sensor...                             No
Intel AMB FB-DIMM thermal sensor...                         No
Intel 5500/5520/X58 thermal sensor...                       No
VIA C7 thermal sensor...                                    No
VIA Nano thermal sensor...                                  No

Some Super I/O chips contain embedded sensors. We have to write to
standard I/O ports to probe them. This is usually safe.
Do you want to scan for Super I/O sensors? (YES/no): YES
Probing for Super-I/O at 0x2e/0x2f
Trying family `National Semiconductor/ITE'...               No
Trying family `SMSC'...                                     No
Trying family `VIA/Winbond/Nuvoton/Fintek'...               No
Trying family `ITE'...                                      Yes
Found unknown chip with ID 0x8638
Probing for Super-I/O at 0x4e/0x4f
Trying family `National Semiconductor/ITE'...               No
Trying family `SMSC'...                                     No
Trying family `VIA/Winbond/Nuvoton/Fintek'...               No
Trying family `ITE'...                                      No

Some systems (mainly servers) implement IPMI, a set of common interfaces
through which system health data may be retrieved, amongst other things.
We first try to get the information from SMBIOS. If we don't find it
there, we have to read from arbitrary I/O ports to probe for such
interfaces. This is normally safe. Do you want to scan for IPMI
interfaces? (YES/no): YES
Probing for `IPMI BMC KCS' at 0xca0...                      No
Probing for `IPMI BMC SMIC' at 0xca8...                     No

Some hardware monitoring chips are accessible through the ISA I/O ports.
We have to write to arbitrary I/O ports to probe them. This is usually
safe though. Yes, you do have ISA I/O ports even if you do not have any
ISA slots! Do you want to scan the ISA I/O ports? (YES/no): YES
Probing for `National Semiconductor LM78' at 0x290...       No
Probing for `National Semiconductor LM79' at 0x290...       No
Probing for `Winbond W83781D' at 0x290...                   No
Probing for `Winbond W83782D' at 0x290...                   No

Lastly, we can probe the I2C/SMBus adapters for connected hardware
monitoring devices. This is the most risky part, and while it works
reasonably well on most systems, it has been reported to cause trouble
on some systems.
Do you want to probe the I2C/SMBus adapters now? (YES/no): YES
Found unknown SMBus adapter 1022:790b at 0000:00:14.0.
Sorry, no supported PCI bus adapters found.
modprobe: FATAL: Module i2c-dev not found.
Failed to load module i2c-dev.

Next adapter: SMBus PIIX4 adapter port 0 at 0b00 (i2c-0)
Do you want to scan it? (YES/no/selectively): YES
Can't open /dev/i2c-0
Next adapter: SMBus PIIX4 adapter port 2 at 0b00 (i2c-1)
Do you want to scan it? (YES/no/selectively): YES
Can't open /dev/i2c-1
Next adapter: SMBus PIIX4 adapter port 3 at 0b00 (i2c-2)
Do you want to scan it? (YES/no/selectively): YES
Can't open /dev/i2c-2
Next adapter: SMBus PIIX4 adapter port 4 at 0b00 (i2c-3)
Do you want to scan it? (YES/no/selectively): YES
Can't open /dev/i2c-3
Sorry, no sensors were detected.
Either your system has no sensors, or they are not supported, or
they are connected to an I2C or SMBus adapter that is not
supported. If you find out what chips are on your board, check
https://hwmon.wiki.kernel.org/device_support_status for driver status.

今回は以上です。

Nutanix or ヤギ のことををつぶやきます。