tencent cloud

フィードバック

カーネルおよび IO 関連問題

最終更新日:2021-08-31 17:07:41
    インスタンス自己検出を使用する場合、検出レポートからインスタンスの異常を取得できます。 このテキストでは、主にインスタンス自己検出レポート中のカーネルとIOに関連する問題事象、原因および対処手順を紹介します。

    カーネル問題の特定および処理

    障害事象

    カーネルに関連する障害は、マシンのログイン不能や異常な再起動を引き起こす可能性があります。

    考えられる原因

    カーネル hung_task

    hung task メカニズムは、カーネルスレッドkhungtaskdによって実装され、khungtaskdはTASK_UNINTERRUPTIBLE状態のプロセスを監視します。 kernel.hung_task_timeout_secs(デフォルトは120秒)時間内にD状態であり続ける場合、 hung taskプロセスのスタック情報が出力されます。
    kernel.hung_task_panic=1に設定すると、カーネル panic がトリガーされ、マシンが再起動します。

    カーネルのソフトロックアップ soft lockup

    soft lockup とは CPU がカーネルコードに占有され、他のプロセスが実行できないことをいいます。soft lockup を検出する原理は、各 CPU に一定時間内に実行されるカーネルスレッド [watchdog/x]を割り当てることであり、このスレッドが一定時間内(デフォルトは2*kernel.watchdog_thresh、3.10カーネルkernel.watchdog_threshのデフォルトは10秒)に実行されない場合は、 soft lockupが発生したことを意味します。
    kernel.softlockup_panic=1に設定すると、カーネル panic がトリガーされ、マシンが再起動します。

    カーネル panic

    カーネルの異常な crash は、マシンの再起動を引き起こします。一般的なカーネル panic シナリオは次のとおりです:
    カーネルに hung_task が出現し、かつkernel.hung_task_panic=1に設定した場合。
    カーネルにソフトロックアップ soft lockup が出現し、かつkernel.softlockup_panic=1に設定した場合。
    カーネル bug がトリガーされた場合。

    対処手順

    カーネルに関連する問題の調査および対処手順が複雑な場合は、チケットを提出 し、問題をさらに特定し処理することをお勧めします。

    ハードディスク問題の特定および処理

    ハードディスク inode がフルになる

    障害事象:新しいファイルを作成すると、「No space left on device」 というエラー情報が表示され、かつ df -iコマンドを使用すると、 inode容量使用率100%表示される。 考えられる原因: ファイルシステム inode が枯渇している。 対処手順:使用する必要のないファイルを削除するか、またはハードディスクを拡張します。

    ハードディスク容量使用率がフルである

    障害事象:新しいファイルを作成すると、「No space left on device」 というエラー情報が表示され、かつ df -hコマンドを使用すると、 ディスク容量使用率100%表示される。 考えられる原因: ハードディスク容量が枯渇している。 対処手順:使用する必要のないファイルを削除するか、またはハードディスクを拡張します。

    ハードディスクが読み取り専用となる

    障害事象: ファイルシステムがファイルの読み取りしかできなくなり、新たなファイルを作成できない。 考えられる原因: ファイルシステムが破損している。 対処手順
    1. ハードディスクデータをバックアップするためのスナップショットを作成します。詳細は スナップショットの作成 をご参照ください。
    2. ハードディスクのタイプに応じて、対応する対処手順を実行します:
    システムディスク
    データディスク
    インスタンスを直接再起動します。詳細は インスタンスの再起動 をご参照ください。
    1. 次のコマンドを実行し、読み取り専用ディスクに対応するファイルシステムのタイプを表示します。
    lsblk -f
    2. 次のコマンドを実行し、データディスクをアンインストールします。
    umount <対応するディスクマウントパス>
    3. ファイルシステムのタイプに応じて、次のコマンドを実行し、修復を行います:
    ext3/ext4 ファイルシステムでは、次のコマンドを実行します:
    fsck -y /dev/対応ディスク
    xfs ファイルシステムでは、次のコマンドを実行します:
    xfs_repair /dev/対応ディスク

    ハードディスク %util が高い

    障害事象:インスタンスにラグが発生し、SSHまたはVNCを使用したログインに時間がかかる、または応答しない。 考えられる原因:IO負荷が高く、ハードディスク %util が100%に達している。 対処手順: IO 負荷が合理的かどうかを確認し、かつ IO の読み取りと書き込みを減らすか、またはより高性能なハードディスクに交換するかを評価する必要があります。
    お問い合わせ

    カスタマーサービスをご提供できるため、ぜひお気軽にお問い合わせくださいませ。

    テクニカルサポート

    さらにサポートが必要な場合は、サポートチケットを送信して弊社サポートチームにお問い合わせください。24時間365日のサポートをご提供します。

    電話サポート(24 時間365日対応)