信頼性を再考する: インシデントから何が学べるか、何が学べないのか

ブログ

ホームページホームページ / ブログ / 信頼性を再考する: インシデントから何が学べるか、何が学べないのか

Jun 30, 2023

信頼性を再考する: インシデントから何が学べるか、何が学べないのか

InfoQ ホームページ プレゼンテーション 信頼性の再考: インシデントから学べること (できないこと) コートニー・ナッシュが、VOID から収集された研究、業界の標準慣行に対する挑戦について議論します。

InfoQ ホームページ プレゼンテーション 信頼性の再考: インシデントから学べること (そして学べないこと)

Courtney Nash は、VOID から収集された調査について説明します。これは、MMTR の追跡や RCA 手法の使用など、インシデント対応と分析に関する標準的な業界慣行に挑戦するものです。

Courtney Nash は、複雑な社会技術システムにおけるシステムの安全性と障害に焦点を当てた研究者です。 彼女は常に、人がどのように学習するのか、そして記憶が問題解決にどのように影響するのかに興味を持っています。 過去 20 年にわたり、彼女は Holloway、Fastly、O'Reilly Media、Microsoft、Amazon で編集、プログラム管理、調査、管理などのさまざまな役割を果たしてきました。

QCon Plus は、上級ソフトウェア エンジニアとアーキテクトを対象とした仮想カンファレンスで、世界で最も革新的なソフトウェア組織が活用するトレンド、ベスト プラクティス、ソリューションを取り上げます。

早期導入企業の上級ソフトウェア開発者が新たなトレンドをどのように採用しているかを明らかにすることで、正しい決定を下します。 今すぐ登録!

ナッシュ:私はコートニー・ナッシュです。 私がここに来たのは、信頼性の再考、インシデント指標から何が学べるのか、何が学べないのかについてお話しするためです。 私は Verica のインシデント インターネット ライブラリアンです。 私はさまざまな場所で長い経歴を持つ研究者です。 私は脳について勉強していました。 マウンテンバイクは私たちがこれまでに発明した中で最もクールなテクノロジーだと思います。

私がここに来たのは、私が作った VOID と呼ばれるものについてお話しするためです。 Verica Open Incident Database は、公開されているソフトウェア関連のインシデント レポートが収集され、誰でも利用できる場所です。 私たちの目標は、インターネットをより回復力のある安全な場所にするために、ソフトウェアベースの障害に対する意識を高め、理解を深めていくことです。 なぜそれを気にするのでしょうか? なぜなら、ソフトウェアは、オンラインで猫の写真をホストするだけでなく、医療システムの交通機関やインフラストラクチャ、ハードウェア、投票システムや自動運転車のデバイスの実行にまで移行して久しいからです。 これらの最新のオンライン システムは、24 時間 365 日稼働することが期待されています。 皆さんが対処するプレッシャーの増大と、クラウド内で実行される相互関連性が高まる自動化サービスのソフトウェア モデルとが組み合わさり、これらのシステムの複雑さが加速しています。 おそらくすでにご存知のとおり、直接の経験から、これらの複雑なシステムに障害が発生すると、予期せぬ混沌とした形で障害が発生します。 私たちは皆、事件を起こします。 そう、それはゴミ箱の火事で、ドラゴンが火山に火をつけているのです。 あなたが直面していることの多くは、おそらくカルビンとホッブズに似ていると思います。ベッドの下に怪物のようなものがいて、それがいつ出てくるかわからないという状況です。

本当に重要な点は、テクノロジー業界には、相互に学び、ソフトウェアの回復力と安全性を前進させるために共有できる膨大な量のコモディティ化された知識があるということです。 もしあなたがそのことに少しでも懐疑的なら、それはわかりますが、そうかもしれません。 これには歴史的な先例があります。 それは私たちの業界ではなく、別の業界です。 1990 年代、米国の航空業界は若干の危機に瀕しており、安全性についてはひどい記録がありました。 重大な重大事故が定期的に発生していました。 業界全体が、そして根本から団結して、この問題について何かをしようと決意しました。 まず、さまざまな航空会社のさまざまなパイロットが集まり、事故データの共有を開始しました。 彼らは自分たちのストーリーや見てきたもののパターンを共有し始めました。 最終的には、規制当局や航空管制官など、より多くの業界関係者が参加し、事件を共有し、共通点やパターンを見つけ出すことに成功しました。 その過程、そして明らかに他の活動を通じて、航空業界の安全記録は大幅に向上しました。 実際、近年のボーイング MAX のようなことが起こるまで、重大なインシデントは発生していませんでした。 規制担当者が現れる前に、実践者としてゼロから行うことは可能です。 それは重要です。