SRE 本は二度以上読む価値がある - 誰かの役に立てばいいブログ

@tamagawa_ryuji 氏からこの度和訳して発売された「SRE サイトリライアビリティエンジニアリング」をご恵贈いただきました。

英語の原本は昨年発売されており、Google のサービス運用について実践的な知見が得られる貴重な書籍ということで、去年のうちに英語版を社内で購入し、輪講しています。今回和訳本を頂きましたので、二度目となりますが早速拝読しました。

SRE (Site Reliability Engineering) という言葉を聞きなれない方のために簡単に解説しておくと、Google において古典的なシステム管理者の概念に代えて導入された、システムとその上のサービスの信頼性に責任を持つエンジニアとその仕事のやり方の体系的な概念です。

初めて読んだ際は、SRE とそれにまつわる Toil や Postmortem といった概念や SLO の定義の仕方について Google の知見を学ぶのに精一杯でした。二度目となる今回ですが、以下のような点で読む価値が確実にあると感じた次第です。

リファレンスとして読みたいところを読める

SRE 本は 500 ページを超えます。扱う範囲も基礎から応用、そして巻末の付録に至るまで、実際のサービス運用の多面的な側面を反映して非常に広範なものとなっています。例えばロードバランサや Paxos による分散合意といった技術の話もあれば、割り込みへの対処や個人の成長といったマネジメントも扱っているといった具合です。

必然、頭から通読するというより、必要な場面に応じて参照していく読み方をしていくのが良い本なわけですが、初回は概念や用語など理解に必要な部分を頭に入れるのが精一杯でした。多分多くの方がそうなのではないかなと。

二回目の今回は、リファレンスとして読むつもりで眺めました。そうしてみると、本書が和訳されているのが非常にありがたいです。やはり日本人なので、目次からして読む速度と目的の項目の見つけやすさが違います。翻訳についても、言語の Toil は「トイル」にするなど無理に日本語に置き換えていないため、原著を知っている人は原著以上に読みやすくなっています。

成長に応じて学べる範囲が広がる

先にも書きましたが、本書が扱う領域は非常に広範です。その全ての分野に通じているソフトウェアエンジニアなどいないでしょう。私のソフトウェア開発、そしてクラウドサービスのインフラ運用の業務歴は 20 年を超えますが、本書で扱う領域のどれかひとつでも専門と言えるかというと、怪しいものです。

逆に言えば、本書にはいつ読んでも、新たに学べる点があると言えます。ま、率直に言って、Google のような大規模組織で当たり前にできているからといって、多くの中小規模の組織では実践できない（あるいは今そこに力を注ぐべきではない）ことも多々あります。とはいえ、組織やシステム、あるいは個人が成長していけば、大いなる先達としての Google の知見が役に立つ日がくることもあると。

まとめますと、元々素晴らしい原著でしたが、和訳された本書は手元にぜひ置いておきたい書籍です。クラウドサービスの運用に携わる人々は、折に触れてリファレンスとして見返すのが良いと思います。

原著の多岐にわたる内容を和訳されるのは大変な労であったと思います。素晴らしい本を世に出していただいたこと、またご恵贈いただきましたことに大感謝です！