今度こそ本題?のお話です。つらみ嬉しみ悩みまとめるつもりでしたが、つらみだけでなかなかの文字数になってしまったので1記事に。
私自身の過去の経験、知り合いの話、日経コンピュータの記事などをベースにしています。特定のお客様、会社さんではなく、「こういう事よくある(あった)」でまとめています。
何が辛いかは人によると思いますので、完全に私の主観で辛い度を😱で付けてみました。
- T-1 システム障害
- T-2 タイトなスケジュール
- T-3 コスト削減
- T-4 セキュリティがどんどん厳しく
- T-5 コミュニケーション
- T-6ドキュメント管理がいまひとつのとき
- T-7 略語が覚えられない
T-1 システム障害
😱😱😱😱😱
ごく簡単にいうと、なんらかの原因でシステムが動かなかったり不安定な状態になる事。
昨今は冗長化が進んでてそうそうないですが、仮にエンドユーザー影響が長時間続く…なんて事態になったら大大大問題。
日経コンピュータの「動かないコンピュータ」読むとほんとゾッとします(載ったことは無い…)。
1) どうして起こる?
原因は本当に様々ですが、主なもの。
・ハードやソフトの不具合
体感的にはこれが1番多い気がします。あんな高度そうなものに不具合なんてあるの?ともしかしたら思われるかもしれますが、あります。
私が知る限り、無いベンダーさんは無かったと思う。
前述のように「システム」は多くの構成要素で成り立っており、どんなに開発者が努力していたとしても、それぞれ不具合が発生する可能性があります。
それに、発売したあとOSのバージョンも新しくなってパッチ当てないと整合性取れないとか、回避し難いパターンも。
なので、買って終わり、ではなく通常はサポートも継続して受けることになります。
製造元から「不具合あるからパッチ当ててください」と言われてたけどやっていなかった…などの事情があるとしたら、実は単に不具合というより、ベンダー側がもっと提案しないといけなかった、という別の課題が隠れていたり。
・要件と仕様が合ってない
例えば35億人のユーザーがアクセスするのに5000万人分のアクセス前提で設計してしまったら、負荷に耐えられなくて落ちる、なんて事になります。
当初はそこまで想定していなかったが急に伸びた、というのもよくある話。
構築後のパフォーマンスキャパシティ管理、大事。
・設計がいけてなかった
これはどちらかというと被害拡大の原因。障害が起こった時を想定した作りになっていたか?とか。
これまた、単に機器だけではない話ですね。。
アーキテクト、必要。
・ハードやソフトが古い
中には「枯れてる」場合もありますが、やっぱり古いと性能は落ちるしサポート切れてるとパーツの交換もままならない。
システムへの投資、大事!
・ヒューマンエラー
開発機と本番間違えたとか、コマンドのミス、必要作業の伝え漏れ、手順書の誤り…etc.
これは「罪」度がかなり高いとされる事が多いです。
ただこれも、すごい間違えやすいインターフェースだとか、人手不足で過重労働になってたとか、コスト削減で熟練の人がいなくなって経験浅い人が手順書の行間読めなかったとか(行間ダメだよ!)、深掘りするともっと根深い問題が隠れていたりする…そうですよ。
なので、やってしまった本人を糾弾するのではなく、「たまたまその人が踏んでしまったけど、他の人がやってしまうかも知れない」という視点で何でそうしてしまったか?というのが基本アプローチ。
個人的には人がやる範囲を極力減らすのが1番だと思っております。人はミスするので。あと、ミスしづらい仕様にしておくのも大事。その点も、やっぱり新しいハード・ソフト程よくできていると思う。
シス(以下略)
2) どの辺が辛い?
・迷惑をかける
迷惑、と言うと情緒的ですが(?)、場合によっては賠償とか契約終了とかもありえます。
そこまで至らなくても精神的にきつい。防げたかなぁ、と思うと。
とはいえ、そこで初めて多くの問題が明るみに出て大きく改善のきっかけになる事もあるので悪い事ばかりでもない。でも、やっぱり事前に予防するのが一番です・・・。
・眠っているところを起こされる
これはほんとに辛かった…。
深夜早朝って、ユーザーさん少ないけどバッチがゴリゴリ動いてたりしてむしろシステムに負荷がかかることあるんですよね〜。
なかにはインパクトなくてもコールになるパターンもあったり。ひたすら改善。
・平日帰れない、休日潰れる
デート中に帰ったとか、友達や後輩が家に泊まりに来た時に隅っこで対応とか、旅先でずっと電話とか、金沢のライブ会場行く途中の特急の中で対応したとか、ある…そうですよ。
漫画「コウノドリ」で、よく、主人公(産婦人科医)がライブ中にコール来て中断して病院にましたが、ついつい思い出してしまいました。
一緒にしたら怒られるな。。
この傾向は属人化してるとより強くなります。
バックアップ、大事!
・予定外の仕事が短期間にどっと増える
もともとそれなりに忙しいところに、対応の為の作業をする事に。
以上、システム障害だけでも結構な字数になってしまいました。このつらみが障害撲滅へのモチベーションになる部分や経験値アップにつながる面もあるけど、ないに越した事ない。
なお、私自身はここ何年か夜間休日対応には入っていません。そもそも無いプロジェクトだったり。
なんだか申し訳ない気持ちにもなりますが、子ども小さいうちは厳しいし(大きくなった頃も体力自信ないが)、自分が前例になるのはもっとまずい気がしており。
あと、最近はどんどん技術が進んで、新しいものはやはりあまり落ちないし耐障害性にも優れてると思います。それを、スキルと経験値がある人がきちんと提案して導入すれば言うことなしですね。。
まとめると、
システムと人への投資、大事!!
T-2 タイトなスケジュール
😱😱😱😱
極端に言うと「前回3ヶ月だったから今回3ヶ月、経験あるから2ヶ月で行けるかな?」みたいな。それ、皆が残業しまくりながらなんとかの3ヶ月では?とか、リスク対応の為のバッファが無いのでは? とか、そもそも要件違うよね?とか。
類推見積もりは精度が低いって、PMPの教科書にも書いてあるでよー。
しかも、終わりが見えて来た時に「あとこれも」とか。スコープを明確にしないとそんな事に…。PMさんの力量に左右される事が多いと感じています。
プロジェクトマネジメント、大事!
T-4 セキュリティがどんどん厳しく
😱😱😱
セキュリティの厳しさは仕事のめんどくささ、仕事量に影響しますが(サーバー側も設定変える必要があったり)、一方で「やりがい」を感じにくい面も。
最近ほんと厳しくて、違反すると大変重い罰が待っている事もある…そうですよ。
いまどきパスワード紙印刷して机の裏に貼るとかする人いるんですかね。。
T-5 コミュニケーション
😱〜😱😱😱
これは人によるけど、SEの仕事は基本チームなので、実はコミュニケーションにかかる時間がものすごく長いです。
なので、それ故の悩みを持つ人も多いです。相性もあるので一概には言えず。
T-6ドキュメント管理がいまひとつのとき
😱😱
必要なものがどこあるか分からない、というかない、ドキュメントあり過ぎてどれだかわからないみたいな。
ただ、今後についてはそれなりに変えられるのでやりがいはあるかも?
T-7 略語が覚えられない
😱
まぁ忘れたらググるなり社内検索するなり。
諦めが、肝心。
(ちょっと疲れた。)
他にも色々あったかな。月曜からどうなん、と今更思えて来たので以上です。
このままでは、万一学生さんがこれを読んだ時来てくれなさそう。売り手市場だし。なのでいい事も書いてみたいと思います。