信じられないぐらい適当な開発手法
| 分野 | ソフトウェア開発・プロジェクトマネジメント |
|---|---|
| 提唱時期 | 1970年代後半〜1980年代前半(とされる) |
| 中心概念 | 適当さの定量化、遅延要求、妥協統計 |
| 主要舞台 | の製造業IT部門、のち海外 |
| 評価指標 | 検証速度と「謝罪コスト」の合算 |
| 批判点 | 再現性の低さと倫理的懸念 |
信じられないぐらい適当な開発手法(しんじられないぐらいてきとうなかいはつしゅほう、英: Incredibly Impractical Approximative Development)は、やの厳密化を意図的に遅らせ、代わりに直感・場当たり・統計的妥協により素早く価値検証を進める開発手法である[1]。一見すると無計画だが、特定の組織では「手戻りの経済性」を最適化する方法として運用されたとされる[2]。
概要[編集]
信じられないぐらい適当な開発手法は、を「最初から正しく作る」代わりに「あとから正しくする」ことを前提に組み立てられるとされる手法である[1]。具体的には、初期の成果物は仕様書ではなく体感に近い形(デモ、暫定UI、疑似データ)で提示され、その後に利害関係者の反応を統計的に要約して仕様へ逆輸入する、という流れが特徴とされる[3]。
運用上は、まず「適当の度合い」を数値化する独自の指標が用いられる。一般に「適当係数(Aq)」と呼ばれ、ベテランの勘、現場の制約、過去の失敗ログの“だいたい”を混ぜた値で決めるとされる。ただし、Aqが高すぎる場合は開発が止まるのではなく、むしろ“謝罪の見積り”が先に固められ、精神的コストを織り込む文化が育ったとも言われる[4]。
なお本手法は、よくあると同じように反復を強調する点で似ているが、反復の目的が「学習」に留まらず「後出しで整合する能力」の獲得にある点が、しばしば区別されるとされる[2]。このため、Wikipedia的な分類では“学術寄りの手法”として紹介されつつも、現場では「意思決定の保険商品」と揶揄されることがある[5]。
歴史[編集]
起源:横浜の倉庫で生まれた「Aq採点表」[編集]
起源については複数説があるが、最も流通しているのはの臨海倉庫を舞台にした「検品遅延」由来説である[6]。1978年、港湾物流を支える社内システムが“毎週、仕様が変わる”ことで炎上し、当時のシステム担当であった(架空の肩書としては「業務改善統括」)が、仕様書を読んで直すよりも現場に触れて直すほうが早いと結論づけたとされる[7]。彼は倉庫の床にチョークで円を描き、円の中心に“正しさ”を置き、半径を「Aq」で伸縮させる採点表を作ったと伝えられている[8]。
この採点表は社内で「横浜スコア」と呼ばれ、開発チームが決定する前に、(1)担当者の“言い換え回数”、(2)承認者が笑った回数、(3)UIのフォント変更の有無、の3項目を数えたうえでAqを算出する運用になったとされる[9]。やけに細かいが、当時の月次会議議事録の“集計欄だけ”が異様に整っていたことが、後年の研究者を惹きつけたとされる[10]。一方で、採点項目のうち「笑った回数」が後述の論争点となった[11]。
1981年頃には、この手法は紙の帳票からデータベースへ移植される。具体的には内の複数工場で同じAq採点表が使われ、各チームのAqは「月平均で0.37〜0.41の範囲に収めるべし」と社内規程に落ち着いたとされる[12]。この“0.37〜0.41”という狭さが、なぜか外部に漏れ、後のマネジメント研究者に「適当にも規律があるのか」と誤解させたとも言われる[13]。
発展:東京の官庁向け調達で「遅延要求」が制度化された[編集]
手法の外部普及は、1980年代中盤のにおける官庁系プロジェクトで加速したとされる。1986年、関連の調達で“要求仕様の完成度が低い場合でも開発は進めてよい”という条文が、実務上は「遅延要求(Delayed Requirement)」の形で運用され始めたとする文献がある[14]。ここでの鍵は、適当さを放置するのではなく、要求を「確定」ではなく「遷移」として扱う点にあったとされる[15]。
遅延要求は、仕様を段階的に固めるという意味で一般的にも説明されるが、本手法では「固めた仕様が後で変わる確率」を算出して、予算の中に“整合のための再謝罪費”を含めるという、独特の会計感覚が導入されたとされる[16]。当時の試算例として「前倒しデモ1回につき、整合費用が平均で12.6万円増減する」という社内報告が残っているとされる[17]。もちろん、ここには“何をデモ1回と定義するか”の注釈がなく、研究者はその曖昧さを「本手法の精神に適合する」と評価したらしい[18]。
この時期、チームにはに相当する“適当監査室”が置かれたとされる。担当者はAqの値とリスク記録を突合し、Aqが低すぎる場合は「正しすぎて検証が止まる」として警告する一方、Aqが高すぎる場合は“謝罪の台本”の提出を求めたとされる[19]。この運用のせいで、手法は「現場に優しいが、官庁には妙に整っている」と評価され、逆に批判側からは“責任逃れの儀式”と見られるようになった[20]。
海外への波及:ロンドンで「妥協統計」が論文化された[編集]
1990年代、手法の一部は英国へ輸入され、のスタートアップ研究会で“妥協統計(Compromise Statistics)”として整理されたとされる[21]。当時、米国・欧州のソフトウェア品質会議に出席した(架空の肩書は「品質政策研究官」)が、Aq採点表の考え方を「人間の判断を含むモデルとして定義すべき」と主張したとされる[22]。
彼女らが作ったとされるレポートには「平均デモ提示頻度:週1.8回、許容矛盾:±3.2%」という項目があり、研究者が引用したことで、手法は一見すると厳密科学のように見えるようになった[23]。ただし、許容矛盾の分母が“矛盾の総数なのか、重大矛盾なのか”で揺れがあり、後年の再調査では、資料の欠損により判定が曖昧になっているとも指摘されている[24]。
また、海外ではAqが“適当さ”ではなく“過去データへの依存度”として解釈されることがあった。一方で、元来の日本の運用が「現場の空気を吸い上げる」ことに比重があったため、海外版は空気の代わりにチケットの感情スコアを使うなど、変形が起きたとされる[25]。このズレが、後の倫理的批判の伏線となった[26]。
手法の特徴[編集]
本手法では、最初に「正しい要件」ではなく「更新可能な誤差」を設計することが求められるとされる[2]。そのため、開発初期に作られる成果物は、完成品としての品質よりも“変更したときの影響が可視化されること”を優先する傾向がある[27]。典型例として、初期UIにはわざと矛盾したラベルを置き、後から消す予定の“実験用誤差”を埋め込む、と説明されることがある[28]。
また、判断のための儀式が定型化される。たとえば「Aqデイリー」と呼ばれる毎日集計では、(1)当日の仕様変更の件数、(2)レビューで指摘されたのに“あえて直さなかった”回数、(3)承認者の沈黙時間(秒)を記録する、という形式が広まったとされる[29]。特に沈黙時間は、0秒なら誤魔化しが効いている、10秒以上なら議論が止まりかけている、という独自の解釈が付けられたとされる[30]。
さらに、謝罪の扱いが特徴とされる。手戻りは技術的問題として捉えられる一方で、本手法では社会的調整としての“謝罪コスト”をモデル化し、工程計画に織り込むことで、関係者の心理的損失を減らす狙いがあるとされる[16]。ただし、この数式が公開されると「言い訳の自動化ではないか」と批判されることもあり、運用は組織文化に依存しているとされる[31]。
具体的な運用例[編集]
ある事例として、の製造業A社では、需要予測システムの刷新に本手法が適用されたとされる[32]。計画では2か月で本番投入、しかし当初のデータ品質が不明だったため、最初の6週間は“月次の数字が合わない”前提で暫定モデルだけを作り、毎週デモを提示したとされる[33]。このときのAqは週平均で0.39〜0.44の範囲に置かれ、逸脱した週は「謝罪台本(A4 1枚)」が必須になったとされる[34]。
実務の細部としては、モデル精度よりも「検証担当者が思わず頷く画面構成」に重点が置かれ、誤差は後から説明できればよい、という方針だったと回想されている[35]。結果的に2か月で稼働したものの、翌四半期に“数値の意味”が再定義され、仕様書には「用語の翻訳方針が変更された」とだけ追記されたという記録がある[36]。この追記の文章は、会議で笑いが起きたことが理由で決まったともされ、後年の監査で「笑いが要件を置換した」と解釈された[37]。
別の例として、の物流会社B社では、開発初期の要件を“雰囲気で決める”ために、テストデータを敢えて架空の地域名で埋めたとされる[38]。具体的には、実在しない「北梅田仮想ゲート」「天王寺・旧倉庫通り第7番地」などの住所表現を使い、後から実データに置換する設計が取られた[39]。この設計は、品質の検証段階で“固有名詞に引っ張られるバグ”を潰す効果があったと説明されたが、後で住民照会の問い合わせが来て混乱したという(監査ログのみ残る)逸話がある[40]。
批判と論争[編集]
本手法への批判は、主に再現性と責任所在に向けられている。適当の度合いがAqという数値で表されると、議論が「数値の妥当性」に寄ってしまい、実際のユーザー価値の検証が曖昧になり得る、とする指摘がある[20]。また、謝罪コストを前提とする運用は、長期的には信頼を削るのではないかという懸念がしばしば出される[16]。
さらに、妥協統計の扱いが争点になった。Aqデイリーに含まれる“沈黙時間”など、感情や空気を測る指標が、組織の心理状態に依存するという点が批判されたのである[29]。反対派は「測ってよいものと、測るべきでないものがある」と述べ、賛成派は「人間の判断そのものが入力である以上、測れないものは捨てられる」と応じたとされる[41]。なおこの対立は、資料の一部に「要出典」級の注記が含まれていたため、学術界では“引用してよいか”が揉めたと伝えられている[42]。
一方で、擁護側は本手法が“いい加減”ではなく“経済的に正しい雑さ”であると主張した。特に、仕様が固まらない領域では、最初から正しさを目指すほど損失が増えるという見方がある[27]。ただし皮肉にも、擁護が進むほど手法は“正しく適当”として整備され、やがて儀式化によってさらに不透明になる、という逆転現象が指摘された[31]。
脚注[編集]
関連項目[編集]
脚注
- ^ 加藤皓一郎「横浜スコア式適当係数の運用実態」『工程と儀式』第3巻第2号, pp.12-29, 1982.
- ^ Eleanor M. Hart「Compromise Statistics in Human-in-the-loop Delivery」『International Journal of Tolerant Software』Vol.14 No.4, pp.201-233, 1994.
- ^ 鈴木真琴「遅延要求の制度化—“確定”から“遷移”へ」『行政情報システム年報』第8巻第1号, pp.77-96, 1989.
- ^ 田中光希「Aqデイリーの指標妥当性に関する一考察」『品質管理の周辺』第21巻第3号, pp.51-68, 1992.
- ^ Bennett R. Wells「Silence Metrics and Governance」『Proceedings of the London Software Review』No.9, pp.9-24, 1995.
- ^ 佐野礼二「謝罪コスト会計の試算とその実務」『プロジェクト・ファイナンス研究』第5巻第2号, pp.133-160, 1991.
- ^ 厚生労働政策研究会「現場指標としての沈黙時間の扱い」『人とシステムの調和』第2巻第1号, pp.1-18, 1998.
- ^ 総務省情報通信調達運用課『遅延要求運用指針(仮版)』中央官庁印刷局, 1986.
- ^ 日本ソフトウェア品質学会「適当係数の標準手順」『品質標準叢書』pp.45-88, 2001.
- ^ Miyata, Kenta「On the Misleading Precision of Averages in Iterative Drift」『Journal of Ambiguous Metrics』Vol.7 No.1, pp.10-22, 2006.
外部リンク
- 適当係数アーカイブ
- 遅延要求研究会
- 謝罪コスト計算機
- 横浜スコア保存室
- 妥協統計ワークベンチ