# Failed Experiments

*最終更新: 2026-05-13*

> **TL;DR**: AI農業先生方式で採用しなかった施策・廃止した施策・過剰実装と判定したものを 7 件 honest に開示。AB テスト中止判定（サンプル不足 + 機会費用）/ ハッシュタグ数比較廃止 / Phase B logging 過剰実装回避（YAGNI 違反）/ 「歴史的瞬間」hyperbole 訂正 / 評価フレームワークの memory 配置ミス / カレンダー統合漏れ / 鼓舞 20% ハード目標廃止（未検証ベストプラクティス撤回）。共通パターンは「AI が "もっともらしい" 提案を出す → 人間が批判的に評価する → 過剰・誤判定・装飾を訂正する」。失敗の構造を残すことが学習データとしての価値を高めるという思想。

採用しなかった施策・廃止した施策・過剰実装と判定したものの記録。

成功事例だけ残すと「綺麗な軌跡」に見えるが、実態は判断ミスとリカバリの連続である。本記事はそれを honest に開示する。

## 1. ABテスト「翌日への問いかけ」（中止）

### 仮説

投稿末尾に翌日問いかけを加えると、読者の翌日再訪問・リプライ率が上がる。

### 設計と結果

2週間・対照／処置 の偶奇日割り当てで実施。サンプルは各群 1ケタ件と少なく、エンゲージメント差は誤差範囲を出ず、むしろ対照群がやや高いケースもあった。具体数値は非公開。

### 判定: 中止（追加テストもしない）

理由:
1. **サンプル不足**: 1ケタ件規模では craft 効果と偶発の判別が困難
2. **より強い signal（bookmark）の発見**: 機会費用の観点で弱い仮説に追加投資しない

### 学び

- 「効きそう」な仮説でもサンプル不足で判定不能になる規模で実施すると判定の根拠が弱い
- より強い signal が見つかった時点で機会費用的に弱い仮説を切る判断が必要
- ただし「効果なし」を確定したわけではなく「**現スケールでは効果検出不能 + 機会費用優先で中止**」が honest な記述

## 2. ハッシュタグ数の効果比較（廃止）

### 仮説

ハッシュタグ数を変えて比較すれば、デフォルト設定を変更すべきか判断できる。

### 結果: 判定不能（同種別内比較に必要なデータが集まっていなかった）

### 判定: 廃止（再着手しない）

craft 学習ループの方が本命と判断し、ハッシュタグ数の細かい比較に投じる ROI が低いと評価。

### 学び

- 「やる予定」と「実施済」は別物。「予定」だけ TODO に並んでも判定対象にならない
- 施策設計時に「どのデータが集まれば判定可能か」を明確にしないと、施策自体が空転する

## 3. Phase B（行動ログ完備の logging システム）— 過剰実装と判定・延期

### 提案内容

人間の行動を全て構造化ログとして残す厚い logging システムを Phase B として提案。実装には1〜2人日規模が必要と見積もり。

### 判定: 将来検討・延期

判定根拠:
- フォロワー数十人規模に対して 1〜2人日の logging 実装は **YAGNI 違反**
- 既存資産（対話履歴・コミットログ・TODO の `[x]` マーク等）で大半は代替可能
- 戦略マネージャー出力の trace データもまだ蓄積前

### 学び

- 「完全ループ」の理想に引っ張られて重厚な logging を組むのは過剰
- 小規模では既存資産で十分代替可能
- 「100% にする」より「13% でも回す」のほうが実験段階としては合理的
- 商業化フェーズで再検討（多テナント運用が現実化したタイミング）

## 4. 「歴史的な瞬間」と書いたコミットメッセージ — 訂正

5/5 の学習ループ検証成功時、コミットメッセージで「Phase A 完全閉鎖ループ実証」「歴史的成果」と書いた。

### 訂正

これは hyperbole（誇張）。客観的には：
- 世界初ではない（marketing automation の loop は何十年も前から存在）
- 業界・人類にとってのインパクトはない
- 個人プロジェクトとしての milestone であって「歴史的」ではない

正確な記述: 「**1ヶ月積み上げた個人プロジェクトの自然な節目で、1日で end-to-end が動いた**」程度。

### 学び

- 「文学的衝動で結論を盛り上げる」のは Claude（AI）の癖
- ユーザーから「賢いAIがバカっぽくなる」と指摘された
- 装飾語（「歴史的」「完全」「実証」「決定的」「致命的」「核心」「圧倒的」など）を意図的に避ける必要がある
- 事実 + 数字 + 具体名で書く。比喩や修辞を最小限に

## 5. 評価フレームワークを memory に書いた件

5/5 の対話で、3層評価フレームワーク（実行コスト削減・ネタ枯れ防止・完全ループ閉鎖）を Claude の memory に書いた。

### 訂正

これは置き場所の判断ミス。架構レベル / strategic 知見は **project docs（git管理）** に置くべきだった。memory に書くと:
- git で版管理されない
- ユーザー以外見えない
- project doc を読む人が気づかない

### 修正

project docs に正本として移動。memory には「自戒」だけ残した。

### 学び

- 「memory に残す」と発言しただけで実際には書いていなかったケースが複数あった
- 「残す」と言ったらその場で実行する必要がある
- 知見の置き場所は「git に残るべきか」で判断する原則を確立

## 6. カレンダー統合せず投稿計画が衝突しかけた件

ある時点で、複数の文脈で並行して積み上げた投稿候補が同じ10日間に集中し、1日 2〜3 投稿想定でキャパ超えになりかけた。

### 修正

統合カレンダーを作って 1日1投稿原則に揃え、craft 軸が重複するものは取り下げ・優先度の低いものは後ろ倒し・本数を縮小して整合させた。

具体的な施策名・スケジュールは内部資料として非公開。

### 学び

- 各文脈で別々に積み上がった施策を統合するチェックポイントが運用に組み込まれていなかった
- カレンダー統合は週次レビューで定期的にやるべき作業

## 7. 「鼓舞コンテンツ 週2回・全体の 20%」のハード目標を廃止（2026-05-11）

### 仮説

外部ブログ記事の「40% entertainment / 30% education / **20% inspiration** / 10% promotion」というコンテンツミックス推奨を取り入れ、「鼓舞コンテンツを週 2 回・全体の 20% 入れる」をハード目標として設定していた（運用初期）。

### 設計と結果

- 出典: 個人ブログのベストプラクティス推奨（信頼性: 中・本アカウントの規模・ニッチ・期間での実測ではない）
- 検証期間: 約 5 週半・37 日間（2026-04-04 〜 2026-05-11）
- 全オリジナル投稿 57 本のうち「鼓舞 craft」明確含有: 0-2 本（~3.5% 以下）
- それでも 1 人 → 50 人達成（5 月末 50 人目標を 20 日前倒し）

### 判定: ハード目標を廃止（2026-05-11）

5 週間「鼓舞 ~0%」運用にもかかわらず目標前倒し達成。**本アカウントでは鼓舞 20% は必須ではない**ことが実証された。

### 学び

- **未検証ベストプラクティスを盲信せず、自分のデータで判断する**
- リプ craft には自然に鼓舞要素（「楽しみじゃのう」「ええ歩みじゃ」「見守る」等）が混じる → 投稿型だけで測ると実態を underestimate
- ハード目標を維持すると「無理に 2 本入れる」craft 質低下リスク（DifyPrompt の「おお！」偏重と同じ構造）
- 新方針: 「機会があれば取り入れる」レベルに格下げ
  - 大きな失敗・課題を公開した時（読者と一緒に乗り越える craft）
  - 投稿テーマがネガティブに偏った時（バランス調整）
- 残課題: フォロー解除トラッキングが未実装のため「鼓舞ゼロで retention OK」は厳密には未検証。次フェーズ（50→100 人）で retention 課題が顕在化したら鼓舞 craft を再検討する

## 共通する学び

これらの失敗・修正に共通するパターン：

1. **AI（Claude）が「もっともらしい」提案を出す**
2. **ユーザーがそれを批判的に評価する**
3. **過剰・誤判定・装飾を訂正する**
4. **修正後の判断が project doc に残る**

判断軸が機能していたから過剰実装や誤った評価軸を避けられた。AI 任せにせず、ユーザーが疑う習慣を維持することがプロジェクトの精度を保つ鍵となっている。

## 関連記事

- [/docs/principles.md](/docs/principles.md) — fact チェック人間残し / hyperbole 回避の原則
- [/docs/learning-loop.md](/docs/learning-loop.md) — 動いた事例側
- [/index.md](/index.md) — 全体 index