OpenAI · February 2026 · Harness Engineering

エンジニアリングの定義が変わったハーネスエンジニアリング

3人のエンジニアが、5ヶ月間、コードを1行も手書きしなかった。
それでもプロダクトは動き続け、約100万行のコードと1,500件のPRが積み上がった。
何が起きていたのか。そして、ソフトウェアエンジニアの仕事は何になったのか。

0 生成されたコード行数

0 マージされたPR

0 最初のチーム規模

0 人間が書いたコード

SECTION 01 · DEFINITION

「ハーネス」とは何か

「ハーネス（harness）」は本来、馬を制御するための馬具のことです。強くて予測不能な馬を、人間が望む方向に安全に導くための手綱・鞍・留め具の総体。
OpenAIはこの言葉を、AIエージェントを制御するための技術的仕組みの総体に使いました。

強力だが予測不能な馬

AIエージェント（Codexなど）

制御するための仕組み

リポジトリ構造・ルール・フィードバックループ

ハーネスエンジニアリングとは、AIエージェントが安全かつ高品質に開発できる「環境・制約・フィードバックループ」を設計する仕事のことです。コードを書く人から、AIがコードを書くためのシステムを設計する人へ——役割の転換を意味します。

出典: OpenAI「ハーネスエンジニアリング」2026年2月

2025年8月

空のリポジトリからスタート

3人のエンジニアがCodexだけで社内向けプロダクト開発を開始。最初のコミット・構成・CI設定もCodexが生成。

2025年8〜10月（初期）

生産性が予想より低かった

Codexが優秀でも、環境が不十分なら止まる。ツール連携・抽象化・復帰ロジックが欠如していた。

2025年後半〜2026年1月

ハーネスの改善でスループット急上昇

チームが7人に増えても1人あたりの生産性が落ちず、むしろ向上。平均3.5 PR／人／日を記録。

2026年2月

「ハーネスエンジニアリング」と命名・公開

OpenAIがブログで実験を詳細に公開。「コード著作から環境設計へ」という概念が広まる。

SECTION 02 · KEY FINDING

「賢いAI」だけでは足りない
という反直感的な発見

最初にこの実験を聞いたとき、多くの人はこう思うかもしれません。「性能の良いAIモデルさえあれば、あとは指示するだけでは？」
実際には違いました。

発見：初期の生産性は予想より低かった

AIモデルの性能が低かったわけではありません。問題は「環境が不十分だった」ことでした。エージェントには、高レベルの目標に向かって前進するための「ツール」「抽象化」「内部構造」が欠けていました。

エンジニアチームの主な仕事は、「エージェントが有益な仕事をできるようにすること」に変わりました。Codexが「賢い」かどうかより、Codexが「動ける環境があるか」の方が重要だったのです。

環境なし・指示だけ

どのレイヤーに実装すべきか迷う
命名規則が一貫しない
先週の設計議論が反映されない
ドキュメントを書くが古くなる
エラーが出ても原因調査できない
結果: 何度も間違いを繰り返す

ハーネス整備済み

AGENTS.md が構造の地図を提示
カスタムリンターが制約を機械的に強制
設計判断がdocs/に記録されている
CIが即座にフィードバックを返す
ログ・メトリクスをAIが直接読める
結果: 仕様から完成PRまで自律的に遂行

エンジニアにとって最も難しかったのは、「コードを書かない」という制約を守ることだった。手を出したい衝動を抑え、その代わりに「なぜCodexがここで詰まったのか」を分析し、環境を修正することに集中した。

OpenAI, Harness Engineering, 2026

SECTION 03 · CORE INSIGHT

核心的洞察：
リポジトリがAIの宇宙になる

ハーネスエンジニアリングを理解する上で最も重要な洞察が一つあります。

AIエージェントにとって、リポジトリの外に知識は存在しない。
Slackの会話、Google Docsの資料、人間の頭の中にある暗黙知は——Codexからは見えない。

この洞察が意味することは明確です。設計判断・アーキテクチャの経緯・運用ルール・技術的負債——重要なことは全て、バージョン管理されたファイルとしてリポジトリ内に書き残さなければならない。Slackで話し合っても、GoogleDocsに書いても、Codexには届きません。

SECTION 04 · ARCHITECTURE

ハーネスを支える
4つの柱

OpenAIの実験で明らかになった、AIエージェントが自律的に開発を続けるために必要な4つの要素。どれか一つが欠けても、エージェントは止まる。

PILLAR 01

AGENTS.md

地図として機能するナビゲーション

リポジトリの構造と「何がどこにあるか」を示す目次。巨大なマニュアルではなく、エージェントが作業に必要な知識へたどり着くための道案内として機能する。

PILLAR 02

docs/ ナレッジベース

AIの「記憶システム」

設計判断・プロダクト原則・技術的経緯・運用ルールを構造化して保管する場所。人間にとっての「ドキュメント」ではなく、AIにとっての「長期記憶」として設計する。

PILLAR 03

カスタムリンター

機械的に制約を強制する番人

依存方向・レイヤー構造・命名規則・ファイルサイズ・ログ形式などを、「お願い」ではなく自動チェックで強制する。これらのリンター自体もCodexが書く。

PILLAR 04

CI + 観測性

AIが読めるフィードバックループ

ログ・メトリクス・トレースをCodexが直接参照できる形式で整備。LogQLやPromQLで原因調査、Chrome DevToolsでUIのバグ再現まで自律的に行う。

SECTION 05 · DEEP DIVE

`AGENTS.md` の正しい使い方
——地図であって、マニュアルではない

AGENTS.md は「エージェントへの指示書」として使われがちですが、OpenAIの実験で分かったのは、それを巨大なマニュアルにするのは逆効果だということです。

間違った使い方

全ての指示・ルール・例外を1ファイルに詰め込む

AGENTS.md（5000行）
├── 基本方針（200行）
├── 命名規則（300行）
├── アーキテクチャ（500行）
├── テスト方針（400行）
└── ... ×100項目

問題: コンテキストを圧迫・古くなりやすい・判断精度が下がる

正しい使い方

目次・地図として機能させ、詳細はdocs/に委ねる

AGENTS.md（50行の地図）
├── docs/
│ ├── architecture.md ← 設計判断
│ ├── naming.md ← 命名規則
│ ├── testing.md ← テスト方針
│ └── adr/ ← 意思決定記録
└── plans/ ← 実行計画

効果: 必要な知識だけ参照・更新しやすい・判断精度が高い

重要な前提：最初のAGENTS.mdも、最初のCI設定も、最初のリポジトリ構造も、Codex自身が生成した。人間が手書きで用意したわけではありません。ハーネスを育てるのもAIの仕事です。

SECTION 06 · HOW IT WORKS

Codexが単独でやり遂げる
バグ修正の全工程

十分なハーネスが整ったとき、Codexは一つのプロンプトから以下の全工程を自律的に実行できるようになりました。人間の介入は「必要な場合のみ」です。

調査フェーズ

タスクを受け取る

プロンプトで指示。「このバグを直してPRを出して」

Codex プロンプト

AGENTS.md を参照する

リポジトリの地図を読み、どのdocs/を参照すべきか把握する

AGENTS.md

コードベースを調査する

関連するコード・設計判断・アーキテクチャをdocs/で確認

docs/ ナレッジベース

再現・記録フェーズ

バグを再現する

Chrome DevTools Protocolを使ってDOMやスクリーンショットを読み、アプリを操作してバグを再現

Chrome DevTools Protocol

修正前の状態を記録する

バグが起きている様子を動画として記録。「Before」の証拠として保存

動画キャプチャ

修正・検証フェーズ

コードを修正する

カスタムリンターが制約を自動チェック。命名・構造・依存方向が守られているか機械的に確認

コード修正 + リンター自動チェック

アプリを起動して検証する

ログ・メトリクス・トレースを直接読んで動作を確認。LogQLやPromQLで原因調査も行う

LogQL / PromQL / メトリクス

修正後の状態を記録する

修正後の正常動作を動画として記録。「After」としてPRに添付

動画キャプチャ

PRフェーズ

Pull Request を作成する

変更内容・Before/After動画・関連ドキュメントをまとめてPRを作成

GitHub PR

レビューコメントに対応する

レビュアーのフィードバックを読み取り、指摘された箇所を自律的に修正

PR レビュー対応

ビルド失敗を修正する

CI（自動テスト・ビルドチェック）の失敗ログを読み取り、原因を特定して再修正

CI ログ解析

必要な場合のみ人間にエスカレーション

判断が困難な設計上の意思決定や、曖昧な要件の確認だけ人間に戻す

人間によるレビュー（例外時のみ）

マージ完了

全てのチェックをパスし、PRがマージされる

完了

SECTION 07 · HUMAN ROLE

人間の役割はどう変わったか

エンジニアは「コードを書く人」から、「AIがコードを書けるシステムを設計する人」になりました。これは仕事の減少ではなく、仕事の抽象度が上がったということです。

従来の開発（コードを書く）	エージェントファースト（環境を設計する）
コードを実装する	Codexに実装させ、結果をレビューする
実装方針を細かく指示する	境界条件・不変条件・品質基準を定義する
手作業でコードレビューする	自動レビュー＋機械チェックの仕組みを設計する
補助的にドキュメントを書く	docs/をAIの「記憶システム」として設計・維持する
技術的負債は後でまとめて直す	定期的にAIに検出・修正させる仕組みを作る
テストが失敗したら原因調査する	AIが読めるログ・メトリクス環境を整備する
バグ再現を手で行う	ブラウザ操作・観測ツールをAIに接続する

「コードを書かない」という制約が最も難しい習慣の変化だった。手を出したい衝動をおさえ、代わりに「なぜCodexはここで詰まったのか」を分析し、ハーネスを修正することに集中する——これが新しいエンジニアリングの形だ。

OpenAI内部チームのふり返りより

SECTION 08 · FLYWHEEL

なぜ時間が経つほど
生産性が上がり続けるのか

チームが3人から7人に増えたにもかかわらず、1人あたりの生産性は落ちなかった。むしろ上がった。これは「複利効果」によるものです。

ハーネスを改善する

欠けているツール・抽象化・制約を追加。これ自体もCodexが実装。

エージェントの実行精度が上がる

環境が整うほど、Codexが迷わず正確に動けるようになる。

より複雑な作業を委任できる

単純なバグ修正だけでなく、機能設計から実装・PRまでの全工程を任せられる。

次のギャップが露出する

より高度な作業を任せることで、ハーネスの新たな不足が見えてくる。

ハーネスに組み込む → 最初に戻る

ギャップを解消してハーネスを更新。このサイクルが繰り返され、システム全体が成長する。

現在到達した閾値： Codexは現在、仕様書を受け取ってからマージまでを完全に自律的に実行できるようになっています。コードを書き、テストを実行し、レビューフィードバックに対応し、マージする——全工程をエージェントが担います。

3.5 PR ／エンジニア／日

10× 手動開発と比べた速度

SECTION 09 · CRITICAL VIEW

批判的な目線——
これが万能薬でない理由

OpenAI自身も明言しています。「これは特定のリポジトリ構造・ツール・制約があって初めて成立するもので、準備なしに一般化できるものではない」と。

巨大な初期投資が必要

ハーネスを整えるにはCI・リンター・ドキュメント構造・観測インフラの設計が必要。この準備期間は生産性が下がる。

ドキュメントも技術的負債になる

docs/をAIの記憶として使うということは、docs/が古くなれば「AIが間違った知識で動く」ことを意味する。メンテナンスコストが新たに発生する。

ミスが複利で積み上がるリスク

AIが生成したコードを別のAIがレビューし、さらに別のAIが修正する構造では、小さな誤りが指数的に拡大する可能性がある。人間の目が入る箇所を意図的に設計する必要がある。

全ての用途・ドメインには適用できない

高い安全要件・医療・金融・規制業界など、人間の判断が法的に求められる領域では、このアプローチをそのまま適用することはできない。

「環境設計」自体の難しさ

ハーネスエンジニアリングは、コードを書く技術とは異なるスキルを要求する。「AIが詰まる理由を見抜く」能力は、新しい専門性であり、まだノウハウが蓄積途中だ。

OpenAI内部実験という限界

この実験は、OpenAI自身が作ったモデル（Codex/GPT-5）を使った、OpenAIの社内プロダクト開発。異なる組織・モデル・プロダクト領域での再現性は未検証だ。

SECTION 10 · IMPLICATIONS

エンジニアリングの定義が変わる

OpenAIはブログの結びにこう書いています。

現在の最も難しい課題は、大規模で複雑かつ信頼性の高いソフトウェアをエージェントが構築・保守できる「環境・フィードバックループ・制御システム」を設計することだ。

OpenAI, Harness Engineering, February 2026

これまでの中心

コード著作

どう実装するかを考え、自分で書く。個人の技術力が生産性に直結する。

これからの中心

環境設計

AIが最高のパフォーマンスを発揮できる環境を設計する。制約・フィードバック・記憶システムの設計者になる。

これは「エンジニアが不要になる」という話ではありません。エンジニアが扱う問題の抽象度が上がったという話です。コードの1行1行ではなく、システム全体の設計・制約・信頼性を考えることがエンジニアの仕事になりつつあります。

プロンプトを1つ工夫するより、リポジトリ構造・ドキュメント・リンター・CI・観測環境を整える方が、AIを本当に使いこなす近道だということを、この実験は示しています。

エンジニアリングの定義が変わった ハーネスエンジニアリング

「ハーネス」とは何か

「賢いAI」だけでは足りないという反直感的な発見

発見：初期の生産性は予想より低かった

核心的洞察：リポジトリがAIの宇宙になる

ハーネスを支える4つの柱

AGENTS.md

docs/ ナレッジベース

カスタムリンター

CI + 観測性

AGENTS.md の正しい使い方——地図であって、マニュアルではない

間違った使い方

正しい使い方

Codexが単独でやり遂げるバグ修正の全工程

人間の役割はどう変わったか

なぜ時間が経つほど生産性が上がり続けるのか

批判的な目線——これが万能薬でない理由

巨大な初期投資が必要

ドキュメントも技術的負債になる

ミスが複利で積み上がるリスク

全ての用途・ドメインには適用できない

「環境設計」自体の難しさ

OpenAI内部実験という限界

エンジニアリングの定義が変わる

コード著作

環境設計

参照・出典

エンジニアリングの定義が変わったハーネスエンジニアリング

「賢いAI」だけでは足りない
という反直感的な発見

核心的洞察：
リポジトリがAIの宇宙になる

ハーネスを支える
4つの柱

`AGENTS.md` の正しい使い方
——地図であって、マニュアルではない

Codexが単独でやり遂げる
バグ修正の全工程

なぜ時間が経つほど
生産性が上がり続けるのか

批判的な目線——
これが万能薬でない理由