通知配信パイプライン設計（キュー・レート制御・再送）

この記事の目的

現状、このリポジトリ内に通知配信パイプラインの実装コードはありません。
本記事は、将来実装する際に安全で運用可能な構成へ揃えるための設計基準です。

特に配信基盤は障害時の影響が広いですよね。
だからこそ、速度よりも再現性と回復性を重視し、先に設計判断を固定しておくことを目的にしています。

キュー中心アーキテクチャ

同期送信を避ける理由

登録処理と送信処理を同じリクエストで実行すると、外部プロバイダ遅延の影響を直接受け、ユーザー操作が不安定になります。
通知はキューへ積み、ワーカーで非同期処理する方針にすると、UI応答を保ちながら失敗時の再送も柔軟に扱えます。

まずは責務分離を前提に据えることが、拡張しやすい設計の出発点になります。

キュー中心配信の流れ

登録API

通知希望を受け付け、ジョブを enqueue

ワーカー

pending ジョブを順次処理

配信実行

メール/SMSプロバイダへ送信

結果記録

sent / failed と再送条件を保存

状態遷移を明示する効果

pending、processing、sent、failed のようなジョブ状態を明確に定義すると、障害時の切り分けが速くなります。
運用担当は「どこで止まっているか」を即座に把握でき、開発側も再送条件をコード化しやすくなります。

状態を曖昧にすると、重複配信や取りこぼしの原因が追跡できず、長期的な保守コストが上がります。

配信制御と再送方針

レート制御のコンセプト

通知は一括送信すると到達率が下がるため、全体上限とドメイン別上限を分けて制御する設計が有効です。
特定ドメインへの集中を抑え、配信品質を平準化できます。

運用現場では「たくさん送る」より「確実に届く」方が価値が高いですよね。
スループットより安定性を優先する設定思想を、最初から共有しておくことが重要です。

エラー分類と再送のルール化

一時障害と恒久障害を分けずに再送すると、無駄なリトライが増え、キュー滞留の原因になります。
timeout や 429 は再送対象、アドレス不正は即停止というように、エラー種別ごとの処理を設計段階で定義します。

再送回数の上限と待機間隔を明文化すれば、障害時の判断を個人依存にせず、チームで同じ運用を再現できます。

エラー分類ごとの扱い

一時障害（429/timeout）

待機して再送（指数バックオフ）

恒久障害（不正アドレス）

再送しない failed-permanent に確定

通知配信パイプライン設計（キュー・レート制御・再送）

この記事の目的

キュー中心アーキテクチャ

同期送信を避ける理由

状態遷移を明示する効果

配信制御と再送方針

レート制御のコンセプト

エラー分類と再送のルール化

セキュリティと監査性

機微情報の扱い方

監査ログの役割

実装前チェックリスト

最低限そろえるべき合意項目

KPIは実装後に段階導入

まとめ

関連記事

再入荷判定（0→1）を安定化させる検知設計

再入荷通知（Back in Stock）機能の設計と管理UI

ヘッドレスサイトでGA4のコンバージョンを正しく記録する設計