apache · Bowrna · May 22, 2024 · Taragolis · May 4, 2024 · Bowrna
@@ -322,6 +322,15 @@ def change_state(
                 self.log.debug("Could not find key: %s", key)
         self.event_buffer[key] = state, info
 
+    def failed_in_queue(self, key: TaskInstanceKey, info=None) -> None:
+        """
+        Set failed in queue state for the event.
+
+        :param info: Executor information for the task instance
+        :param key: Unique key for the task instance
+        """
+        self.change_state(key, TaskInstanceState.FAILED_IN_QUEUE, info)
+
     def fail(self, key: TaskInstanceKey, info=None) -> None:
         """
         Set fail state for the event.

@@ -104,6 +104,7 @@ class _DagRunTaskStatus:
         skipped: set[TaskInstanceKey] = attr.ib(factory=set)
         succeeded: set[TaskInstanceKey] = attr.ib(factory=set)
         failed: set[TaskInstanceKey] = attr.ib(factory=set)
+        failed_in_queue: set[TaskInstanceKey] = attr.ib(factory=set)
         not_ready: set[TaskInstanceKey] = attr.ib(factory=set)
         deadlocked: set[TaskInstance] = attr.ib(factory=set)
         active_runs: set[DagRun] = attr.ib(factory=set)
@@ -208,6 +209,10 @@ def _update_counters(self, ti_status: _DagRunTaskStatus, session: Session) -> No
                 ti_status.failed.add(ti_key)
                 ti_status.running.pop(ti_key)
                 continue
+            if ti.state == TaskInstanceState.FAILED_IN_QUEUE:
+                self.log.error("Task instance %s failed in queue", ti)
+                ti_status.failed_in_queue.add(ti_key)
+                ti_status.queued.pop(ti_key)
             # special case: if the task needs to run again put it back
             if ti.state == TaskInstanceState.UP_FOR_RETRY:
                 self.log.warning("Task instance %s is up for retry", ti)
@@ -448,7 +453,7 @@ def _task_instances_for_dag_run(
     def _log_progress(self, ti_status: _DagRunTaskStatus) -> None:
         self.log.info(
             "[backfill progress] | finished run %s of %s | tasks waiting: %s | succeeded: %s | "
-            "running: %s | failed: %s | skipped: %s | deadlocked: %s | not ready: %s",
+            "running: %s | failed: %s | skipped: %s | deadlocked: %s | not ready: %s | failed in queue: %s",
             ti_status.finished_runs,
             ti_status.total_runs,
             len(ti_status.to_run),
@@ -458,6 +463,7 @@ def _log_progress(self, ti_status: _DagRunTaskStatus) -> None:
             len(ti_status.skipped),
             len(ti_status.deadlocked),
             len(ti_status.not_ready),
+            len(ti_status.failed_in_queue),
         )
 
         self.log.debug("Finished dag run loop iteration. Remaining tasks %s", ti_status.to_run.values())
@@ -521,7 +527,7 @@ def _per_task_process(key, ti: TaskInstance, session):
 
                 if self.rerun_failed_tasks:
                     # Rerun failed tasks or upstreamed failed tasks
-                    if ti.state in (TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED):
+                    if ti.state in (TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED, TaskInstanceState.FAILED_IN_QUEUE):
                         self.log.error("Task instance %s with state %s", ti, ti.state)
                         if key in ti_status.running:
                             ti_status.running.pop(key)
@@ -532,7 +538,7 @@ def _per_task_process(key, ti: TaskInstance, session):
                             ti_status.active_runs.add(ti.dag_run)
                 else:
                     # Default behaviour which works for subdag.
-                    if ti.state in (TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED):
+                    if ti.state in (TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED,TaskInstanceState.FAILED_IN_QUEUE):
                         self.log.error("Task instance %s with state %s", ti, ti.state)
                         ti_status.failed.add(key)
                         ti_status.to_run.pop(key)

@@ -698,6 +698,7 @@ def _process_executor_events(self, session: Session) -> int:
                 TaskInstanceState.SUCCESS,
                 TaskInstanceState.QUEUED,
                 TaskInstanceState.RUNNING,
+                TaskInstanceState.FAILED_IN_QUEUE,
             ):
                 tis_with_right_state.append(ti_key)
 

@@ -2381,7 +2381,7 @@ def clear(
 
         state: list[TaskInstanceState] = []
         if only_failed:
-            state += [TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED]
+            state += [TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED, TaskInstanceState.FAILED_IN_QUEUE]
         if only_running:
             # Yes, having `+=` doesn't make sense, but this was the existing behaviour
             state += [TaskInstanceState.RUNNING]

@@ -409,6 +409,7 @@ def _stop_remaining_tasks(*, task_instance: TaskInstance | TaskInstancePydantic,
         if ti.task_id == task_instance.task_id or ti.state in (
             TaskInstanceState.SUCCESS,
             TaskInstanceState.FAILED,
+            TaskInstanceState.FAILED_IN_QUEUE,
         ):
             continue
         task = task_instance.task.dag.task_dict[ti.task_id]

diff --git a/airflow/operators/subdag.py b/airflow/operators/subdag.py
@@ -151,7 +151,7 @@ def _reset_dag_run_and_task_instances(self, dag_run: DagRun, execution_date: dat
                 select(TaskInstance)
                 .where(TaskInstance.dag_id == self.subdag.dag_id)
                 .where(TaskInstance.execution_date == execution_date)
-                .where(TaskInstance.state.in_((TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED)))
+                .where(TaskInstance.state.in_((TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED, TaskInstanceState.FAILED_IN_QUEUE)))
             )
 
             for task_instance in failed_task_instances:

@@ -452,7 +452,7 @@ def cleanup_stuck_queued_tasks(self, tis: list[TaskInstance]) -> list[str]:
         for ti in tis:
             readable_tis.append(repr(ti))
             task_instance_key = ti.key
-            self.fail(task_instance_key, None)
+            self.failed_in_queue(task_instance_key, None)
             celery_async_result = self.tasks.pop(task_instance_key, None)
             if celery_async_result:
                 try:

diff --git a/airflow/ti_deps/deps/trigger_rule_dep.py b/airflow/ti_deps/deps/trigger_rule_dep.py
@@ -48,6 +48,7 @@ class _UpstreamTIStates(NamedTuple):
     success: int
     skipped: int
     failed: int
+    failed_in_queue: int
     upstream_failed: int
     removed: int
     done: int
@@ -77,6 +78,7 @@ def calculate(cls, finished_upstreams: Iterator[TaskInstance]) -> _UpstreamTISta
             success=counter.get(TaskInstanceState.SUCCESS, 0),
             skipped=counter.get(TaskInstanceState.SKIPPED, 0),
             failed=counter.get(TaskInstanceState.FAILED, 0),
+            failed_in_queue=counter.get(TaskInstanceState.FAILED_IN_QUEUE,0),
             upstream_failed=counter.get(TaskInstanceState.UPSTREAM_FAILED, 0),
             removed=counter.get(TaskInstanceState.REMOVED, 0),
             done=sum(counter.values()),

diff --git a/airflow/utils/state.py b/airflow/utils/state.py
@@ -52,6 +52,7 @@ class TaskInstanceState(str, Enum):
     SUCCESS = "success"  # Task completed
     RESTARTING = "restarting"  # External request to restart (e.g. cleared when running)
     FAILED = "failed"  # Task errored out
+    FAILED_IN_QUEUE = "failed_in_queue" # Task failed due to queue timeout
     UP_FOR_RETRY = "up_for_retry"  # Task failed but has retries left
     UP_FOR_RESCHEDULE = "up_for_reschedule"  # A waiting `reschedule` sensor
     UPSTREAM_FAILED = "upstream_failed"  # One or more upstream deps failed
@@ -95,6 +96,7 @@ class State:
     SUCCESS = TaskInstanceState.SUCCESS
     RUNNING = TaskInstanceState.RUNNING
     FAILED = TaskInstanceState.FAILED
+    FAILED_IN_QUEUE = TaskInstanceState.FAILED_IN_QUEUE
 
     # These are TaskState only
     NONE = None
@@ -135,6 +137,7 @@ class State:
         TaskInstanceState.SUCCESS: "green",
         TaskInstanceState.RESTARTING: "violet",
         TaskInstanceState.FAILED: "red",
+        TaskInstanceState.FAILED_IN_QUEUE: "coral",
         TaskInstanceState.UP_FOR_RETRY: "gold",
         TaskInstanceState.UP_FOR_RESCHEDULE: "turquoise",
         TaskInstanceState.UPSTREAM_FAILED: "orange",
@@ -161,6 +164,7 @@ def color_fg(cls, state):
         [
             TaskInstanceState.SUCCESS,
             TaskInstanceState.FAILED,
+            TaskInstanceState.FAILED_IN_QUEUE,
             TaskInstanceState.SKIPPED,
             TaskInstanceState.UPSTREAM_FAILED,
             TaskInstanceState.REMOVED,
@@ -193,7 +197,7 @@ def color_fg(cls, state):
     """
 
     failed_states: frozenset[TaskInstanceState] = frozenset(
-        [TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED]
+        [TaskInstanceState.FAILED, TaskInstanceState.UPSTREAM_FAILED, TaskInstanceState.FAILED_IN_QUEUE]
     )
     """
     A list of states indicating that a task or dag is a failed state.