Coding Agent Index Methodology

Overview

Artificial Analysis benchmarks coding agents on end-to-end software engineering tasks. The goal is to measure how well agents complete realistic coding work, and how performance varies across outcome, reliability, token usage, cost, and execution time.

Public results on the Coding Agent Index page are built from task-level benchmark attempts and are aggregated into per-evaluation scores, pooled efficiency metrics, and the Artificial Analysis Coding Agent Index.

This page focuses on how the public Artificial Analysis Coding Agent Index is constructed, what benchmark components are currently included, and how the public pass@1, cost, token-usage, and execution-time metrics are derived.

Artificial Analysis Coding Agent Index

The current public Artificial Analysis Coding Agent Index is a composite benchmark score built from the configured benchmark components in the public coding-agents suite.

The point of the index is not to collapse all coding work into one benchmark task type. Different coding agents can perform very differently on repository Q&A, implementation and bug-fix tasks, and terminal-heavy workflows. The index exists to summarize those different benchmark families into one top-level performance view while preserving the per-benchmark breakdowns underneath.

Index Components

The current public index includes the following benchmark components:

Evaluation	Field	Tasks	Repeats	Response Type	Scoring
SWE-Bench-Pro-Hard-AA	Code Generation	150	3	Code patch / repository changes	Test suite pass/fail, pass@1
Terminal-Bench v2	Agentic Terminal Use	84*	3	Terminal-based task execution	Test suite pass/fail, pass@1
SWE-Atlas-QnA	Repository Q&A	124	3	Open Answer	Rubric-based grading, pass@1

* Terminal-Bench v2 originally contains 89 tasks; we exclude five tasks because of environment compatibility issues.

Evaluated Tasks

The current public index covers 358 evaluated tasks across the 3 benchmark components.

instance_ansible__ansible-1bd7dcf339dd8b6c50bc16670be2448a206f4fdb-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_ansible__ansible-1c06c46cc14324df35ac4f39a45fb3ccd602195d-v0f01c69f1e2528b935359cfe578530722bca2c59
instance_ansible__ansible-34db57a47f875d11c4068567b9ec7ace174ec4cf-v1055803c3a812189a1133297f7f5468579283f86
instance_ansible__ansible-40ade1f84b8bb10a63576b0ac320c13f57c87d34-v6382ea168a93d80a64aab1fbd8c4f02dc5ada5bf
instance_ansible__ansible-4c5ce5a1a9e79a845aff4978cfeb72a0d4ecf7d6-v1055803c3a812189a1133297f7f5468579283f86
instance_ansible__ansible-5640093f1ca63fd6af231cc8a7fb7d40e1907b8c-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_ansible__ansible-5e88cd9972f10b66dd97e1ee684c910c6a2dd25e-v906c969b551b346ef54a2c0b41e04f632b7b73c2
instance_ansible__ansible-709484969c8a4ffd74b839a673431a8c5caa6457-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_ansible__ansible-7e1a347695c7987ae56ef1b6919156d9254010ad-v390e508d27db7a51eece36bb6d9698b63a5b638a
instance_ansible__ansible-935528e22e5283ee3f63a8772830d3d01f55ed8c-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_ansible__ansible-942424e10b2095a173dbd78e7128f52f7995849b-v30a923fb5c164d6cd18280c02422f75e611e8fb2
instance_ansible__ansible-949c503f2ef4b2c5d668af0492a5c0db1ab86140-v0f01c69f1e2528b935359cfe578530722bca2c59
instance_ansible__ansible-9a21e247786ebd294dafafca1105fcd770ff46c6-v67cdaa49f89b34e42b69d5b7830b3c3ad3d8803f
instance_ansible__ansible-a1569ea4ca6af5480cf0b7b3135f5e12add28a44-v0f01c69f1e2528b935359cfe578530722bca2c59
instance_ansible__ansible-b6290e1d156af608bd79118d209a64a051c55001-v390e508d27db7a51eece36bb6d9698b63a5b638a
instance_ansible__ansible-b8025ac160146319d2b875be3366b60c852dd35d-v0f01c69f1e2528b935359cfe578530722bca2c59
instance_ansible__ansible-bf98f031f3f5af31a2d78dc2f0a58fe92ebae0bb-v1055803c3a812189a1133297f7f5468579283f86
instance_ansible__ansible-cb94c0cc550df9e98f1247bc71d8c2b861c75049-v1055803c3a812189a1133297f7f5468579283f86
instance_ansible__ansible-cd473dfb2fdbc97acf3293c134b21cbbcfa89ec3-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_ansible__ansible-cd9c4eb5a6b2bfaf4a6709f001ce3d0c92c1eed2-v0f01c69f1e2528b935359cfe578530722bca2c59
instance_ansible__ansible-d30fc6c0b359f631130b0e979d9a78a7b3747d48-v1055803c3a812189a1133297f7f5468579283f86
instance_ansible__ansible-d58e69c82d7edd0583dd8e78d76b075c33c3151e-v173091e2e36d38c978002990795f66cfc0af30ad
instance_ansible__ansible-d6d2251929c84c3aa883bad7db0f19cc9ff0339e-v30a923fb5c164d6cd18280c02422f75e611e8fb2
instance_ansible__ansible-de5858f48dc9e1ce9117034e0d7e76806f420ca8-v1055803c3a812189a1133297f7f5468579283f86
instance_ansible__ansible-deb54e4c5b32a346f1f0b0a14f1c713d2cc2e961-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_ansible__ansible-e64c6c1ca50d7d26a8e7747d8eb87642e767cd74-v0f01c69f1e2528b935359cfe578530722bca2c59
instance_ansible__ansible-ecea15c508f0e081525be036cf76bbb56dbcdd9d-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_ansible__ansible-f02a62db509dc7463fab642c9c3458b9bc3476cc-v390e508d27db7a51eece36bb6d9698b63a5b638a
instance_ansible__ansible-f327e65d11bb905ed9f15996024f857a95592629-vba6da65a0f3baefda7a058ebbd0a8dcafb8512f5
instance_element-hq__element-web-1216285ed2e82e62f8780b6702aa0f9abdda0b34-vnan
instance_element-hq__element-web-2760bfc8369f1bee640d6d7a7e910783143d4c5f-vnan
instance_element-hq__element-web-33299af5c9b7a7ec5a9c31d578d4ec5b18088fb7-vnan
instance_element-hq__element-web-404c412bcb694f04ba0c4d5479541203d701bca0-vnan
instance_element-hq__element-web-41dfec20bfe9b62cddbbbf621bef2e9aa9685157-vnan
instance_element-hq__element-web-44b98896a79ede48f5ad7ff22619a39d5f6ff03c-vnan
instance_element-hq__element-web-459df4583e01e4744a52d45446e34183385442d6-vnan
instance_element-hq__element-web-4fec436883b601a3cac2d4a58067e597f737b817-vnan
instance_element-hq__element-web-56c7fc1948923b4b3f3507799e725ac16bcf8018-vnan
instance_element-hq__element-web-72a8f8f03b1a01bb70ef8a5bb61759416991b32c-vnan
instance_element-hq__element-web-75c2c1a572fa45d1ea1d1a96e9e36e303332ecaa-vnan
instance_element-hq__element-web-776ffa47641c7ec6d142ab4a47691c30ebf83c2e
instance_element-hq__element-web-9a31cd0fa849da810b4fac6c6c015145e850b282-vnan
instance_element-hq__element-web-aec454dd6feeb93000380523cbb0b3681c0275fd-vnan
instance_element-hq__element-web-ca58617cee8aa91c93553449bfdf9b3465a5119b-vnan
instance_element-hq__element-web-cf3c899dd1f221aa1a1f4c5a80dffc05b9c21c85-vnan
instance_element-hq__element-web-dae13ac8522fc6d41e64d1ac6e3174486fdcce0c-vnan
instance_element-hq__element-web-ecfd1736e5dd9808e87911fc264e6c816653e1a9-vnan
instance_flipt-io__flipt-05d7234fa582df632f70a7cd10194d61bd7043b9
instance_flipt-io__flipt-1737085488ecdcd3299c8e61af45a8976d457b7e
instance_flipt-io__flipt-21a935ad7886cc50c46852be21b37f363a926af0
instance_flipt-io__flipt-2ce8a0331e8a8f63f2c1b555db8277ffe5aa2e63
instance_flipt-io__flipt-381b90f718435c4694380b5fcd0d5cf8e3b5a25a
instance_flipt-io__flipt-3b2c25ee8a3ac247c3fad13ad8d64ace34ec8ee7
instance_flipt-io__flipt-3d5a345f94c2adc8a0eaa102c189c08ad4c0f8e8
instance_flipt-io__flipt-40007b9d97e3862bcef8c20ae6c87b22ea0627f0
instance_flipt-io__flipt-518ec324b66a07fdd95464a5e9ca5fe7681ad8f9
instance_flipt-io__flipt-690672523398c2b6f6e4562f0bf9868664ab894f
instance_flipt-io__flipt-6fd0f9e2587f14ac1fdd1c229f0bcae0468c8daa
instance_flipt-io__flipt-756f00f79ba8abf9fe53f3c6c818123b42eb7355
instance_flipt-io__flipt-8bd3604dc54b681f1f0f7dd52cbc70b3024184b6
instance_flipt-io__flipt-96820c3ad10b0b2305e8877b6b303f7fafdf815f
instance_flipt-io__flipt-9d25c18b79bc7829a6fb08ec9e8793d5d17e2868
instance_flipt-io__flipt-9f8127f225a86245fa35dca4885c2daef824ee55
instance_flipt-io__flipt-a0cbc0cb65ae601270bdbe3f5313e2dfd49c80e4
instance_flipt-io__flipt-a42d38a1bb1df267c53d9d4a706cf34825ae3da9
instance_flipt-io__flipt-af7a0be46d15f0b63f16a868d13f3b48a838e7ce
instance_flipt-io__flipt-b3cd920bbb25e01fdb2dab66a5a913363bc62f6c
instance_flipt-io__flipt-c1fd7a81ef9f23e742501bfb26d914eb683262aa
instance_flipt-io__flipt-c8d71ad7ea98d97546f01cce4ccb451dbcf37d3b
instance_flipt-io__flipt-cd18e54a0371fa222304742c6312e9ac37ea86c1
instance_flipt-io__flipt-cd2f3b0a9d4d8b8a6d3d56afab65851ecdc408e8
instance_flipt-io__flipt-e2bd19dafa7166c96b082fb2a59eb54b4be0d778
instance_flipt-io__flipt-e50808c03e4b9d25a6a78af9c61a3b1616ea356b
instance_flipt-io__flipt-ea9a2663b176da329b3f574da2ce2a664fc5b4a1
instance_flipt-io__flipt-ee02b164f6728d3227c42671028c67a4afd36918
instance_flipt-io__flipt-f1bc91a1b999656dbdb2495ccb57bf2105b84920
instance_flipt-io__flipt-f36bd61fb1cee4669de1f00e59da462bfeae8765
instance_future-architect__vuls-0ec945d0510cdebf92cdd8999f94610772689f14
instance_future-architect__vuls-1832b4ee3a20177ad313d806983127cb6e53f5cf
instance_future-architect__vuls-50580f6e98eeb36f53f27222f7f4fdfea0b21e8d
instance_future-architect__vuls-5af1a227339e46c7abf3f2815e4c636a0c01098e
instance_future-architect__vuls-83bcca6e669ba2e4102f26c4a2b52f78c7861f1a
instance_future-architect__vuls-86b60e1478e44d28b1aff6b9ac7e95ceb05bc5fc
instance_future-architect__vuls-c11ba27509f733d7d280bdf661cbbe2e7a99df4c
instance_gravitational__teleport-0ac7334939981cf85b9591ac295c3816954e287e
instance_gravitational__teleport-3fa6904377c006497169945428e8197158667910-v626ec2a48416b10a88641359a169d99e935ff037
instance_gravitational__teleport-4d0117b50dc8cdb91c94b537a4844776b224cd3d
instance_gravitational__teleport-5dca072bb4301f4579a15364fcf37cc0c39f7f6c
instance_gravitational__teleport-629dc432eb191ca479588a8c49205debb83e80e2
instance_gravitational__teleport-6a14edcf1ff010172fdbac622d0a474ed6af46de
instance_gravitational__teleport-6eaaf3a27e64f4ef4ef855bd35d7ec338cf17460-v626ec2a48416b10a88641359a169d99e935ff037
instance_gravitational__teleport-769b4b5eec7286b7b14e179f2cc52e6b15d2d9f3-v626ec2a48416b10a88641359a169d99e935ff037
instance_gravitational__teleport-78b0d8c72637df1129fb6ff84fc49ef4b5ab1288
instance_gravitational__teleport-87a593518b6ce94624f6c28516ce38cc30cbea5a
instance_gravitational__teleport-96019ce0be7a2c8e36363f359eb7c943b41dde70
instance_gravitational__teleport-b4e7cd3a5e246736d3fe8d6886af55030b232277
instance_gravitational__teleport-b5d8169fc0a5e43fee2616c905c6d32164654dc6
instance_gravitational__teleport-ba6c4a135412c4296dd5551bd94042f0dc024504-v626ec2a48416b10a88641359a169d99e935ff037
instance_gravitational__teleport-e6681abe6a7113cfd2da507f05581b7bdf398540-v626ec2a48416b10a88641359a169d99e935ff037
instance_gravitational__teleport-eda668c30d9d3b56d9c69197b120b01013611186
instance_gravitational__teleport-f432a71a13e698b6e1c4672a2e9e9c1f32d35c12
instance_gravitational__teleport-fb0ab2b9b771377a689fd0d0374777c251e58bbf
instance_gravitational__teleport-fd2959260ef56463ad8afa4c973f47a50306edd4
instance_internetarchive__openlibrary-08ac40d050a64e1d2646ece4959af0c42bf6b7b5-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
instance_internetarchive__openlibrary-0a90f9f0256e4f933523e9842799e39f95ae29ce-v76304ecdb3a5954fcf13feb710e8c40fcf24b73c
instance_internetarchive__openlibrary-0dc5b20fa186f9714f8a838178597e69f549d026-v2d9a6c849c60ed19fd0858ce9e40b7cc8e097e59
instance_internetarchive__openlibrary-30bc73a1395fba2300087c7f307e54bb5372b60a-v76304ecdb3a5954fcf13feb710e8c40fcf24b73c
instance_internetarchive__openlibrary-4b7ea2977be2747496ba792a678940baa985f7ea-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
instance_internetarchive__openlibrary-53e02a22972e9253aeded0e1981e6845e1e521fe-vfa6ff903cb27f336e17654595dd900fa943dcd91
instance_internetarchive__openlibrary-5c6c22f3d2edf2f1b10f5dc335e32cb6a5f40341-v76304ecdb3a5954fcf13feb710e8c40fcf24b73c
instance_internetarchive__openlibrary-5de7de19211e71b29b2f2ba3b1dff2fe065d660f-v08d8e8889ec945ab821fb156c04c7d2e2810debb
instance_internetarchive__openlibrary-9bdfd29fac883e77dcbc4208cab28c06fd963ab2-v76304ecdb3a5954fcf13feb710e8c40fcf24b73c
instance_internetarchive__openlibrary-9cd47f4dc21e273320d9e30d889c864f8cb20ccf-v0f5aece3601a5b4419f7ccec1dbda2071be28ee4
instance_internetarchive__openlibrary-c8996ecc40803b9155935fd7ff3b8e7be6c1437c-ve8fc82d8aae8463b752a211156c5b7b59f349237
instance_internetarchive__openlibrary-e1e502986a3b003899a8347ac8a7ff7b08cbfc39-v08d8e8889ec945ab821fb156c04c7d2e2810debb
instance_internetarchive__openlibrary-f343c08f89c772f7ba6c0246f384b9e6c3dc0add-v08d8e8889ec945ab821fb156c04c7d2e2810debb
instance_navidrome__navidrome-0488fb92cb02a82924fb1181bf1642f2e87096db
instance_navidrome__navidrome-10108c63c9b5bdf2966ffb3239bbfd89683e37b7
instance_navidrome__navidrome-27875ba2dd1673ddf8affca526b0664c12c3b98b
instance_navidrome__navidrome-28389fb05e1523564dfc61fa43ed8eb8a10f938c
instance_navidrome__navidrome-3972616585e82305eaf26aa25697b3f5f3082288
instance_navidrome__navidrome-7073d18b54da7e53274d11c9e2baef1242e8769e
instance_navidrome__navidrome-87d4db7638b37eeb754b217440ab7a372f669205
instance_navidrome__navidrome-89b12b34bea5687c70e4de2109fd1e7330bb2ba2
instance_navidrome__navidrome-8d56ec898e776e7e53e352cb9b25677975787ffc
instance_navidrome__navidrome-97434c1789a6444b30aae5ff5aa124a96a88f504
instance_navidrome__navidrome-9c3b4561652a15846993d477003e111f0df0c585
instance_navidrome__navidrome-b65e76293a917ee2dfc5d4b373b1c62e054d0dca
instance_navidrome__navidrome-d21932bd1b2379b0ebca2d19e5d8bae91040268a
instance_navidrome__navidrome-d5df102f9f97c21715c756069c9e141da2a422dc
instance_navidrome__navidrome-e12a14a87d392ac70ee4cc8079e3c3e0103dbcb2
instance_navidrome__navidrome-f78257235ec3429ef42af6687738cd327ec77ce8
instance_navidrome__navidrome-fa85e2a7816a6fe3829a4c0d8e893e982b0985da
instance_nodebb__nodebb-6489e9fd9ed16ea743cc5627f4d86c72fbdb3a8a-v2c59007b1005cd5cd14cbb523ca5229db1fd2dd8
instance_nodebb__nodebb-9c576a0758690f45a6ca03b5884c601e473bf2c1-vd59a5728dfc977f44533186ace531248c2917516
instance_nodebb__nodebb-a5afad27e52fd336163063ba40dcadc80233ae10-vd59a5728dfc977f44533186ace531248c2917516
instance_nodebb__nodebb-be43cd25974681c9743d424238b7536c357dc8d3-vf2cf3cbd463b7ad942381f1c6d077626485a1e9e
instance_nodebb__nodebb-f2082d7de85eb62a70819f4f3396dd85626a0c0a-vd59a5728dfc977f44533186ace531248c2917516
instance_protonmail__webclients-2f2f6c311c6128fe86976950d3c0c2db07b03921
instance_protonmail__webclients-863d524b5717b9d33ce08a0f0535e3fd8e8d1ed8
instance_protonmail__webclients-b530a3db50cb33e5064464addbcbef1465856ce6
instance_qutebrowser__qutebrowser-36ade4bba504eb96f05d32ceab9972df7eb17bcc-v2ef375ac784985212b1805e1d0431dc8f1b3c171
instance_qutebrowser__qutebrowser-394bfaed6544c952c6b3463751abab3176ad4997-vafb3e8e01b31319c66c4e666b8a3b1d8ba55db24
instance_qutebrowser__qutebrowser-3e21c8214a998cb1058defd15aabb24617a76402-v5fc38aaf22415ab0b70567368332beee7955b367
instance_qutebrowser__qutebrowser-473a15f7908f2bb6d670b0e908ab34a28d8cf7e2-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
instance_qutebrowser__qutebrowser-e34dfc68647d087ca3175d9ad3f023c30d8c9746-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
instance_qutebrowser__qutebrowser-fcfa069a06ade76d91bac38127f3235c13d78eb1-v5fc38aaf22415ab0b70567368332beee7955b367
instance_qutebrowser__qutebrowser-ff1c025ad3210506fc76e1f604d8c8c27637d88e-v363c8a7e5ccdf6968fc7ab84a2053ac78036691d
instance_tutao__tutanota-1ff82aa365763cee2d609c9d19360ad87fdf2ec7-vc4e41fd0029957297843cb9dec4a25c7c756f029
instance_tutao__tutanota-51818218c6ae33de00cbea3a4d30daac8c34142e-vc4e41fd0029957297843cb9dec4a25c7c756f029

adaptive-rejection-sampler
bn-fit-modify
break-filter-js-from-html
build-cython-ext
build-pmars
build-pov-ray
caffe-cifar-10
cancel-async-tasks
chess-best-move
circuit-fibsqrt
cobol-modernization
code-from-image
compile-compcert
configure-git-webserver
constraints-scheduling
count-dataset-tokens
crack-7z-hash
custom-memory-heap-crash
db-wal-recovery
distribution-search
dna-assembly
dna-insert
extract-elf
extract-moves-from-video
feal-differential-cryptanalysis
financial-document-processor
fix-code-vulnerability
fix-git
fix-ocaml-gc
gcode-to-text
git-leak-recovery
git-multibranch
headless-terminal
hf-model-inference
install-windows-3.11
kv-store-grpc
large-scale-text-editing
largest-eigenval
llm-inference-batching-scheduler
log-summary-date-ranges
mailman
make-mips-interpreter
mcmc-sampling-stan
merge-diff-arc-agi-task
model-extraction-relu-logits
modernize-scientific-stack
mteb-leaderboard
mteb-retrieve
multi-source-data-merger
nginx-request-logging
openssl-selfsigned-cert
overfull-hbox
password-recovery
path-tracing
path-tracing-reverse
polyglot-c-py
polyglot-rust-c
portfolio-optimization
protein-assembly
prove-plus-comm
pypi-server
pytorch-model-cli
pytorch-model-recovery
qemu-alpine-ssh
qemu-startup
query-optimize
raman-fitting
regex-chess
regex-log
reshard-c4-data
rstan-to-pystan
sam-cell-seg
sanitize-git-repo
schemelike-metacircular-eval
sparql-university
sqlite-db-truncate
sqlite-with-gcov
torch-pipeline-parallelism
torch-tensor-parallelism
train-fasttext
tune-mjcf
video-processing
vulnerable-secret
winning-avg-corewars

6905333b74f22949d97ba998
6905333b74f22949d97ba999
6905333b74f22949d97ba99a
6905333b74f22949d97ba99b
6905333b74f22949d97ba99d
6905333b74f22949d97ba99f
6905333b74f22949d97ba9a2
6905333b74f22949d97ba9a3
6905333b74f22949d97ba9a4
6905333b74f22949d97ba9a5
6905333b74f22949d97ba9a6
6905333b74f22949d97ba9a7
6905333b74f22949d97ba9a8
6905333b74f22949d97ba9a9
6905333b74f22949d97ba9aa
6905333b74f22949d97ba9ab
6905333b74f22949d97ba9ac
6905333b74f22949d97ba9ad
6905333b74f22949d97ba9ae
6905333b74f22949d97ba9af
6905333b74f22949d97ba9b1
6905333b74f22949d97ba9b2
6905333b74f22949d97ba9b3
6905333b74f22949d97ba9b5
6905333b74f22949d97ba9b6
6905333b74f22949d97ba9b7
6905333b74f22949d97ba9b8
6905333b74f22949d97ba9ba
6905333b74f22949d97ba9bb
6905333b74f22949d97ba9bc
6905333b74f22949d97ba9bd
6905333b74f22949d97ba9be
6905333b74f22949d97ba9bf
6905333b74f22949d97ba9c0
6905333b74f22949d97ba9c1
6905333b74f22949d97ba9c2
6905333b74f22949d97ba9c3
6905333b74f22949d97ba9c4
6905333b74f22949d97ba9c5
6905333b74f22949d97ba9c6
6905333b74f22949d97ba9c8
6905333b74f22949d97ba9c9
6905333b74f22949d97ba9ca
6905333b74f22949d97ba9cb
6905333b74f22949d97ba9cc
6905333b74f22949d97ba9cd
6905333b74f22949d97ba9ce
6905333b74f22949d97ba9cf
6905333b74f22949d97ba9d0
6905333b74f22949d97ba9d1
6905333b74f22949d97ba9d2
6905333b74f22949d97ba9d3
6905333b74f22949d97ba9d4
6905333b74f22949d97ba9d5
6905333b74f22949d97ba9d6
6905333b74f22949d97ba9d7
6905333b74f22949d97ba9d8
6905333b74f22949d97ba9d9
6905333b74f22949d97ba9db
6905333b74f22949d97ba9dc
6905333b74f22949d97ba9dd
6905333b74f22949d97ba9de
6905333b74f22949d97ba9e0
6905333b74f22949d97ba9e1
6905333b74f22949d97ba9e3
6905333b74f22949d97ba9e4
6905333b74f22949d97ba9e5
6905333b74f22949d97ba9e7
6905333b74f22949d97ba9e8
6905333b74f22949d97ba9e9
6905333b74f22949d97ba9eb
6905333b74f22949d97ba9ee
6905333b74f22949d97ba9f0
6905333b74f22949d97ba9f1
6905333b74f22949d97ba9f2
6905333b74f22949d97ba9f4
6905333b74f22949d97ba9f5
6905333b74f22949d97ba9f7
6905333b74f22949d97ba9f8
6905333b74f22949d97ba9f9
6905333b74f22949d97ba9fa
6905333b74f22949d97ba9fb
6905333b74f22949d97ba9fc
6905333b74f22949d97ba9fd
6905333b74f22949d97ba9ff
6905333b74f22949d97baa01
6905333b74f22949d97baa02
6905333b74f22949d97baa03
6905333b74f22949d97baa04
6905333b74f22949d97baa05
6905333b74f22949d97baa06
6905333b74f22949d97baa07
6905333b74f22949d97baa09
6905333b74f22949d97baa0b
6905333b74f22949d97baa0c
6905333b74f22949d97baa0d
6905333b74f22949d97baa0f
6905333b74f22949d97baa10
6905333b74f22949d97baa11
6905333b74f22949d97baa12
6905333b74f22949d97baa14
6905333b74f22949d97baa15
6905333b74f22949d97baa16
6905333b74f22949d97baa17
6905333b74f22949d97baa19
6905333b74f22949d97baa1a
6905333b74f22949d97baa1b
6905333b74f22949d97baa1c
6905333b74f22949d97baa1d
6905333b74f22949d97baa1e
6905333b74f22949d97baa1f
6905333b74f22949d97baa20
6905333b74f22949d97baa21
6905333b74f22949d97baa22
6905333b74f22949d97baa23
6905333b74f22949d97baa24
6905333b74f22949d97baa25
6905333b74f22949d97baa26
6905333b74f22949d97baa27
6905333b74f22949d97baa28
6905333b74f22949d97baa2a
6905333b74f22949d97baa2b
6905333b74f22949d97baa2c
6905333b74f22949d97baa2d

What The Index Aggregates

For each agent variant, Artificial Analysis computes a pass@1 score for each included benchmark component and then aggregates those component scores into the public index.

The same benchmark suite also underlies the public pooled efficiency metrics on the benchmark page, including cost to run, token usage, and execution time. That means the performance and efficiency views are aligned to the same underlying benchmark coverage rather than being drawn from unrelated runs.

Scoring And Outcomes

pass@1 Results

Each evaluated attempt receives a pass@1 result from the benchmark evaluator. Test-suite evaluations are scored as pass or fail, while rubric-based evaluations can award partial credit.

Term	Definition
Binary pass@1	A test-suite evaluation result where a task receives either 1 for pass or 0 for fail.
Partial-credit pass@1	A rubric-based evaluation result where a task can receive any score between 0 and 1.

Per-Evaluation Scores

For each evaluation, the public benchmark score is the average of the task-level pass@1 results for a given agent variant. When an evaluation uses multiple repeats, those repeat results are included in the same average.

Efficiency Metrics

Cost, token usage, and execution time are reported as pooled per-task-attempt means across the current public coding-agents benchmark suite.

Cost to run: average pay per token API cost per task, based on provider token pricing rather than consumer plans.
Token usage: average input, cache, cache-write, reasoning, and output tokens per task.
Execution time: average wall-clock runtime per task, including full task wall time and the agent wall-time subset where available.

Where telemetry is missing for a given metric, those missing values are excluded from the corresponding average rather than treated as zero.

In the cost metric, cached input is treated separately from uncached input where provider pricing supports that distinction, and cache-write charges are included when providers bill for creating prompt cache state. This is intended to reflect pay per token API pricing more closely than a flat per-token estimate.

Agent Settings

Public benchmark rows represent agent variants, not just model names. Settings that can change behavior are kept distinct in reporting.

Unless otherwise specified, we use each agent's default reasoning settings so the benchmark reflects the default user experience.

Benchmarking methodology may evolve over time as new evaluations and agent variants are added, but public comparisons are intended to reflect like-for-like agent variants within the published benchmark suite.

Coding Agent Index Methodology

SWE-Bench-Pro-Hard-AA: 150 evaluated tasks

Terminal Bench 2: 84 evaluated tasks

SWE Atlas: 124 evaluated tasks