9:["$","main",null,{"className":"min-h-screen","children":[["$","div",null,{"className":"text-md flex w-full items-center justify-center border-b border-slate-500 bg-slate-800 p-2 text-white gap-1","children":[["$","$L7",null,{"href":"https://twitter.com/ArtificialAnlys","target":"_blank","className":"hover:underline text-sm","children":"Follow us on Twitter or LinkedIn to stay up to date with future analysis"}],["$","$L7",null,{"href":"https://twitter.com/ArtificialAnlys","target":"_blank","children":["$","svg",null,{"fill":"currentColor","viewBox":"0 0 24 24","className":" h-10 w-10 text-sky-400 hover:text-sky-300 md:h-6 md:w-6","aria-hidden":"true","children":["$","path",null,{"d":"M8.29 20.251c7.547 0 11.675-6.253 11.675-11.675 0-.178 0-.355-.012-.53A8.348 8.348 0 0022 5.92a8.19 8.19 0 01-2.357.646 4.118 4.118 0 001.804-2.27 8.224 8.224 0 01-2.605.996 4.107 4.107 0 00-6.993 3.743 11.65 11.65 0 01-8.457-4.287 4.106 4.106 0 001.27 5.477A4.072 4.072 0 012.8 9.713v.052a4.105 4.105 0 003.292 4.022 4.095 4.095 0 01-1.853.07 4.108 4.108 0 003.834 2.85A8.233 8.233 0 012 18.407a11.616 11.616 0 006.29 1.84"}]}]}],["$","$L7",null,{"href":"https://www.linkedin.com/company/artificial-analysis/","target":"_blank","children":["$","svg",null,{"viewBox":"0 0 72 72","className":"h-8 w-8 text-sky-400 hover:text-sky-300 hover:opacity-80 md:h-5 md:w-5","aria-hidden":"true","xmlns":"http://www.w3.org/2000/svg","children":["$","g",null,{"fill":"none","fillRule":"evenodd","children":[["$","path",null,{"d":"M8,72 L64,72 C68.418278,72 72,68.418278 72,64 L72,8 C72,3.581722 68.418278,-8.11624501e-16 64,0 L8,0 C3.581722,8.11624501e-16 -5.41083001e-16,3.581722 0,8 L0,64 C5.41083001e-16,68.418278 3.581722,72 8,72 Z","fill":"#007EBB"}],["$","path",null,{"d":"M62,62 L51.315625,62 L51.315625,43.8021149 C51.315625,38.8127542 49.4197917,36.0245323 45.4707031,36.0245323 C41.1746094,36.0245323 38.9300781,38.9261103 38.9300781,43.8021149 L38.9300781,62 L28.6333333,62 L28.6333333,27.3333333 L38.9300781,27.3333333 L38.9300781,32.0029283 C38.9300781,32.0029283 42.0260417,26.2742151 49.3825521,26.2742151 C56.7356771,26.2742151 62,30.7644705 62,40.051212 L62,62 Z M16.349349,22.7940133 C12.8420573,22.7940133 10,19.9296567 10,16.3970067 C10,12.8643566 12.8420573,10 16.349349,10 C19.8566406,10 22.6970052,12.8643566 22.6970052,16.3970067 C22.6970052,19.9296567 19.8566406,22.7940133 16.349349,22.7940133 Z M11.0325521,62 L21.769401,62 L21.769401,27.3333333 L11.0325521,27.3333333 L11.0325521,62 Z","fill":"#FFF"}]]}]}]}]]}],["$","$L18",null,{"models":[{"additional_text":null,"aime":null,"aime25":0.483,"agentic_index":null,"coding_index":20.65,"commercial_allowed":null,"computed_performance_host_model_id":"f0fbf5ee-29e9-4f25-8d1e-efda00412878","context_window_tokens":128000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1","display_order":942,"estimated_intelligence_index":21.834580028932926,"model_family_slug":"gpt-5","frontier_model":null,"gdpval":null,"gpqa":0.686,"hle":0.058,"humaneval":null,"id":"eab1492c-b853-4852-aa71-06b0ec2481c1","ifbench":0.45,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.637,"license_name":null,"license_url":null,"livecodebench":0.543,"math_500":null,"math_index":48.33,"mmlu_pro":0.82,"mmmu_pro":null,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5 (ChatGPT)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":16384,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.378,"short_name":"GPT-5 (ChatGPT)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-chatgpt","tau2":0,"terminalbench_hard":0.121,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"f0fbf5ee-29e9-4f25-8d1e-efda00412878","slug":"openai_gpt-5-chatgpt","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"eab1492c-b853-4852-aa71-06b0ec2481c1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-chat-latest","function_calling":false,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 (ChatGPT)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-chatgpt","hosts_url":"/models/gpt-5-chatgpt/providers","name_and_creator_label":"GPT-5 (ChatGPT), OpenAI"},{"additional_text":null,"aime":0.957,"aime25":0.943,"agentic_index":54.19,"coding_index":34.64,"commercial_allowed":null,"computed_performance_host_model_id":"0d8d3140-17dd-40b0-8108-4f1cd67fbec3","context_window_tokens":400000,"critpt":0.057,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1","display_order":949,"estimated_intelligence_index":44.31441206413763,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1277.3972709666136,"gpqa":0.854,"hle":0.265,"humaneval":0.989,"id":"48e50f00-1fd1-4acc-b337-61078aa341e6","ifbench":0.731,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":44.11,"intelligence_index_token_counts":{"input_tokens":123476246,"answer_tokens":4222013,"output_tokens":97551987,"reasoning_tokens":93329973},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.756,"license_name":null,"license_url":null,"livecodebench":0.846,"math_500":0.994,"math_index":94.33,"mmlu_pro":0.871,"mmmu_pro":0.742,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.9041666666666667,"input_tokens":188556,"answer_tokens":46936,"output_tokens":1160088,"reasoning_tokens":1113152,"total_input_tokens_api":0,"total_answer_tokens_api":54135,"total_reasoning_tokens_api":1113152},"bn":{"score":0.9133333333333334,"input_tokens":225534,"answer_tokens":55917,"output_tokens":1174573,"reasoning_tokens":1118656,"total_input_tokens_api":0,"total_answer_tokens_api":63117,"total_reasoning_tokens_api":1118656},"de":{"score":0.9250000000000002,"input_tokens":191646,"answer_tokens":42731,"output_tokens":1091947,"reasoning_tokens":1049216,"total_input_tokens_api":0,"total_answer_tokens_api":49828,"total_reasoning_tokens_api":1049216},"en":{"score":0.9375,"input_tokens":159654,"answer_tokens":33420,"output_tokens":912908,"reasoning_tokens":879488,"total_input_tokens_api":0,"total_answer_tokens_api":40518,"total_reasoning_tokens_api":879488},"es":{"score":0.9266666666666667,"input_tokens":182088,"answer_tokens":40386,"output_tokens":1023490,"reasoning_tokens":983104,"total_input_tokens_api":0,"total_answer_tokens_api":47536,"total_reasoning_tokens_api":983104},"fr":{"score":0.9316666666666666,"input_tokens":191346,"answer_tokens":43956,"output_tokens":1094516,"reasoning_tokens":1050560,"total_input_tokens_api":0,"total_answer_tokens_api":50743,"total_reasoning_tokens_api":1050560},"hi":{"score":0.9108333333333333,"input_tokens":209430,"answer_tokens":54021,"output_tokens":1161093,"reasoning_tokens":1107072,"total_input_tokens_api":0,"total_answer_tokens_api":61221,"total_reasoning_tokens_api":1107072},"id":{"score":0.9208333333333334,"input_tokens":181314,"answer_tokens":45230,"output_tokens":1078190,"reasoning_tokens":1032960,"total_input_tokens_api":0,"total_answer_tokens_api":52377,"total_reasoning_tokens_api":1032960},"it":{"score":0.9241666666666667,"input_tokens":199032,"answer_tokens":43096,"output_tokens":1093720,"reasoning_tokens":1050624,"total_input_tokens_api":0,"total_answer_tokens_api":50246,"total_reasoning_tokens_api":1050624},"ja":{"score":0.9091666666666667,"input_tokens":228129,"answer_tokens":57884,"output_tokens":1309084,"reasoning_tokens":1251200,"total_input_tokens_api":0,"total_answer_tokens_api":65036,"total_reasoning_tokens_api":1251200},"ko":{"score":0.8650000000000001,"input_tokens":199401,"answer_tokens":49154,"output_tokens":1201858,"reasoning_tokens":1152704,"total_input_tokens_api":0,"total_answer_tokens_api":54534,"total_reasoning_tokens_api":1152704},"my":{"score":0.8708333333333335,"input_tokens":353547,"answer_tokens":73954,"output_tokens":1719906,"reasoning_tokens":1645952,"total_input_tokens_api":0,"total_answer_tokens_api":81144,"total_reasoning_tokens_api":1645952},"pt":{"score":0.9208333333333334,"input_tokens":178176,"answer_tokens":41296,"output_tokens":1105744,"reasoning_tokens":1064448,"total_input_tokens_api":0,"total_answer_tokens_api":48084,"total_reasoning_tokens_api":1064448},"sw":{"score":0.9016666666666667,"input_tokens":208677,"answer_tokens":49843,"output_tokens":1378547,"reasoning_tokens":1328704,"total_input_tokens_api":0,"total_answer_tokens_api":56992,"total_reasoning_tokens_api":1328704},"yo":{"score":0.8283333333333333,"input_tokens":307062,"answer_tokens":48616,"output_tokens":2372712,"reasoning_tokens":2324096,"total_input_tokens_api":0,"total_answer_tokens_api":55826,"total_reasoning_tokens_api":2324096},"zh":{"score":0.9166666666666666,"input_tokens":179793,"answer_tokens":47325,"output_tokens":1123101,"reasoning_tokens":1075776,"total_input_tokens_api":0,"total_answer_tokens_api":54545,"total_reasoning_tokens_api":1075776},"average":{"score":0.9066666666666667,"input_tokens":3383385,"answer_tokens":773765,"output_tokens":20001477,"reasoning_tokens":19227712,"total_input_tokens_api":0,"total_answer_tokens_api":885882,"total_reasoning_tokens_api":19227712}},"name":"GPT-5 (high)","is_open_weights":false,"omniscience":-11.1,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.347,"num_correct":347,"omniscience":-12.4,"attempt_rate":0.842,"num_incorrect":471,"total_questions":1000,"num_not_attempted":158,"hallucination_rate":0.7212863705972435,"num_partial_answer":24}},"total":{"accuracy":0.38616666666666666,"num_correct":2317,"omniscience":-11.1,"attempt_rate":0.9068333333333334,"num_incorrect":2983,"total_questions":6000,"num_not_attempted":559,"hallucination_rate":0.8099375509095845,"num_partial_answer":141},"Health":{"total":{"accuracy":0.366,"num_correct":366,"omniscience":-19.6,"attempt_rate":0.962,"num_incorrect":562,"total_questions":1000,"num_not_attempted":38,"hallucination_rate":0.886435331230284,"num_partial_answer":34}},"Business":{"total":{"accuracy":0.344,"num_correct":344,"omniscience":-11.7,"attempt_rate":0.824,"num_incorrect":461,"total_questions":1000,"num_not_attempted":176,"hallucination_rate":0.7027439024390244,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.59,"num_correct":59,"omniscience":20,"attempt_rate":1,"num_incorrect":39,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9512195121951219,"num_partial_answer":2}},"R":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":30,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9375,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-22,"attempt_rate":0.88,"num_incorrect":27,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7941176470588235,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":4,"attempt_rate":1,"num_incorrect":24,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-28,"attempt_rate":0.94,"num_incorrect":30,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8823529411764706,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":12,"attempt_rate":0.96,"num_incorrect":21,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9130434782608695,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.33,"num_correct":33,"omniscience":-24,"attempt_rate":0.95,"num_incorrect":57,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.8507462686567164,"num_partial_answer":5}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":36,"attempt_rate":1,"num_incorrect":13,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.6842105263157895,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":-8,"attempt_rate":0.96,"num_incorrect":13,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9285714285714286,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.64,"num_correct":16,"omniscience":28,"attempt_rate":1,"num_incorrect":9,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.468,"num_correct":468,"omniscience":-0.7,"attempt_rate":0.965,"num_incorrect":475,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.8928571428571429,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-6,"attempt_rate":0.88,"num_incorrect":22,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7096774193548387,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.45,"num_correct":90,"omniscience":-7.5,"attempt_rate":0.98,"num_incorrect":105,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.5636363636363636,"num_correct":62,"omniscience":16.363636363636363,"attempt_rate":0.9818181818181818,"num_incorrect":44,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9166666666666666,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.4888888888888889,"num_correct":44,"omniscience":3.3333333333333335,"attempt_rate":0.9555555555555556,"num_incorrect":41,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.8913043478260869,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.395,"num_correct":395,"omniscience":-10.8,"attempt_rate":0.912,"num_incorrect":503,"total_questions":1000,"num_not_attempted":88,"hallucination_rate":0.8314049586776859,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.397,"num_correct":397,"omniscience":-11.4,"attempt_rate":0.936,"num_incorrect":511,"total_questions":1000,"num_not_attempted":64,"hallucination_rate":0.8474295190713101,"num_partial_answer":28}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.429,"short_name":"GPT-5 (high)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5","tau2":0.848,"terminalbench_hard":0.305,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"3d446ea4-a6f7-4a51-a7af-e5c47db57838","slug":"databricks_gpt-5","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"48e50f00-1fd1-4acc-b337-61078aa341e6","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-5","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_GPT-5 (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"54791ea3-592c-40b5-803c-a543816f6d96","slug":"azure_gpt-5","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"48e50f00-1fd1-4acc-b337-61078aa341e6","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"0d8d3140-17dd-40b0-8108-4f1cd67fbec3","slug":"openai_gpt-5-high","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"48e50f00-1fd1-4acc-b337-61078aa341e6","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5","hosts_url":"/models/gpt-5/providers","name_and_creator_label":"GPT-5 (high), OpenAI"},{"additional_text":null,"aime":0.83,"aime25":0.83,"agentic_index":49.43,"coding_index":29.59,"commercial_allowed":null,"computed_performance_host_model_id":"302987fe-16d4-4f1f-aef2-1151ffdaba51","context_window_tokens":400000,"critpt":0.011,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1","display_order":980,"estimated_intelligence_index":37.12497608340967,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1141.0538357745968,"gpqa":0.808,"hle":0.184,"humaneval":0.987,"id":"7f3c9423-3ee3-4369-a6d9-3f2a40aff00e","ifbench":0.666,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":38.68,"intelligence_index_token_counts":{"input_tokens":63952254,"answer_tokens":3054140,"output_tokens":17576797,"reasoning_tokens":14522657},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.587,"license_name":null,"license_url":null,"livecodebench":0.763,"math_500":0.987,"math_index":83,"mmlu_pro":0.86,"mmmu_pro":0.738,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5 (low)","is_open_weights":false,"omniscience":-12.933,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.315,"num_correct":315,"omniscience":-15.3,"attempt_rate":0.807,"num_incorrect":468,"total_questions":1000,"num_not_attempted":193,"hallucination_rate":0.6832116788321168,"num_partial_answer":24}},"total":{"accuracy":0.3635,"num_correct":2181,"omniscience":-12.933333333333334,"attempt_rate":0.8816666666666667,"num_incorrect":2957,"total_questions":6000,"num_not_attempted":710,"hallucination_rate":0.7742864624247185,"num_partial_answer":152},"Health":{"total":{"accuracy":0.368,"num_correct":368,"omniscience":-18.2,"attempt_rate":0.952,"num_incorrect":550,"total_questions":1000,"num_not_attempted":48,"hallucination_rate":0.870253164556962,"num_partial_answer":34}},"Business":{"total":{"accuracy":0.32,"num_correct":320,"omniscience":-11.1,"attempt_rate":0.773,"num_incorrect":431,"total_questions":1000,"num_not_attempted":227,"hallucination_rate":0.6338235294117647,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.56,"num_correct":56,"omniscience":15,"attempt_rate":0.98,"num_incorrect":41,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9318181818181818,"num_partial_answer":1}},"R":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-16,"attempt_rate":0.92,"num_incorrect":27,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8709677419354839,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-16,"attempt_rate":0.82,"num_incorrect":24,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7058823529411765,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":4,"attempt_rate":0.98,"num_incorrect":23,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.92,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-18,"attempt_rate":0.96,"num_incorrect":27,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.84375,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":8,"attempt_rate":0.98,"num_incorrect":22,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.35,"num_correct":35,"omniscience":-22,"attempt_rate":0.96,"num_incorrect":57,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.8769230769230769,"num_partial_answer":4}},"Rust":{"total":{"accuracy":0.7,"num_correct":35,"omniscience":44,"attempt_rate":1,"num_incorrect":13,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8666666666666667,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-24,"attempt_rate":1,"num_incorrect":15,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9375,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.6,"num_correct":15,"omniscience":20,"attempt_rate":1,"num_incorrect":10,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.451,"num_correct":451,"omniscience":-3.6,"attempt_rate":0.956,"num_incorrect":487,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.8870673952641166,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-16,"attempt_rate":0.88,"num_incorrect":25,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7575757575757576,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.435,"num_correct":87,"omniscience":-8.5,"attempt_rate":0.96,"num_incorrect":104,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.9203539823008849,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.4818181818181818,"num_correct":53,"omniscience":0,"attempt_rate":0.9727272727272728,"num_incorrect":53,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9298245614035088,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.4444444444444444,"num_correct":40,"omniscience":-6.666666666666667,"attempt_rate":0.9555555555555556,"num_incorrect":46,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.92,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.358,"num_correct":358,"omniscience":-15,"attempt_rate":0.885,"num_incorrect":508,"total_questions":1000,"num_not_attempted":115,"hallucination_rate":0.7912772585669782,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.369,"num_correct":369,"omniscience":-14.4,"attempt_rate":0.917,"num_incorrect":513,"total_questions":1000,"num_not_attempted":83,"hallucination_rate":0.8129952456418383,"num_partial_answer":35}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.391,"short_name":"GPT-5 (low)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-low","tau2":0.842,"terminalbench_hard":0.248,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"302987fe-16d4-4f1f-aef2-1151ffdaba51","slug":"openai_gpt-5-low","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"7f3c9423-3ee3-4369-a6d9-3f2a40aff00e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"f9959a4b-cedc-416c-96c8-8922b04a9867","slug":"azure_gpt-5-low","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"7f3c9423-3ee3-4369-a6d9-3f2a40aff00e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-low","hosts_url":"/models/gpt-5-low/providers","name_and_creator_label":"GPT-5 (low), OpenAI"},{"additional_text":null,"aime":0.917,"aime25":0.917,"agentic_index":46.51,"coding_index":37.81,"commercial_allowed":null,"computed_performance_host_model_id":"80983925-1296-45ab-bbad-d4fb17b420ba","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1","display_order":921,"estimated_intelligence_index":41.90457262791304,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1017.5858322259432,"gpqa":0.842,"hle":0.235,"humaneval":0.984,"id":"5e965af0-ca5c-4f47-9ba9-06000508b84a","ifbench":0.706,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":41.73,"intelligence_index_token_counts":{"input_tokens":107502975,"answer_tokens":4282973,"output_tokens":50568147,"reasoning_tokens":46285173},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.728,"license_name":null,"license_url":null,"livecodebench":0.703,"math_500":0.991,"math_index":91.67,"mmlu_pro":0.867,"mmmu_pro":0.743,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8975,"input_tokens":188556,"answer_tokens":48469,"output_tokens":610069,"reasoning_tokens":561600,"total_input_tokens_api":192156,"total_answer_tokens_api":55675,"total_reasoning_tokens_api":561600},"bn":{"score":0.9075000000000001,"input_tokens":225534,"answer_tokens":53580,"output_tokens":630732,"reasoning_tokens":577152,"total_input_tokens_api":229134,"total_answer_tokens_api":60786,"total_reasoning_tokens_api":577152},"de":{"score":0.9233333333333333,"input_tokens":191646,"answer_tokens":43540,"output_tokens":555924,"reasoning_tokens":512384,"total_input_tokens_api":195246,"total_answer_tokens_api":50739,"total_reasoning_tokens_api":512384},"en":{"score":0.9366666666666666,"input_tokens":159654,"answer_tokens":33494,"output_tokens":442902,"reasoning_tokens":409408,"total_input_tokens_api":163254,"total_answer_tokens_api":40694,"total_reasoning_tokens_api":409408},"es":{"score":0.9283333333333333,"input_tokens":182088,"answer_tokens":42251,"output_tokens":525515,"reasoning_tokens":483264,"total_input_tokens_api":185688,"total_answer_tokens_api":49453,"total_reasoning_tokens_api":483264},"fr":{"score":0.9283333333333333,"input_tokens":191346,"answer_tokens":45710,"output_tokens":569486,"reasoning_tokens":523776,"total_input_tokens_api":194946,"total_answer_tokens_api":52910,"total_reasoning_tokens_api":523776},"hi":{"score":0.9033333333333333,"input_tokens":209430,"answer_tokens":53662,"output_tokens":623006,"reasoning_tokens":569344,"total_input_tokens_api":213030,"total_answer_tokens_api":60865,"total_reasoning_tokens_api":569344},"id":{"score":0.915,"input_tokens":181314,"answer_tokens":48176,"output_tokens":557360,"reasoning_tokens":509184,"total_input_tokens_api":184914,"total_answer_tokens_api":55377,"total_reasoning_tokens_api":509184},"it":{"score":0.9241666666666667,"input_tokens":199032,"answer_tokens":44422,"output_tokens":559110,"reasoning_tokens":514688,"total_input_tokens_api":202632,"total_answer_tokens_api":51622,"total_reasoning_tokens_api":514688},"ja":{"score":0.9066666666666666,"input_tokens":228129,"answer_tokens":58098,"output_tokens":660786,"reasoning_tokens":602688,"total_input_tokens_api":231729,"total_answer_tokens_api":65301,"total_reasoning_tokens_api":602688},"ko":{"score":0.8925000000000001,"input_tokens":199401,"answer_tokens":51473,"output_tokens":628689,"reasoning_tokens":577216,"total_input_tokens_api":203001,"total_answer_tokens_api":58678,"total_reasoning_tokens_api":577216},"my":{"score":0.8658333333333333,"input_tokens":353547,"answer_tokens":65747,"output_tokens":834259,"reasoning_tokens":768512,"total_input_tokens_api":357138,"total_answer_tokens_api":72927,"total_reasoning_tokens_api":768512},"pt":{"score":0.92,"input_tokens":178176,"answer_tokens":40963,"output_tokens":544515,"reasoning_tokens":503552,"total_input_tokens_api":181776,"total_answer_tokens_api":48164,"total_reasoning_tokens_api":503552},"sw":{"score":0.895,"input_tokens":208677,"answer_tokens":46534,"output_tokens":705478,"reasoning_tokens":658944,"total_input_tokens_api":212277,"total_answer_tokens_api":53734,"total_reasoning_tokens_api":658944},"yo":{"score":0.8066666666666666,"input_tokens":307062,"answer_tokens":37877,"output_tokens":1128501,"reasoning_tokens":1090624,"total_input_tokens_api":310662,"total_answer_tokens_api":45088,"total_reasoning_tokens_api":1090624},"zh":{"score":0.9116666666666666,"input_tokens":179793,"answer_tokens":47089,"output_tokens":575089,"reasoning_tokens":528000,"total_input_tokens_api":183393,"total_answer_tokens_api":54310,"total_reasoning_tokens_api":528000},"average":{"score":0.9039062499999999,"input_tokens":3383385,"answer_tokens":761085,"output_tokens":10151421,"reasoning_tokens":9390336,"total_input_tokens_api":3440976,"total_answer_tokens_api":876323,"total_reasoning_tokens_api":9390336}},"name":"GPT-5 (medium)","is_open_weights":false,"omniscience":-13.733,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.326,"num_correct":326,"omniscience":-16.9,"attempt_rate":0.85,"num_incorrect":495,"total_questions":1000,"num_not_attempted":150,"hallucination_rate":0.7344213649851632,"num_partial_answer":29}},"total":{"accuracy":0.37383333333333335,"num_correct":2243,"omniscience":-13.733333333333333,"attempt_rate":0.9101666666666667,"num_incorrect":3067,"total_questions":6000,"num_not_attempted":539,"hallucination_rate":0.8163428267234496,"num_partial_answer":151},"Health":{"total":{"accuracy":0.353,"num_correct":353,"omniscience":-22.4,"attempt_rate":0.962,"num_incorrect":577,"total_questions":1000,"num_not_attempted":38,"hallucination_rate":0.8918083462132921,"num_partial_answer":32}},"Business":{"total":{"accuracy":0.343,"num_correct":343,"omniscience":-11.2,"attempt_rate":0.813,"num_incorrect":455,"total_questions":1000,"num_not_attempted":187,"hallucination_rate":0.6925418569254186,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.64,"num_correct":64,"omniscience":31,"attempt_rate":0.99,"num_incorrect":33,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9166666666666666,"num_partial_answer":2}},"R":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":31,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.96875,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-8,"attempt_rate":0.96,"num_incorrect":26,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9285714285714286,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":16,"attempt_rate":0.98,"num_incorrect":20,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9090909090909091,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-22,"attempt_rate":0.96,"num_incorrect":28,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8484848484848485,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":10,"attempt_rate":0.96,"num_incorrect":21,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.875,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.31,"num_correct":31,"omniscience":-29,"attempt_rate":0.96,"num_incorrect":60,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.8695652173913043,"num_partial_answer":5}},"Rust":{"total":{"accuracy":0.66,"num_correct":33,"omniscience":38,"attempt_rate":1,"num_incorrect":14,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8235294117647058,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-24,"attempt_rate":1,"num_incorrect":15,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9375,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.6,"num_correct":15,"omniscience":20,"attempt_rate":1,"num_incorrect":10,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.467,"num_correct":467,"omniscience":-1.6,"attempt_rate":0.974,"num_incorrect":483,"total_questions":1000,"num_not_attempted":26,"hallucination_rate":0.9061913696060038,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-12,"attempt_rate":0.94,"num_incorrect":26,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.435,"num_correct":87,"omniscience":-8,"attempt_rate":0.965,"num_incorrect":103,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.911504424778761,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.5545454545454546,"num_correct":61,"omniscience":14.545454545454545,"attempt_rate":0.9818181818181818,"num_incorrect":45,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9183673469387755,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.4,"num_correct":36,"omniscience":-16.666666666666668,"attempt_rate":0.9888888888888889,"num_incorrect":51,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.387,"num_correct":387,"omniscience":-13.7,"attempt_rate":0.925,"num_incorrect":524,"total_questions":1000,"num_not_attempted":75,"hallucination_rate":0.8548123980424144,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.367,"num_correct":367,"omniscience":-16.6,"attempt_rate":0.937,"num_incorrect":533,"total_questions":1000,"num_not_attempted":63,"hallucination_rate":0.8420221169036335,"num_partial_answer":37}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.411,"short_name":"GPT-5 (medium)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-medium","tau2":0.865,"terminalbench_hard":0.362,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"59743eb0-ff43-4a17-bd84-41f6ba69f67a","slug":"azure_gpt-5-medium","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"5e965af0-ca5c-4f47-9ba9-06000508b84a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"80983925-1296-45ab-bbad-d4fb17b420ba","slug":"openai_gpt-5-medium","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"5e965af0-ca5c-4f47-9ba9-06000508b84a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-medium","hosts_url":"/models/gpt-5-medium/providers","name_and_creator_label":"GPT-5 (medium), OpenAI"},{"additional_text":null,"aime":0.367,"aime25":0.317,"agentic_index":25.84,"coding_index":24.74,"commercial_allowed":null,"computed_performance_host_model_id":"1a6dfc20-2fe3-464a-a8a7-c9581ef168cc","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1-non-reasoning","display_order":918,"estimated_intelligence_index":22.85282981786174,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":584.7434499377364,"gpqa":0.673,"hle":0.054,"humaneval":0.951,"id":"c3738fb0-3408-4430-a699-760ae4b70c93","ifbench":0.456,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":24.4,"intelligence_index_token_counts":{"input_tokens":98056522,"answer_tokens":4172864,"output_tokens":4172864,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.25,"license_name":null,"license_url":null,"livecodebench":0.558,"math_500":0.861,"math_index":31.67,"mmlu_pro":0.806,"mmmu_pro":0.621,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8533333333333334,"input_tokens":188556,"answer_tokens":89275,"output_tokens":89275,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":96518,"total_reasoning_tokens_api":0},"bn":{"score":0.8383333333333334,"input_tokens":225534,"answer_tokens":109176,"output_tokens":109176,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":116662,"total_reasoning_tokens_api":0},"de":{"score":0.8849999999999999,"input_tokens":191646,"answer_tokens":83336,"output_tokens":83336,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":90501,"total_reasoning_tokens_api":0},"en":{"score":0.9033333333333333,"input_tokens":159654,"answer_tokens":59179,"output_tokens":59179,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":66714,"total_reasoning_tokens_api":0},"es":{"score":0.89,"input_tokens":182088,"answer_tokens":83406,"output_tokens":83406,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":90395,"total_reasoning_tokens_api":0},"fr":{"score":0.9,"input_tokens":191346,"answer_tokens":88547,"output_tokens":88547,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":96059,"total_reasoning_tokens_api":0},"hi":{"score":0.8508333333333334,"input_tokens":209430,"answer_tokens":99880,"output_tokens":99880,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":107253,"total_reasoning_tokens_api":0},"id":{"score":0.8758333333333334,"input_tokens":181314,"answer_tokens":89961,"output_tokens":89961,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":97375,"total_reasoning_tokens_api":0},"it":{"score":0.8883333333333333,"input_tokens":199032,"answer_tokens":90685,"output_tokens":90685,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":97835,"total_reasoning_tokens_api":0},"ja":{"score":0.8691666666666666,"input_tokens":228129,"answer_tokens":108765,"output_tokens":108765,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":116450,"total_reasoning_tokens_api":0},"ko":{"score":0.8174999999999999,"input_tokens":199401,"answer_tokens":103598,"output_tokens":103598,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":110443,"total_reasoning_tokens_api":0},"my":{"score":0.7291666666666666,"input_tokens":353547,"answer_tokens":132574,"output_tokens":132574,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":139763,"total_reasoning_tokens_api":0},"pt":{"score":0.8891666666666667,"input_tokens":178176,"answer_tokens":79816,"output_tokens":79816,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":87056,"total_reasoning_tokens_api":0},"sw":{"score":0.8116666666666666,"input_tokens":208677,"answer_tokens":100861,"output_tokens":100861,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":107922,"total_reasoning_tokens_api":0},"yo":{"score":0.6349999999999999,"input_tokens":307062,"answer_tokens":117430,"output_tokens":117430,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":124508,"total_reasoning_tokens_api":0},"zh":{"score":0.8708333333333332,"input_tokens":179793,"answer_tokens":92018,"output_tokens":92018,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":99724,"total_reasoning_tokens_api":0},"average":{"score":0.84421875,"input_tokens":3383385,"answer_tokens":1528507,"output_tokens":1528507,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":1645178,"total_reasoning_tokens_api":0}},"name":"GPT-5 (minimal)","is_open_weights":false,"omniscience":-36.667,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.223,"num_correct":223,"omniscience":-45.9,"attempt_rate":0.933,"num_incorrect":682,"total_questions":1000,"num_not_attempted":67,"hallucination_rate":0.8777348777348777,"num_partial_answer":28}},"total":{"accuracy":0.27216666666666667,"num_correct":1633,"omniscience":-36.666666666666664,"attempt_rate":0.9463333333333334,"num_incorrect":3833,"total_questions":6000,"num_not_attempted":322,"hallucination_rate":0.8777192580719029,"num_partial_answer":212},"Health":{"total":{"accuracy":0.296,"num_correct":296,"omniscience":-33.2,"attempt_rate":0.98,"num_incorrect":628,"total_questions":1000,"num_not_attempted":20,"hallucination_rate":0.8920454545454546,"num_partial_answer":56}},"Business":{"total":{"accuracy":0.254,"num_correct":254,"omniscience":-33.5,"attempt_rate":0.869,"num_incorrect":589,"total_questions":1000,"num_not_attempted":131,"hallucination_rate":0.789544235924933,"num_partial_answer":26}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.53,"num_correct":53,"omniscience":7,"attempt_rate":1,"num_incorrect":46,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9787234042553191,"num_partial_answer":1}},"R":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-38,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9714285714285714,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-40,"attempt_rate":0.88,"num_incorrect":31,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7948717948717948,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-22,"attempt_rate":0.96,"num_incorrect":29,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.90625,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-22,"attempt_rate":0.98,"num_incorrect":29,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.90625,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-53,"attempt_rate":0.98,"num_incorrect":75,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9615384615384616,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":6,"attempt_rate":0.94,"num_incorrect":20,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7407407407407407,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-68,"attempt_rate":0.92,"num_incorrect":20,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9090909090909091,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":0,"attempt_rate":1,"num_incorrect":12,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":1}},"total":{"accuracy":0.318,"num_correct":318,"omniscience":-30.8,"attempt_rate":0.971,"num_incorrect":626,"total_questions":1000,"num_not_attempted":29,"hallucination_rate":0.9178885630498533,"num_partial_answer":27},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":0.96,"num_incorrect":34,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8947368421052632,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.295,"num_correct":59,"omniscience":-36,"attempt_rate":0.965,"num_incorrect":131,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9290780141843972,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.37272727272727274,"num_correct":41,"omniscience":-22.727272727272727,"attempt_rate":0.990909090909091,"num_incorrect":66,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9565217391304348,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.23333333333333334,"num_correct":21,"omniscience":-46.666666666666664,"attempt_rate":0.9888888888888889,"num_incorrect":63,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9130434782608695,"num_partial_answer":5}}},"Humanities & Social Sciences":{"total":{"accuracy":0.288,"num_correct":288,"omniscience":-36.3,"attempt_rate":0.964,"num_incorrect":651,"total_questions":1000,"num_not_attempted":36,"hallucination_rate":0.9143258426966292,"num_partial_answer":25}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.254,"num_correct":254,"omniscience":-40.3,"attempt_rate":0.961,"num_incorrect":657,"total_questions":1000,"num_not_attempted":39,"hallucination_rate":0.8806970509383378,"num_partial_answer":50}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":false,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.388,"short_name":"GPT-5 (minimal)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-minimal","tau2":0.67,"terminalbench_hard":0.177,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"0c3f122a-038e-4c82-a5a0-0cdd747ccee6","slug":"openai_gpt-5-minimal_private","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"c3738fb0-3408-4430-a699-760ae4b70c93","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5","function_calling":null,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5 (minimal)_private","cache_pricing_notes":null,"model_name_appendage":"private","price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"1a6dfc20-2fe3-464a-a8a7-c9581ef168cc","slug":"openai_gpt-5-minimal","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"c3738fb0-3408-4430-a699-760ae4b70c93","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 (minimal)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"3ce8a77d-7c8f-497b-b306-36c12f70011d","slug":"azure_gpt-5-minimal","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"c3738fb0-3408-4430-a699-760ae4b70c93","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 (minimal)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-minimal","hosts_url":"/models/gpt-5-minimal/providers","name_and_creator_label":"GPT-5 (minimal), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.987,"agentic_index":52.23,"coding_index":37.26,"commercial_allowed":null,"computed_performance_host_model_id":"a3c2ed2d-da03-41a4-a38f-dbd8ed7c764a","context_window_tokens":400000,"critpt":0.051,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1-codex","display_order":974,"estimated_intelligence_index":44.326156939461875,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1198.0660054515636,"gpqa":0.837,"hle":0.256,"humaneval":null,"id":"5d11e7a1-4f70-4e5a-9364-e193761d6757","ifbench":0.741,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":43.99,"intelligence_index_token_counts":{"input_tokens":223736990,"answer_tokens":3521214,"output_tokens":80942943,"reasoning_tokens":77421729},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.69,"license_name":null,"license_url":null,"livecodebench":0.84,"math_500":null,"math_index":98.67,"mmlu_pro":0.865,"mmmu_pro":0.738,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5 Codex (high)","is_open_weights":false,"omniscience":-9.667,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.333,"num_correct":333,"omniscience":-11.9,"attempt_rate":0.803,"num_incorrect":452,"total_questions":1000,"num_not_attempted":197,"hallucination_rate":0.6776611694152923,"num_partial_answer":18}},"total":{"accuracy":0.371,"num_correct":2226,"omniscience":-9.666666666666666,"attempt_rate":0.8608333333333333,"num_incorrect":2806,"total_questions":6000,"num_not_attempted":835,"hallucination_rate":0.7435082140964494,"num_partial_answer":133},"Health":{"total":{"accuracy":0.35,"num_correct":350,"omniscience":-20.7,"attempt_rate":0.928,"num_incorrect":557,"total_questions":1000,"num_not_attempted":72,"hallucination_rate":0.8569230769230769,"num_partial_answer":21}},"Business":{"total":{"accuracy":0.344,"num_correct":344,"omniscience":-6.5,"attempt_rate":0.771,"num_incorrect":409,"total_questions":1000,"num_not_attempted":229,"hallucination_rate":0.6234756097560976,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.6,"num_correct":60,"omniscience":24,"attempt_rate":0.98,"num_incorrect":36,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":2}},"R":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-14,"attempt_rate":0.86,"num_incorrect":25,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.78125,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-28,"attempt_rate":0.84,"num_incorrect":27,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7297297297297297,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":10,"attempt_rate":0.98,"num_incorrect":21,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-16,"attempt_rate":0.88,"num_incorrect":25,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7575757575757576,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":0.96,"num_incorrect":21,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.84,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.39,"num_correct":39,"omniscience":-8,"attempt_rate":0.89,"num_incorrect":47,"total_questions":100,"num_not_attempted":11,"hallucination_rate":0.7704918032786885,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":30,"attempt_rate":0.98,"num_incorrect":14,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.6666666666666666,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-20,"attempt_rate":0.76,"num_incorrect":12,"total_questions":25,"num_not_attempted":6,"hallucination_rate":0.6666666666666666,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.64,"num_correct":16,"omniscience":40,"attempt_rate":0.92,"num_incorrect":6,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.6666666666666666,"num_partial_answer":1}},"total":{"accuracy":0.454,"num_correct":454,"omniscience":2.6,"attempt_rate":0.911,"num_incorrect":428,"total_questions":1000,"num_not_attempted":89,"hallucination_rate":0.7838827838827839,"num_partial_answer":29},"Kotlin":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-2,"attempt_rate":0.92,"num_incorrect":23,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8214285714285714,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.395,"num_correct":79,"omniscience":-6,"attempt_rate":0.87,"num_incorrect":91,"total_questions":200,"num_not_attempted":26,"hallucination_rate":0.7520661157024794,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.5636363636363636,"num_correct":62,"omniscience":18.181818181818183,"attempt_rate":0.9454545454545454,"num_incorrect":42,"total_questions":110,"num_not_attempted":6,"hallucination_rate":0.875,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.45555555555555555,"num_correct":41,"omniscience":3.3333333333333335,"attempt_rate":0.9222222222222223,"num_incorrect":38,"total_questions":90,"num_not_attempted":7,"hallucination_rate":0.7755102040816326,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.355,"num_correct":355,"omniscience":-13.2,"attempt_rate":0.859,"num_incorrect":487,"total_questions":1000,"num_not_attempted":141,"hallucination_rate":0.7550387596899225,"num_partial_answer":17}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.39,"num_correct":390,"omniscience":-8.3,"attempt_rate":0.893,"num_incorrect":473,"total_questions":1000,"num_not_attempted":107,"hallucination_rate":0.7754098360655738,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-09-23","representative_query_token_counts":null,"scicode":0.409,"short_name":"GPT-5 Codex (high)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-codex","tau2":0.868,"terminalbench_hard":0.355,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"a3c2ed2d-da03-41a4-a38f-dbd8ed7c764a","slug":"openai_gpt-5-codex","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"5d11e7a1-4f70-4e5a-9364-e193761d6757","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-codex","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 Codex (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"0b794885-7e0e-4100-bf38-036cf48b8562","slug":"azure_gpt-5-codex","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"5d11e7a1-4f70-4e5a-9364-e193761d6757","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-codex","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_GPT-5 Codex (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-5-codex","hosts_url":"/models/gpt-5-codex/providers","name_and_creator_label":"GPT-5 Codex (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.907,"agentic_index":45.15,"coding_index":33.88,"commercial_allowed":null,"computed_performance_host_model_id":"4a3c01ee-ab1e-4323-ad09-4f2ce81a4ebe","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":10,"estimated_intelligence_index":39.68883654874913,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1169.4074156124686,"gpqa":0.828,"hle":0.197,"humaneval":null,"id":"29855680-7469-43eb-8b88-cd3fb1d99da3","ifbench":0.754,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":40.6,"intelligence_index_token_counts":{"input_tokens":123725913,"answer_tokens":3635914,"output_tokens":83203291,"reasoning_tokens":79567377},"knowledge_cutoff_date":"2024-05-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.68,"license_name":null,"license_url":null,"livecodebench":0.838,"math_500":null,"math_index":90.67,"mmlu_pro":0.837,"mmmu_pro":0.701,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8849999999999999,"input_tokens":188556,"answer_tokens":73266,"output_tokens":1470514,"reasoning_tokens":1397248,"total_input_tokens_api":192156,"total_answer_tokens_api":80487,"total_reasoning_tokens_api":1397248},"bn":{"score":0.8733333333333334,"input_tokens":225534,"answer_tokens":87089,"output_tokens":1612593,"reasoning_tokens":1525504,"total_input_tokens_api":229134,"total_answer_tokens_api":94333,"total_reasoning_tokens_api":1525504},"de":{"score":0.8966666666666666,"input_tokens":191646,"answer_tokens":67820,"output_tokens":1327340,"reasoning_tokens":1259520,"total_input_tokens_api":195246,"total_answer_tokens_api":75012,"total_reasoning_tokens_api":1259520},"en":{"score":0.9158333333333334,"input_tokens":159654,"answer_tokens":55074,"output_tokens":1010210,"reasoning_tokens":955136,"total_input_tokens_api":163254,"total_answer_tokens_api":62279,"total_reasoning_tokens_api":955136},"es":{"score":0.9125,"input_tokens":182088,"answer_tokens":68180,"output_tokens":1253332,"reasoning_tokens":1185152,"total_input_tokens_api":185688,"total_answer_tokens_api":75381,"total_reasoning_tokens_api":1185152},"fr":{"score":0.9033333333333333,"input_tokens":191346,"answer_tokens":69217,"output_tokens":1320929,"reasoning_tokens":1251712,"total_input_tokens_api":194946,"total_answer_tokens_api":76419,"total_reasoning_tokens_api":1251712},"hi":{"score":0.8650000000000001,"input_tokens":209430,"answer_tokens":85066,"output_tokens":1519242,"reasoning_tokens":1434176,"total_input_tokens_api":213030,"total_answer_tokens_api":92284,"total_reasoning_tokens_api":1434176},"id":{"score":0.8941666666666667,"input_tokens":181314,"answer_tokens":73524,"output_tokens":1295604,"reasoning_tokens":1222080,"total_input_tokens_api":184914,"total_answer_tokens_api":80726,"total_reasoning_tokens_api":1222080},"it":{"score":0.91,"input_tokens":199032,"answer_tokens":73924,"output_tokens":1319364,"reasoning_tokens":1245440,"total_input_tokens_api":202632,"total_answer_tokens_api":81123,"total_reasoning_tokens_api":1245440},"ja":{"score":0.8883333333333333,"input_tokens":228129,"answer_tokens":96949,"output_tokens":1595573,"reasoning_tokens":1498624,"total_input_tokens_api":231729,"total_answer_tokens_api":104157,"total_reasoning_tokens_api":1498624},"ko":{"score":0.8866666666666667,"input_tokens":199401,"answer_tokens":81175,"output_tokens":1524759,"reasoning_tokens":1443584,"total_input_tokens_api":203001,"total_answer_tokens_api":88390,"total_reasoning_tokens_api":1443584},"my":{"score":0.8175,"input_tokens":353547,"answer_tokens":122622,"output_tokens":2416318,"reasoning_tokens":2293696,"total_input_tokens_api":357138,"total_answer_tokens_api":129818,"total_reasoning_tokens_api":2293696},"pt":{"score":0.8983333333333334,"input_tokens":178176,"answer_tokens":66575,"output_tokens":1305423,"reasoning_tokens":1238848,"total_input_tokens_api":181776,"total_answer_tokens_api":73779,"total_reasoning_tokens_api":1238848},"sw":{"score":0.8308333333333334,"input_tokens":208677,"answer_tokens":77656,"output_tokens":1878488,"reasoning_tokens":1800832,"total_input_tokens_api":212277,"total_answer_tokens_api":84903,"total_reasoning_tokens_api":1800832},"yo":{"score":0.7200000000000001,"input_tokens":307062,"answer_tokens":87395,"output_tokens":3064483,"reasoning_tokens":2977088,"total_input_tokens_api":310662,"total_answer_tokens_api":94614,"total_reasoning_tokens_api":2977088},"zh":{"score":0.8908333333333333,"input_tokens":179793,"answer_tokens":76144,"output_tokens":1399344,"reasoning_tokens":1323200,"total_input_tokens_api":183393,"total_answer_tokens_api":83370,"total_reasoning_tokens_api":1323200},"average":{"score":0.8742708333333333,"input_tokens":3383385,"answer_tokens":1261676,"output_tokens":25313516,"reasoning_tokens":24051840,"total_input_tokens_api":3440976,"total_answer_tokens_api":1377075,"total_reasoning_tokens_api":24051840}},"name":"GPT-5 mini (high)","is_open_weights":false,"omniscience":-19.617,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.114,"num_correct":114,"omniscience":-20.1,"attempt_rate":0.44,"num_incorrect":315,"total_questions":1000,"num_not_attempted":560,"hallucination_rate":0.35553047404063204,"num_partial_answer":11}},"total":{"accuracy":0.22966666666666666,"num_correct":1378,"omniscience":-19.616666666666667,"attempt_rate":0.6833333333333333,"num_incorrect":2555,"total_questions":6000,"num_not_attempted":1900,"hallucination_rate":0.5527909995672868,"num_partial_answer":167},"Health":{"total":{"accuracy":0.259,"num_correct":259,"omniscience":-28,"attempt_rate":0.839,"num_incorrect":539,"total_questions":1000,"num_not_attempted":161,"hallucination_rate":0.7273954116059379,"num_partial_answer":41}},"Business":{"total":{"accuracy":0.178,"num_correct":178,"omniscience":-17.1,"attempt_rate":0.551,"num_incorrect":349,"total_questions":1000,"num_not_attempted":449,"hallucination_rate":0.4245742092457421,"num_partial_answer":24}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.45,"num_correct":45,"omniscience":-2,"attempt_rate":0.96,"num_incorrect":47,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.8545454545454545,"num_partial_answer":4}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-44,"attempt_rate":0.72,"num_incorrect":29,"total_questions":50,"num_not_attempted":14,"hallucination_rate":0.6744186046511628,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-38,"attempt_rate":0.74,"num_incorrect":27,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.6428571428571429,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-30,"attempt_rate":0.8,"num_incorrect":27,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7105263157894737,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-30,"attempt_rate":0.8,"num_incorrect":27,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7105263157894737,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":6,"attempt_rate":0.86,"num_incorrect":19,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.6785714285714286,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-41,"attempt_rate":0.83,"num_incorrect":61,"total_questions":100,"num_not_attempted":17,"hallucination_rate":0.7625,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":38,"attempt_rate":0.92,"num_incorrect":11,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.55,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-44,"attempt_rate":0.76,"num_incorrect":15,"total_questions":25,"num_not_attempted":6,"hallucination_rate":0.7142857142857143,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-32,"attempt_rate":0.92,"num_incorrect":15,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8333333333333334,"num_partial_answer":1}},"total":{"accuracy":0.296,"num_correct":296,"omniscience":-21.7,"attempt_rate":0.835,"num_incorrect":513,"total_questions":1000,"num_not_attempted":165,"hallucination_rate":0.7286931818181818,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-30,"attempt_rate":0.7,"num_incorrect":24,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.5853658536585366,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.245,"num_correct":49,"omniscience":-26,"attempt_rate":0.755,"num_incorrect":101,"total_questions":200,"num_not_attempted":49,"hallucination_rate":0.6688741721854304,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.4090909090909091,"num_correct":45,"omniscience":-11.818181818181818,"attempt_rate":0.9545454545454546,"num_incorrect":58,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.8923076923076924,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.28888888888888886,"num_correct":26,"omniscience":-28.88888888888889,"attempt_rate":0.9,"num_incorrect":52,"total_questions":90,"num_not_attempted":9,"hallucination_rate":0.8125,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.217,"num_correct":217,"omniscience":-19.3,"attempt_rate":0.638,"num_incorrect":410,"total_questions":1000,"num_not_attempted":362,"hallucination_rate":0.5236270753512133,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.314,"num_correct":314,"omniscience":-11.5,"attempt_rate":0.797,"num_incorrect":429,"total_questions":1000,"num_not_attempted":203,"hallucination_rate":0.6253644314868805,"num_partial_answer":54}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.392,"short_name":"GPT-5 mini (high)","show_host_model_evals":false,"size_class":"Medium","slug":"gpt-5-mini","tau2":0.684,"terminalbench_hard":0.312,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"edccec69-87df-45fd-b457-5bc1bd885f7c","slug":"databricks_gpt-5-mini","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"29855680-7469-43eb-8b88-cd3fb1d99da3","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-5-mini","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_GPT-5 mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4a3c01ee-ab1e-4323-ad09-4f2ce81a4ebe","slug":"openai_gpt-5-mini-high","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"29855680-7469-43eb-8b88-cd3fb1d99da3","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-mini-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":0.307,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"45741237-a28a-462b-86c6-b3c7c60f390d","slug":"azure_gpt-5-mini","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"29855680-7469-43eb-8b88-cd3fb1d99da3","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-mini","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":0.307,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-mini","hosts_url":"/models/gpt-5-mini/providers","name_and_creator_label":"GPT-5 mini (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.85,"agentic_index":41.15,"coding_index":31.62,"commercial_allowed":null,"computed_performance_host_model_id":"3fd4b50e-c8a6-4c20-be85-14b422dc4086","context_window_tokens":400000,"critpt":0.014,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1","display_order":944,"estimated_intelligence_index":36.16366743845611,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1022.8545739302388,"gpqa":0.803,"hle":0.146,"humaneval":null,"id":"c3274a19-6d3c-4d01-ab9b-5055a0a40429","ifbench":0.712,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":38.56,"intelligence_index_token_counts":{"input_tokens":85034892,"answer_tokens":3447812,"output_tokens":24034483,"reasoning_tokens":20586671},"knowledge_cutoff_date":"2024-05-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.66,"license_name":null,"license_url":null,"livecodebench":0.692,"math_500":null,"math_index":85,"mmlu_pro":0.828,"mmmu_pro":0.688,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5 mini (medium)","is_open_weights":false,"omniscience":-12.933,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.092,"num_correct":92,"omniscience":-9.7,"attempt_rate":0.295,"num_incorrect":189,"total_questions":1000,"num_not_attempted":705,"hallucination_rate":0.20814977973568283,"num_partial_answer":14}},"total":{"accuracy":0.21233333333333335,"num_correct":1274,"omniscience":-12.933333333333334,"attempt_rate":0.5806666666666667,"num_incorrect":2050,"total_questions":6000,"num_not_attempted":2516,"hallucination_rate":0.43377063055438003,"num_partial_answer":160},"Health":{"total":{"accuracy":0.258,"num_correct":258,"omniscience":-21.2,"attempt_rate":0.766,"num_incorrect":470,"total_questions":1000,"num_not_attempted":234,"hallucination_rate":0.633423180592992,"num_partial_answer":38}},"Business":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-8.2,"attempt_rate":0.437,"num_incorrect":249,"total_questions":1000,"num_not_attempted":563,"hallucination_rate":0.29891956782713086,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.39,"num_correct":39,"omniscience":-8,"attempt_rate":0.89,"num_incorrect":47,"total_questions":100,"num_not_attempted":11,"hallucination_rate":0.7704918032786885,"num_partial_answer":3}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-36,"attempt_rate":0.6,"num_incorrect":24,"total_questions":50,"num_not_attempted":20,"hallucination_rate":0.5454545454545454,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-10,"attempt_rate":0.62,"num_incorrect":17,"total_questions":50,"num_not_attempted":19,"hallucination_rate":0.4473684210526316,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-24,"attempt_rate":0.64,"num_incorrect":21,"total_questions":50,"num_not_attempted":18,"hallucination_rate":0.5121951219512195,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-16,"attempt_rate":0.7,"num_incorrect":20,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.5263157894736842,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":6,"attempt_rate":0.86,"num_incorrect":19,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.6785714285714286,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-26,"attempt_rate":0.63,"num_incorrect":44,"total_questions":100,"num_not_attempted":37,"hallucination_rate":0.5365853658536586,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":30,"attempt_rate":0.9,"num_incorrect":13,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.5909090909090909,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-28,"attempt_rate":0.52,"num_incorrect":10,"total_questions":25,"num_not_attempted":12,"hallucination_rate":0.45454545454545453,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-4,"attempt_rate":0.88,"num_incorrect":11,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.7333333333333333,"num_partial_answer":1}},"total":{"accuracy":0.279,"num_correct":279,"omniscience":-13.4,"attempt_rate":0.718,"num_incorrect":413,"total_questions":1000,"num_not_attempted":282,"hallucination_rate":0.5728155339805825,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-18,"attempt_rate":0.62,"num_incorrect":19,"total_questions":50,"num_not_attempted":19,"hallucination_rate":0.475,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.235,"num_correct":47,"omniscience":-13,"attempt_rate":0.6,"num_incorrect":73,"total_questions":200,"num_not_attempted":80,"hallucination_rate":0.477124183006536,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.36363636363636365,"num_correct":40,"omniscience":-11.818181818181818,"attempt_rate":0.8909090909090909,"num_incorrect":53,"total_questions":110,"num_not_attempted":12,"hallucination_rate":0.7571428571428571,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-21.11111111111111,"attempt_rate":0.7333333333333333,"num_incorrect":42,"total_questions":90,"num_not_attempted":24,"hallucination_rate":0.6268656716417911,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.194,"num_correct":194,"omniscience":-12.8,"attempt_rate":0.529,"num_incorrect":322,"total_questions":1000,"num_not_attempted":471,"hallucination_rate":0.39950372208436724,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.284,"num_correct":284,"omniscience":-12.3,"attempt_rate":0.739,"num_incorrect":407,"total_questions":1000,"num_not_attempted":261,"hallucination_rate":0.5684357541899442,"num_partial_answer":48}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.41,"short_name":"GPT-5 mini (medium)","show_host_model_evals":false,"size_class":"Medium","slug":"gpt-5-mini-medium","tau2":0.711,"terminalbench_hard":0.27,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"291ca679-c928-4b83-b01f-e9aab94c1d62","slug":"azure_gpt-5-mini-medium","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"c3274a19-6d3c-4d01-ab9b-5055a0a40429","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-mini","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 mini (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":0.307,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"3fd4b50e-c8a6-4c20-be85-14b422dc4086","slug":"openai_gpt-5-mini","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"c3274a19-6d3c-4d01-ab9b-5055a0a40429","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-mini-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 mini (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":0.307,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-mini-medium","hosts_url":"/models/gpt-5-mini-medium/providers","name_and_creator_label":"GPT-5 mini (medium), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.467,"agentic_index":16.87,"coding_index":21.29,"commercial_allowed":null,"computed_performance_host_model_id":"d7cd5371-e6ce-44c0-a95e-42a9dbedfd60","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1-non-reasoning","display_order":914,"estimated_intelligence_index":21.730677087717407,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":665.1961532126522,"gpqa":0.687,"hle":0.05,"humaneval":null,"id":"bc26bfdb-4923-4442-a6ca-e77392923581","ifbench":0.456,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":21.37,"intelligence_index_token_counts":{"input_tokens":78928812,"answer_tokens":2711670,"output_tokens":2711670,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-05-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.357,"license_name":null,"license_url":null,"livecodebench":0.545,"math_500":null,"math_index":46.67,"mmlu_pro":0.775,"mmmu_pro":0.584,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5 mini (minimal)","is_open_weights":false,"omniscience":-55.6,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.101,"num_correct":101,"omniscience":-68.2,"attempt_rate":0.896,"num_incorrect":783,"total_questions":1000,"num_not_attempted":104,"hallucination_rate":0.8709677419354839,"num_partial_answer":12}},"total":{"accuracy":0.171,"num_correct":1026,"omniscience":-55.6,"attempt_rate":0.9315,"num_incorrect":4362,"total_questions":6000,"num_not_attempted":411,"hallucination_rate":0.8769601930036188,"num_partial_answer":201},"Health":{"total":{"accuracy":0.192,"num_correct":192,"omniscience":-52.5,"attempt_rate":0.966,"num_incorrect":717,"total_questions":1000,"num_not_attempted":34,"hallucination_rate":0.8873762376237624,"num_partial_answer":57}},"Business":{"total":{"accuracy":0.144,"num_correct":144,"omniscience":-51.3,"attempt_rate":0.83,"num_incorrect":657,"total_questions":1000,"num_not_attempted":170,"hallucination_rate":0.7675233644859814,"num_partial_answer":29}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-38,"attempt_rate":1,"num_incorrect":67,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9436619718309859,"num_partial_answer":4}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":0.98,"num_incorrect":39,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.975,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9534883720930233,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-34,"attempt_rate":1,"num_incorrect":32,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9142857142857143,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-74,"attempt_rate":1,"num_incorrect":87,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":18,"attempt_rate":0.98,"num_incorrect":17,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.7083333333333334,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-84,"attempt_rate":0.92,"num_incorrect":22,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9166666666666666,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"total":{"accuracy":0.216,"num_correct":216,"omniscience":-51.7,"attempt_rate":0.985,"num_incorrect":733,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9349489795918368,"num_partial_answer":36},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.92,"num_incorrect":40,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8695652173913043,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.195,"num_correct":39,"omniscience":-57,"attempt_rate":0.99,"num_incorrect":153,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9503105590062112,"num_partial_answer":6}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-36.36363636363637,"attempt_rate":0.9818181818181818,"num_incorrect":71,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.8987341772151899,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.16666666666666666,"num_correct":15,"omniscience":-61.111111111111114,"attempt_rate":0.9888888888888889,"num_incorrect":70,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9333333333333333,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-61.6,"attempt_rate":0.959,"num_incorrect":775,"total_questions":1000,"num_not_attempted":41,"hallucination_rate":0.9215219976218787,"num_partial_answer":25}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.214,"num_correct":214,"omniscience":-48.3,"attempt_rate":0.953,"num_incorrect":697,"total_questions":1000,"num_not_attempted":47,"hallucination_rate":0.8867684478371501,"num_partial_answer":42}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":false,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.369,"short_name":"GPT-5 mini (minimal)","show_host_model_evals":false,"size_class":"Medium","slug":"gpt-5-mini-minimal","tau2":0.319,"terminalbench_hard":0.135,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"1abdb92b-9d30-4312-b26b-d1209d42e371","slug":"openai_gpt-5-mini-minimal_private","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"bc26bfdb-4923-4442-a6ca-e77392923581","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-mini","function_calling":null,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5 mini (minimal)_private","cache_pricing_notes":null,"model_name_appendage":"private","price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b5b73f9b-065e-4e4a-856d-48e116c1fe2f","slug":"azure_gpt-5-mini_eastus2-global-std","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"bc26bfdb-4923-4442-a6ca-e77392923581","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-mini-eastus2-global-std","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 mini (minimal)_East US 2 - Global Standard","cache_pricing_notes":null,"model_name_appendage":"East US 2 - Global Standard","price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"d7cd5371-e6ce-44c0-a95e-42a9dbedfd60","slug":"openai_gpt-5-mini-minimal","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"bc26bfdb-4923-4442-a6ca-e77392923581","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-mini-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 mini (minimal)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":0.307,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-mini-minimal","hosts_url":"/models/gpt-5-mini-minimal/providers","name_and_creator_label":"GPT-5 mini (minimal), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.837,"agentic_index":23.65,"coding_index":19.76,"commercial_allowed":null,"computed_performance_host_model_id":"29df5c1e-e7bc-44ad-8e69-058506cfaaa8","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":19,"estimated_intelligence_index":27.899812068392823,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":837.0277688212649,"gpqa":0.676,"hle":0.082,"humaneval":null,"id":"e18e5e6a-5a31-4c0b-b80b-ac401392f446","ifbench":0.676,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":26.66,"intelligence_index_token_counts":{"input_tokens":155315754,"answer_tokens":5099500,"output_tokens":131491554,"reasoning_tokens":126392054},"knowledge_cutoff_date":"2024-05-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.417,"license_name":null,"license_url":null,"livecodebench":0.789,"math_500":null,"math_index":83.67,"mmlu_pro":0.78,"mmmu_pro":0.61,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8250000000000001,"input_tokens":188556,"answer_tokens":51575,"output_tokens":3441911,"reasoning_tokens":3390336,"total_input_tokens_api":192156,"total_answer_tokens_api":58792,"total_reasoning_tokens_api":3390336},"bn":{"score":0.7966666666666667,"input_tokens":225534,"answer_tokens":61861,"output_tokens":3965925,"reasoning_tokens":3904064,"total_input_tokens_api":229134,"total_answer_tokens_api":69107,"total_reasoning_tokens_api":3904064},"de":{"score":0.86,"input_tokens":191646,"answer_tokens":47240,"output_tokens":3355336,"reasoning_tokens":3308096,"total_input_tokens_api":195246,"total_answer_tokens_api":54437,"total_reasoning_tokens_api":3308096},"en":{"score":0.8725,"input_tokens":159654,"answer_tokens":37862,"output_tokens":2586918,"reasoning_tokens":2549056,"total_input_tokens_api":163254,"total_answer_tokens_api":45063,"total_reasoning_tokens_api":2549056},"es":{"score":0.855,"input_tokens":182088,"answer_tokens":48544,"output_tokens":3114784,"reasoning_tokens":3066240,"total_input_tokens_api":185688,"total_answer_tokens_api":55745,"total_reasoning_tokens_api":3066240},"fr":{"score":0.8408333333333333,"input_tokens":191346,"answer_tokens":47023,"output_tokens":3233967,"reasoning_tokens":3186944,"total_input_tokens_api":194946,"total_answer_tokens_api":54228,"total_reasoning_tokens_api":3186944},"hi":{"score":0.8125,"input_tokens":209430,"answer_tokens":57947,"output_tokens":3582875,"reasoning_tokens":3524928,"total_input_tokens_api":213030,"total_answer_tokens_api":65163,"total_reasoning_tokens_api":3524928},"id":{"score":0.8483333333333333,"input_tokens":181314,"answer_tokens":52404,"output_tokens":3228148,"reasoning_tokens":3175744,"total_input_tokens_api":184914,"total_answer_tokens_api":59609,"total_reasoning_tokens_api":3175744},"it":{"score":0.855,"input_tokens":199032,"answer_tokens":48336,"output_tokens":3160336,"reasoning_tokens":3112000,"total_input_tokens_api":202632,"total_answer_tokens_api":55539,"total_reasoning_tokens_api":3112000},"ja":{"score":0.8358333333333334,"input_tokens":228129,"answer_tokens":62382,"output_tokens":3647534,"reasoning_tokens":3585152,"total_input_tokens_api":231729,"total_answer_tokens_api":69591,"total_reasoning_tokens_api":3585152},"ko":{"score":0.8266666666666665,"input_tokens":199401,"answer_tokens":56486,"output_tokens":3531110,"reasoning_tokens":3474624,"total_input_tokens_api":203001,"total_answer_tokens_api":63692,"total_reasoning_tokens_api":3474624},"my":{"score":0.7558333333333334,"input_tokens":353547,"answer_tokens":91978,"output_tokens":5357706,"reasoning_tokens":5265728,"total_input_tokens_api":357138,"total_answer_tokens_api":99195,"total_reasoning_tokens_api":5265728},"pt":{"score":0.8383333333333334,"input_tokens":178176,"answer_tokens":48112,"output_tokens":3173232,"reasoning_tokens":3125120,"total_input_tokens_api":181776,"total_answer_tokens_api":55316,"total_reasoning_tokens_api":3125120},"sw":{"score":0.7658333333333333,"input_tokens":208677,"answer_tokens":50043,"output_tokens":4049659,"reasoning_tokens":3999616,"total_input_tokens_api":212277,"total_answer_tokens_api":57275,"total_reasoning_tokens_api":3999616},"yo":{"score":0.5666666666666665,"input_tokens":307062,"answer_tokens":60951,"output_tokens":6813655,"reasoning_tokens":6752704,"total_input_tokens_api":310662,"total_answer_tokens_api":68167,"total_reasoning_tokens_api":6752704},"zh":{"score":0.8416666666666667,"input_tokens":179793,"answer_tokens":50578,"output_tokens":3240082,"reasoning_tokens":3189504,"total_input_tokens_api":183393,"total_answer_tokens_api":57787,"total_reasoning_tokens_api":3189504},"average":{"score":0.8122916666666666,"input_tokens":3383385,"answer_tokens":873322,"output_tokens":59483178,"reasoning_tokens":58609856,"total_input_tokens_api":3440976,"total_answer_tokens_api":988706,"total_reasoning_tokens_api":58609856}},"name":"GPT-5 nano (high)","is_open_weights":false,"omniscience":-29.65,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.094,"num_correct":94,"omniscience":-24.7,"attempt_rate":0.44,"num_incorrect":341,"total_questions":1000,"num_not_attempted":560,"hallucination_rate":0.37637969094922735,"num_partial_answer":5}},"total":{"accuracy":0.18283333333333332,"num_correct":1097,"omniscience":-29.65,"attempt_rate":0.6788333333333333,"num_incorrect":2876,"total_questions":6000,"num_not_attempted":1927,"hallucination_rate":0.5865796451152355,"num_partial_answer":100},"Health":{"total":{"accuracy":0.198,"num_correct":198,"omniscience":-40.2,"attempt_rate":0.824,"num_incorrect":600,"total_questions":1000,"num_not_attempted":176,"hallucination_rate":0.7481296758104738,"num_partial_answer":26}},"Business":{"total":{"accuracy":0.173,"num_correct":173,"omniscience":-18.1,"attempt_rate":0.54,"num_incorrect":354,"total_questions":1000,"num_not_attempted":460,"hallucination_rate":0.4280532043530834,"num_partial_answer":13}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-41,"attempt_rate":0.92,"num_incorrect":65,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.8552631578947368,"num_partial_answer":3}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-58,"attempt_rate":0.74,"num_incorrect":33,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.717391304347826,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-36,"attempt_rate":0.68,"num_incorrect":26,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.6190476190476191,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-42,"attempt_rate":0.82,"num_incorrect":31,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.775,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-42,"attempt_rate":0.88,"num_incorrect":32,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8205128205128205,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-28,"attempt_rate":0.94,"num_incorrect":29,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8285714285714286,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-59,"attempt_rate":0.86,"num_incorrect":72,"total_questions":100,"num_not_attempted":14,"hallucination_rate":0.8275862068965517,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":2,"attempt_rate":0.94,"num_incorrect":21,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.75,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-56,"attempt_rate":0.72,"num_incorrect":16,"total_questions":25,"num_not_attempted":7,"hallucination_rate":0.6956521739130435,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-8,"attempt_rate":0.92,"num_incorrect":12,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8,"num_partial_answer":1}},"total":{"accuracy":0.203,"num_correct":203,"omniscience":-41.6,"attempt_rate":0.843,"num_incorrect":619,"total_questions":1000,"num_not_attempted":157,"hallucination_rate":0.7766624843161857,"num_partial_answer":21},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-46,"attempt_rate":0.82,"num_incorrect":31,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7380952380952381,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.165,"num_correct":33,"omniscience":-42,"attempt_rate":0.755,"num_incorrect":117,"total_questions":200,"num_not_attempted":49,"hallucination_rate":0.7005988023952096,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2545454545454545,"num_correct":28,"omniscience":-42.72727272727273,"attempt_rate":0.9636363636363636,"num_incorrect":75,"total_questions":110,"num_not_attempted":4,"hallucination_rate":0.9146341463414634,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.16666666666666666,"num_correct":15,"omniscience":-48.888888888888886,"attempt_rate":0.8444444444444444,"num_incorrect":59,"total_questions":90,"num_not_attempted":14,"hallucination_rate":0.7866666666666666,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.17,"num_correct":170,"omniscience":-28.2,"attempt_rate":0.63,"num_incorrect":452,"total_questions":1000,"num_not_attempted":370,"hallucination_rate":0.5445783132530121,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.259,"num_correct":259,"omniscience":-25.1,"attempt_rate":0.796,"num_incorrect":510,"total_questions":1000,"num_not_attempted":204,"hallucination_rate":0.6882591093117408,"num_partial_answer":27}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.366,"short_name":"GPT-5 nano (high)","show_host_model_evals":false,"size_class":"Small","slug":"gpt-5-nano","tau2":0.365,"terminalbench_hard":0.113,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"1dea8b42-5bc5-4709-896c-96c9b609ccc8","slug":"databricks_gpt-5-nano","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"e18e5e6a-5a31-4c0b-b80b-ac401392f446","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-5-nano","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_GPT-5 nano (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"29df5c1e-e7bc-44ad-8e69-058506cfaaa8","slug":"openai_gpt-5-nano-high","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"e18e5e6a-5a31-4c0b-b80b-ac401392f446","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-nano-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 nano (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":0.077,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"f8558fc7-6a71-43bc-9ee8-f770459e2c14","slug":"azure_gpt-5-nano","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"e18e5e6a-5a31-4c0b-b80b-ac401392f446","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-nano","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 nano (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":0.077,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-nano","hosts_url":"/models/gpt-5-nano/providers","name_and_creator_label":"GPT-5 nano (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.783,"agentic_index":18.1,"coding_index":22.14,"commercial_allowed":null,"computed_performance_host_model_id":"7e22eb0d-9da0-4a31-bc78-70a3ebc519ed","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1","display_order":930,"estimated_intelligence_index":26.656684719341715,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":727.6336231255053,"gpqa":0.67,"hle":0.076,"humaneval":null,"id":"8eb02396-f231-4189-ae15-05f7facebd9b","ifbench":0.659,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":25.83,"intelligence_index_token_counts":{"input_tokens":157688906,"answer_tokens":4594365,"output_tokens":52978918,"reasoning_tokens":48384553},"knowledge_cutoff_date":"2024-05-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.4,"license_name":null,"license_url":null,"livecodebench":0.763,"math_500":null,"math_index":78.33,"mmlu_pro":0.772,"mmmu_pro":0.582,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5 nano (medium)","is_open_weights":false,"omniscience":-27.35,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.076,"num_correct":76,"omniscience":-20,"attempt_rate":0.36,"num_incorrect":276,"total_questions":1000,"num_not_attempted":640,"hallucination_rate":0.2987012987012987,"num_partial_answer":8}},"total":{"accuracy":0.16383333333333333,"num_correct":983,"omniscience":-27.35,"attempt_rate":0.6208333333333333,"num_incorrect":2624,"total_questions":6000,"num_not_attempted":2275,"hallucination_rate":0.523021726131154,"num_partial_answer":118},"Health":{"total":{"accuracy":0.18,"num_correct":180,"omniscience":-38.4,"attempt_rate":0.77,"num_incorrect":564,"total_questions":1000,"num_not_attempted":230,"hallucination_rate":0.6878048780487804,"num_partial_answer":26}},"Business":{"total":{"accuracy":0.143,"num_correct":143,"omniscience":-17.1,"attempt_rate":0.476,"num_incorrect":314,"total_questions":1000,"num_not_attempted":524,"hallucination_rate":0.3663943990665111,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.23,"num_correct":23,"omniscience":-44,"attempt_rate":0.93,"num_incorrect":67,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.8701298701298701,"num_partial_answer":3}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-58,"attempt_rate":0.66,"num_incorrect":31,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.6458333333333334,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-36,"attempt_rate":0.7,"num_incorrect":26,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.6190476190476191,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-50,"attempt_rate":0.82,"num_incorrect":33,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7857142857142857,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-52,"attempt_rate":0.86,"num_incorrect":34,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8095238095238095,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-36,"attempt_rate":0.94,"num_incorrect":31,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8378378378378378,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-46,"attempt_rate":0.76,"num_incorrect":60,"total_questions":100,"num_not_attempted":24,"hallucination_rate":0.6976744186046512,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-6,"attempt_rate":0.92,"num_incorrect":23,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.7666666666666667,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-40,"attempt_rate":0.56,"num_incorrect":12,"total_questions":25,"num_not_attempted":11,"hallucination_rate":0.5217391304347826,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":17,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8947368421052632,"num_partial_answer":0}},"total":{"accuracy":0.185,"num_correct":185,"omniscience":-42.2,"attempt_rate":0.815,"num_incorrect":607,"total_questions":1000,"num_not_attempted":185,"hallucination_rate":0.7447852760736197,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-36,"attempt_rate":0.76,"num_incorrect":27,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6585365853658537,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.135,"num_correct":27,"omniscience":-46,"attempt_rate":0.735,"num_incorrect":119,"total_questions":200,"num_not_attempted":53,"hallucination_rate":0.6878612716763006,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.3090909090909091,"num_correct":34,"omniscience":-29.09090909090909,"attempt_rate":0.9545454545454546,"num_incorrect":66,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.868421052631579,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.12222222222222222,"num_correct":11,"omniscience":-55.55555555555556,"attempt_rate":0.8222222222222222,"num_incorrect":61,"total_questions":90,"num_not_attempted":16,"hallucination_rate":0.7721518987341772,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.157,"num_correct":157,"omniscience":-22.7,"attempt_rate":0.549,"num_incorrect":384,"total_questions":1000,"num_not_attempted":451,"hallucination_rate":0.4555160142348754,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.242,"num_correct":242,"omniscience":-23.7,"attempt_rate":0.755,"num_incorrect":479,"total_questions":1000,"num_not_attempted":245,"hallucination_rate":0.6319261213720316,"num_partial_answer":34}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.338,"short_name":"GPT-5 nano (medium)","show_host_model_evals":false,"size_class":"Small","slug":"gpt-5-nano-medium","tau2":0.304,"terminalbench_hard":0.163,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"ace1b461-54eb-41e7-a103-4f2532bbeb95","slug":"azure_gpt-5-nano-medium","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"8eb02396-f231-4189-ae15-05f7facebd9b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-nano","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 nano (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":0.077,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"7e22eb0d-9da0-4a31-bc78-70a3ebc519ed","slug":"openai_gpt-5-nano","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"8eb02396-f231-4189-ae15-05f7facebd9b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-nano-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 nano (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":0.077,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-nano-medium","hosts_url":"/models/gpt-5-nano-medium/providers","name_and_creator_label":"GPT-5 nano (medium), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.273,"agentic_index":9.64,"coding_index":13.94,"commercial_allowed":null,"computed_performance_host_model_id":"7e874c18-6089-41c4-9f74-a5b76fb77333","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-1-non-reasoning","display_order":920,"estimated_intelligence_index":15.590783726427158,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":506.8001607135293,"gpqa":0.428,"hle":0.041,"humaneval":null,"id":"05e45a36-b5c6-47a1-8adb-9ddc19add5b3","ifbench":0.325,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":13.84,"intelligence_index_token_counts":{"input_tokens":428469433,"answer_tokens":8994269,"output_tokens":8994269,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-05-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.2,"license_name":null,"license_url":null,"livecodebench":0.47,"math_500":null,"math_index":27.33,"mmlu_pro":0.556,"mmmu_pro":0.318,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5 nano (minimal)","is_open_weights":false,"omniscience":-66.367,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.068,"num_correct":68,"omniscience":-72.8,"attempt_rate":0.879,"num_incorrect":796,"total_questions":1000,"num_not_attempted":121,"hallucination_rate":0.8540772532188842,"num_partial_answer":15}},"total":{"accuracy":0.11366666666666667,"num_correct":682,"omniscience":-66.36666666666666,"attempt_rate":0.9171666666666667,"num_incorrect":4664,"total_questions":6000,"num_not_attempted":497,"hallucination_rate":0.8770214366303122,"num_partial_answer":157},"Health":{"total":{"accuracy":0.123,"num_correct":123,"omniscience":-64.9,"attempt_rate":0.937,"num_incorrect":772,"total_questions":1000,"num_not_attempted":63,"hallucination_rate":0.8802736602052451,"num_partial_answer":42}},"Business":{"total":{"accuracy":0.09,"num_correct":90,"omniscience":-65.6,"attempt_rate":0.861,"num_incorrect":746,"total_questions":1000,"num_not_attempted":139,"hallucination_rate":0.8197802197802198,"num_partial_answer":25}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-56,"attempt_rate":0.98,"num_incorrect":76,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.95,"num_partial_answer":2}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-80,"attempt_rate":0.88,"num_incorrect":42,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.875,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-82,"attempt_rate":0.9,"num_incorrect":43,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8958333333333334,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":40,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-62,"attempt_rate":0.82,"num_incorrect":35,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7608695652173914,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":40,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8695652173913043,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.09,"num_correct":9,"omniscience":-76,"attempt_rate":0.95,"num_incorrect":85,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.9340659340659341,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-46,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9210526315789473,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":22,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.88,"num_partial_answer":2}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-36,"attempt_rate":0.92,"num_incorrect":16,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8888888888888888,"num_partial_answer":0}},"total":{"accuracy":0.129,"num_correct":129,"omniscience":-64.8,"attempt_rate":0.932,"num_incorrect":777,"total_questions":1000,"num_not_attempted":68,"hallucination_rate":0.8920780711825488,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-58,"attempt_rate":0.9,"num_incorrect":35,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7954545454545454,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.105,"num_correct":21,"omniscience":-70,"attempt_rate":0.92,"num_incorrect":161,"total_questions":200,"num_not_attempted":16,"hallucination_rate":0.8994413407821229,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.23636363636363636,"num_correct":26,"omniscience":-44.54545454545455,"attempt_rate":0.9545454545454546,"num_incorrect":75,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.8928571428571429,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.08888888888888889,"num_correct":8,"omniscience":-71.11111111111111,"attempt_rate":0.9111111111111111,"num_incorrect":72,"total_questions":90,"num_not_attempted":8,"hallucination_rate":0.8780487804878049,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.128,"num_correct":128,"omniscience":-67.7,"attempt_rate":0.946,"num_incorrect":805,"total_questions":1000,"num_not_attempted":54,"hallucination_rate":0.9231651376146789,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.144,"num_correct":144,"omniscience":-62.4,"attempt_rate":0.948,"num_incorrect":768,"total_questions":1000,"num_not_attempted":52,"hallucination_rate":0.897196261682243,"num_partial_answer":36}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":false,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-08-07","representative_query_token_counts":null,"scicode":0.291,"short_name":"GPT-5 nano (minimal)","show_host_model_evals":false,"size_class":"Small","slug":"gpt-5-nano-minimal","tau2":0.257,"terminalbench_hard":0.064,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"d917fea0-fe97-40dc-8c94-b1cb6e023be0","slug":"openai_gpt-5-nano-minimal_private","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"05e45a36-b5c6-47a1-8adb-9ddc19add5b3","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-nano","function_calling":null,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5 nano (minimal)_private","cache_pricing_notes":null,"model_name_appendage":"private","price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7e874c18-6089-41c4-9f74-a5b76fb77333","slug":"openai_gpt-5-nano-minimal","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"05e45a36-b5c6-47a1-8adb-9ddc19add5b3","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-nano-2025-08-07","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5 nano (minimal)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":0.077,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"e4ac3eb2-5da6-41b4-bb2a-4d14c3281266","slug":"azure_gpt-5-nano_eastus2-global-std","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"05e45a36-b5c6-47a1-8adb-9ddc19add5b3","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5-nano-eastus2-global-std","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-5 nano (minimal)_East US 2 - Global Standard","cache_pricing_notes":null,"model_name_appendage":"East US 2 - Global Standard","price_1m_input_tokens":0.05,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.27,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-nano-minimal","hosts_url":"/models/gpt-5-nano-minimal/providers","name_and_creator_label":"GPT-5 nano (minimal), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.38,"agentic_index":32.16,"coding_index":26.34,"commercial_allowed":null,"computed_performance_host_model_id":"66be21f3-e61f-4b74-9c1f-87acb09fc464","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-2-non-reasoning","display_order":936,"estimated_intelligence_index":22.474468979268327,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1000,"gpqa":0.643,"hle":0.052,"humaneval":null,"id":"d0b3d47e-aec6-425e-9de7-168dcc6d1e28","ifbench":0.432,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.17,"intelligence_index_token_counts":{"input_tokens":45088631,"answer_tokens":3660928,"output_tokens":3660928,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.44,"license_name":null,"license_url":null,"livecodebench":0.494,"math_500":null,"math_index":38,"mmlu_pro":0.801,"mmmu_pro":0.624,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5.1 (Non-reasoning)","is_open_weights":false,"omniscience":-36.583,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.237,"num_correct":237,"omniscience":-42.7,"attempt_rate":0.92,"num_incorrect":664,"total_questions":1000,"num_not_attempted":80,"hallucination_rate":0.8702490170380078,"num_partial_answer":19}},"total":{"accuracy":0.278,"num_correct":1668,"omniscience":-36.583333333333336,"attempt_rate":0.9505,"num_incorrect":3863,"total_questions":6000,"num_not_attempted":297,"hallucination_rate":0.891735918744229,"num_partial_answer":172},"Health":{"total":{"accuracy":0.302,"num_correct":302,"omniscience":-32.3,"attempt_rate":0.977,"num_incorrect":625,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.8954154727793696,"num_partial_answer":50}},"Business":{"total":{"accuracy":0.246,"num_correct":246,"omniscience":-36.8,"attempt_rate":0.882,"num_incorrect":614,"total_questions":1000,"num_not_attempted":118,"hallucination_rate":0.8143236074270557,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.45,"num_correct":45,"omniscience":-8,"attempt_rate":1,"num_incorrect":53,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9636363636363636,"num_partial_answer":2}},"R":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":37,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9736842105263158,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-36,"attempt_rate":0.88,"num_incorrect":30,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7894736842105263,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-20,"attempt_rate":0.98,"num_incorrect":29,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9354838709677419,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-46,"attempt_rate":0.96,"num_incorrect":35,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9210526315789473,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-24,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9375,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-48,"attempt_rate":0.97,"num_incorrect":72,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":24,"attempt_rate":0.98,"num_incorrect":17,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8095238095238095,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":0.96,"num_incorrect":17,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":16,"attempt_rate":0.92,"num_incorrect":9,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.75,"num_partial_answer":1}},"total":{"accuracy":0.343,"num_correct":343,"omniscience":-26.9,"attempt_rate":0.973,"num_incorrect":612,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9315068493150684,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-36,"attempt_rate":0.94,"num_incorrect":31,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8378378378378378,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.33,"num_correct":66,"omniscience":-31.5,"attempt_rate":0.98,"num_incorrect":129,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9626865671641791,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.38181818181818183,"num_correct":42,"omniscience":-21.818181818181817,"attempt_rate":0.9818181818181818,"num_incorrect":66,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9705882352941176,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.34444444444444444,"num_correct":31,"omniscience":-28.88888888888889,"attempt_rate":0.9888888888888889,"num_incorrect":57,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9661016949152542,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.267,"num_correct":267,"omniscience":-42.1,"attempt_rate":0.973,"num_incorrect":688,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9386084583901774,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.273,"num_correct":273,"omniscience":-38.7,"attempt_rate":0.978,"num_incorrect":660,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.9078404401650619,"num_partial_answer":45}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-11-13","representative_query_token_counts":null,"scicode":0.365,"short_name":"GPT-5.1","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-1-non-reasoning","tau2":0.465,"terminalbench_hard":0.213,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"1d655ff2-4895-4a6b-bfdd-642b7f8c68c5","slug":"azure_gpt-5-1-non-reasoning","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"d0b3d47e-aec6-425e-9de7-168dcc6d1e28","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1","function_calling":false,"cache_write_price":null,"host_model_string":"Microsoft Azure_GPT-5.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"66be21f3-e61f-4b74-9c1f-87acb09fc464","slug":"openai_gpt-5-1-non-reasoning","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"d0b3d47e-aec6-425e-9de7-168dcc6d1e28","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1-2025-11-13","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-5-1-non-reasoning","hosts_url":"/models/gpt-5-1-non-reasoning/providers","name_and_creator_label":"GPT-5.1, OpenAI"},{"additional_text":null,"aime":null,"aime25":0.94,"agentic_index":51.05,"coding_index":42.8,"commercial_allowed":null,"computed_performance_host_model_id":"0c60867e-101f-45da-87b6-b14e4c2c9f01","context_window_tokens":400000,"critpt":0.049,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":17,"estimated_intelligence_index":45.79477276805362,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1212.4750207128254,"gpqa":0.873,"hle":0.265,"humaneval":null,"id":"4dc12a38-b18f-4c43-8e1b-678f8434b5b1","ifbench":0.729,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":47.03,"intelligence_index_token_counts":{"input_tokens":73837231,"answer_tokens":5150812,"output_tokens":68667516,"reasoning_tokens":63516704},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.75,"license_name":null,"license_url":null,"livecodebench":0.868,"math_500":null,"math_index":94,"mmlu_pro":0.87,"mmmu_pro":0.755,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.895,"input_tokens":188556,"answer_tokens":123736,"output_tokens":739288,"reasoning_tokens":615552,"total_input_tokens_api":191778,"total_answer_tokens_api":135704,"total_reasoning_tokens_api":615552},"bn":{"score":0.9091666666666667,"input_tokens":225534,"answer_tokens":159949,"output_tokens":794637,"reasoning_tokens":634688,"total_input_tokens_api":228534,"total_answer_tokens_api":171899,"total_reasoning_tokens_api":634688},"de":{"score":0.9183333333333333,"input_tokens":190780,"answer_tokens":111393,"output_tokens":625441,"reasoning_tokens":514048,"total_input_tokens_api":193213,"total_answer_tokens_api":123235,"total_reasoning_tokens_api":514048},"en":{"score":0.9408333333333333,"input_tokens":159654,"answer_tokens":82192,"output_tokens":456272,"reasoning_tokens":374080,"total_input_tokens_api":162419,"total_answer_tokens_api":94052,"total_reasoning_tokens_api":374080},"es":{"score":0.9283333333333333,"input_tokens":182088,"answer_tokens":115956,"output_tokens":570996,"reasoning_tokens":455040,"total_input_tokens_api":185458,"total_answer_tokens_api":127914,"total_reasoning_tokens_api":455040},"fr":{"score":0.935,"input_tokens":191346,"answer_tokens":119397,"output_tokens":631461,"reasoning_tokens":512064,"total_input_tokens_api":194506,"total_answer_tokens_api":130943,"total_reasoning_tokens_api":512064},"hi":{"score":0.9075000000000001,"input_tokens":209430,"answer_tokens":145137,"output_tokens":756721,"reasoning_tokens":611584,"total_input_tokens_api":213030,"total_answer_tokens_api":157147,"total_reasoning_tokens_api":611584},"id":{"score":0.9125,"input_tokens":181314,"answer_tokens":123564,"output_tokens":645292,"reasoning_tokens":521728,"total_input_tokens_api":183715,"total_answer_tokens_api":135095,"total_reasoning_tokens_api":521728},"it":{"score":0.9258333333333333,"input_tokens":199032,"answer_tokens":128343,"output_tokens":627415,"reasoning_tokens":499072,"total_input_tokens_api":202632,"total_answer_tokens_api":140352,"total_reasoning_tokens_api":499072},"ja":{"score":0.9158333333333334,"input_tokens":226707,"answer_tokens":160336,"output_tokens":797264,"reasoning_tokens":636928,"total_input_tokens_api":230298,"total_answer_tokens_api":172316,"total_reasoning_tokens_api":636928},"ko":{"score":0.89,"input_tokens":196518,"answer_tokens":143329,"output_tokens":801825,"reasoning_tokens":658496,"total_input_tokens_api":199944,"total_answer_tokens_api":155367,"total_reasoning_tokens_api":658496},"my":{"score":0.8733333333333334,"input_tokens":353547,"answer_tokens":211419,"output_tokens":1195675,"reasoning_tokens":984256,"total_input_tokens_api":355010,"total_answer_tokens_api":222633,"total_reasoning_tokens_api":984256},"pt":{"score":0.9141666666666666,"input_tokens":178176,"answer_tokens":118531,"output_tokens":638211,"reasoning_tokens":519680,"total_input_tokens_api":180627,"total_answer_tokens_api":129542,"total_reasoning_tokens_api":519680},"sw":{"score":0.8958333333333334,"input_tokens":208677,"answer_tokens":130177,"output_tokens":889409,"reasoning_tokens":759232,"total_input_tokens_api":212277,"total_answer_tokens_api":142184,"total_reasoning_tokens_api":759232},"yo":{"score":0.8141666666666666,"input_tokens":307062,"answer_tokens":139530,"output_tokens":1669514,"reasoning_tokens":1529984,"total_input_tokens_api":310330,"total_answer_tokens_api":151881,"total_reasoning_tokens_api":1529984},"zh":{"score":0.9133333333333332,"input_tokens":179793,"answer_tokens":137131,"output_tokens":679147,"reasoning_tokens":542016,"total_input_tokens_api":183004,"total_answer_tokens_api":149037,"total_reasoning_tokens_api":542016},"average":{"score":0.9055729166666666,"input_tokens":3378214,"answer_tokens":2150120,"output_tokens":12518568,"reasoning_tokens":10368448,"total_input_tokens_api":3426775,"total_answer_tokens_api":2339301,"total_reasoning_tokens_api":10368448}},"name":"GPT-5.1 (high)","is_open_weights":false,"omniscience":2.2,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.314,"num_correct":314,"omniscience":2.6,"attempt_rate":0.634,"num_incorrect":288,"total_questions":1000,"num_not_attempted":366,"hallucination_rate":0.4198250728862974,"num_partial_answer":32}},"total":{"accuracy":0.353,"num_correct":2118,"omniscience":2.2,"attempt_rate":0.7116666666666667,"num_incorrect":1986,"total_questions":6000,"num_not_attempted":1730,"hallucination_rate":0.5115919629057187,"num_partial_answer":166},"Health":{"total":{"accuracy":0.344,"num_correct":344,"omniscience":-10,"attempt_rate":0.819,"num_incorrect":444,"total_questions":1000,"num_not_attempted":181,"hallucination_rate":0.676829268292683,"num_partial_answer":31}},"Business":{"total":{"accuracy":0.31,"num_correct":310,"omniscience":5.8,"attempt_rate":0.584,"num_incorrect":252,"total_questions":1000,"num_not_attempted":416,"hallucination_rate":0.3652173913043478,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.51,"num_correct":51,"omniscience":13,"attempt_rate":0.93,"num_incorrect":38,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.7755102040816326,"num_partial_answer":4}},"R":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":10,"attempt_rate":0.62,"num_incorrect":12,"total_questions":50,"num_not_attempted":19,"hallucination_rate":0.36363636363636365,"num_partial_answer":2}},"Go":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":6,"attempt_rate":0.66,"num_incorrect":14,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.42424242424242425,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":8,"attempt_rate":0.82,"num_incorrect":18,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.6428571428571429,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":8,"attempt_rate":0.64,"num_incorrect":13,"total_questions":50,"num_not_attempted":18,"hallucination_rate":0.3939393939393939,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":28,"attempt_rate":0.84,"num_incorrect":13,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.5652173913043478,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-16,"attempt_rate":0.74,"num_incorrect":44,"total_questions":100,"num_not_attempted":26,"hallucination_rate":0.6111111111111112,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.68,"num_correct":34,"omniscience":46,"attempt_rate":0.96,"num_incorrect":11,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.6875,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":12,"attempt_rate":0.56,"num_incorrect":5,"total_questions":25,"num_not_attempted":11,"hallucination_rate":0.29411764705882354,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.6,"num_correct":15,"omniscience":36,"attempt_rate":0.88,"num_incorrect":6,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.6,"num_partial_answer":1}},"total":{"accuracy":0.43,"num_correct":430,"omniscience":10.7,"attempt_rate":0.78,"num_incorrect":323,"total_questions":1000,"num_not_attempted":220,"hallucination_rate":0.5666666666666667,"num_partial_answer":27},"Kotlin":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":12,"attempt_rate":0.68,"num_incorrect":13,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.41935483870967744,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.375,"num_correct":75,"omniscience":5,"attempt_rate":0.71,"num_incorrect":65,"total_questions":200,"num_not_attempted":58,"hallucination_rate":0.52,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.5454545454545454,"num_correct":60,"omniscience":19.09090909090909,"attempt_rate":0.9090909090909091,"num_incorrect":39,"total_questions":110,"num_not_attempted":10,"hallucination_rate":0.78,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.4444444444444444,"num_correct":40,"omniscience":8.88888888888889,"attempt_rate":0.8222222222222222,"num_incorrect":32,"total_questions":90,"num_not_attempted":16,"hallucination_rate":0.64,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.355,"num_correct":355,"omniscience":4.1,"attempt_rate":0.682,"num_incorrect":314,"total_questions":1000,"num_not_attempted":318,"hallucination_rate":0.4868217054263566,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.365,"num_correct":365,"omniscience":0,"attempt_rate":0.771,"num_incorrect":365,"total_questions":1000,"num_not_attempted":229,"hallucination_rate":0.5748031496062992,"num_partial_answer":41}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-11-13","representative_query_token_counts":null,"scicode":0.433,"short_name":"GPT-5.1 (high)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-1","tau2":0.819,"terminalbench_hard":0.426,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"d7fd9a6c-bf21-4a92-8bfd-ec5df04942e2","slug":"databricks_gpt-5-1","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"4dc12a38-b18f-4c43-8e1b-678f8434b5b1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-5-1","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_GPT-5.1 (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0c60867e-101f-45da-87b6-b14e4c2c9f01","slug":"openai_gpt-5-1","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"4dc12a38-b18f-4c43-8e1b-678f8434b5b1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1-2025-11-13","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-5.1 (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0.788,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"6634f438-ed17-4ddb-9eff-12f55bef63fb","slug":"azure_gpt-5-1","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"4dc12a38-b18f-4c43-8e1b-678f8434b5b1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_GPT-5.1 (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-5-1","hosts_url":"/models/gpt-5-1/providers","name_and_creator_label":"GPT-5.1 (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.957,"agentic_index":49.6,"coding_index":35.14,"commercial_allowed":null,"computed_performance_host_model_id":"184c2d5a-dac8-45b4-8d04-37ae55a6584b","context_window_tokens":400000,"critpt":0.057,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":7,"estimated_intelligence_index":42.519804384255565,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1157.3431646912975,"gpqa":0.86,"hle":0.234,"humaneval":null,"id":"04d023f3-025c-4d78-9571-53edda3eaf2a","ifbench":0.7,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":41.55,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.673,"license_name":null,"license_url":null,"livecodebench":0.849,"math_500":null,"math_index":95.67,"mmlu_pro":0.86,"mmmu_pro":0.725,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8816666666666665,"input_tokens":188556,"answer_tokens":24165,"output_tokens":376677,"reasoning_tokens":352512,"total_input_tokens_api":191279,"total_answer_tokens_api":31219,"total_reasoning_tokens_api":352512},"bn":{"score":0.8991666666666666,"input_tokens":225534,"answer_tokens":26836,"output_tokens":406292,"reasoning_tokens":379456,"total_input_tokens_api":228207,"total_answer_tokens_api":34001,"total_reasoning_tokens_api":379456},"de":{"score":0.91,"input_tokens":191646,"answer_tokens":23947,"output_tokens":271371,"reasoning_tokens":247424,"total_input_tokens_api":193683,"total_answer_tokens_api":31043,"total_reasoning_tokens_api":247424},"en":{"score":0.9241666666666667,"input_tokens":159654,"answer_tokens":17920,"output_tokens":226688,"reasoning_tokens":208768,"total_input_tokens_api":162074,"total_answer_tokens_api":25035,"total_reasoning_tokens_api":208768},"es":{"score":0.9274999999999999,"input_tokens":182088,"answer_tokens":27631,"output_tokens":286447,"reasoning_tokens":258816,"total_input_tokens_api":184494,"total_answer_tokens_api":34780,"total_reasoning_tokens_api":258816},"fr":{"score":0.9274999999999999,"input_tokens":191346,"answer_tokens":27802,"output_tokens":270426,"reasoning_tokens":242624,"total_input_tokens_api":194048,"total_answer_tokens_api":34874,"total_reasoning_tokens_api":242624},"hi":{"score":0.9058333333333334,"input_tokens":209430,"answer_tokens":26004,"output_tokens":384212,"reasoning_tokens":358208,"total_input_tokens_api":212541,"total_answer_tokens_api":33187,"total_reasoning_tokens_api":358208},"id":{"score":0.9,"input_tokens":181314,"answer_tokens":29954,"output_tokens":284866,"reasoning_tokens":254912,"total_input_tokens_api":183626,"total_answer_tokens_api":37028,"total_reasoning_tokens_api":254912},"it":{"score":0.9191666666666666,"input_tokens":199032,"answer_tokens":23937,"output_tokens":293889,"reasoning_tokens":269952,"total_input_tokens_api":201096,"total_answer_tokens_api":31038,"total_reasoning_tokens_api":269952},"ja":{"score":0.9108333333333333,"input_tokens":228129,"answer_tokens":28246,"output_tokens":427094,"reasoning_tokens":398848,"total_input_tokens_api":230298,"total_answer_tokens_api":35395,"total_reasoning_tokens_api":398848},"ko":{"score":0.8700000000000001,"input_tokens":199401,"answer_tokens":29416,"output_tokens":394536,"reasoning_tokens":365120,"total_input_tokens_api":194251,"total_answer_tokens_api":36090,"total_reasoning_tokens_api":365120},"my":{"score":0.8633333333333333,"input_tokens":353547,"answer_tokens":32524,"output_tokens":625612,"reasoning_tokens":593088,"total_input_tokens_api":357138,"total_answer_tokens_api":39707,"total_reasoning_tokens_api":593088},"pt":{"score":0.9108333333333333,"input_tokens":178176,"answer_tokens":27480,"output_tokens":370904,"reasoning_tokens":343424,"total_input_tokens_api":180524,"total_answer_tokens_api":34529,"total_reasoning_tokens_api":343424},"sw":{"score":0.895,"input_tokens":208677,"answer_tokens":27178,"output_tokens":505066,"reasoning_tokens":477888,"total_input_tokens_api":209771,"total_answer_tokens_api":34306,"total_reasoning_tokens_api":477888},"yo":{"score":0.7975,"input_tokens":307062,"answer_tokens":43600,"output_tokens":1064656,"reasoning_tokens":1021056,"total_input_tokens_api":310662,"total_answer_tokens_api":50811,"total_reasoning_tokens_api":1021056},"zh":{"score":0.9091666666666667,"input_tokens":179793,"answer_tokens":26811,"output_tokens":341947,"reasoning_tokens":315136,"total_input_tokens_api":183393,"total_answer_tokens_api":34011,"total_reasoning_tokens_api":315136},"average":{"score":0.8969791666666667,"input_tokens":3383385,"answer_tokens":443451,"output_tokens":6530683,"reasoning_tokens":6087232,"total_input_tokens_api":3417085,"total_answer_tokens_api":557054,"total_reasoning_tokens_api":6087232}},"name":"GPT-5.1 Codex (high)","is_open_weights":false,"omniscience":-7.017,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.238,"num_correct":238,"omniscience":-8.2,"attempt_rate":0.579,"num_incorrect":320,"total_questions":1000,"num_not_attempted":126,"hallucination_rate":0.6852248394004282,"num_partial_answer":21}},"total":{"accuracy":0.23133333333333334,"num_correct":1388,"omniscience":-7.016666666666667,"attempt_rate":0.5478333333333333,"num_incorrect":1809,"total_questions":6000,"num_not_attempted":575,"hallucination_rate":0.7312045270816492,"num_partial_answer":90},"Health":{"total":{"accuracy":0.037,"num_correct":37,"omniscience":-2.8,"attempt_rate":0.104,"num_incorrect":65,"total_questions":1000,"num_not_attempted":11,"hallucination_rate":0.8333333333333334,"num_partial_answer":2}},"Business":{"total":{"accuracy":0.338,"num_correct":338,"omniscience":-10.1,"attempt_rate":0.797,"num_incorrect":439,"total_questions":1000,"num_not_attempted":203,"hallucination_rate":0.6631419939577039,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.07,"num_correct":7,"omniscience":4,"attempt_rate":0.1,"num_incorrect":3,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"R":{"total":{"accuracy":0,"num_correct":0,"omniscience":0,"attempt_rate":0,"num_incorrect":0,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-2,"attempt_rate":0.06,"num_incorrect":2,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0,"num_correct":0,"omniscience":0,"attempt_rate":0,"num_incorrect":0,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0,"num_correct":0,"omniscience":0,"attempt_rate":0,"num_incorrect":0,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":4,"attempt_rate":0.04,"num_incorrect":0,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0,"num_partial_answer":0}},"Java":{"total":{"accuracy":0,"num_correct":0,"omniscience":-6,"attempt_rate":0.06,"num_incorrect":6,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0,"num_correct":0,"omniscience":0,"attempt_rate":0,"num_incorrect":0,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-8,"attempt_rate":0.16,"num_incorrect":3,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.6,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0,"num_correct":0,"omniscience":0,"attempt_rate":0,"num_incorrect":0,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0,"num_partial_answer":0}},"total":{"accuracy":0.013,"num_correct":13,"omniscience":-1.2,"attempt_rate":0.039,"num_incorrect":25,"total_questions":1000,"num_not_attempted":3,"hallucination_rate":0.8620689655172413,"num_partial_answer":1},"Kotlin":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-6,"attempt_rate":0.12,"num_incorrect":4,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.005,"num_correct":1,"omniscience":-2.5,"attempt_rate":0.035,"num_incorrect":6,"total_questions":200,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0,"num_correct":0,"omniscience":-0.9090909090909091,"attempt_rate":0.00909090909090909,"num_incorrect":1,"total_questions":110,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0,"num_correct":0,"omniscience":0,"attempt_rate":0,"num_incorrect":0,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.384,"num_correct":384,"omniscience":-9.3,"attempt_rate":0.875,"num_incorrect":477,"total_questions":1000,"num_not_attempted":125,"hallucination_rate":0.7743506493506493,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.378,"num_correct":378,"omniscience":-10.5,"attempt_rate":0.893,"num_incorrect":483,"total_questions":1000,"num_not_attempted":107,"hallucination_rate":0.7765273311897106,"num_partial_answer":32}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-11-13","representative_query_token_counts":null,"scicode":0.402,"short_name":"GPT-5.1 Codex (high)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-1-codex","tau2":0.83,"terminalbench_hard":0.326,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"184c2d5a-dac8-45b4-8d04-37ae55a6584b","slug":"openai_gpt-5-1-codex","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"04d023f3-025c-4d78-9571-53edda3eaf2a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1-codex","function_calling":true,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5.1 Codex (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"37a183d9-2743-4277-8391-f5f788fdb401","slug":"azure_gpt-5-1-codex","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"04d023f3-025c-4d78-9571-53edda3eaf2a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1-codex","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_GPT-5.1 Codex (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-5-1-codex","hosts_url":"/models/gpt-5-1-codex/providers","name_and_creator_label":"GPT-5.1 Codex (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.917,"agentic_index":37.91,"coding_index":35,"commercial_allowed":null,"computed_performance_host_model_id":"d93e77b8-57e1-4557-bb51-1f54d2d3671e","context_window_tokens":400000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":98,"estimated_intelligence_index":37.6002219349891,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1005.6946517752926,"gpqa":0.813,"hle":0.169,"humaneval":null,"id":"fd4454ff-e703-46c0-a7f5-fa69af09486d","ifbench":0.679,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":38,"intelligence_index_token_counts":{"input_tokens":215235567,"answer_tokens":2392166,"output_tokens":100933793,"reasoning_tokens":98541627},"knowledge_cutoff_date":"2024-09-30","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.627,"license_name":null,"license_url":null,"livecodebench":0.836,"math_500":null,"math_index":91.67,"mmlu_pro":0.82,"mmmu_pro":0.69,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8566666666666668,"input_tokens":188556,"answer_tokens":35742,"output_tokens":682462,"reasoning_tokens":646720,"total_input_tokens_api":192156,"total_answer_tokens_api":42943,"total_reasoning_tokens_api":646720},"bn":{"score":0.8458333333333333,"input_tokens":225534,"answer_tokens":34762,"output_tokens":846922,"reasoning_tokens":812160,"total_input_tokens_api":229134,"total_answer_tokens_api":41968,"total_reasoning_tokens_api":812160},"de":{"score":0.8808333333333334,"input_tokens":191646,"answer_tokens":35115,"output_tokens":581419,"reasoning_tokens":546304,"total_input_tokens_api":193475,"total_answer_tokens_api":42002,"total_reasoning_tokens_api":546304},"en":{"score":0.9075000000000001,"input_tokens":159654,"answer_tokens":23943,"output_tokens":550535,"reasoning_tokens":526592,"total_input_tokens_api":161834,"total_answer_tokens_api":30838,"total_reasoning_tokens_api":526592},"es":{"score":0.8941666666666667,"input_tokens":182088,"answer_tokens":36895,"output_tokens":638303,"reasoning_tokens":601408,"total_input_tokens_api":184494,"total_answer_tokens_api":44044,"total_reasoning_tokens_api":601408},"fr":{"score":0.8833333333333333,"input_tokens":191346,"answer_tokens":33764,"output_tokens":649252,"reasoning_tokens":615488,"total_input_tokens_api":193869,"total_answer_tokens_api":40913,"total_reasoning_tokens_api":615488},"hi":{"score":0.8491666666666667,"input_tokens":209430,"answer_tokens":34890,"output_tokens":768586,"reasoning_tokens":733696,"total_input_tokens_api":213030,"total_answer_tokens_api":42099,"total_reasoning_tokens_api":733696},"id":{"score":0.8741666666666666,"input_tokens":181314,"answer_tokens":33684,"output_tokens":731412,"reasoning_tokens":697728,"total_input_tokens_api":183813,"total_answer_tokens_api":40832,"total_reasoning_tokens_api":697728},"it":{"score":0.8799999999999999,"input_tokens":199032,"answer_tokens":39078,"output_tokens":577574,"reasoning_tokens":538496,"total_input_tokens_api":200915,"total_answer_tokens_api":46033,"total_reasoning_tokens_api":538496},"ja":{"score":0.86,"input_tokens":228129,"answer_tokens":37925,"output_tokens":811685,"reasoning_tokens":773760,"total_input_tokens_api":230298,"total_answer_tokens_api":45078,"total_reasoning_tokens_api":773760},"ko":{"score":0.8325,"input_tokens":199401,"answer_tokens":34814,"output_tokens":759422,"reasoning_tokens":724608,"total_input_tokens_api":192906,"total_answer_tokens_api":41108,"total_reasoning_tokens_api":724608},"my":{"score":0.7783333333333333,"input_tokens":353547,"answer_tokens":43924,"output_tokens":1447892,"reasoning_tokens":1403968,"total_input_tokens_api":357138,"total_answer_tokens_api":51109,"total_reasoning_tokens_api":1403968},"pt":{"score":0.8891666666666667,"input_tokens":178176,"answer_tokens":36636,"output_tokens":693660,"reasoning_tokens":657024,"total_input_tokens_api":180627,"total_answer_tokens_api":43785,"total_reasoning_tokens_api":657024},"sw":{"score":0.8008333333333333,"input_tokens":208677,"answer_tokens":30039,"output_tokens":1056535,"reasoning_tokens":1026496,"total_input_tokens_api":209921,"total_answer_tokens_api":37174,"total_reasoning_tokens_api":1026496},"yo":{"score":0.6991666666666667,"input_tokens":307062,"answer_tokens":67225,"output_tokens":2947225,"reasoning_tokens":2880000,"total_input_tokens_api":310662,"total_answer_tokens_api":74433,"total_reasoning_tokens_api":2880000},"zh":{"score":0.8716666666666667,"input_tokens":179793,"answer_tokens":28119,"output_tokens":626327,"reasoning_tokens":598208,"total_input_tokens_api":183393,"total_answer_tokens_api":35321,"total_reasoning_tokens_api":598208},"average":{"score":0.8502083333333333,"input_tokens":3383385,"answer_tokens":586555,"output_tokens":14369211,"reasoning_tokens":13782656,"total_input_tokens_api":3417665,"total_answer_tokens_api":699680,"total_reasoning_tokens_api":13782656}},"name":"GPT-5.1 Codex mini (high)","is_open_weights":false,"omniscience":-18.283,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.108,"num_correct":108,"omniscience":-21.7,"attempt_rate":0.442,"num_incorrect":325,"total_questions":1000,"num_not_attempted":558,"hallucination_rate":0.36434977578475336,"num_partial_answer":9}},"total":{"accuracy":0.21733333333333332,"num_correct":1304,"omniscience":-18.283333333333335,"attempt_rate":0.6386666666666667,"num_incorrect":2401,"total_questions":6000,"num_not_attempted":2168,"hallucination_rate":0.5112862010221465,"num_partial_answer":127},"Health":{"total":{"accuracy":0.238,"num_correct":238,"omniscience":-26.6,"attempt_rate":0.765,"num_incorrect":504,"total_questions":1000,"num_not_attempted":235,"hallucination_rate":0.6614173228346457,"num_partial_answer":23}},"Business":{"total":{"accuracy":0.172,"num_correct":172,"omniscience":-15.2,"attempt_rate":0.516,"num_incorrect":324,"total_questions":1000,"num_not_attempted":484,"hallucination_rate":0.391304347826087,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.43,"num_correct":43,"omniscience":-6,"attempt_rate":0.92,"num_incorrect":49,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.8596491228070176,"num_partial_answer":0}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-44,"attempt_rate":0.68,"num_incorrect":28,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.6363636363636364,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-24,"attempt_rate":0.66,"num_incorrect":22,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.55,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-18,"attempt_rate":0.78,"num_incorrect":24,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.6857142857142857,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-46,"attempt_rate":0.88,"num_incorrect":33,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.825,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":2,"attempt_rate":0.9,"num_incorrect":21,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.75,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-29,"attempt_rate":0.74,"num_incorrect":50,"total_questions":100,"num_not_attempted":26,"hallucination_rate":0.6329113924050633,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":28,"attempt_rate":0.94,"num_incorrect":13,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.5652173913043478,"num_partial_answer":7}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-32,"attempt_rate":0.6,"num_incorrect":11,"total_questions":25,"num_not_attempted":10,"hallucination_rate":0.5,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":-4,"attempt_rate":0.96,"num_incorrect":12,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8571428571428571,"num_partial_answer":1}},"total":{"accuracy":0.286,"num_correct":286,"omniscience":-19,"attempt_rate":0.787,"num_incorrect":476,"total_questions":1000,"num_not_attempted":213,"hallucination_rate":0.6666666666666666,"num_partial_answer":25},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-30,"attempt_rate":0.7,"num_incorrect":25,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.625,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.21,"num_correct":42,"omniscience":-24,"attempt_rate":0.67,"num_incorrect":90,"total_questions":200,"num_not_attempted":66,"hallucination_rate":0.569620253164557,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.38181818181818183,"num_correct":42,"omniscience":-10.909090909090908,"attempt_rate":0.9181818181818182,"num_incorrect":54,"total_questions":110,"num_not_attempted":9,"hallucination_rate":0.7941176470588235,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.26666666666666666,"num_correct":24,"omniscience":-22.22222222222222,"attempt_rate":0.7777777777777778,"num_incorrect":44,"total_questions":90,"num_not_attempted":20,"hallucination_rate":0.6666666666666666,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.206,"num_correct":206,"omniscience":-17.2,"attempt_rate":0.592,"num_incorrect":378,"total_questions":1000,"num_not_attempted":408,"hallucination_rate":0.4760705289672544,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.294,"num_correct":294,"omniscience":-10,"attempt_rate":0.73,"num_incorrect":394,"total_questions":1000,"num_not_attempted":270,"hallucination_rate":0.5580736543909348,"num_partial_answer":42}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-11-13","representative_query_token_counts":null,"scicode":0.426,"short_name":"GPT-5.1 Codex mini (high)","show_host_model_evals":false,"size_class":"Medium","slug":"gpt-5-1-codex-mini","tau2":0.629,"terminalbench_hard":0.312,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"d93e77b8-57e1-4557-bb51-1f54d2d3671e","slug":"openai_gpt-5-1-codex-mini","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"fd4454ff-e703-46c0-a7f5-fa69af09486d","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1-codex-mini","function_calling":true,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5.1 Codex mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c0e5c7f7-3057-43e0-9e86-06f8a2bdb7e6","slug":"azure_gpt-5-1-codex-mini","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"fd4454ff-e703-46c0-a7f5-fa69af09486d","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.1-codex-mini","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_GPT-5.1 Codex mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.6875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.45,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-5-1-codex-mini","hosts_url":"/models/gpt-5-1-codex-mini/providers","name_and_creator_label":"GPT-5.1 Codex mini (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.51,"agentic_index":39.1,"coding_index":33.32,"commercial_allowed":null,"computed_performance_host_model_id":"e90e0e03-2bf7-4481-a2eb-d5c47e5d4e5a","context_window_tokens":400000,"critpt":0.006,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":3,"estimated_intelligence_index":25.75399994986064,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1206.9244336974236,"gpqa":0.712,"hle":0.073,"humaneval":null,"id":"6dd8ba55-5680-44a9-b309-82928165d5f0","ifbench":0.474,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":33.08,"intelligence_index_token_counts":{"input_tokens":97219005,"answer_tokens":3715146,"output_tokens":3715146,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-08-31","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.38,"license_name":null,"license_url":null,"livecodebench":0.669,"math_500":null,"math_index":51,"mmlu_pro":0.814,"mmmu_pro":0.658,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8741666666666666,"input_tokens":188556,"answer_tokens":86013,"output_tokens":86013,"reasoning_tokens":0,"total_input_tokens_api":192156,"total_answer_tokens_api":90812,"total_reasoning_tokens_api":0},"bn":{"score":0.8558333333333333,"input_tokens":225534,"answer_tokens":107680,"output_tokens":107680,"reasoning_tokens":0,"total_input_tokens_api":229134,"total_answer_tokens_api":112482,"total_reasoning_tokens_api":0},"de":{"score":0.8866666666666667,"input_tokens":190101,"answer_tokens":81001,"output_tokens":81001,"reasoning_tokens":0,"total_input_tokens_api":193683,"total_answer_tokens_api":85778,"total_reasoning_tokens_api":0},"en":{"score":0.9183333333333333,"input_tokens":158412,"answer_tokens":64338,"output_tokens":64338,"reasoning_tokens":0,"total_input_tokens_api":161994,"total_answer_tokens_api":69115,"total_reasoning_tokens_api":0},"es":{"score":0.8991666666666666,"input_tokens":180594,"answer_tokens":76280,"output_tokens":76280,"reasoning_tokens":0,"total_input_tokens_api":184176,"total_answer_tokens_api":81056,"total_reasoning_tokens_api":0},"fr":{"score":0.8991666666666666,"input_tokens":190278,"answer_tokens":82046,"output_tokens":82046,"reasoning_tokens":0,"total_input_tokens_api":193869,"total_answer_tokens_api":86834,"total_reasoning_tokens_api":0},"hi":{"score":0.8741666666666666,"input_tokens":209430,"answer_tokens":99534,"output_tokens":99534,"reasoning_tokens":0,"total_input_tokens_api":213030,"total_answer_tokens_api":104336,"total_reasoning_tokens_api":0},"id":{"score":0.8791666666666668,"input_tokens":180222,"answer_tokens":82313,"output_tokens":82313,"reasoning_tokens":0,"total_input_tokens_api":183813,"total_answer_tokens_api":87103,"total_reasoning_tokens_api":0},"it":{"score":0.9016666666666667,"input_tokens":197619,"answer_tokens":86606,"output_tokens":86606,"reasoning_tokens":0,"total_input_tokens_api":201210,"total_answer_tokens_api":91394,"total_reasoning_tokens_api":0},"ja":{"score":0.8874999999999998,"input_tokens":226707,"answer_tokens":113167,"output_tokens":113167,"reasoning_tokens":0,"total_input_tokens_api":230298,"total_answer_tokens_api":117957,"total_reasoning_tokens_api":0},"ko":{"score":0.84,"input_tokens":188372,"answer_tokens":98832,"output_tokens":98832,"reasoning_tokens":0,"total_input_tokens_api":191852,"total_answer_tokens_api":103472,"total_reasoning_tokens_api":0},"my":{"score":0.8333333333333334,"input_tokens":353547,"answer_tokens":159296,"output_tokens":159296,"reasoning_tokens":0,"total_input_tokens_api":357138,"total_answer_tokens_api":164085,"total_reasoning_tokens_api":0},"pt":{"score":0.9025,"input_tokens":176936,"answer_tokens":78508,"output_tokens":78508,"reasoning_tokens":0,"total_input_tokens_api":180524,"total_answer_tokens_api":83292,"total_reasoning_tokens_api":0},"sw":{"score":0.8391666666666667,"input_tokens":206694,"answer_tokens":93862,"output_tokens":93862,"reasoning_tokens":0,"total_input_tokens_api":210285,"total_answer_tokens_api":98655,"total_reasoning_tokens_api":0},"yo":{"score":0.7216666666666667,"input_tokens":307062,"answer_tokens":126130,"output_tokens":126130,"reasoning_tokens":0,"total_input_tokens_api":310662,"total_answer_tokens_api":130938,"total_reasoning_tokens_api":0},"zh":{"score":0.8758333333333334,"input_tokens":179793,"answer_tokens":96086,"output_tokens":96086,"reasoning_tokens":0,"total_input_tokens_api":183393,"total_answer_tokens_api":100892,"total_reasoning_tokens_api":0},"average":{"score":0.8680208333333332,"input_tokens":3359857,"answer_tokens":1531692,"output_tokens":1531692,"reasoning_tokens":0,"total_input_tokens_api":3417217,"total_answer_tokens_api":1608201,"total_reasoning_tokens_api":0}},"name":"GPT-5.2 (Non-reasoning)","is_open_weights":false,"omniscience":-15.4,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.2,"num_correct":200,"omniscience":-18.1,"attempt_rate":0.616,"num_incorrect":381,"total_questions":1000,"num_not_attempted":384,"hallucination_rate":0.47625,"num_partial_answer":35}},"total":{"accuracy":0.2795,"num_correct":1677,"omniscience":-15.4,"attempt_rate":0.7533333333333333,"num_incorrect":2601,"total_questions":6000,"num_not_attempted":1480,"hallucination_rate":0.6016655100624566,"num_partial_answer":242},"Health":{"total":{"accuracy":0.268,"num_correct":268,"omniscience":-27.7,"attempt_rate":0.863,"num_incorrect":545,"total_questions":1000,"num_not_attempted":137,"hallucination_rate":0.744535519125683,"num_partial_answer":50}},"Business":{"total":{"accuracy":0.21,"num_correct":210,"omniscience":-12.9,"attempt_rate":0.586,"num_incorrect":339,"total_questions":1000,"num_not_attempted":414,"hallucination_rate":0.4291139240506329,"num_partial_answer":37}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.49,"num_correct":49,"omniscience":11,"attempt_rate":0.91,"num_incorrect":38,"total_questions":100,"num_not_attempted":9,"hallucination_rate":0.7450980392156863,"num_partial_answer":4}},"R":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":2,"attempt_rate":0.8,"num_incorrect":19,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.6333333333333333,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":16,"attempt_rate":0.76,"num_incorrect":14,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.5,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-2,"attempt_rate":0.9,"num_incorrect":22,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7586206896551724,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-4,"attempt_rate":0.76,"num_incorrect":19,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.5757575757575758,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":14,"attempt_rate":0.98,"num_incorrect":19,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.7916666666666666,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-30,"attempt_rate":0.86,"num_incorrect":55,"total_questions":100,"num_not_attempted":14,"hallucination_rate":0.7333333333333333,"num_partial_answer":6}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":36,"attempt_rate":0.94,"num_incorrect":12,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.6,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-4,"attempt_rate":0.84,"num_incorrect":11,"total_questions":25,"num_not_attempted":4,"hallucination_rate":0.7333333333333333,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":12,"attempt_rate":0.88,"num_incorrect":8,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.5714285714285714,"num_partial_answer":3}},"total":{"accuracy":0.44,"num_correct":440,"omniscience":4.7,"attempt_rate":0.881,"num_incorrect":393,"total_questions":1000,"num_not_attempted":119,"hallucination_rate":0.7017857142857142,"num_partial_answer":48},"Kotlin":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":16,"attempt_rate":0.88,"num_incorrect":16,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.6153846153846154,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.43,"num_correct":86,"omniscience":3,"attempt_rate":0.865,"num_incorrect":80,"total_questions":200,"num_not_attempted":27,"hallucination_rate":0.7017543859649122,"num_partial_answer":7}},"JavaScript":{"total":{"accuracy":0.4727272727272727,"num_correct":52,"omniscience":0.9090909090909091,"attempt_rate":0.9727272727272728,"num_incorrect":51,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.8793103448275862,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.5222222222222223,"num_correct":47,"omniscience":20,"attempt_rate":0.8888888888888888,"num_incorrect":29,"total_questions":90,"num_not_attempted":10,"hallucination_rate":0.6744186046511628,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.263,"num_correct":263,"omniscience":-17.9,"attempt_rate":0.726,"num_incorrect":442,"total_questions":1000,"num_not_attempted":274,"hallucination_rate":0.5997286295793759,"num_partial_answer":21}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.296,"num_correct":296,"omniscience":-20.5,"attempt_rate":0.848,"num_incorrect":501,"total_questions":1000,"num_not_attempted":152,"hallucination_rate":0.7116477272727273,"num_partial_answer":51}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-11","representative_query_token_counts":null,"scicode":0.404,"short_name":"GPT-5.2","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-2-non-reasoning","tau2":0.465,"terminalbench_hard":0.298,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"e90e0e03-2bf7-4481-a2eb-d5c47e5d4e5a","slug":"openai_gpt-5-2-non-reasoning","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"6dd8ba55-5680-44a9-b309-82928165d5f0","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.2-2025-12-11","function_calling":true,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.75,"price_1m_output_tokens":14,"price_1m_blended_3_to_1":4.8125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"98a19a41-11bd-4864-a49d-f5ecb3a8519c","slug":"azure_gpt-5-2-non-reasoning","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"6dd8ba55-5680-44a9-b309-82928165d5f0","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.2","function_calling":null,"cache_write_price":null,"host_model_string":"Microsoft Azure_GPT-5.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.75,"price_1m_output_tokens":14,"price_1m_blended_3_to_1":4.8125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9ca56a18-8b92-4cac-abf7-ec3f26613601","slug":"openai_gpt-5-2-non-reasoning-2","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"6dd8ba55-5680-44a9-b309-82928165d5f0","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.2-2025-12-11","function_calling":true,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.75,"price_1m_output_tokens":14,"price_1m_blended_3_to_1":4.8125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.21,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-5-2-non-reasoning","hosts_url":"/models/gpt-5-2-non-reasoning/providers","name_and_creator_label":"GPT-5.2, OpenAI"},{"additional_text":null,"aime":null,"aime25":0.967,"agentic_index":51.77,"coding_index":42.34,"commercial_allowed":null,"computed_performance_host_model_id":"57b28dee-4e33-4bad-9947-370e12569f6a","context_window_tokens":400000,"critpt":0.079,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":8,"estimated_intelligence_index":null,"model_family_slug":"gpt-5","frontier_model":false,"gdpval":1309.3627373022769,"gpqa":0.864,"hle":0.249,"humaneval":null,"id":"84e3f11e-d659-4941-8988-1dbfabbaf538","ifbench":0.652,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":45.33,"intelligence_index_token_counts":{"input_tokens":202413181,"answer_tokens":4291761,"output_tokens":22399986,"reasoning_tokens":18108225},"knowledge_cutoff_date":"2025-08-31","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.633,"license_name":null,"license_url":null,"livecodebench":0.894,"math_500":null,"math_index":96.67,"mmlu_pro":0.859,"mmmu_pro":0.746,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8983333333333334,"input_tokens":188556,"answer_tokens":88674,"output_tokens":210478,"reasoning_tokens":121804,"total_input_tokens_api":192156,"total_answer_tokens_api":95700,"total_reasoning_tokens_api":121804},"bn":{"score":0.9091666666666667,"input_tokens":225534,"answer_tokens":111962,"output_tokens":243374,"reasoning_tokens":131412,"total_input_tokens_api":229134,"total_answer_tokens_api":119029,"total_reasoning_tokens_api":131412},"de":{"score":0.915,"input_tokens":190347,"answer_tokens":86962,"output_tokens":185280,"reasoning_tokens":98318,"total_input_tokens_api":193833,"total_answer_tokens_api":93765,"total_reasoning_tokens_api":98318},"en":{"score":0.9199999999999999,"input_tokens":158566,"answer_tokens":70059,"output_tokens":151434,"reasoning_tokens":81375,"total_input_tokens_api":161508,"total_answer_tokens_api":76410,"total_reasoning_tokens_api":81375},"es":{"score":0.9208333333333334,"input_tokens":180903,"answer_tokens":81218,"output_tokens":177025,"reasoning_tokens":95807,"total_input_tokens_api":183888,"total_answer_tokens_api":87841,"total_reasoning_tokens_api":95807},"fr":{"score":0.9216666666666665,"input_tokens":191346,"answer_tokens":88092,"output_tokens":193929,"reasoning_tokens":105837,"total_input_tokens_api":194750,"total_answer_tokens_api":94817,"total_reasoning_tokens_api":105837},"hi":{"score":0.895,"input_tokens":209430,"answer_tokens":102163,"output_tokens":233615,"reasoning_tokens":131452,"total_input_tokens_api":213030,"total_answer_tokens_api":109231,"total_reasoning_tokens_api":131452},"id":{"score":0.9058333333333333,"input_tokens":180586,"answer_tokens":88519,"output_tokens":193897,"reasoning_tokens":105378,"total_input_tokens_api":184098,"total_answer_tokens_api":95320,"total_reasoning_tokens_api":105378},"it":{"score":0.9258333333333333,"input_tokens":198561,"answer_tokens":90866,"output_tokens":187928,"reasoning_tokens":97062,"total_input_tokens_api":201873,"total_answer_tokens_api":97623,"total_reasoning_tokens_api":97062},"ja":{"score":0.9075000000000001,"input_tokens":226707,"answer_tokens":117894,"output_tokens":244850,"reasoning_tokens":126956,"total_input_tokens_api":230298,"total_answer_tokens_api":124834,"total_reasoning_tokens_api":126956},"ko":{"score":0.8791666666666668,"input_tokens":196518,"answer_tokens":105908,"output_tokens":228071,"reasoning_tokens":122163,"total_input_tokens_api":198544,"total_answer_tokens_api":112716,"total_reasoning_tokens_api":122163},"my":{"score":0.8791666666666668,"input_tokens":353547,"answer_tokens":167904,"output_tokens":331123,"reasoning_tokens":163219,"total_input_tokens_api":357138,"total_answer_tokens_api":175023,"total_reasoning_tokens_api":163219},"pt":{"score":0.9108333333333333,"input_tokens":177416,"answer_tokens":82940,"output_tokens":184355,"reasoning_tokens":101415,"total_input_tokens_api":180907,"total_answer_tokens_api":89710,"total_reasoning_tokens_api":101415},"sw":{"score":0.8791666666666668,"input_tokens":208677,"answer_tokens":97115,"output_tokens":245632,"reasoning_tokens":148517,"total_input_tokens_api":212277,"total_answer_tokens_api":104232,"total_reasoning_tokens_api":148517},"yo":{"score":0.7808333333333334,"input_tokens":307062,"answer_tokens":128628,"output_tokens":357188,"reasoning_tokens":228560,"total_input_tokens_api":310371,"total_answer_tokens_api":135719,"total_reasoning_tokens_api":228560},"zh":{"score":0.9125,"input_tokens":179793,"answer_tokens":98400,"output_tokens":214791,"reasoning_tokens":116391,"total_input_tokens_api":183290,"total_answer_tokens_api":105367,"total_reasoning_tokens_api":116391},"average":{"score":0.8975520833333334,"input_tokens":3373549,"answer_tokens":1607304,"output_tokens":3582970,"reasoning_tokens":1975666,"total_input_tokens_api":3427095,"total_answer_tokens_api":1717337,"total_reasoning_tokens_api":1975666}},"name":"GPT-5.2 (medium)","is_open_weights":false,"omniscience":-2.7,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.271,"num_correct":271,"omniscience":-6.2,"attempt_rate":0.627,"num_incorrect":333,"total_questions":1000,"num_not_attempted":373,"hallucination_rate":0.4567901234567901,"num_partial_answer":23}},"total":{"accuracy":0.35533333333333333,"num_correct":2132,"omniscience":-2.7,"attempt_rate":0.7755,"num_incorrect":2294,"total_questions":6000,"num_not_attempted":1347,"hallucination_rate":0.5930713547052741,"num_partial_answer":227},"Health":{"total":{"accuracy":0.351,"num_correct":351,"omniscience":-12.4,"attempt_rate":0.879,"num_incorrect":475,"total_questions":1000,"num_not_attempted":121,"hallucination_rate":0.7318952234206472,"num_partial_answer":53}},"Business":{"total":{"accuracy":0.254,"num_correct":254,"omniscience":-8.1,"attempt_rate":0.621,"num_incorrect":335,"total_questions":1000,"num_not_attempted":379,"hallucination_rate":0.44906166219839144,"num_partial_answer":32}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.63,"num_correct":63,"omniscience":34,"attempt_rate":0.99,"num_incorrect":29,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.7837837837837838,"num_partial_answer":7}},"R":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-8,"attempt_rate":0.84,"num_incorrect":22,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.6875,"num_partial_answer":2}},"Go":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":24,"attempt_rate":0.76,"num_incorrect":10,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.35714285714285715,"num_partial_answer":6}},"PHP":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":18,"attempt_rate":0.94,"num_incorrect":18,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.782608695652174,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-6,"attempt_rate":0.92,"num_incorrect":22,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.7096774193548387,"num_partial_answer":5}},"HTML":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":14,"attempt_rate":0.94,"num_incorrect":19,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7916666666666666,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.35,"num_correct":35,"omniscience":-21,"attempt_rate":0.92,"num_incorrect":56,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.8615384615384616,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.76,"num_correct":38,"omniscience":58,"attempt_rate":1,"num_incorrect":9,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.75,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":24,"attempt_rate":0.8,"num_incorrect":7,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.5833333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.6,"num_correct":15,"omniscience":28,"attempt_rate":1,"num_incorrect":8,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8,"num_partial_answer":2}},"total":{"accuracy":0.514,"num_correct":514,"omniscience":15.7,"attempt_rate":0.92,"num_incorrect":357,"total_questions":1000,"num_not_attempted":80,"hallucination_rate":0.7345679012345679,"num_partial_answer":49},"Kotlin":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":28,"attempt_rate":0.88,"num_incorrect":13,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.5652173913043478,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.495,"num_correct":99,"omniscience":13,"attempt_rate":0.885,"num_incorrect":73,"total_questions":200,"num_not_attempted":23,"hallucination_rate":0.7227722772277227,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.5272727272727272,"num_correct":58,"omniscience":14.545454545454545,"attempt_rate":0.9727272727272728,"num_incorrect":42,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.8076923076923077,"num_partial_answer":7}},"TypeScript":{"total":{"accuracy":0.6,"num_correct":54,"omniscience":27.77777777777778,"attempt_rate":0.9555555555555556,"num_incorrect":29,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.8055555555555556,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.351,"num_correct":351,"omniscience":-2.2,"attempt_rate":0.746,"num_incorrect":373,"total_questions":1000,"num_not_attempted":254,"hallucination_rate":0.5747303543913713,"num_partial_answer":22}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.391,"num_correct":391,"omniscience":-3,"attempt_rate":0.86,"num_incorrect":421,"total_questions":1000,"num_not_attempted":140,"hallucination_rate":0.6912972085385879,"num_partial_answer":48}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-12-11","representative_query_token_counts":null,"scicode":0.462,"short_name":"GPT-5.2 (medium)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-2-medium","tau2":0.743,"terminalbench_hard":0.404,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"04766502-9788-4352-a50c-735a8ead5cea","slug":"openai_gpt-5-2-medium","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"84e3f11e-d659-4941-8988-1dbfabbaf538","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.2-2025-12-11","function_calling":true,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5.2 (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.75,"price_1m_output_tokens":14,"price_1m_blended_3_to_1":4.8125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.21,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-5-2-medium","hosts_url":"/models/gpt-5-2-medium/providers","name_and_creator_label":"GPT-5.2 (medium), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.99,"agentic_index":59.28,"coding_index":46.68,"commercial_allowed":null,"computed_performance_host_model_id":"57b28dee-4e33-4bad-9947-370e12569f6a","context_window_tokens":400000,"critpt":0.116,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":5,"estimated_intelligence_index":49.426659909563,"model_family_slug":"gpt-5","frontier_model":true,"gdpval":1430.074222508706,"gpqa":0.903,"hle":0.354,"humaneval":null,"id":"498862c3-f9ac-49d2-852f-16a02bb0c38f","ifbench":0.754,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":50.51,"intelligence_index_token_counts":{"input_tokens":287104731,"answer_tokens":4605857,"output_tokens":130003213,"reasoning_tokens":125397356},"knowledge_cutoff_date":"2025-08-31","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.727,"license_name":null,"license_url":null,"livecodebench":0.889,"math_500":null,"math_index":99,"mmlu_pro":0.874,"mmmu_pro":null,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-5.2 (xhigh)","is_open_weights":false,"omniscience":-4.317,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.366,"num_correct":366,"omniscience":-8.6,"attempt_rate":0.845,"num_incorrect":452,"total_questions":1000,"num_not_attempted":155,"hallucination_rate":0.7129337539432177,"num_partial_answer":27}},"total":{"accuracy":0.4135,"num_correct":2481,"omniscience":-4.316666666666666,"attempt_rate":0.9081666666666667,"num_incorrect":2740,"total_questions":6000,"num_not_attempted":551,"hallucination_rate":0.7786302926967889,"num_partial_answer":228},"Health":{"total":{"accuracy":0.399,"num_correct":399,"omniscience":-10.6,"attempt_rate":0.963,"num_incorrect":505,"total_questions":1000,"num_not_attempted":37,"hallucination_rate":0.8402662229617305,"num_partial_answer":59}},"Business":{"total":{"accuracy":0.324,"num_correct":324,"omniscience":-12.9,"attempt_rate":0.804,"num_incorrect":453,"total_questions":1000,"num_not_attempted":196,"hallucination_rate":0.6701183431952663,"num_partial_answer":27}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.63,"num_correct":63,"omniscience":29,"attempt_rate":1,"num_incorrect":34,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.918918918918919,"num_partial_answer":3}},"R":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":24,"attempt_rate":0.96,"num_incorrect":18,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":30,"attempt_rate":0.96,"num_incorrect":15,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.75,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":24,"attempt_rate":1,"num_incorrect":18,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":0.98,"num_incorrect":21,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.84,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.64,"num_correct":32,"omniscience":32,"attempt_rate":1,"num_incorrect":16,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8888888888888888,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.42,"num_correct":42,"omniscience":-9,"attempt_rate":0.98,"num_incorrect":51,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.8793103448275862,"num_partial_answer":5}},"Rust":{"total":{"accuracy":0.7,"num_correct":35,"omniscience":48,"attempt_rate":1,"num_incorrect":11,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7333333333333333,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":0,"attempt_rate":1,"num_incorrect":12,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.68,"num_correct":17,"omniscience":44,"attempt_rate":1,"num_incorrect":6,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.75,"num_partial_answer":2}},"total":{"accuracy":0.597,"num_correct":597,"omniscience":25.2,"attempt_rate":0.984,"num_incorrect":345,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.8560794044665012,"num_partial_answer":42},"Kotlin":{"total":{"accuracy":0.68,"num_correct":34,"omniscience":42,"attempt_rate":0.96,"num_incorrect":13,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8125,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.615,"num_correct":123,"omniscience":28.5,"attempt_rate":0.975,"num_incorrect":66,"total_questions":200,"num_not_attempted":5,"hallucination_rate":0.8571428571428571,"num_partial_answer":6}},"JavaScript":{"total":{"accuracy":0.6272727272727273,"num_correct":69,"omniscience":29.09090909090909,"attempt_rate":0.990909090909091,"num_incorrect":37,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9024390243902439,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.6111111111111112,"num_correct":55,"omniscience":31.11111111111111,"attempt_rate":0.9888888888888889,"num_incorrect":27,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.7714285714285715,"num_partial_answer":7}}},"Humanities & Social Sciences":{"total":{"accuracy":0.384,"num_correct":384,"omniscience":-13.8,"attempt_rate":0.925,"num_incorrect":522,"total_questions":1000,"num_not_attempted":75,"hallucination_rate":0.8474025974025974,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.411,"num_correct":411,"omniscience":-5.2,"attempt_rate":0.928,"num_incorrect":463,"total_questions":1000,"num_not_attempted":72,"hallucination_rate":0.7860780984719864,"num_partial_answer":54}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata","pass_back_reasoning":"after_last_msg"},"release_date":"2025-12-11","representative_query_token_counts":null,"scicode":0.521,"short_name":"GPT-5.2 (xhigh)","show_host_model_evals":false,"size_class":"Large","slug":"gpt-5-2","tau2":0.848,"terminalbench_hard":0.44,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"57b28dee-4e33-4bad-9947-370e12569f6a","slug":"openai_gpt-5-2","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"498862c3-f9ac-49d2-852f-16a02bb0c38f","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.2-2025-12-11","function_calling":null,"cache_write_price":null,"host_model_string":"OpenAI_GPT-5.2 (xhigh)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.75,"price_1m_output_tokens":14,"price_1m_blended_3_to_1":4.8125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"eb1f0f48-7adc-4ce2-b8a3-beaf8ba8b918","slug":"azure_gpt-5-2","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"498862c3-f9ac-49d2-852f-16a02bb0c38f","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-5.2","function_calling":null,"cache_write_price":null,"host_model_string":"Microsoft Azure_GPT-5.2 (xhigh)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.75,"price_1m_output_tokens":14,"price_1m_blended_3_to_1":4.8125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"6588ce94-e7b6-4cb2-a439-4ecfcd1f0fd5","slug":"databricks_gpt-5-2","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"498862c3-f9ac-49d2-852f-16a02bb0c38f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-5-2","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_GPT-5.2 (xhigh)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-5-2","hosts_url":"/models/gpt-5-2/providers","name_and_creator_label":"GPT-5.2 (xhigh), OpenAI"},{"additional_text":null,"aime":0.563,"aime25":0.363,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":"269bb4c2-6411-4761-b348-6b74dfa10b72","context_window_tokens":200000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"claude-4-1-opus","display_order":1253,"estimated_intelligence_index":22.171205776538883,"model_family_slug":"claude-4","frontier_model":null,"gdpval":null,"gpqa":0.701,"hle":0.059,"humaneval":0.97,"id":"504412c2-2ada-499b-aebf-7e0a35c9d286","ifbench":0.433,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2025-03-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.36,"license_name":null,"license_url":null,"livecodebench":0.542,"math_500":0.941,"math_index":36.33,"mmlu_pro":0.86,"mmmu_pro":null,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 4 Opus (Non-reasoning)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-05-22","representative_query_token_counts":null,"scicode":0.409,"short_name":"Claude 4 Opus","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-opus","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"8ad5e97c-ccd1-4983-8a45-e1769be1e39d","slug":"google_claude-4-opus_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"504412c2-2ada-499b-aebf-7e0a35c9d286","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4","function_calling":true,"cache_write_price":18.75,"host_model_string":"Google_Claude 4 Opus (Non-reasoning)_Vertex","cache_pricing_notes":"1h cache write: $30","model_name_appendage":"Vertex","price_1m_input_tokens":15,"price_1m_output_tokens":75,"price_1m_blended_3_to_1":30,"price_per_1k_1mp_images":20.01,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.03,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"269bb4c2-6411-4761-b348-6b74dfa10b72","slug":"anthropic_claude-4-opus","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"504412c2-2ada-499b-aebf-7e0a35c9d286","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4-20250514","function_calling":true,"cache_write_price":18.75,"host_model_string":"Anthropic_Claude 4 Opus (Non-reasoning)","cache_pricing_notes":"1h cache write: $30","model_name_appendage":null,"price_1m_input_tokens":15,"price_1m_output_tokens":75,"price_1m_blended_3_to_1":30,"price_per_1k_1mp_images":20.01,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.03,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"56ddd20c-2602-4643-8f3d-151b95da9574","slug":"amazon-bedrock_claude-4-opus","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"504412c2-2ada-499b-aebf-7e0a35c9d286","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-opus-4-20250514-v1:0","function_calling":true,"cache_write_price":18.75,"host_model_string":"Amazon Bedrock_Claude 4 Opus (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":15,"price_1m_output_tokens":75,"price_1m_blended_3_to_1":30,"price_per_1k_1mp_images":20.01,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.03,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-4-opus","hosts_url":"/models/claude-4-opus/providers","name_and_creator_label":"Claude 4 Opus, Anthropic"},{"additional_text":null,"aime":0.757,"aime25":0.733,"agentic_index":null,"coding_index":32.66,"commercial_allowed":null,"computed_performance_host_model_id":"c08a3ec7-3807-4071-9775-f8537f2a0903","context_window_tokens":200000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"claude-4-1-opus-thinking","display_order":1260,"estimated_intelligence_index":27.361794173399694,"model_family_slug":"claude-4","frontier_model":null,"gdpval":null,"gpqa":0.796,"hle":0.117,"humaneval":null,"id":"8a4a5ead-7789-4389-8400-30e9d20370b7","ifbench":0.537,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2025-03-01","lab_claimed_aime":null,"lab_claimed_gpqa":0.796,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.337,"license_name":null,"license_url":null,"livecodebench":0.636,"math_500":0.982,"math_index":73.33,"mmlu_pro":0.873,"mmmu_pro":null,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 4 Opus (Reasoning)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","varied_reasoning":true},"release_date":"2025-05-22","representative_query_token_counts":null,"scicode":0.398,"short_name":"Claude 4 Opus","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-opus-thinking","tau2":0.705,"terminalbench_hard":0.291,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"397d9e7a-4c99-43cd-8f78-5d19d13a5cc7","slug":"google_claude-4-opus-thinking_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"8a4a5ead-7789-4389-8400-30e9d20370b7","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4","function_calling":true,"cache_write_price":18.75,"host_model_string":"Google_Claude 4 Opus (Reasoning)_Vertex","cache_pricing_notes":"1h cache write: $30","model_name_appendage":"Vertex","price_1m_input_tokens":15,"price_1m_output_tokens":75,"price_1m_blended_3_to_1":30,"price_per_1k_1mp_images":20.01,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.03,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"c08a3ec7-3807-4071-9775-f8537f2a0903","slug":"anthropic_claude-4-opus-thinking","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"8a4a5ead-7789-4389-8400-30e9d20370b7","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4-20250514","function_calling":true,"cache_write_price":18.75,"host_model_string":"Anthropic_Claude 4 Opus (Reasoning)","cache_pricing_notes":"1h cache write: $30.0","model_name_appendage":null,"price_1m_input_tokens":15,"price_1m_output_tokens":75,"price_1m_blended_3_to_1":30,"price_per_1k_1mp_images":20.01,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.03,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"4bf5f5dd-3560-488a-8f4c-7c838e588c7d","slug":"amazon-bedrock_claude-4-opus-thinking","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"8a4a5ead-7789-4389-8400-30e9d20370b7","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-opus-4-20250514-v1:0","function_calling":true,"cache_write_price":18.75,"host_model_string":"Amazon Bedrock_Claude 4 Opus (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":15,"price_1m_output_tokens":75,"price_1m_blended_3_to_1":30,"price_per_1k_1mp_images":20.01,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.03,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-4-opus-thinking","hosts_url":"/models/claude-4-opus-thinking/providers","name_and_creator_label":"Claude 4 Opus, Anthropic"},{"additional_text":null,"aime":0.407,"aime25":0.38,"agentic_index":38.88,"coding_index":29.44,"commercial_allowed":null,"computed_performance_host_model_id":"1ac63972-c09c-4017-892e-ee72ef090911","context_window_tokens":1000000,"critpt":0.011,"deleted":false,"deprecated":true,"deprecated_to":"claude-4-5-sonnet","display_order":1254,"estimated_intelligence_index":23.392020335548526,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1148.7269056774119,"gpqa":0.683,"hle":0.04,"humaneval":0.973,"id":"d034dafe-463d-4c50-956f-84fca657b26f","ifbench":0.454,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.58,"intelligence_index_token_counts":{"input_tokens":130428118,"answer_tokens":6146661,"output_tokens":6146661,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-03-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.443,"license_name":null,"license_url":null,"livecodebench":0.449,"math_500":0.934,"math_index":38,"mmlu_pro":0.837,"mmmu_pro":0.624,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 4 Sonnet (Non-reasoning)","is_open_weights":false,"omniscience":-10.367,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.113,"num_correct":113,"omniscience":-7.9,"attempt_rate":0.321,"num_incorrect":192,"total_questions":1000,"num_not_attempted":679,"hallucination_rate":0.21645997745208567,"num_partial_answer":16}},"total":{"accuracy":0.2145,"num_correct":1287,"omniscience":-10.366666666666667,"attempt_rate":0.5641666666666667,"num_incorrect":1909,"total_questions":6000,"num_not_attempted":2615,"hallucination_rate":0.40504986208359856,"num_partial_answer":189},"Health":{"total":{"accuracy":0.187,"num_correct":187,"omniscience":-28.7,"attempt_rate":0.73,"num_incorrect":474,"total_questions":1000,"num_not_attempted":270,"hallucination_rate":0.5830258302583026,"num_partial_answer":69}},"Business":{"total":{"accuracy":0.174,"num_correct":174,"omniscience":-7.6,"attempt_rate":0.441,"num_incorrect":250,"total_questions":1000,"num_not_attempted":559,"hallucination_rate":0.3026634382566586,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.54,"num_correct":54,"omniscience":19,"attempt_rate":0.93,"num_incorrect":35,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.7608695652173914,"num_partial_answer":4}},"R":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-14,"attempt_rate":0.66,"num_incorrect":20,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.5405405405405406,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":0,"attempt_rate":0.66,"num_incorrect":16,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.47058823529411764,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-6,"attempt_rate":0.8,"num_incorrect":21,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.65625,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":4,"attempt_rate":0.7,"num_incorrect":15,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.45454545454545453,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":10,"attempt_rate":0.84,"num_incorrect":18,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.6666666666666666,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-36,"attempt_rate":0.79,"num_incorrect":57,"total_questions":100,"num_not_attempted":21,"hallucination_rate":0.7215189873417721,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":28,"attempt_rate":0.96,"num_incorrect":14,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.6363636363636364,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":8,"attempt_rate":0.68,"num_incorrect":7,"total_questions":25,"num_not_attempted":8,"hallucination_rate":0.4375,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":0,"attempt_rate":0.92,"num_incorrect":10,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.6666666666666666,"num_partial_answer":3}},"total":{"accuracy":0.37,"num_correct":370,"omniscience":-0.9,"attempt_rate":0.778,"num_incorrect":379,"total_questions":1000,"num_not_attempted":222,"hallucination_rate":0.6015873015873016,"num_partial_answer":29},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-8,"attempt_rate":0.74,"num_incorrect":19,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.5428571428571428,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.35,"num_correct":70,"omniscience":1,"attempt_rate":0.7,"num_incorrect":68,"total_questions":200,"num_not_attempted":60,"hallucination_rate":0.5230769230769231,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.37272727272727274,"num_correct":41,"omniscience":-2.727272727272727,"attempt_rate":0.7818181818181819,"num_incorrect":44,"total_questions":110,"num_not_attempted":24,"hallucination_rate":0.6376811594202898,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.3888888888888889,"num_correct":35,"omniscience":0,"attempt_rate":0.8,"num_incorrect":35,"total_questions":90,"num_not_attempted":18,"hallucination_rate":0.6363636363636364,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.198,"num_correct":198,"omniscience":-3.1,"attempt_rate":0.443,"num_incorrect":229,"total_questions":1000,"num_not_attempted":557,"hallucination_rate":0.2855361596009975,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.245,"num_correct":245,"omniscience":-14,"attempt_rate":0.672,"num_incorrect":385,"total_questions":1000,"num_not_attempted":328,"hallucination_rate":0.5099337748344371,"num_partial_answer":42}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-05-22","representative_query_token_counts":null,"scicode":0.373,"short_name":"Claude 4 Sonnet","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-sonnet","tau2":0.523,"terminalbench_hard":0.255,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"4f0bfd64-a44e-4494-8399-604444a337c1","slug":"databricks_claude-4-sonnet","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"d034dafe-463d-4c50-956f-84fca657b26f","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-claude-sonnet-4","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_Claude 4 Sonnet","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"a5ce2baa-3358-4916-87a4-f26229e9f23d","slug":"google_claude-4-sonnet_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"d034dafe-463d-4c50-956f-84fca657b26f","footnotes":"Tiered pricing:\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K: $6/$22.5 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4","function_calling":true,"cache_write_price":3.75,"host_model_string":"Google_Claude 4 Sonnet (Non-reasoning)_Vertex","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K:\r\n - Cache hit:$0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":"Vertex","price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"1ac63972-c09c-4017-892e-ee72ef090911","slug":"anthropic_claude-4-sonnet","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"d034dafe-463d-4c50-956f-84fca657b26f","footnotes":"Tiered pricing:\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K: $6/$22.5 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4-20250514","function_calling":true,"cache_write_price":3.75,"host_model_string":"Anthropic_Claude 4 Sonnet (Non-reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K:\r\n - Cache hit:$0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"f692f583-2ecc-4128-b771-ae78c52cabdc","slug":"amazon-bedrock_claude-4-sonnet","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"d034dafe-463d-4c50-956f-84fca657b26f","footnotes":"Tiered pricing:\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K: $6/$22.5 per M tokens","json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-sonnet-4-20250514-v1:0","function_calling":true,"cache_write_price":3.75,"host_model_string":"Amazon Bedrock_Claude 4 Sonnet (Non-reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n \r\n- >200K: \r\n - Cache hit:$0.60\r\n - 5m cache write: $7.50","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-4-sonnet","hosts_url":"/models/claude-4-sonnet/providers","name_and_creator_label":"Claude 4 Sonnet, Anthropic"},{"additional_text":null,"aime":0.773,"aime25":0.743,"agentic_index":42.95,"coding_index":33.21,"commercial_allowed":null,"computed_performance_host_model_id":"9aecedac-9678-493e-8f92-21a314cc53ca","context_window_tokens":1000000,"critpt":0.003,"deleted":false,"deprecated":true,"deprecated_to":"claude-4-5-sonnet-thinking","display_order":1255,"estimated_intelligence_index":32.27748579267411,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1144.7121233552618,"gpqa":0.777,"hle":0.096,"humaneval":null,"id":"a7564055-f8ba-4c4b-9e2d-060f61263645","ifbench":0.547,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":38.33,"intelligence_index_token_counts":{"input_tokens":136652217,"answer_tokens":6287547,"output_tokens":27631017,"reasoning_tokens":21343469},"knowledge_cutoff_date":"2025-03-01","lab_claimed_aime":null,"lab_claimed_gpqa":0.754,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.647,"license_name":null,"license_url":null,"livecodebench":0.655,"math_500":0.991,"math_index":74.33,"mmlu_pro":0.842,"mmmu_pro":0.618,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 4 Sonnet (Reasoning)","is_open_weights":false,"omniscience":-1.767,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":1.1,"attempt_rate":0.219,"num_incorrect":99,"total_questions":1000,"num_not_attempted":781,"hallucination_rate":0.11123595505617978,"num_partial_answer":10}},"total":{"accuracy":0.2105,"num_correct":1263,"omniscience":-1.7666666666666666,"attempt_rate":0.4643333333333333,"num_incorrect":1369,"total_questions":6000,"num_not_attempted":3214,"hallucination_rate":0.28900147772852014,"num_partial_answer":154},"Health":{"total":{"accuracy":0.199,"num_correct":199,"omniscience":-15.2,"attempt_rate":0.609,"num_incorrect":351,"total_questions":1000,"num_not_attempted":391,"hallucination_rate":0.43820224719101125,"num_partial_answer":59}},"Business":{"total":{"accuracy":0.162,"num_correct":162,"omniscience":-2.3,"attempt_rate":0.365,"num_incorrect":185,"total_questions":1000,"num_not_attempted":635,"hallucination_rate":0.220763723150358,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.55,"num_correct":55,"omniscience":31,"attempt_rate":0.83,"num_incorrect":24,"total_questions":100,"num_not_attempted":17,"hallucination_rate":0.5333333333333333,"num_partial_answer":4}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":2,"attempt_rate":0.38,"num_incorrect":9,"total_questions":50,"num_not_attempted":31,"hallucination_rate":0.225,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-2,"attempt_rate":0.48,"num_incorrect":12,"total_questions":50,"num_not_attempted":26,"hallucination_rate":0.3076923076923077,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":10,"attempt_rate":0.54,"num_incorrect":11,"total_questions":50,"num_not_attempted":23,"hallucination_rate":0.3235294117647059,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":16,"attempt_rate":0.5,"num_incorrect":8,"total_questions":50,"num_not_attempted":25,"hallucination_rate":0.23529411764705882,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":26,"attempt_rate":0.66,"num_incorrect":10,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.37037037037037035,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-9,"attempt_rate":0.45,"num_incorrect":27,"total_questions":100,"num_not_attempted":55,"hallucination_rate":0.32926829268292684,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":42,"attempt_rate":0.84,"num_incorrect":8,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.38095238095238093,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":12,"attempt_rate":0.52,"num_incorrect":5,"total_questions":25,"num_not_attempted":12,"hallucination_rate":0.29411764705882354,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":24,"attempt_rate":0.76,"num_incorrect":6,"total_questions":25,"num_not_attempted":6,"hallucination_rate":0.46153846153846156,"num_partial_answer":1}},"total":{"accuracy":0.326,"num_correct":326,"omniscience":11.5,"attempt_rate":0.558,"num_incorrect":211,"total_questions":1000,"num_not_attempted":442,"hallucination_rate":0.31305637982195844,"num_partial_answer":21},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":14,"attempt_rate":0.4,"num_incorrect":5,"total_questions":50,"num_not_attempted":30,"hallucination_rate":0.13157894736842105,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.235,"num_correct":47,"omniscience":8,"attempt_rate":0.395,"num_incorrect":31,"total_questions":200,"num_not_attempted":121,"hallucination_rate":0.20261437908496732,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.37272727272727274,"num_correct":41,"omniscience":8.181818181818182,"attempt_rate":0.6818181818181818,"num_incorrect":32,"total_questions":110,"num_not_attempted":35,"hallucination_rate":0.463768115942029,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.3111111111111111,"num_correct":28,"omniscience":5.555555555555555,"attempt_rate":0.6,"num_incorrect":23,"total_questions":90,"num_not_attempted":36,"hallucination_rate":0.3709677419354839,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.193,"num_correct":193,"omniscience":3.7,"attempt_rate":0.362,"num_incorrect":156,"total_questions":1000,"num_not_attempted":638,"hallucination_rate":0.19330855018587362,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.273,"num_correct":273,"omniscience":-9.4,"attempt_rate":0.673,"num_incorrect":367,"total_questions":1000,"num_not_attempted":327,"hallucination_rate":0.5048143053645117,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","varied_reasoning":true},"release_date":"2025-05-22","representative_query_token_counts":null,"scicode":0.4,"short_name":"Claude 4 Sonnet","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-sonnet-thinking","tau2":0.646,"terminalbench_hard":0.298,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"9aecedac-9678-493e-8f92-21a314cc53ca","slug":"anthropic_claude-4-sonnet-thinking","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"a7564055-f8ba-4c4b-9e2d-060f61263645","footnotes":"Tiered pricing:\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K: $6/$22.5 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4-20250514","function_calling":true,"cache_write_price":3.75,"host_model_string":"Anthropic_Claude 4 Sonnet (Reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K: \r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"f985cc16-becd-4155-ae5e-610c914a48ae","slug":"google_claude-4-sonnet-thinking_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"a7564055-f8ba-4c4b-9e2d-060f61263645","footnotes":"Tiered pricing:\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K: $6/$22.5 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4","function_calling":true,"cache_write_price":3.75,"host_model_string":"Google_Claude 4 Sonnet (Reasoning)_Vertex","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K: \r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00 ","model_name_appendage":"Vertex","price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"3d69c76a-3fe6-4619-b049-cb685c768e86","slug":"amazon-bedrock_claude-4-sonnet-thinking","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"a7564055-f8ba-4c4b-9e2d-060f61263645","footnotes":"Tiered pricing:\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K: $6/$22.5 per M tokens","json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-sonnet-4-20250514-v1:0","function_calling":true,"cache_write_price":3.75,"host_model_string":"Amazon Bedrock_Claude 4 Sonnet (Reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n \r\n- >200K: \r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-4-sonnet-thinking","hosts_url":"/models/claude-4-sonnet-thinking/providers","name_and_creator_label":"Claude 4 Sonnet, Anthropic"},{"additional_text":null,"aime":null,"aime25":0.39,"agentic_index":31.38,"coding_index":28.48,"commercial_allowed":null,"computed_performance_host_model_id":"457ae2f8-3997-41dd-9e6b-13efd15dfd01","context_window_tokens":200000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":285,"estimated_intelligence_index":21.805668368599395,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1120.5018241550636,"gpqa":0.646,"hle":0.043,"humaneval":null,"id":"c2b1e769-7aee-4669-8076-73918bdebf6c","ifbench":0.42,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":30.44,"intelligence_index_token_counts":{"input_tokens":166107038,"answer_tokens":8759517,"output_tokens":8759517,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-07-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.437,"license_name":null,"license_url":null,"livecodebench":0.511,"math_500":null,"math_index":39,"mmlu_pro":0.8,"mmmu_pro":0.551,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 4.5 Haiku (Non-reasoning)","is_open_weights":false,"omniscience":-7.95,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.042,"num_correct":42,"omniscience":-5.3,"attempt_rate":0.15,"num_incorrect":95,"total_questions":1000,"num_not_attempted":850,"hallucination_rate":0.09916492693110647,"num_partial_answer":13}},"total":{"accuracy":0.13416666666666666,"num_correct":805,"omniscience":-7.95,"attempt_rate":0.3715,"num_incorrect":1282,"total_questions":6000,"num_not_attempted":3771,"hallucination_rate":0.2467757459095284,"num_partial_answer":142},"Health":{"total":{"accuracy":0.147,"num_correct":147,"omniscience":-23.3,"attempt_rate":0.594,"num_incorrect":380,"total_questions":1000,"num_not_attempted":406,"hallucination_rate":0.4454865181711606,"num_partial_answer":67}},"Business":{"total":{"accuracy":0.113,"num_correct":113,"omniscience":-4.3,"attempt_rate":0.285,"num_incorrect":156,"total_questions":1000,"num_not_attempted":715,"hallucination_rate":0.17587373167981962,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.35,"num_correct":35,"omniscience":14,"attempt_rate":0.58,"num_incorrect":21,"total_questions":100,"num_not_attempted":42,"hallucination_rate":0.3230769230769231,"num_partial_answer":2}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-8,"attempt_rate":0.16,"num_incorrect":6,"total_questions":50,"num_not_attempted":42,"hallucination_rate":0.125,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-6,"attempt_rate":0.34,"num_incorrect":10,"total_questions":50,"num_not_attempted":33,"hallucination_rate":0.23255813953488372,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":8,"attempt_rate":0.28,"num_incorrect":5,"total_questions":50,"num_not_attempted":36,"hallucination_rate":0.12195121951219512,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":8,"attempt_rate":0.14,"num_incorrect":1,"total_questions":50,"num_not_attempted":43,"hallucination_rate":0.022222222222222223,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":14,"attempt_rate":0.48,"num_incorrect":8,"total_questions":50,"num_not_attempted":26,"hallucination_rate":0.22857142857142856,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.1,"num_correct":10,"omniscience":-3,"attempt_rate":0.23,"num_incorrect":13,"total_questions":100,"num_not_attempted":77,"hallucination_rate":0.14444444444444443,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":30,"attempt_rate":0.72,"num_incorrect":10,"total_questions":50,"num_not_attempted":14,"hallucination_rate":0.4,"num_partial_answer":1}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":0,"attempt_rate":0.36,"num_incorrect":4,"total_questions":25,"num_not_attempted":16,"hallucination_rate":0.19047619047619047,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":20,"attempt_rate":0.72,"num_incorrect":6,"total_questions":25,"num_not_attempted":7,"hallucination_rate":0.42857142857142855,"num_partial_answer":1}},"total":{"accuracy":0.192,"num_correct":192,"omniscience":1.4,"attempt_rate":0.379,"num_incorrect":178,"total_questions":1000,"num_not_attempted":621,"hallucination_rate":0.2202970297029703,"num_partial_answer":9},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":2,"attempt_rate":0.28,"num_incorrect":6,"total_questions":50,"num_not_attempted":36,"hallucination_rate":0.13953488372093023,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.14,"num_correct":28,"omniscience":-3.5,"attempt_rate":0.32,"num_incorrect":35,"total_questions":200,"num_not_attempted":136,"hallucination_rate":0.20348837209302326,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2,"num_correct":22,"omniscience":-0.9090909090909091,"attempt_rate":0.4090909090909091,"num_incorrect":23,"total_questions":110,"num_not_attempted":65,"hallucination_rate":0.26136363636363635,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.13333333333333333,"num_correct":12,"omniscience":-20,"attempt_rate":0.4666666666666667,"num_incorrect":30,"total_questions":90,"num_not_attempted":48,"hallucination_rate":0.38461538461538464,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.099,"num_correct":99,"omniscience":-3.7,"attempt_rate":0.245,"num_incorrect":136,"total_questions":1000,"num_not_attempted":755,"hallucination_rate":0.1509433962264151,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.212,"num_correct":212,"omniscience":-12.5,"attempt_rate":0.576,"num_incorrect":337,"total_questions":1000,"num_not_attempted":424,"hallucination_rate":0.4276649746192893,"num_partial_answer":27}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-10-15","representative_query_token_counts":null,"scicode":0.344,"short_name":"Claude 4.5 Haiku","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-5-haiku","tau2":0.325,"terminalbench_hard":0.255,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"bc2ccea9-0042-43c5-97f9-455f2aeb1801","slug":"amazon-bedrock_claude-4-5-haiku","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"c2b1e769-7aee-4669-8076-73918bdebf6c","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-haiku-4-5-20251001-v1:0","function_calling":true,"cache_write_price":1.25,"host_model_string":"Amazon Bedrock_Claude 4.5 Haiku (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":5,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":1.334,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"6faa6481-e9b0-411f-ab2c-1fc1d5a90337","slug":"google_claude-4-5-haiku_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"c2b1e769-7aee-4669-8076-73918bdebf6c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-haiku-4-5@20251001","function_calling":true,"cache_write_price":1.25,"host_model_string":"Google_Claude 4.5 Haiku (Non-reasoning)_Vertex","cache_pricing_notes":"1h cache write: $2","model_name_appendage":"Vertex","price_1m_input_tokens":1,"price_1m_output_tokens":5,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":1.334,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"457ae2f8-3997-41dd-9e6b-13efd15dfd01","slug":"anthropic_claude-4-5-haiku","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"c2b1e769-7aee-4669-8076-73918bdebf6c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-haiku-4-5-20251001","function_calling":true,"cache_write_price":1.25,"host_model_string":"Anthropic_Claude 4.5 Haiku (Non-reasoning)","cache_pricing_notes":"1h cache write: $2","model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":5,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":1.334,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-4-5-haiku","hosts_url":"/models/claude-4-5-haiku/providers","name_and_creator_label":"Claude 4.5 Haiku, Anthropic"},{"additional_text":null,"aime":null,"aime25":0.837,"agentic_index":39.72,"coding_index":31.45,"commercial_allowed":null,"computed_performance_host_model_id":"eaff68d8-e6a3-457d-8b56-556368ca86db","context_window_tokens":200000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":286,"estimated_intelligence_index":30.692549962270547,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1145.933397253279,"gpqa":0.672,"hle":0.097,"humaneval":null,"id":"a6340098-d7ae-462d-b372-0a0a67fc44b4","ifbench":0.543,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":36.62,"intelligence_index_token_counts":{"input_tokens":129770763,"answer_tokens":8318529,"output_tokens":31836098,"reasoning_tokens":23517568},"knowledge_cutoff_date":"2025-07-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.703,"license_name":null,"license_url":null,"livecodebench":0.615,"math_500":null,"math_index":83.67,"mmlu_pro":0.76,"mmmu_pro":0.583,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8458333333333332,"input_tokens":188556,"answer_tokens":275379,"output_tokens":859047,"reasoning_tokens":583668,"total_input_tokens_api":377571,"total_answer_tokens_api":2804712,"total_reasoning_tokens_api":0},"bn":{"score":0.8308333333333334,"input_tokens":225534,"answer_tokens":311718,"output_tokens":1027986,"reasoning_tokens":716268,"total_input_tokens_api":522636,"total_answer_tokens_api":4252998,"total_reasoning_tokens_api":0},"de":{"score":0.8791666666666665,"input_tokens":191646,"answer_tokens":296602,"output_tokens":1007049,"reasoning_tokens":710447,"total_input_tokens_api":304128,"total_answer_tokens_api":2405936,"total_reasoning_tokens_api":0},"en":{"score":0.895,"input_tokens":159654,"answer_tokens":276009,"output_tokens":913208,"reasoning_tokens":637199,"total_input_tokens_api":219825,"total_answer_tokens_api":1661586,"total_reasoning_tokens_api":0},"es":{"score":0.8841666666666667,"input_tokens":182088,"answer_tokens":304116,"output_tokens":957348,"reasoning_tokens":653232,"total_input_tokens_api":269937,"total_answer_tokens_api":1895464,"total_reasoning_tokens_api":0},"fr":{"score":0.8683333333333333,"input_tokens":191346,"answer_tokens":304107,"output_tokens":1015042,"reasoning_tokens":710935,"total_input_tokens_api":281706,"total_answer_tokens_api":2178301,"total_reasoning_tokens_api":0},"hi":{"score":0.8375,"input_tokens":209430,"answer_tokens":306262,"output_tokens":1022997,"reasoning_tokens":716735,"total_input_tokens_api":440067,"total_answer_tokens_api":4062819,"total_reasoning_tokens_api":0},"id":{"score":0.8641666666666667,"input_tokens":181314,"answer_tokens":322815,"output_tokens":1030639,"reasoning_tokens":707824,"total_input_tokens_api":288120,"total_answer_tokens_api":2300076,"total_reasoning_tokens_api":0},"it":{"score":0.8849999999999999,"input_tokens":199032,"answer_tokens":337739,"output_tokens":1080596,"reasoning_tokens":742857,"total_input_tokens_api":273153,"total_answer_tokens_api":1978933,"total_reasoning_tokens_api":0},"ja":{"score":0.8624999999999999,"input_tokens":228129,"answer_tokens":393979,"output_tokens":1337036,"reasoning_tokens":943057,"total_input_tokens_api":306129,"total_answer_tokens_api":2691894,"total_reasoning_tokens_api":0},"ko":{"score":0.85,"input_tokens":199401,"answer_tokens":329308,"output_tokens":1021939,"reasoning_tokens":692631,"total_input_tokens_api":348102,"total_answer_tokens_api":2571871,"total_reasoning_tokens_api":0},"my":{"score":0.765,"input_tokens":353547,"answer_tokens":411498,"output_tokens":1313264,"reasoning_tokens":901766,"total_input_tokens_api":700914,"total_answer_tokens_api":3479162,"total_reasoning_tokens_api":0},"pt":{"score":0.8741666666666665,"input_tokens":178176,"answer_tokens":302096,"output_tokens":954844,"reasoning_tokens":652748,"total_input_tokens_api":264912,"total_answer_tokens_api":1900291,"total_reasoning_tokens_api":0},"sw":{"score":0.7808333333333334,"input_tokens":208677,"answer_tokens":334477,"output_tokens":1136506,"reasoning_tokens":802029,"total_input_tokens_api":314508,"total_answer_tokens_api":2486552,"total_reasoning_tokens_api":0},"yo":{"score":0.565,"input_tokens":307062,"answer_tokens":311057,"output_tokens":1436589,"reasoning_tokens":1125532,"total_input_tokens_api":495138,"total_answer_tokens_api":4146967,"total_reasoning_tokens_api":0},"zh":{"score":0.8575,"input_tokens":179793,"answer_tokens":337180,"output_tokens":1081279,"reasoning_tokens":744099,"total_input_tokens_api":279336,"total_answer_tokens_api":2496539,"total_reasoning_tokens_api":0},"average":{"score":0.8340624999999999,"input_tokens":3383385,"answer_tokens":5154342,"output_tokens":17195369,"reasoning_tokens":12041027,"total_input_tokens_api":5686182,"total_answer_tokens_api":43314101,"total_reasoning_tokens_api":0}},"name":"Claude 4.5 Haiku (Reasoning)","is_open_weights":false,"omniscience":-5.667,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.056,"num_correct":56,"omniscience":-5,"attempt_rate":0.171,"num_incorrect":106,"total_questions":1000,"num_not_attempted":829,"hallucination_rate":0.11228813559322035,"num_partial_answer":9}},"total":{"accuracy":0.16183333333333333,"num_correct":971,"omniscience":-5.666666666666667,"attempt_rate":0.41533333333333333,"num_incorrect":1311,"total_questions":6000,"num_not_attempted":3508,"hallucination_rate":0.2606880095446411,"num_partial_answer":210},"Health":{"total":{"accuracy":0.166,"num_correct":166,"omniscience":-21.1,"attempt_rate":0.634,"num_incorrect":377,"total_questions":1000,"num_not_attempted":366,"hallucination_rate":0.4520383693045564,"num_partial_answer":91}},"Business":{"total":{"accuracy":0.134,"num_correct":134,"omniscience":-2.3,"attempt_rate":0.306,"num_incorrect":157,"total_questions":1000,"num_not_attempted":694,"hallucination_rate":0.1812933025404157,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.45,"num_correct":45,"omniscience":17,"attempt_rate":0.74,"num_incorrect":28,"total_questions":100,"num_not_attempted":26,"hallucination_rate":0.509090909090909,"num_partial_answer":1}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":2,"attempt_rate":0.28,"num_incorrect":6,"total_questions":50,"num_not_attempted":36,"hallucination_rate":0.13953488372093023,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-10,"attempt_rate":0.38,"num_incorrect":12,"total_questions":50,"num_not_attempted":31,"hallucination_rate":0.27906976744186046,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":4,"attempt_rate":0.44,"num_incorrect":10,"total_questions":50,"num_not_attempted":28,"hallucination_rate":0.2631578947368421,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":12,"attempt_rate":0.3,"num_incorrect":4,"total_questions":50,"num_not_attempted":35,"hallucination_rate":0.1,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":22,"attempt_rate":0.58,"num_incorrect":7,"total_questions":50,"num_not_attempted":21,"hallucination_rate":0.21875,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-10,"attempt_rate":0.39,"num_incorrect":24,"total_questions":100,"num_not_attempted":61,"hallucination_rate":0.27906976744186046,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":26,"attempt_rate":0.84,"num_incorrect":12,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.48,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":0,"attempt_rate":0.48,"num_incorrect":6,"total_questions":25,"num_not_attempted":13,"hallucination_rate":0.3157894736842105,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":16,"attempt_rate":0.56,"num_incorrect":4,"total_questions":25,"num_not_attempted":11,"hallucination_rate":0.23529411764705882,"num_partial_answer":2}},"total":{"accuracy":0.249,"num_correct":249,"omniscience":4.5,"attempt_rate":0.479,"num_incorrect":204,"total_questions":1000,"num_not_attempted":521,"hallucination_rate":0.27163781624500666,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-2,"attempt_rate":0.32,"num_incorrect":7,"total_questions":50,"num_not_attempted":34,"hallucination_rate":0.1590909090909091,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.19,"num_correct":38,"omniscience":0.5,"attempt_rate":0.385,"num_incorrect":37,"total_questions":200,"num_not_attempted":123,"hallucination_rate":0.22839506172839505,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.3090909090909091,"num_correct":34,"omniscience":7.2727272727272725,"attempt_rate":0.5818181818181818,"num_incorrect":26,"total_questions":110,"num_not_attempted":46,"hallucination_rate":0.34210526315789475,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.2111111111111111,"num_correct":19,"omniscience":-2.2222222222222223,"attempt_rate":0.4666666666666667,"num_incorrect":21,"total_questions":90,"num_not_attempted":48,"hallucination_rate":0.29577464788732394,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.12,"num_correct":120,"omniscience":-0.6,"attempt_rate":0.258,"num_incorrect":126,"total_questions":1000,"num_not_attempted":742,"hallucination_rate":0.1431818181818182,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.246,"num_correct":246,"omniscience":-9.5,"attempt_rate":0.644,"num_incorrect":341,"total_questions":1000,"num_not_attempted":356,"hallucination_rate":0.45225464190981435,"num_partial_answer":57}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","varied_reasoning":true},"release_date":"2025-10-15","representative_query_token_counts":null,"scicode":0.433,"short_name":"Claude 4.5 Haiku","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-5-haiku-reasoning","tau2":0.547,"terminalbench_hard":0.255,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"336267c0-7016-4358-8a58-05014a15307f","slug":"amazon-bedrock_claude-4-5-haiku-reasoning","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"a6340098-d7ae-462d-b372-0a0a67fc44b4","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-haiku-4-5-20251001-v1:0","function_calling":true,"cache_write_price":1.25,"host_model_string":"Amazon Bedrock_Claude 4.5 Haiku (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":5,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":1.334,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"a5c37647-ba8e-4742-a7a9-ed66b366adb4","slug":"google_claude-4-5-haiku-reasoning_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"a6340098-d7ae-462d-b372-0a0a67fc44b4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-haiku-4-5@20251001","function_calling":true,"cache_write_price":1.25,"host_model_string":"Google_Claude 4.5 Haiku (Reasoning)_Vertex","cache_pricing_notes":"1h cache write: $2","model_name_appendage":"Vertex","price_1m_input_tokens":1,"price_1m_output_tokens":5,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":1.334,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"eaff68d8-e6a3-457d-8b56-556368ca86db","slug":"anthropic_claude-4-5-haiku-reasoning","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"a6340098-d7ae-462d-b372-0a0a67fc44b4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-haiku-4-5-20251001","function_calling":true,"cache_write_price":1.25,"host_model_string":"Anthropic_Claude 4.5 Haiku (Reasoning)","cache_pricing_notes":"1h cache write: $2","model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":5,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":1.334,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-4-5-haiku-reasoning","hosts_url":"/models/claude-4-5-haiku-reasoning/providers","name_and_creator_label":"Claude 4.5 Haiku, Anthropic"},{"additional_text":null,"aime":null,"aime25":0.37,"agentic_index":50.22,"coding_index":32.24,"commercial_allowed":null,"computed_performance_host_model_id":"bb7e2900-1ac2-41d5-9b1a-4e2df1322287","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":290,"estimated_intelligence_index":26.88369456715401,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1301.5207615200866,"gpqa":0.727,"hle":0.071,"humaneval":null,"id":"91cb6144-4937-4e4e-aeda-b4341d355c10","ifbench":0.427,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":36.65,"intelligence_index_token_counts":{"input_tokens":189842893,"answer_tokens":8104652,"output_tokens":8104652,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-07-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.513,"license_name":null,"license_url":null,"livecodebench":0.59,"math_500":null,"math_index":37,"mmlu_pro":0.86,"mmmu_pro":0.652,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 4.5 Sonnet (Non-reasoning)","is_open_weights":false,"omniscience":-10.65,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.174,"num_correct":174,"omniscience":-17.2,"attempt_rate":0.541,"num_incorrect":346,"total_questions":1000,"num_not_attempted":459,"hallucination_rate":0.4188861985472155,"num_partial_answer":21}},"total":{"accuracy":0.2693333333333333,"num_correct":1616,"omniscience":-10.65,"attempt_rate":0.688,"num_incorrect":2255,"total_questions":6000,"num_not_attempted":1872,"hallucination_rate":0.5143704379562044,"num_partial_answer":257},"Health":{"total":{"accuracy":0.214,"num_correct":214,"omniscience":-26,"attempt_rate":0.795,"num_incorrect":474,"total_questions":1000,"num_not_attempted":205,"hallucination_rate":0.6030534351145038,"num_partial_answer":107}},"Business":{"total":{"accuracy":0.209,"num_correct":209,"omniscience":-9.5,"attempt_rate":0.538,"num_incorrect":304,"total_questions":1000,"num_not_attempted":462,"hallucination_rate":0.3843236409608091,"num_partial_answer":25}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.54,"num_correct":54,"omniscience":16,"attempt_rate":0.95,"num_incorrect":38,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.8260869565217391,"num_partial_answer":3}},"R":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-4,"attempt_rate":0.8,"num_incorrect":21,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.6774193548387096,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":18,"attempt_rate":0.94,"num_incorrect":18,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.782608695652174,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":16,"attempt_rate":0.92,"num_incorrect":18,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.75,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-6,"attempt_rate":0.92,"num_incorrect":23,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.7666666666666667,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":16,"attempt_rate":0.86,"num_incorrect":17,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.68,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-34,"attempt_rate":0.94,"num_incorrect":63,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.8873239436619719,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.66,"num_correct":33,"omniscience":46,"attempt_rate":0.94,"num_incorrect":10,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.5882352941176471,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":8,"attempt_rate":1,"num_incorrect":11,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":8,"attempt_rate":0.88,"num_incorrect":9,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.6428571428571429,"num_partial_answer":2}},"total":{"accuracy":0.469,"num_correct":469,"omniscience":4.6,"attempt_rate":0.921,"num_incorrect":423,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.7966101694915254,"num_partial_answer":29},"Kotlin":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-2,"attempt_rate":0.8,"num_incorrect":19,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.59375,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.525,"num_correct":105,"omniscience":13,"attempt_rate":0.93,"num_incorrect":79,"total_questions":200,"num_not_attempted":14,"hallucination_rate":0.8315789473684211,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.44545454545454544,"num_correct":49,"omniscience":-5.454545454545454,"attempt_rate":0.9454545454545454,"num_incorrect":55,"total_questions":110,"num_not_attempted":6,"hallucination_rate":0.9016393442622951,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.4444444444444444,"num_correct":40,"omniscience":-2.2222222222222223,"attempt_rate":0.9555555555555556,"num_incorrect":42,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.84,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.25,"num_correct":250,"omniscience":-3,"attempt_rate":0.55,"num_incorrect":280,"total_questions":1000,"num_not_attempted":450,"hallucination_rate":0.37333333333333335,"num_partial_answer":20}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.3,"num_correct":300,"omniscience":-12.8,"attempt_rate":0.783,"num_incorrect":428,"total_questions":1000,"num_not_attempted":217,"hallucination_rate":0.6114285714285714,"num_partial_answer":55}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-29","representative_query_token_counts":null,"scicode":0.428,"short_name":"Claude 4.5 Sonnet","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-5-sonnet","tau2":0.705,"terminalbench_hard":0.27,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"5a7964d6-44f1-4f79-9432-e6b72a86ac2b","slug":"amazon-bedrock_claude-4-5-sonnet","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"91cb6144-4937-4e4e-aeda-b4341d355c10","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K-1M: $6/$22.50 per M tokens","json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-sonnet-4-5-20250929-v1:0","function_calling":true,"cache_write_price":4.12,"host_model_string":"Amazon Bedrock_Claude 4.5 Sonnet (Non-reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K:\r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4.002,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"bb7e2900-1ac2-41d5-9b1a-4e2df1322287","slug":"anthropic_claude-4-5-sonnet","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"91cb6144-4937-4e4e-aeda-b4341d355c10","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K: $6/$22.50 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4-5-20250929","function_calling":true,"cache_write_price":3.75,"host_model_string":"Anthropic_Claude 4.5 Sonnet (Non-reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K: \r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4.002,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"f3e79cd3-97e3-41d0-96e3-3be2246cc86c","slug":"google_claude-4-5-sonnet_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"91cb6144-4937-4e4e-aeda-b4341d355c10","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K-1M: $6/$22.50 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4-5@20250929","function_calling":true,"cache_write_price":3.75,"host_model_string":"Google_Claude 4.5 Sonnet (Non-reasoning)_Vertex","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K: \r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":"Vertex","price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4.002,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"1749d1f0-6ffd-40d5-940a-0bb72d8d2368","slug":"databricks_claude-4-5-sonnet","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"91cb6144-4937-4e4e-aeda-b4341d355c10","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-claude-sonnet-4-5","function_calling":false,"cache_write_price":null,"host_model_string":"Databricks_Claude 4.5 Sonnet (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3.3,"price_1m_output_tokens":16.5,"price_1m_blended_3_to_1":6.6,"price_per_1k_1mp_images":4.4022,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.15,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/claude-4-5-sonnet","hosts_url":"/models/claude-4-5-sonnet/providers","name_and_creator_label":"Claude 4.5 Sonnet, Anthropic"},{"additional_text":null,"aime":null,"aime25":0.88,"agentic_index":51.35,"coding_index":37.11,"commercial_allowed":null,"computed_performance_host_model_id":"5e172a25-00b8-41c1-8370-fe47d93a14dd","context_window_tokens":1000000,"critpt":0.011,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":288,"estimated_intelligence_index":37.99083524612228,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1259.504915670729,"gpqa":0.834,"hle":0.173,"humaneval":null,"id":"90e078f2-051b-4c63-8919-76618971cb3f","ifbench":0.573,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":42.45,"intelligence_index_token_counts":{"input_tokens":117369635,"answer_tokens":5838665,"output_tokens":25395296,"reasoning_tokens":19556631},"knowledge_cutoff_date":"2025-07-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.657,"license_name":null,"license_url":null,"livecodebench":0.714,"math_500":null,"math_index":88,"mmlu_pro":0.875,"mmmu_pro":0.687,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8941666666666667,"input_tokens":188556,"answer_tokens":294347,"output_tokens":980944,"reasoning_tokens":686597,"total_input_tokens_api":376371,"total_answer_tokens_api":2503958,"total_reasoning_tokens_api":0},"bn":{"score":0.9008333333333333,"input_tokens":225534,"answer_tokens":328722,"output_tokens":1080801,"reasoning_tokens":752079,"total_input_tokens_api":521436,"total_answer_tokens_api":2987293,"total_reasoning_tokens_api":0},"de":{"score":0.9166666666666666,"input_tokens":191646,"answer_tokens":319252,"output_tokens":994765,"reasoning_tokens":675513,"total_input_tokens_api":302928,"total_answer_tokens_api":1699351,"total_reasoning_tokens_api":0},"en":{"score":0.9349999999999999,"input_tokens":159654,"answer_tokens":306455,"output_tokens":961431,"reasoning_tokens":654976,"total_input_tokens_api":218625,"total_answer_tokens_api":1466805,"total_reasoning_tokens_api":0},"es":{"score":0.9166666666666666,"input_tokens":182088,"answer_tokens":324629,"output_tokens":963567,"reasoning_tokens":638938,"total_input_tokens_api":268737,"total_answer_tokens_api":1547658,"total_reasoning_tokens_api":0},"fr":{"score":0.9183333333333333,"input_tokens":191346,"answer_tokens":326434,"output_tokens":978813,"reasoning_tokens":652379,"total_input_tokens_api":280506,"total_answer_tokens_api":1572110,"total_reasoning_tokens_api":0},"hi":{"score":0.8966666666666666,"input_tokens":209430,"answer_tokens":319863,"output_tokens":995421,"reasoning_tokens":675558,"total_input_tokens_api":438867,"total_answer_tokens_api":2653977,"total_reasoning_tokens_api":0},"id":{"score":0.9091666666666667,"input_tokens":181314,"answer_tokens":349430,"output_tokens":1108313,"reasoning_tokens":758883,"total_input_tokens_api":286920,"total_answer_tokens_api":2074959,"total_reasoning_tokens_api":0},"it":{"score":0.9208333333333334,"input_tokens":199032,"answer_tokens":355017,"output_tokens":1023772,"reasoning_tokens":668755,"total_input_tokens_api":271953,"total_answer_tokens_api":1511052,"total_reasoning_tokens_api":0},"ja":{"score":0.9066666666666667,"input_tokens":228129,"answer_tokens":399108,"output_tokens":1218977,"reasoning_tokens":819869,"total_input_tokens_api":304929,"total_answer_tokens_api":1888374,"total_reasoning_tokens_api":0},"ko":{"score":0.9016666666666667,"input_tokens":199401,"answer_tokens":333523,"output_tokens":1030759,"reasoning_tokens":697236,"total_input_tokens_api":346902,"total_answer_tokens_api":2071600,"total_reasoning_tokens_api":0},"my":{"score":0.8525,"input_tokens":352569,"answer_tokens":403125,"output_tokens":1191455,"reasoning_tokens":788330,"total_input_tokens_api":697908,"total_answer_tokens_api":2498486,"total_reasoning_tokens_api":0},"pt":{"score":0.9175,"input_tokens":178176,"answer_tokens":324044,"output_tokens":952944,"reasoning_tokens":628900,"total_input_tokens_api":263712,"total_answer_tokens_api":1565591,"total_reasoning_tokens_api":0},"sw":{"score":0.8416666666666667,"input_tokens":208677,"answer_tokens":360964,"output_tokens":1123076,"reasoning_tokens":762112,"total_input_tokens_api":313308,"total_answer_tokens_api":1925693,"total_reasoning_tokens_api":0},"yo":{"score":0.7583333333333333,"input_tokens":305214,"answer_tokens":379397,"output_tokens":1397056,"reasoning_tokens":1017659,"total_input_tokens_api":491496,"total_answer_tokens_api":2998625,"total_reasoning_tokens_api":0},"zh":{"score":0.8941666666666667,"input_tokens":179793,"answer_tokens":355035,"output_tokens":1103770,"reasoning_tokens":748735,"total_input_tokens_api":278136,"total_answer_tokens_api":2031947,"total_reasoning_tokens_api":0},"average":{"score":0.8925520833333334,"input_tokens":3380559,"answer_tokens":5479345,"output_tokens":17105864,"reasoning_tokens":11626519,"total_input_tokens_api":5662734,"total_answer_tokens_api":32997479,"total_reasoning_tokens_api":0}},"name":"Claude 4.5 Sonnet (Reasoning)","is_open_weights":false,"omniscience":-2.083,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.221,"num_correct":221,"omniscience":-7,"attempt_rate":0.532,"num_incorrect":291,"total_questions":1000,"num_not_attempted":468,"hallucination_rate":0.3735558408215661,"num_partial_answer":20}},"total":{"accuracy":0.309,"num_correct":1854,"omniscience":-2.0833333333333335,"attempt_rate":0.6751666666666667,"num_incorrect":1979,"total_questions":6000,"num_not_attempted":1949,"hallucination_rate":0.47732754462132176,"num_partial_answer":218},"Health":{"total":{"accuracy":0.266,"num_correct":266,"omniscience":-20.4,"attempt_rate":0.815,"num_incorrect":470,"total_questions":1000,"num_not_attempted":185,"hallucination_rate":0.6403269754768393,"num_partial_answer":79}},"Business":{"total":{"accuracy":0.242,"num_correct":242,"omniscience":-4.7,"attempt_rate":0.562,"num_incorrect":289,"total_questions":1000,"num_not_attempted":438,"hallucination_rate":0.3812664907651715,"num_partial_answer":31}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.72,"num_correct":72,"omniscience":52,"attempt_rate":0.92,"num_incorrect":20,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.7142857142857143,"num_partial_answer":0}},"R":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":38,"attempt_rate":0.68,"num_incorrect":7,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.2916666666666667,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":22,"attempt_rate":0.76,"num_incorrect":13,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.5,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":18,"attempt_rate":0.7,"num_incorrect":13,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.4642857142857143,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":22,"attempt_rate":0.6,"num_incorrect":9,"total_questions":50,"num_not_attempted":20,"hallucination_rate":0.3,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.7,"num_correct":35,"omniscience":52,"attempt_rate":0.9,"num_incorrect":9,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.6,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-20,"attempt_rate":0.77,"num_incorrect":48,"total_questions":100,"num_not_attempted":23,"hallucination_rate":0.6666666666666666,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.68,"num_correct":34,"omniscience":48,"attempt_rate":0.96,"num_incorrect":10,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.625,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-4,"attempt_rate":0.76,"num_incorrect":10,"total_questions":25,"num_not_attempted":6,"hallucination_rate":0.625,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":24,"attempt_rate":0.88,"num_incorrect":7,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.5833333333333334,"num_partial_answer":2}},"total":{"accuracy":0.516,"num_correct":516,"omniscience":24.2,"attempt_rate":0.806,"num_incorrect":274,"total_questions":1000,"num_not_attempted":194,"hallucination_rate":0.5661157024793388,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":16,"attempt_rate":0.68,"num_incorrect":12,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.4,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.515,"num_correct":103,"omniscience":24.5,"attempt_rate":0.79,"num_incorrect":54,"total_questions":200,"num_not_attempted":42,"hallucination_rate":0.5567010309278351,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.5818181818181818,"num_correct":64,"omniscience":28.181818181818183,"attempt_rate":0.8909090909090909,"num_incorrect":33,"total_questions":110,"num_not_attempted":12,"hallucination_rate":0.717391304347826,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.5111111111111111,"num_correct":46,"omniscience":18.88888888888889,"attempt_rate":0.8444444444444444,"num_incorrect":29,"total_questions":90,"num_not_attempted":14,"hallucination_rate":0.6590909090909091,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.285,"num_correct":285,"omniscience":2.5,"attempt_rate":0.567,"num_incorrect":260,"total_questions":1000,"num_not_attempted":433,"hallucination_rate":0.36363636363636365,"num_partial_answer":22}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.324,"num_correct":324,"omniscience":-7.1,"attempt_rate":0.769,"num_incorrect":395,"total_questions":1000,"num_not_attempted":231,"hallucination_rate":0.584319526627219,"num_partial_answer":50}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","varied_reasoning":true},"release_date":"2025-09-29","representative_query_token_counts":null,"scicode":0.447,"short_name":"Claude 4.5 Sonnet","show_host_model_evals":false,"size_class":"Large","slug":"claude-4-5-sonnet-thinking","tau2":0.781,"terminalbench_hard":0.333,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"522fccd6-bb0a-4019-b52d-5998e1b25ab8","slug":"amazon-bedrock_claude-4-5-sonnet-thinking","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"90e078f2-051b-4c63-8919-76618971cb3f","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K-1M: $6/$22.50 per M tokens","json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-sonnet-4-5-20250929-v1:0","function_calling":true,"cache_write_price":4.12,"host_model_string":"Amazon Bedrock_Claude 4.5 Sonnet (Reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K: \r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4.002,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"5e172a25-00b8-41c1-8370-fe47d93a14dd","slug":"anthropic_claude-4-5-sonnet-thinking","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"90e078f2-051b-4c63-8919-76618971cb3f","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K-1M: $6/$22.50 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4-5-20250929","function_calling":true,"cache_write_price":3.75,"host_model_string":"Anthropic_Claude 4.5 Sonnet (Reasoning)","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K:\r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4.002,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"7b881b94-1d93-45ff-b1e9-e01908c395e5","slug":"google_claude-4-5-sonnet-thinking_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"90e078f2-051b-4c63-8919-76618971cb3f","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $3/$15 per M tokens\r\n- >200K-1M: $6/$22.50 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-sonnet-4-5@20250929","function_calling":true,"cache_write_price":3.75,"host_model_string":"Google_Claude 4.5 Sonnet (Reasoning)_Vertex","cache_pricing_notes":"Tiered pricing:\r\n\r\n- ≤200K:\r\n - Cache hit: $0.30\r\n - 5m cache write: $3.75\r\n - 1h cache write: $6.00\r\n \r\n- >200K:\r\n - Cache hit: $0.60\r\n - 5m cache write: $7.50\r\n - 1h cache write: $12.00","model_name_appendage":"Vertex","price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4.002,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-4-5-sonnet-thinking","hosts_url":"/models/claude-4-5-sonnet-thinking/providers","name_and_creator_label":"Claude 4.5 Sonnet, Anthropic"},{"additional_text":null,"aime":null,"aime25":0.627,"agentic_index":58.93,"coding_index":41.2,"commercial_allowed":null,"computed_performance_host_model_id":"1a672226-5663-41a4-9803-59f5386ba7a5","context_window_tokens":200000,"critpt":0.003,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":287,"estimated_intelligence_index":35.33008802599461,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1404.8279731266914,"gpqa":0.81,"hle":0.129,"humaneval":null,"id":"4077490a-bbfb-404e-979a-a97a20e3b5de","ifbench":0.43,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":42.54,"intelligence_index_token_counts":{"input_tokens":194109782,"answer_tokens":8043681,"output_tokens":8043681,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-08-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.653,"license_name":null,"license_url":null,"livecodebench":0.738,"math_500":null,"math_index":62.67,"mmlu_pro":0.889,"mmmu_pro":0.712,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.9091666666666667,"input_tokens":188556,"answer_tokens":318066,"output_tokens":318066,"reasoning_tokens":0,"total_input_tokens_api":342771,"total_answer_tokens_api":626615,"total_reasoning_tokens_api":0},"bn":{"score":0.8975,"input_tokens":225534,"answer_tokens":360673,"output_tokens":360673,"reasoning_tokens":0,"total_input_tokens_api":487836,"total_answer_tokens_api":833773,"total_reasoning_tokens_api":0},"de":{"score":0.9225,"input_tokens":191646,"answer_tokens":334035,"output_tokens":334035,"reasoning_tokens":0,"total_input_tokens_api":269328,"total_answer_tokens_api":476748,"total_reasoning_tokens_api":0},"en":{"score":0.9416666666666665,"input_tokens":159654,"answer_tokens":332693,"output_tokens":332693,"reasoning_tokens":0,"total_input_tokens_api":185025,"total_answer_tokens_api":370700,"total_reasoning_tokens_api":0},"es":{"score":0.9383333333333334,"input_tokens":182088,"answer_tokens":334807,"output_tokens":334807,"reasoning_tokens":0,"total_input_tokens_api":235137,"total_answer_tokens_api":430280,"total_reasoning_tokens_api":0},"fr":{"score":0.9141666666666666,"input_tokens":191346,"answer_tokens":324473,"output_tokens":324473,"reasoning_tokens":0,"total_input_tokens_api":246906,"total_answer_tokens_api":413174,"total_reasoning_tokens_api":0},"hi":{"score":0.9108333333333333,"input_tokens":209430,"answer_tokens":340566,"output_tokens":340566,"reasoning_tokens":0,"total_input_tokens_api":405267,"total_answer_tokens_api":693710,"total_reasoning_tokens_api":0},"id":{"score":0.9199999999999999,"input_tokens":181314,"answer_tokens":359361,"output_tokens":359361,"reasoning_tokens":0,"total_input_tokens_api":253320,"total_answer_tokens_api":494519,"total_reasoning_tokens_api":0},"it":{"score":0.9258333333333333,"input_tokens":199032,"answer_tokens":361178,"output_tokens":361178,"reasoning_tokens":0,"total_input_tokens_api":238353,"total_answer_tokens_api":425465,"total_reasoning_tokens_api":0},"ja":{"score":0.9166666666666666,"input_tokens":228129,"answer_tokens":414253,"output_tokens":414253,"reasoning_tokens":0,"total_input_tokens_api":271329,"total_answer_tokens_api":487267,"total_reasoning_tokens_api":0},"ko":{"score":0.9225,"input_tokens":199401,"answer_tokens":348762,"output_tokens":348762,"reasoning_tokens":0,"total_input_tokens_api":313302,"total_answer_tokens_api":477282,"total_reasoning_tokens_api":0},"my":{"score":0.8608333333333335,"input_tokens":353547,"answer_tokens":418119,"output_tokens":418119,"reasoning_tokens":0,"total_input_tokens_api":666201,"total_answer_tokens_api":622525,"total_reasoning_tokens_api":0},"pt":{"score":0.9216666666666667,"input_tokens":178176,"answer_tokens":334434,"output_tokens":334434,"reasoning_tokens":0,"total_input_tokens_api":230112,"total_answer_tokens_api":438551,"total_reasoning_tokens_api":0},"sw":{"score":0.8775,"input_tokens":208677,"answer_tokens":370513,"output_tokens":370513,"reasoning_tokens":0,"total_input_tokens_api":279708,"total_answer_tokens_api":495879,"total_reasoning_tokens_api":0},"yo":{"score":0.8066666666666666,"input_tokens":307062,"answer_tokens":352093,"output_tokens":352093,"reasoning_tokens":0,"total_input_tokens_api":460338,"total_answer_tokens_api":436644,"total_reasoning_tokens_api":0},"zh":{"score":0.9083333333333332,"input_tokens":179793,"answer_tokens":398159,"output_tokens":398159,"reasoning_tokens":0,"total_input_tokens_api":244536,"total_answer_tokens_api":531864,"total_reasoning_tokens_api":0},"average":{"score":0.9058854166666666,"input_tokens":3383385,"answer_tokens":5702185,"output_tokens":5702185,"reasoning_tokens":0,"total_input_tokens_api":5129469,"total_answer_tokens_api":8254996,"total_reasoning_tokens_api":0}},"name":"Claude Opus 4.5 (Non-reasoning)","is_open_weights":false,"omniscience":-6.45,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.304,"num_correct":304,"omniscience":-11.9,"attempt_rate":0.757,"num_incorrect":423,"total_questions":1000,"num_not_attempted":243,"hallucination_rate":0.6077586206896551,"num_partial_answer":30}},"total":{"accuracy":0.389,"num_correct":2334,"omniscience":-6.45,"attempt_rate":0.8843333333333333,"num_incorrect":2721,"total_questions":6000,"num_not_attempted":694,"hallucination_rate":0.7422258592471358,"num_partial_answer":251},"Health":{"total":{"accuracy":0.318,"num_correct":318,"omniscience":-23.5,"attempt_rate":0.956,"num_incorrect":553,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.8108504398826979,"num_partial_answer":85}},"Business":{"total":{"accuracy":0.326,"num_correct":326,"omniscience":-14.3,"attempt_rate":0.823,"num_incorrect":469,"total_questions":1000,"num_not_attempted":177,"hallucination_rate":0.6958456973293768,"num_partial_answer":28}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.73,"num_correct":73,"omniscience":53,"attempt_rate":0.95,"num_incorrect":20,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.7407407407407407,"num_partial_answer":2}},"R":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":30,"attempt_rate":0.9,"num_incorrect":15,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.75,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.66,"num_correct":33,"omniscience":58,"attempt_rate":0.76,"num_incorrect":4,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.23529411764705882,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.7,"num_correct":35,"omniscience":48,"attempt_rate":0.96,"num_incorrect":11,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.7333333333333333,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":20,"attempt_rate":0.92,"num_incorrect":16,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.6666666666666666,"num_partial_answer":4}},"HTML":{"total":{"accuracy":0.74,"num_correct":37,"omniscience":50,"attempt_rate":0.98,"num_incorrect":12,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9230769230769231,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.43,"num_correct":43,"omniscience":-3,"attempt_rate":0.9,"num_incorrect":46,"total_questions":100,"num_not_attempted":10,"hallucination_rate":0.8070175438596491,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.74,"num_correct":37,"omniscience":60,"attempt_rate":0.98,"num_incorrect":7,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.5384615384615384,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.56,"num_correct":14,"omniscience":12,"attempt_rate":1,"num_incorrect":11,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.76,"num_correct":19,"omniscience":60,"attempt_rate":0.96,"num_incorrect":4,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.6666666666666666,"num_partial_answer":1}},"total":{"accuracy":0.621,"num_correct":621,"omniscience":33.6,"attempt_rate":0.934,"num_incorrect":285,"total_questions":1000,"num_not_attempted":66,"hallucination_rate":0.7519788918205804,"num_partial_answer":28},"Kotlin":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":26,"attempt_rate":0.82,"num_incorrect":13,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.5416666666666666,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.63,"num_correct":126,"omniscience":32,"attempt_rate":0.96,"num_incorrect":62,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.8378378378378378,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.6090909090909091,"num_correct":67,"omniscience":29.09090909090909,"attempt_rate":0.9545454545454546,"num_incorrect":35,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.813953488372093,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.6111111111111112,"num_correct":55,"omniscience":28.88888888888889,"attempt_rate":0.9666666666666667,"num_incorrect":29,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.8285714285714286,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.377,"num_correct":377,"omniscience":-10.2,"attempt_rate":0.883,"num_incorrect":479,"total_questions":1000,"num_not_attempted":117,"hallucination_rate":0.7688603531300161,"num_partial_answer":27}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.388,"num_correct":388,"omniscience":-12.4,"attempt_rate":0.953,"num_incorrect":512,"total_questions":1000,"num_not_attempted":47,"hallucination_rate":0.8366013071895425,"num_partial_answer":53}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-11-24","representative_query_token_counts":null,"scicode":0.47,"short_name":"Claude Opus 4.5","show_host_model_evals":false,"size_class":"Large","slug":"claude-opus-4-5","tau2":0.863,"terminalbench_hard":0.383,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"d269848b-a0f6-4104-bb9c-7da299f539f8","slug":"databricks_claude-opus-4-5","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"4077490a-bbfb-404e-979a-a97a20e3b5de","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-claude-opus-4-5","function_calling":false,"cache_write_price":null,"host_model_string":"Databricks_Claude Opus 4.5 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"1a672226-5663-41a4-9803-59f5386ba7a5","slug":"anthropic_claude-opus-4-5","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"4077490a-bbfb-404e-979a-a97a20e3b5de","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4-5-20251101","function_calling":true,"cache_write_price":6.25,"host_model_string":"Anthropic_Claude Opus 4.5 (Non-reasoning)","cache_pricing_notes":"1h cache write: $10","model_name_appendage":null,"price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":6.67,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"a1d02c41-e50a-41c0-964d-63a4142b0714","slug":"google_claude-opus-4-5_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"4077490a-bbfb-404e-979a-a97a20e3b5de","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4-5@20251101","function_calling":true,"cache_write_price":6.25,"host_model_string":"Google_Claude Opus 4.5 (Non-reasoning)_Vertex","cache_pricing_notes":"1h cache write: $10","model_name_appendage":"Vertex","price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":6.67,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"a17d9465-fe62-491d-a626-d86ac9dc42ca","slug":"amazon-bedrock_claude-opus-4-5","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"4077490a-bbfb-404e-979a-a97a20e3b5de","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"global.anthropic.claude-opus-4-5-20251101-v1:0","function_calling":true,"cache_write_price":6.25,"host_model_string":"Amazon Bedrock_Claude Opus 4.5 (Non-reasoning)","cache_pricing_notes":"1h cache write: $10","model_name_appendage":null,"price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":6.67,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-opus-4-5","hosts_url":"/models/claude-opus-4-5/providers","name_and_creator_label":"Claude Opus 4.5, Anthropic"},{"additional_text":null,"aime":null,"aime25":0.913,"agentic_index":59.22,"coding_index":45.83,"commercial_allowed":null,"computed_performance_host_model_id":"0a232198-599e-40b4-905a-1faa982986e6","context_window_tokens":200000,"critpt":0.046,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":292,"estimated_intelligence_index":45.867644374329586,"model_family_slug":"claude-4","frontier_model":false,"gdpval":1381.4866189924696,"gpqa":0.866,"hle":0.284,"humaneval":null,"id":"2660d74f-ce79-48a8-8b53-6e668e2071a2","ifbench":0.58,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":49.08,"intelligence_index_token_counts":{"input_tokens":156834226,"answer_tokens":6988679,"output_tokens":29042878,"reasoning_tokens":22054199},"knowledge_cutoff_date":"2025-08-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.74,"license_name":null,"license_url":null,"livecodebench":0.871,"math_500":null,"math_index":91.33,"mmlu_pro":0.895,"mmmu_pro":0.74,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.9133333333333332,"input_tokens":188556,"answer_tokens":290493,"output_tokens":851264,"reasoning_tokens":560771,"total_input_tokens_api":377571,"total_answer_tokens_api":1939125,"total_reasoning_tokens_api":0},"bn":{"score":0.9058333333333333,"input_tokens":225534,"answer_tokens":327734,"output_tokens":1048562,"reasoning_tokens":720828,"total_input_tokens_api":522636,"total_answer_tokens_api":2294666,"total_reasoning_tokens_api":0},"de":{"score":0.93,"input_tokens":191646,"answer_tokens":301789,"output_tokens":943018,"reasoning_tokens":641229,"total_input_tokens_api":304128,"total_answer_tokens_api":1601206,"total_reasoning_tokens_api":0},"en":{"score":0.9375,"input_tokens":159654,"answer_tokens":298849,"output_tokens":925708,"reasoning_tokens":626859,"total_input_tokens_api":219825,"total_answer_tokens_api":1382512,"total_reasoning_tokens_api":0},"es":{"score":0.93,"input_tokens":182088,"answer_tokens":314221,"output_tokens":952417,"reasoning_tokens":638196,"total_input_tokens_api":269937,"total_answer_tokens_api":1559408,"total_reasoning_tokens_api":0},"fr":{"score":0.9266666666666666,"input_tokens":191346,"answer_tokens":298184,"output_tokens":960024,"reasoning_tokens":661840,"total_input_tokens_api":281706,"total_answer_tokens_api":1577417,"total_reasoning_tokens_api":0},"hi":{"score":0.9025,"input_tokens":209430,"answer_tokens":320445,"output_tokens":976924,"reasoning_tokens":656479,"total_input_tokens_api":440067,"total_answer_tokens_api":2046914,"total_reasoning_tokens_api":0},"id":{"score":0.9208333333333334,"input_tokens":181314,"answer_tokens":332040,"output_tokens":957960,"reasoning_tokens":625920,"total_input_tokens_api":288120,"total_answer_tokens_api":1556706,"total_reasoning_tokens_api":0},"it":{"score":0.9316666666666666,"input_tokens":199032,"answer_tokens":342716,"output_tokens":983604,"reasoning_tokens":640888,"total_input_tokens_api":273153,"total_answer_tokens_api":1482979,"total_reasoning_tokens_api":0},"ja":{"score":0.9258333333333333,"input_tokens":228129,"answer_tokens":392281,"output_tokens":1163250,"reasoning_tokens":770969,"total_input_tokens_api":306129,"total_answer_tokens_api":1872362,"total_reasoning_tokens_api":0},"ko":{"score":0.9158333333333334,"input_tokens":199401,"answer_tokens":323656,"output_tokens":1015149,"reasoning_tokens":691493,"total_input_tokens_api":348102,"total_answer_tokens_api":1887961,"total_reasoning_tokens_api":0},"my":{"score":0.8916666666666666,"input_tokens":353547,"answer_tokens":483969,"output_tokens":1249948,"reasoning_tokens":765979,"total_input_tokens_api":700914,"total_answer_tokens_api":2562818,"total_reasoning_tokens_api":0},"pt":{"score":0.9241666666666667,"input_tokens":178176,"answer_tokens":306504,"output_tokens":950125,"reasoning_tokens":643621,"total_input_tokens_api":264912,"total_answer_tokens_api":1546048,"total_reasoning_tokens_api":0},"sw":{"score":0.8958333333333334,"input_tokens":208677,"answer_tokens":333333,"output_tokens":1034479,"reasoning_tokens":701146,"total_input_tokens_api":314508,"total_answer_tokens_api":1757318,"total_reasoning_tokens_api":0},"yo":{"score":0.83,"input_tokens":307062,"answer_tokens":298222,"output_tokens":1205967,"reasoning_tokens":907745,"total_input_tokens_api":495138,"total_answer_tokens_api":2506337,"total_reasoning_tokens_api":0},"zh":{"score":0.9225,"input_tokens":179793,"answer_tokens":345185,"output_tokens":1047199,"reasoning_tokens":702014,"total_input_tokens_api":279336,"total_answer_tokens_api":1828294,"total_reasoning_tokens_api":0},"average":{"score":0.9127604166666666,"input_tokens":3383385,"answer_tokens":5309621,"output_tokens":16265598,"reasoning_tokens":10955977,"total_input_tokens_api":5686182,"total_answer_tokens_api":29402071,"total_reasoning_tokens_api":0}},"name":"Claude Opus 4.5 (Reasoning)","is_open_weights":false,"omniscience":10.233,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.344,"num_correct":344,"omniscience":8.2,"attempt_rate":0.644,"num_incorrect":262,"total_questions":1000,"num_not_attempted":356,"hallucination_rate":0.39939024390243905,"num_partial_answer":38}},"total":{"accuracy":0.43116666666666664,"num_correct":2587,"omniscience":10.233333333333333,"attempt_rate":0.8143333333333334,"num_incorrect":1973,"total_questions":6000,"num_not_attempted":1114,"hallucination_rate":0.5780837972458248,"num_partial_answer":326},"Health":{"total":{"accuracy":0.356,"num_correct":356,"omniscience":-10.5,"attempt_rate":0.935,"num_incorrect":461,"total_questions":1000,"num_not_attempted":65,"hallucination_rate":0.7158385093167702,"num_partial_answer":118}},"Business":{"total":{"accuracy":0.332,"num_correct":332,"omniscience":-0.2,"attempt_rate":0.701,"num_incorrect":334,"total_questions":1000,"num_not_attempted":299,"hallucination_rate":0.5,"num_partial_answer":35}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.8,"num_correct":80,"omniscience":66,"attempt_rate":0.98,"num_incorrect":14,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.7,"num_partial_answer":4}},"R":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":36,"attempt_rate":0.88,"num_incorrect":13,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.6842105263157895,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.64,"num_correct":32,"omniscience":54,"attempt_rate":0.78,"num_incorrect":5,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.2777777777777778,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.78,"num_correct":39,"omniscience":58,"attempt_rate":1,"num_incorrect":10,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9090909090909091,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":24,"attempt_rate":0.92,"num_incorrect":15,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.6521739130434783,"num_partial_answer":4}},"HTML":{"total":{"accuracy":0.78,"num_correct":39,"omniscience":60,"attempt_rate":0.96,"num_incorrect":9,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8181818181818182,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.53,"num_correct":53,"omniscience":12,"attempt_rate":0.97,"num_incorrect":41,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.8723404255319149,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.72,"num_correct":36,"omniscience":56,"attempt_rate":0.98,"num_incorrect":8,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.5714285714285714,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.64,"num_correct":16,"omniscience":40,"attempt_rate":0.96,"num_incorrect":6,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.6666666666666666,"num_partial_answer":2}},"Swift":{"total":{"accuracy":0.56,"num_correct":14,"omniscience":40,"attempt_rate":0.92,"num_incorrect":4,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.36363636363636365,"num_partial_answer":5}},"total":{"accuracy":0.675,"num_correct":675,"omniscience":45.4,"attempt_rate":0.942,"num_incorrect":221,"total_questions":1000,"num_not_attempted":58,"hallucination_rate":0.68,"num_partial_answer":46},"Kotlin":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":22,"attempt_rate":0.88,"num_incorrect":14,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.56,"num_partial_answer":5}},"Python":{"total":{"accuracy":0.73,"num_correct":146,"omniscience":55.5,"attempt_rate":0.93,"num_incorrect":35,"total_questions":200,"num_not_attempted":14,"hallucination_rate":0.6481481481481481,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.7181818181818181,"num_correct":79,"omniscience":50,"attempt_rate":0.9727272727272728,"num_incorrect":24,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.7741935483870968,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.6444444444444445,"num_correct":58,"omniscience":38.888888888888886,"attempt_rate":0.9666666666666667,"num_incorrect":23,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.71875,"num_partial_answer":6}}},"Humanities & Social Sciences":{"total":{"accuracy":0.418,"num_correct":418,"omniscience":11.6,"attempt_rate":0.755,"num_incorrect":302,"total_questions":1000,"num_not_attempted":245,"hallucination_rate":0.5189003436426117,"num_partial_answer":35}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.462,"num_correct":462,"omniscience":6.9,"attempt_rate":0.909,"num_incorrect":393,"total_questions":1000,"num_not_attempted":91,"hallucination_rate":0.7304832713754646,"num_partial_answer":54}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","varied_reasoning":true},"release_date":"2025-11-24","representative_query_token_counts":null,"scicode":0.495,"short_name":"Claude Opus 4.5","show_host_model_evals":false,"size_class":"Large","slug":"claude-opus-4-5-thinking","tau2":0.895,"terminalbench_hard":0.44,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"987dfb4a-40e5-475a-9e7c-3a61613ddc63","slug":"google_claude-opus-4-5-thinking_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"2660d74f-ce79-48a8-8b53-6e668e2071a2","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4-5@20251101","function_calling":true,"cache_write_price":6.25,"host_model_string":"Google_Claude Opus 4.5 (Reasoning)_Vertex","cache_pricing_notes":"1h cache write: $10","model_name_appendage":"Vertex","price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":6.67,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"0a232198-599e-40b4-905a-1faa982986e6","slug":"anthropic_claude-opus-4-5-thinking","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"2660d74f-ce79-48a8-8b53-6e668e2071a2","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-opus-4-5-20251101","function_calling":true,"cache_write_price":6.25,"host_model_string":"Anthropic_Claude Opus 4.5 (Reasoning)","cache_pricing_notes":"1h cache write: $10","model_name_appendage":null,"price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":6.67,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"1c44c6a1-35e0-4ae7-8fc4-661e8df497a0","slug":"amazon-bedrock_claude-opus-4-5-thinking","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"2660d74f-ce79-48a8-8b53-6e668e2071a2","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"global.anthropic.claude-opus-4-5-20251101-v1:0","function_calling":true,"cache_write_price":6.25,"host_model_string":"Amazon Bedrock_Claude Opus 4.5 (Reasoning)","cache_pricing_notes":"1h cache write: $10","model_name_appendage":null,"price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":6.67,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-opus-4-5-thinking","hosts_url":"/models/claude-opus-4-5-thinking/providers","name_and_creator_label":"Claude Opus 4.5, Anthropic"},{"additional_text":null,"aime":null,"aime25":0.557,"agentic_index":34.85,"coding_index":36.49,"commercial_allowed":null,"computed_performance_host_model_id":"337598af-b9de-4727-8eac-c549e9f8f03d","context_window_tokens":1000000,"critpt":0.014,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":246,"estimated_intelligence_index":30.603211453268177,"model_family_slug":"gemini-3","frontier_model":false,"gdpval":1111.7933307152875,"gpqa":0.812,"hle":0.141,"humaneval":null,"id":"783a0ea2-1eef-422a-8c3d-f6d40d943f54","ifbench":0.551,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":34.72,"intelligence_index_token_counts":{"input_tokens":107856410,"answer_tokens":4001285,"output_tokens":4001285,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.48,"license_name":null,"license_url":null,"livecodebench":0.797,"math_500":null,"math_index":55.67,"mmlu_pro":0.882,"mmmu_pro":0.786,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 3 Flash Preview (Non-reasoning)","is_open_weights":false,"omniscience":-0.917,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.523,"num_correct":523,"omniscience":8.3,"attempt_rate":0.986,"num_incorrect":440,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.9224318658280922,"num_partial_answer":23}},"total":{"accuracy":0.4715,"num_correct":2829,"omniscience":-0.9166666666666666,"attempt_rate":0.9816666666666667,"num_incorrect":2884,"total_questions":6000,"num_not_attempted":110,"hallucination_rate":0.9094922737306843,"num_partial_answer":177},"Health":{"total":{"accuracy":0.412,"num_correct":412,"omniscience":-11.1,"attempt_rate":0.999,"num_incorrect":523,"total_questions":1000,"num_not_attempted":1,"hallucination_rate":0.8894557823129252,"num_partial_answer":64}},"Business":{"total":{"accuracy":0.428,"num_correct":428,"omniscience":-7.4,"attempt_rate":0.953,"num_incorrect":502,"total_questions":1000,"num_not_attempted":47,"hallucination_rate":0.8776223776223776,"num_partial_answer":23}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.72,"num_correct":72,"omniscience":46,"attempt_rate":0.99,"num_incorrect":26,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9285714285714286,"num_partial_answer":1}},"R":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-18,"attempt_rate":0.94,"num_incorrect":28,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9032258064516129,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":12,"attempt_rate":0.92,"num_incorrect":20,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8333333333333334,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.66,"num_correct":33,"omniscience":34,"attempt_rate":1,"num_incorrect":16,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-22,"attempt_rate":0.94,"num_incorrect":28,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8484848484848485,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":16,"attempt_rate":1,"num_incorrect":21,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.38,"num_correct":38,"omniscience":-22,"attempt_rate":1,"num_incorrect":60,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.967741935483871,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":28,"attempt_rate":1,"num_incorrect":17,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8947368421052632,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.64,"num_correct":16,"omniscience":28,"attempt_rate":1,"num_incorrect":9,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.6,"num_correct":15,"omniscience":32,"attempt_rate":0.92,"num_incorrect":7,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7,"num_partial_answer":1}},"total":{"accuracy":0.531,"num_correct":531,"omniscience":9.6,"attempt_rate":0.982,"num_incorrect":435,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.9275053304904051,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":-2,"attempt_rate":0.98,"num_incorrect":24,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8888888888888888,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.485,"num_correct":97,"omniscience":0.5,"attempt_rate":0.985,"num_incorrect":96,"total_questions":200,"num_not_attempted":3,"hallucination_rate":0.9320388349514563,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.5636363636363636,"num_correct":62,"omniscience":14.545454545454545,"attempt_rate":0.990909090909091,"num_incorrect":46,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.5888888888888889,"num_correct":53,"omniscience":17.77777777777778,"attempt_rate":1,"num_incorrect":37,"total_questions":90,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.47,"num_correct":470,"omniscience":-3.8,"attempt_rate":0.993,"num_incorrect":508,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.9584905660377359,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.465,"num_correct":465,"omniscience":-1.1,"attempt_rate":0.977,"num_incorrect":476,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.8897196261682243,"num_partial_answer":36}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-17","representative_query_token_counts":null,"scicode":0.499,"short_name":"Gemini 3 Flash","show_host_model_evals":false,"size_class":"Large","slug":"gemini-3-flash","tau2":0.433,"terminalbench_hard":0.298,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"337598af-b9de-4727-8eac-c549e9f8f03d","slug":"google_gemini-3-flash_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"783a0ea2-1eef-422a-8c3d-f6d40d943f54","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"fiercefalcon","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 3 Flash Preview (Non-reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.5,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.89,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-3-flash","hosts_url":"/models/gemini-3-flash/providers","name_and_creator_label":"Gemini 3 Flash, Google"},{"additional_text":null,"aime":null,"aime25":0.97,"agentic_index":49.12,"coding_index":40.97,"commercial_allowed":null,"computed_performance_host_model_id":"55135bdb-b301-4d1e-b0e1-50a2fadb0a96","context_window_tokens":1000000,"critpt":0.086,"deleted":false,"deprecated":false,"deprecated_to":"gemini-2-5-flash-preview-09-2025-reasoning","display_order":269,"estimated_intelligence_index":47.72760505875047,"model_family_slug":"gemini-3","frontier_model":false,"gdpval":1169.380106864341,"gpqa":0.898,"hle":0.347,"humaneval":null,"id":"7c73c3be-7f51-4d14-bec8-d5789488df25","ifbench":0.78,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":46.16,"intelligence_index_token_counts":{"input_tokens":125645414,"answer_tokens":4204198,"output_tokens":72040330,"reasoning_tokens":67836132},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.663,"license_name":null,"license_url":null,"livecodebench":0.908,"math_500":null,"math_index":97,"mmlu_pro":0.89,"mmmu_pro":0.799,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.9183333333333333,"input_tokens":188556,"answer_tokens":277895,"output_tokens":2453173,"reasoning_tokens":2175278,"total_input_tokens_api":206397,"total_answer_tokens_api":306243,"total_reasoning_tokens_api":2175278},"bn":{"score":0.9008333333333334,"input_tokens":225534,"answer_tokens":288713,"output_tokens":2251088,"reasoning_tokens":1962375,"total_input_tokens_api":184848,"total_answer_tokens_api":226308,"total_reasoning_tokens_api":1962375},"de":{"score":0.9241666666666667,"input_tokens":191646,"answer_tokens":300883,"output_tokens":2465318,"reasoning_tokens":2164435,"total_input_tokens_api":202893,"total_answer_tokens_api":313572,"total_reasoning_tokens_api":2164435},"en":{"score":0.9466666666666667,"input_tokens":159654,"answer_tokens":264665,"output_tokens":2610831,"reasoning_tokens":2346166,"total_input_tokens_api":167769,"total_answer_tokens_api":272774,"total_reasoning_tokens_api":2346166},"es":{"score":0.9400000000000001,"input_tokens":182088,"answer_tokens":291164,"output_tokens":2449373,"reasoning_tokens":2158209,"total_input_tokens_api":190269,"total_answer_tokens_api":296944,"total_reasoning_tokens_api":2158209},"fr":{"score":0.9225,"input_tokens":191346,"answer_tokens":277438,"output_tokens":2472410,"reasoning_tokens":2194972,"total_input_tokens_api":204930,"total_answer_tokens_api":290919,"total_reasoning_tokens_api":2194972},"hi":{"score":0.9100000000000001,"input_tokens":209430,"answer_tokens":328602,"output_tokens":2367748,"reasoning_tokens":2039146,"total_input_tokens_api":191553,"total_answer_tokens_api":292290,"total_reasoning_tokens_api":2039146},"id":{"score":0.9349999999999999,"input_tokens":181314,"answer_tokens":300721,"output_tokens":2263578,"reasoning_tokens":1962857,"total_input_tokens_api":180828,"total_answer_tokens_api":289725,"total_reasoning_tokens_api":1962857},"it":{"score":0.9016666666666667,"input_tokens":190438,"answer_tokens":280592,"output_tokens":1790637,"reasoning_tokens":1510045,"total_input_tokens_api":190718,"total_answer_tokens_api":273587,"total_reasoning_tokens_api":1510045},"ja":{"score":0.9241666666666667,"input_tokens":228129,"answer_tokens":325666,"output_tokens":2546279,"reasoning_tokens":2220613,"total_input_tokens_api":190545,"total_answer_tokens_api":255577,"total_reasoning_tokens_api":2220613},"ko":{"score":0.9116666666666666,"input_tokens":199401,"answer_tokens":283818,"output_tokens":2544267,"reasoning_tokens":2260449,"total_input_tokens_api":200520,"total_answer_tokens_api":279115,"total_reasoning_tokens_api":2260449},"my":{"score":0.8983333333333333,"input_tokens":353547,"answer_tokens":396385,"output_tokens":2722967,"reasoning_tokens":2326582,"total_input_tokens_api":298347,"total_answer_tokens_api":320364,"total_reasoning_tokens_api":2326582},"pt":{"score":0.9233333333333335,"input_tokens":178176,"answer_tokens":280581,"output_tokens":2236202,"reasoning_tokens":1955621,"total_input_tokens_api":189723,"total_answer_tokens_api":294334,"total_reasoning_tokens_api":1955621},"sw":{"score":0.9016666666666667,"input_tokens":208677,"answer_tokens":331853,"output_tokens":3455454,"reasoning_tokens":3123601,"total_input_tokens_api":233826,"total_answer_tokens_api":370713,"total_reasoning_tokens_api":3123601},"yo":{"score":0.8466666666666667,"input_tokens":307062,"answer_tokens":425514,"output_tokens":4942347,"reasoning_tokens":4516833,"total_input_tokens_api":348756,"total_answer_tokens_api":480415,"total_reasoning_tokens_api":4516833},"zh":{"score":0.9250000000000002,"input_tokens":179793,"answer_tokens":348674,"output_tokens":2643158,"reasoning_tokens":2294484,"total_input_tokens_api":173439,"total_answer_tokens_api":320791,"total_reasoning_tokens_api":2294484},"average":{"score":0.914375,"input_tokens":3374791,"answer_tokens":5003164,"output_tokens":42214830,"reasoning_tokens":37211666,"total_input_tokens_api":3355361,"total_answer_tokens_api":4883671,"total_reasoning_tokens_api":37211666}},"name":"Gemini 3 Flash Preview (Reasoning)","is_open_weights":false,"omniscience":8.233,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.591,"num_correct":591,"omniscience":21.7,"attempt_rate":0.994,"num_incorrect":374,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.9144254278728606,"num_partial_answer":29}},"total":{"accuracy":0.5186666666666667,"num_correct":3112,"omniscience":8.233333333333333,"attempt_rate":0.987,"num_incorrect":2618,"total_questions":6000,"num_not_attempted":78,"hallucination_rate":0.9065096952908587,"num_partial_answer":192},"Health":{"total":{"accuracy":0.444,"num_correct":444,"omniscience":-6.1,"attempt_rate":0.994,"num_incorrect":505,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.908273381294964,"num_partial_answer":45}},"Business":{"total":{"accuracy":0.436,"num_correct":436,"omniscience":-7.3,"attempt_rate":0.967,"num_incorrect":509,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.9024822695035462,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.87,"num_correct":87,"omniscience":75,"attempt_rate":1,"num_incorrect":12,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":1}},"R":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":28,"attempt_rate":0.96,"num_incorrect":17,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8947368421052632,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":22,"attempt_rate":0.92,"num_incorrect":17,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.7727272727272727,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.8,"num_correct":40,"omniscience":60,"attempt_rate":1,"num_incorrect":10,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":6,"attempt_rate":0.98,"num_incorrect":23,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.74,"num_correct":37,"omniscience":48,"attempt_rate":1,"num_incorrect":13,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.5,"num_correct":50,"omniscience":3,"attempt_rate":1,"num_incorrect":47,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.94,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.76,"num_correct":38,"omniscience":58,"attempt_rate":1,"num_incorrect":9,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.75,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.56,"num_correct":14,"omniscience":12,"attempt_rate":1,"num_incorrect":11,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.72,"num_correct":18,"omniscience":52,"attempt_rate":0.92,"num_incorrect":5,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7142857142857143,"num_partial_answer":0}},"total":{"accuracy":0.656,"num_correct":656,"omniscience":34.6,"attempt_rate":0.986,"num_incorrect":310,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.9011627906976745,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":2,"attempt_rate":0.98,"num_incorrect":23,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8846153846153846,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.63,"num_correct":126,"omniscience":27.5,"attempt_rate":0.99,"num_incorrect":71,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9594594594594594,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.7636363636363637,"num_correct":84,"omniscience":53.63636363636363,"attempt_rate":0.990909090909091,"num_incorrect":25,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9615384615384616,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.5888888888888889,"num_correct":53,"omniscience":28.88888888888889,"attempt_rate":0.9888888888888889,"num_incorrect":27,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.7297297297297297,"num_partial_answer":9}}},"Humanities & Social Sciences":{"total":{"accuracy":0.508,"num_correct":508,"omniscience":5,"attempt_rate":0.99,"num_incorrect":458,"total_questions":1000,"num_not_attempted":10,"hallucination_rate":0.9308943089430894,"num_partial_answer":24}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.477,"num_correct":477,"omniscience":1.5,"attempt_rate":0.991,"num_incorrect":462,"total_questions":1000,"num_not_attempted":9,"hallucination_rate":0.8833652007648184,"num_partial_answer":52}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-12-17","representative_query_token_counts":null,"scicode":0.506,"short_name":"Gemini 3 Flash","show_host_model_evals":false,"size_class":"Large","slug":"gemini-3-flash-reasoning","tau2":0.804,"terminalbench_hard":0.362,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"55135bdb-b301-4d1e-b0e1-50a2fadb0a96","slug":"google_gemini-3-flash-reasoning_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"7c73c3be-7f51-4d14-bec8-d5789488df25","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"fiercefalcon","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 3 Flash Preview (Reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.5,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.89,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-3-flash-reasoning","hosts_url":"/models/gemini-3-flash-reasoning/providers","name_and_creator_label":"Gemini 3 Flash, Google"},{"additional_text":null,"aime":null,"aime25":0.957,"agentic_index":51.71,"coding_index":44.72,"commercial_allowed":null,"computed_performance_host_model_id":"d8ce7119-c199-42f1-bf71-0e2330617a1a","context_window_tokens":1000000,"critpt":0.091,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":244,"estimated_intelligence_index":49.7683854890932,"model_family_slug":"gemini-3","frontier_model":false,"gdpval":1179.7412877372315,"gpqa":0.908,"hle":0.372,"humaneval":null,"id":"d1122eff-ee85-4fdc-8a9f-23bee6590667","ifbench":0.704,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":47.93,"intelligence_index_token_counts":{"input_tokens":75417295,"answer_tokens":4984429,"output_tokens":55750223,"reasoning_tokens":50765794},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.707,"license_name":null,"license_url":null,"livecodebench":0.917,"math_500":null,"math_index":95.67,"mmlu_pro":0.898,"mmmu_pro":0.802,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.9266666666666667,"input_tokens":188556,"answer_tokens":209822,"output_tokens":1672708,"reasoning_tokens":1462886,"total_input_tokens_api":206397,"total_answer_tokens_api":229750,"total_reasoning_tokens_api":1462886},"bn":{"score":0.9133333333333334,"input_tokens":225534,"answer_tokens":241286,"output_tokens":1728076,"reasoning_tokens":1486790,"total_input_tokens_api":184848,"total_answer_tokens_api":189442,"total_reasoning_tokens_api":1486790},"de":{"score":0.9316666666666666,"input_tokens":191646,"answer_tokens":244790,"output_tokens":1710714,"reasoning_tokens":1465924,"total_input_tokens_api":202893,"total_answer_tokens_api":254300,"total_reasoning_tokens_api":1465924},"en":{"score":0.9366666666666666,"input_tokens":158423,"answer_tokens":218190,"output_tokens":1436298,"reasoning_tokens":1218108,"total_input_tokens_api":166458,"total_answer_tokens_api":223414,"total_reasoning_tokens_api":1218108},"es":{"score":0.9416666666666668,"input_tokens":182088,"answer_tokens":242461,"output_tokens":1649520,"reasoning_tokens":1407059,"total_input_tokens_api":190269,"total_answer_tokens_api":246171,"total_reasoning_tokens_api":1407059},"fr":{"score":0.9341666666666667,"input_tokens":191346,"answer_tokens":247292,"output_tokens":1688090,"reasoning_tokens":1440798,"total_input_tokens_api":204930,"total_answer_tokens_api":258274,"total_reasoning_tokens_api":1440798},"hi":{"score":0.9133333333333334,"input_tokens":209430,"answer_tokens":257709,"output_tokens":1792786,"reasoning_tokens":1535077,"total_input_tokens_api":191553,"total_answer_tokens_api":228232,"total_reasoning_tokens_api":1535077},"id":{"score":0.935,"input_tokens":181314,"answer_tokens":290344,"output_tokens":1773019,"reasoning_tokens":1482675,"total_input_tokens_api":180828,"total_answer_tokens_api":278614,"total_reasoning_tokens_api":1482675},"it":{"score":0.9433333333333334,"input_tokens":199032,"answer_tokens":278058,"output_tokens":1685181,"reasoning_tokens":1407123,"total_input_tokens_api":199491,"total_answer_tokens_api":269614,"total_reasoning_tokens_api":1407123},"ja":{"score":0.9316666666666666,"input_tokens":228129,"answer_tokens":357855,"output_tokens":2085542,"reasoning_tokens":1727687,"total_input_tokens_api":190545,"total_answer_tokens_api":280022,"total_reasoning_tokens_api":1727687},"ko":{"score":0.9141666666666667,"input_tokens":199401,"answer_tokens":280315,"output_tokens":1975489,"reasoning_tokens":1695174,"total_input_tokens_api":200520,"total_answer_tokens_api":275736,"total_reasoning_tokens_api":1695174},"my":{"score":0.8975,"input_tokens":353547,"answer_tokens":335302,"output_tokens":2067692,"reasoning_tokens":1732390,"total_input_tokens_api":298347,"total_answer_tokens_api":272128,"total_reasoning_tokens_api":1732390},"pt":{"score":0.9291666666666667,"input_tokens":178176,"answer_tokens":259827,"output_tokens":1817083,"reasoning_tokens":1557256,"total_input_tokens_api":193487,"total_answer_tokens_api":271617,"total_reasoning_tokens_api":1557256},"sw":{"score":0.91,"input_tokens":208677,"answer_tokens":277458,"output_tokens":1922989,"reasoning_tokens":1645531,"total_input_tokens_api":233826,"total_answer_tokens_api":308558,"total_reasoning_tokens_api":1645531},"yo":{"score":0.8624999999999999,"input_tokens":307062,"answer_tokens":313083,"output_tokens":2412001,"reasoning_tokens":2098918,"total_input_tokens_api":348756,"total_answer_tokens_api":354485,"total_reasoning_tokens_api":2098918},"zh":{"score":0.935,"input_tokens":179793,"answer_tokens":335766,"output_tokens":1837838,"reasoning_tokens":1502072,"total_input_tokens_api":173439,"total_answer_tokens_api":306287,"total_reasoning_tokens_api":1502072},"average":{"score":0.9222395833333334,"input_tokens":3382154,"answer_tokens":4389558,"output_tokens":29255026,"reasoning_tokens":24865468,"total_input_tokens_api":3366587,"total_answer_tokens_api":4246644,"total_reasoning_tokens_api":24865468}},"name":"Gemini 3 Pro Preview (high)","is_open_weights":false,"omniscience":12.867,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.617,"num_correct":617,"omniscience":27.6,"attempt_rate":0.993,"num_incorrect":341,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.8903394255874674,"num_partial_answer":35}},"total":{"accuracy":0.5365,"num_correct":3219,"omniscience":12.866666666666667,"attempt_rate":0.9863333333333333,"num_incorrect":2447,"total_questions":6000,"num_not_attempted":82,"hallucination_rate":0.8798993167925206,"num_partial_answer":252},"Health":{"total":{"accuracy":0.445,"num_correct":445,"omniscience":-1.9,"attempt_rate":0.995,"num_incorrect":464,"total_questions":1000,"num_not_attempted":5,"hallucination_rate":0.836036036036036,"num_partial_answer":86}},"Business":{"total":{"accuracy":0.461,"num_correct":461,"omniscience":-1.4,"attempt_rate":0.968,"num_incorrect":475,"total_questions":1000,"num_not_attempted":32,"hallucination_rate":0.8812615955473099,"num_partial_answer":32}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.75,"num_correct":75,"omniscience":54,"attempt_rate":1,"num_incorrect":21,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.84,"num_partial_answer":4}},"R":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":4,"attempt_rate":0.96,"num_incorrect":23,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.92,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":24,"attempt_rate":0.9,"num_incorrect":16,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7272727272727273,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.7,"num_correct":35,"omniscience":42,"attempt_rate":1,"num_incorrect":14,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9333333333333333,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":24,"attempt_rate":0.98,"num_incorrect":18,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.78,"num_correct":39,"omniscience":56,"attempt_rate":1,"num_incorrect":11,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.54,"num_correct":54,"omniscience":10,"attempt_rate":0.99,"num_incorrect":44,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9565217391304348,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.78,"num_correct":39,"omniscience":62,"attempt_rate":1,"num_incorrect":8,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7272727272727273,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":8,"attempt_rate":1,"num_incorrect":11,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.72,"num_correct":18,"omniscience":56,"attempt_rate":0.92,"num_incorrect":4,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.5714285714285714,"num_partial_answer":1}},"total":{"accuracy":0.657,"num_correct":657,"omniscience":35.8,"attempt_rate":0.981,"num_incorrect":299,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.8717201166180758,"num_partial_answer":25},"Kotlin":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":34,"attempt_rate":0.94,"num_incorrect":13,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.65,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.655,"num_correct":131,"omniscience":34,"attempt_rate":0.995,"num_incorrect":63,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9130434782608695,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.7636363636363637,"num_correct":84,"omniscience":56.36363636363637,"attempt_rate":0.9727272727272728,"num_incorrect":22,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.8461538461538461,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.6222222222222222,"num_correct":56,"omniscience":27.77777777777778,"attempt_rate":0.9888888888888889,"num_incorrect":31,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9117647058823529,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.548,"num_correct":548,"omniscience":12.7,"attempt_rate":0.992,"num_incorrect":421,"total_questions":1000,"num_not_attempted":8,"hallucination_rate":0.9314159292035398,"num_partial_answer":23}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.491,"num_correct":491,"omniscience":4.4,"attempt_rate":0.989,"num_incorrect":447,"total_questions":1000,"num_not_attempted":11,"hallucination_rate":0.8781925343811395,"num_partial_answer":51}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-11-18","representative_query_token_counts":null,"scicode":0.561,"short_name":"Gemini 3 Pro Preview (high)","show_host_model_evals":false,"size_class":"Large","slug":"gemini-3-pro","tau2":0.871,"terminalbench_hard":0.39,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"d6044b92-3594-40ed-b69e-3e71f6610b3d","slug":"google_gemini-3-pro_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"d1122eff-ee85-4fdc-8a9f-23bee6590667","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $1.25/$10 per M tokens\r\n- >200K-1M: $2,5/$15 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"google/gemini-3-pro-preview","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Gemini 3 Pro Preview (high)_(Vertex)","cache_pricing_notes":null,"model_name_appendage":"(Vertex)","price_1m_input_tokens":2,"price_1m_output_tokens":12,"price_1m_blended_3_to_1":4.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d8ce7119-c199-42f1-bf71-0e2330617a1a","slug":"google_gemini-3-pro_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"d1122eff-ee85-4fdc-8a9f-23bee6590667","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-3-pro-preview","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Gemini 3 Pro Preview (high)_AI Studio","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":2,"price_1m_output_tokens":12,"price_1m_blended_3_to_1":4.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"40293647-32b7-4354-a6d8-5f7c7b222bed","slug":"databricks_gemini-3-pro","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"d1122eff-ee85-4fdc-8a9f-23bee6590667","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gemini-3-pro","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_Gemini 3 Pro Preview (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gemini-3-pro","hosts_url":"/models/gemini-3-pro/providers","name_and_creator_label":"Gemini 3 Pro Preview (high), Google"},{"additional_text":null,"aime":null,"aime25":0.867,"agentic_index":44.64,"coding_index":37.9,"commercial_allowed":null,"computed_performance_host_model_id":"8b669c09-ee2d-4cc3-839d-af41db539f9d","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":273,"estimated_intelligence_index":39.91032063200568,"model_family_slug":"gemini-3","frontier_model":false,"gdpval":1153.4883234605866,"gpqa":0.887,"hle":0.276,"humaneval":null,"id":"b2f3191f-77d6-4155-8be6-330f0baa1ae5","ifbench":0.497,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":40.62,"intelligence_index_token_counts":{"input_tokens":78717701,"answer_tokens":11183471,"output_tokens":15980859,"reasoning_tokens":4797387},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.673,"license_name":null,"license_url":null,"livecodebench":0.857,"math_500":null,"math_index":86.67,"mmlu_pro":0.895,"mmmu_pro":null,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 3 Pro Preview (low)","is_open_weights":false,"omniscience":-1.05,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.514,"num_correct":514,"omniscience":8.5,"attempt_rate":0.984,"num_incorrect":429,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.8827160493827161,"num_partial_answer":41}},"total":{"accuracy":0.46016666666666667,"num_correct":2761,"omniscience":-1.05,"attempt_rate":0.9823333333333333,"num_incorrect":2824,"total_questions":6000,"num_not_attempted":106,"hallucination_rate":0.8718740351960481,"num_partial_answer":309},"Health":{"total":{"accuracy":0.368,"num_correct":368,"omniscience":-14,"attempt_rate":0.993,"num_incorrect":508,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.8037974683544303,"num_partial_answer":117}},"Business":{"total":{"accuracy":0.416,"num_correct":416,"omniscience":-10.3,"attempt_rate":0.965,"num_incorrect":519,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.8886986301369864,"num_partial_answer":30}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.72,"num_correct":72,"omniscience":48,"attempt_rate":1,"num_incorrect":24,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.8571428571428571,"num_partial_answer":4}},"R":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-12,"attempt_rate":0.88,"num_incorrect":25,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8064516129032258,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":28,"attempt_rate":0.92,"num_incorrect":16,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":14,"attempt_rate":1,"num_incorrect":20,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8695652173913043,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-2,"attempt_rate":0.88,"num_incorrect":21,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.66,"num_correct":33,"omniscience":32,"attempt_rate":1,"num_incorrect":17,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.43,"num_correct":43,"omniscience":-12,"attempt_rate":0.99,"num_incorrect":55,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9649122807017544,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.66,"num_correct":33,"omniscience":42,"attempt_rate":1,"num_incorrect":12,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7058823529411765,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-16,"attempt_rate":1,"num_incorrect":14,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9333333333333333,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.8,"num_correct":20,"omniscience":76,"attempt_rate":0.88,"num_incorrect":1,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.2,"num_partial_answer":1}},"total":{"accuracy":0.574,"num_correct":574,"omniscience":20.6,"attempt_rate":0.976,"num_incorrect":368,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.863849765258216,"num_partial_answer":34},"Kotlin":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":0.98,"num_incorrect":21,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.84,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.605,"num_correct":121,"omniscience":23.5,"attempt_rate":0.99,"num_incorrect":74,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9367088607594937,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.6,"num_correct":66,"omniscience":25.454545454545453,"attempt_rate":0.990909090909091,"num_incorrect":38,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.8636363636363636,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.6111111111111112,"num_correct":55,"omniscience":27.77777777777778,"attempt_rate":1,"num_incorrect":30,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.8571428571428571,"num_partial_answer":5}}},"Humanities & Social Sciences":{"total":{"accuracy":0.485,"num_correct":485,"omniscience":0.4,"attempt_rate":0.994,"num_incorrect":481,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.9339805825242719,"num_partial_answer":28}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.404,"num_correct":404,"omniscience":-11.5,"attempt_rate":0.982,"num_incorrect":519,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.8708053691275168,"num_partial_answer":59}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-11-18","representative_query_token_counts":null,"scicode":0.499,"short_name":"Gemini 3 Pro Preview (low)","show_host_model_evals":false,"size_class":"Large","slug":"gemini-3-pro-low","tau2":0.681,"terminalbench_hard":0.319,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"47a7cef8-9a9f-4635-a174-2716314d3947","slug":"google_gemini-3-pro-low_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"b2f3191f-77d6-4155-8be6-330f0baa1ae5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"models/gemini-3-pro-preview","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Gemini 3 Pro Preview (low)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":2,"price_1m_output_tokens":12,"price_1m_blended_3_to_1":4.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8b669c09-ee2d-4cc3-839d-af41db539f9d","slug":"google_gemini-3-pro-low_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"b2f3191f-77d6-4155-8be6-330f0baa1ae5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"google/gemini-3-pro-preview","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Gemini 3 Pro Preview (low)_(Vertex)","cache_pricing_notes":null,"model_name_appendage":"(Vertex)","price_1m_input_tokens":2,"price_1m_output_tokens":12,"price_1m_blended_3_to_1":4.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.22,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gemini-3-pro-low","hosts_url":"/models/gemini-3-pro-low/providers","name_and_creator_label":"Gemini 3 Pro Preview (low), Google"},{"additional_text":null,"aime":null,"aime25":0.443,"agentic_index":42.76,"coding_index":29,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":200000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"glm-4-7-non-reasoning","display_order":1594,"estimated_intelligence_index":23.622507210298924,"model_family_slug":"glm-4","frontier_model":false,"gdpval":1017.448197628164,"gpqa":0.632,"hle":0.052,"humaneval":null,"id":"946e7aab-db1c-4c3f-b0b3-7720d0cff187","ifbench":0.367,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":29.81,"intelligence_index_token_counts":{"input_tokens":153777805,"answer_tokens":8742660,"output_tokens":8742660,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.263,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.561,"math_500":null,"math_index":44.33,"mmlu_pro":0.784,"mmmu_pro":null,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://github.com/zai-org/GLM-4.6","multilingual_aa":null,"name":"GLM-4.6 (Non-reasoning)","is_open_weights":true,"omniscience":-33.25,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.094,"num_correct":94,"omniscience":-41.3,"attempt_rate":0.609,"num_incorrect":507,"total_questions":1000,"num_not_attempted":391,"hallucination_rate":0.5596026490066225,"num_partial_answer":8}},"total":{"accuracy":0.20266666666666666,"num_correct":1216,"omniscience":-33.25,"attempt_rate":0.7625,"num_incorrect":3211,"total_questions":6000,"num_not_attempted":1425,"hallucination_rate":0.6711956521739131,"num_partial_answer":148},"Health":{"total":{"accuracy":0.215,"num_correct":215,"omniscience":-35,"attempt_rate":0.822,"num_incorrect":565,"total_questions":1000,"num_not_attempted":178,"hallucination_rate":0.7197452229299363,"num_partial_answer":42}},"Business":{"total":{"accuracy":0.165,"num_correct":165,"omniscience":-26.5,"attempt_rate":0.615,"num_incorrect":430,"total_questions":1000,"num_not_attempted":385,"hallucination_rate":0.5149700598802395,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.39,"num_correct":39,"omniscience":-19,"attempt_rate":0.99,"num_incorrect":58,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9508196721311475,"num_partial_answer":2}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-56,"attempt_rate":0.84,"num_incorrect":35,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.813953488372093,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-24,"attempt_rate":0.78,"num_incorrect":25,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.6756756756756757,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-24,"attempt_rate":0.92,"num_incorrect":28,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8235294117647058,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-50,"attempt_rate":0.86,"num_incorrect":34,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8292682926829268,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.918918918918919,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-48,"attempt_rate":0.89,"num_incorrect":68,"total_questions":100,"num_not_attempted":11,"hallucination_rate":0.85,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":14,"attempt_rate":0.9,"num_incorrect":18,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.72,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-36,"attempt_rate":0.96,"num_incorrect":16,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8888888888888888,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":0,"attempt_rate":0.92,"num_incorrect":11,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7857142857142857,"num_partial_answer":1}},"total":{"accuracy":0.278,"num_correct":278,"omniscience":-32.8,"attempt_rate":0.911,"num_incorrect":606,"total_questions":1000,"num_not_attempted":89,"hallucination_rate":0.8393351800554016,"num_partial_answer":27},"Kotlin":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-38,"attempt_rate":0.88,"num_incorrect":30,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7692307692307693,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-43,"attempt_rate":0.89,"num_incorrect":130,"total_questions":200,"num_not_attempted":22,"hallucination_rate":0.8333333333333334,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-22.727272727272727,"attempt_rate":0.9363636363636364,"num_incorrect":61,"total_questions":110,"num_not_attempted":7,"hallucination_rate":0.8243243243243243,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.3,"num_correct":27,"omniscience":-34.44444444444444,"attempt_rate":0.9666666666666667,"num_incorrect":58,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9206349206349206,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.216,"num_correct":216,"omniscience":-31.4,"attempt_rate":0.76,"num_incorrect":530,"total_questions":1000,"num_not_attempted":240,"hallucination_rate":0.6760204081632653,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.248,"num_correct":248,"omniscience":-32.5,"attempt_rate":0.858,"num_incorrect":573,"total_questions":1000,"num_not_attempted":142,"hallucination_rate":0.761968085106383,"num_partial_answer":37}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":357,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-30","representative_query_token_counts":null,"scicode":0.331,"short_name":"GLM-4.6","show_host_model_evals":false,"size_class":"Large","slug":"glm-4-6","tau2":0.769,"terminalbench_hard":0.27,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"bedf47a6-de1b-4fcd-899d-53c8366abf5b","slug":"togetherai_glm-4-6","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"946e7aab-db1c-4c3f-b0b3-7720d0cff187","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_GLM-4.6 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"be189514-82d5-4016-a98b-96b0cd0b1f42","slug":"novita_glm-4-6","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"946e7aab-db1c-4c3f-b0b3-7720d0cff187","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.6","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.6 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":204800,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-6","hosts_url":"/models/glm-4-6/providers","name_and_creator_label":"GLM-4.6, Z AI"},{"additional_text":null,"aime":null,"aime25":0.86,"agentic_index":41.5,"coding_index":28.41,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":200000,"critpt":0.011,"deleted":false,"deprecated":true,"deprecated_to":"glm-4-7","display_order":1591,"estimated_intelligence_index":31.827317213635105,"model_family_slug":"glm-4","frontier_model":false,"gdpval":1039.5158265998502,"gpqa":0.78,"hle":0.133,"humaneval":null,"id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","ifbench":0.434,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.22,"intelligence_index_token_counts":{"input_tokens":119290061,"answer_tokens":4948461,"output_tokens":70606199,"reasoning_tokens":65657737},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.543,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.695,"math_500":null,"math_index":86,"mmlu_pro":0.829,"mmmu_pro":null,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://github.com/zai-org/GLM-4.6","multilingual_aa":{"ar":{"score":0.8700000000000001,"input_tokens":188556,"answer_tokens":107671,"output_tokens":1126726,"reasoning_tokens":1019055,"total_input_tokens_api":229236,"total_answer_tokens_api":1194807,"total_reasoning_tokens_api":0},"bn":{"score":0.8533333333333334,"input_tokens":225534,"answer_tokens":80058,"output_tokens":1155599,"reasoning_tokens":1075541,"total_input_tokens_api":625848,"total_answer_tokens_api":1571034,"total_reasoning_tokens_api":0},"de":{"score":0.8891666666666667,"input_tokens":191646,"answer_tokens":92195,"output_tokens":1345717,"reasoning_tokens":1253522,"total_input_tokens_api":210027,"total_answer_tokens_api":1393687,"total_reasoning_tokens_api":0},"en":{"score":0.91,"input_tokens":159654,"answer_tokens":61826,"output_tokens":981408,"reasoning_tokens":919582,"total_input_tokens_api":162720,"total_answer_tokens_api":997615,"total_reasoning_tokens_api":0},"es":{"score":0.8925000000000001,"input_tokens":182088,"answer_tokens":86776,"output_tokens":1026847,"reasoning_tokens":940071,"total_input_tokens_api":197400,"total_answer_tokens_api":1063512,"total_reasoning_tokens_api":0},"fr":{"score":0.8916666666666666,"input_tokens":191346,"answer_tokens":88640,"output_tokens":1339191,"reasoning_tokens":1250551,"total_input_tokens_api":209307,"total_answer_tokens_api":1383501,"total_reasoning_tokens_api":0},"hi":{"score":0.8625000000000002,"input_tokens":209430,"answer_tokens":79118,"output_tokens":1132293,"reasoning_tokens":1053175,"total_input_tokens_api":523116,"total_answer_tokens_api":1522916,"total_reasoning_tokens_api":0},"id":{"score":0.8825,"input_tokens":181314,"answer_tokens":94827,"output_tokens":1198546,"reasoning_tokens":1103719,"total_input_tokens_api":212964,"total_answer_tokens_api":1264376,"total_reasoning_tokens_api":0},"it":{"score":0.9008333333333333,"input_tokens":199032,"answer_tokens":101924,"output_tokens":1065585,"reasoning_tokens":963661,"total_input_tokens_api":209346,"total_answer_tokens_api":1093637,"total_reasoning_tokens_api":0},"ja":{"score":0.875,"input_tokens":228129,"answer_tokens":131292,"output_tokens":1368492,"reasoning_tokens":1237200,"total_input_tokens_api":217275,"total_answer_tokens_api":1362698,"total_reasoning_tokens_api":0},"ko":{"score":0.8766666666666666,"input_tokens":199401,"answer_tokens":127370,"output_tokens":1264169,"reasoning_tokens":1136799,"total_input_tokens_api":245445,"total_answer_tokens_api":1364053,"total_reasoning_tokens_api":0},"my":{"score":0.7875,"input_tokens":353547,"answer_tokens":133470,"output_tokens":1845197,"reasoning_tokens":1711727,"total_input_tokens_api":1135086,"total_answer_tokens_api":2745402,"total_reasoning_tokens_api":0},"pt":{"score":0.8883333333333333,"input_tokens":178176,"answer_tokens":90136,"output_tokens":1071605,"reasoning_tokens":981469,"total_input_tokens_api":198993,"total_answer_tokens_api":1120035,"total_reasoning_tokens_api":0},"sw":{"score":0.7975,"input_tokens":208677,"answer_tokens":89867,"output_tokens":1405445,"reasoning_tokens":1315578,"total_input_tokens_api":255141,"total_answer_tokens_api":1505043,"total_reasoning_tokens_api":0},"yo":{"score":0.6283333333333333,"input_tokens":307062,"answer_tokens":93738,"output_tokens":2420167,"reasoning_tokens":2326429,"total_input_tokens_api":385236,"total_answer_tokens_api":2637990,"total_reasoning_tokens_api":0},"zh":{"score":0.8841666666666667,"input_tokens":179793,"answer_tokens":102542,"output_tokens":1306065,"reasoning_tokens":1203523,"total_input_tokens_api":159504,"total_answer_tokens_api":1280537,"total_reasoning_tokens_api":0},"average":{"score":0.8556250000000001,"input_tokens":3383385,"answer_tokens":1561450,"output_tokens":21053052,"reasoning_tokens":19491602,"total_input_tokens_api":5176644,"total_answer_tokens_api":23500843,"total_reasoning_tokens_api":0}},"name":"GLM-4.6 (Reasoning)","is_open_weights":true,"omniscience":-43.883,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.131,"num_correct":131,"omniscience":-68.4,"attempt_rate":0.958,"num_incorrect":815,"total_questions":1000,"num_not_attempted":42,"hallucination_rate":0.9378596087456847,"num_partial_answer":12}},"total":{"accuracy":0.25483333333333336,"num_correct":1529,"omniscience":-43.88333333333333,"attempt_rate":0.9743333333333334,"num_incorrect":4162,"total_questions":6000,"num_not_attempted":154,"hallucination_rate":0.9308879445314248,"num_partial_answer":155},"Health":{"total":{"accuracy":0.271,"num_correct":271,"omniscience":-42.2,"attempt_rate":0.994,"num_incorrect":693,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.9506172839506173,"num_partial_answer":30}},"Business":{"total":{"accuracy":0.207,"num_correct":207,"omniscience":-51.2,"attempt_rate":0.948,"num_incorrect":719,"total_questions":1000,"num_not_attempted":52,"hallucination_rate":0.9066834804539723,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.4,"num_correct":40,"omniscience":-17,"attempt_rate":1,"num_incorrect":57,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.95,"num_partial_answer":3}},"R":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-24,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9375,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":29,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8787878787878788,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-30,"attempt_rate":1,"num_incorrect":31,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9117647058823529,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-50,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9736842105263158,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-34,"attempt_rate":1,"num_incorrect":32,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9142857142857143,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-48,"attempt_rate":0.99,"num_incorrect":72,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":38,"attempt_rate":0.96,"num_incorrect":12,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.631578947368421,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-44,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":8,"attempt_rate":0.92,"num_incorrect":10,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7692307692307693,"num_partial_answer":1}},"total":{"accuracy":0.329,"num_correct":329,"omniscience":-29.4,"attempt_rate":0.987,"num_incorrect":623,"total_questions":1000,"num_not_attempted":13,"hallucination_rate":0.9284649776453056,"num_partial_answer":35},"Kotlin":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-42,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9722222222222222,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.245,"num_correct":49,"omniscience":-47,"attempt_rate":0.98,"num_incorrect":143,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9470198675496688,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.4,"num_correct":44,"omniscience":-16.363636363636363,"attempt_rate":1,"num_incorrect":62,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9393939393939394,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.3333333333333333,"num_correct":30,"omniscience":-27.77777777777778,"attempt_rate":0.9888888888888889,"num_incorrect":55,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9166666666666666,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.262,"num_correct":262,"omniscience":-44.5,"attempt_rate":0.982,"num_incorrect":707,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.9579945799457995,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.329,"num_correct":329,"omniscience":-27.6,"attempt_rate":0.977,"num_incorrect":605,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.9016393442622951,"num_partial_answer":43}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":357,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-09-30","representative_query_token_counts":null,"scicode":0.384,"short_name":"GLM-4.6","show_host_model_evals":false,"size_class":"Large","slug":"glm-4-6-reasoning","tau2":0.705,"terminalbench_hard":0.234,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"c6c29100-5225-4ff1-a70e-4e2f4814e5c2","slug":"fireworks_glm-4-6-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/glm-4p6","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_GLM-4.6 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.55,"price_1m_output_tokens":2.19,"price_1m_blended_3_to_1":0.96,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1.04,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3ec6157c-c460-4e09-9646-5d64a15263f4","slug":"togetherai_glm-4-6-reasoning","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_GLM-4.6 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4b33dd08-0410-48ec-b07e-286b4239b20c","slug":"baseten_glm-4-6-reasoning","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_GLM-4.6 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":200000,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"67a2c69d-ba6e-4b88-8cca-3ae15bc5fce8","slug":"deepinfra_glm-4-6-reasoning_fp4","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_GLM-4.6 (Reasoning)_(FP4)","cache_pricing_notes":null,"model_name_appendage":"(FP4)","price_1m_input_tokens":0.43,"price_1m_output_tokens":1.75,"price_1m_blended_3_to_1":0.76,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1.32,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e813e477-0518-419f-b899-381bf8dd2af4","slug":"minimax_glm-4-6-reasoning","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","gpqa_16x":null,"model_id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"M2-preview-1244","function_calling":null,"cache_write_price":null,"host_model_string":"MiniMax_GLM-4.6 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b0954907-fa1f-45ec-b2d2-014430ec41eb","slug":"novita_glm-4-6-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.6","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.6 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.55,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":0.9625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":204800,"price_m_tokens_blended_3_to_1_per_dollar":1.04,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3b9f7b35-97be-47eb-8bdf-ae40bccea189","slug":"cerebras_glm-4-6-reasoning","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":null,"model_id":"6a5d56e1-bb68-4205-8d9b-26b97888bc84","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-glm-4.6","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_GLM-4.6 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2.25,"price_1m_output_tokens":2.75,"price_1m_blended_3_to_1":2.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131000,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-6-reasoning","hosts_url":"/models/glm-4-6-reasoning/providers","name_and_creator_label":"GLM-4.6, Z AI"},{"additional_text":null,"aime":null,"aime25":0.263,"agentic_index":19.89,"coding_index":10.96,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":667,"estimated_intelligence_index":16.14579998349155,"model_family_slug":"glm-4","frontier_model":false,"gdpval":779.4032145882989,"gpqa":0.566,"hle":0.037,"humaneval":null,"id":"43098bd0-77ca-408b-b698-9d60b1d1c3b8","ifbench":0.279,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":17.36,"intelligence_index_token_counts":{"input_tokens":185242862,"answer_tokens":6593408,"output_tokens":6593408,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.123,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.411,"math_500":null,"math_index":26.33,"mmlu_pro":0.752,"mmmu_pro":0.422,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://huggingface.co/zai-org/GLM-4.6V","multilingual_aa":{"ar":{"score":0.7441666666666666,"input_tokens":188556,"answer_tokens":118589,"output_tokens":118589,"reasoning_tokens":0,"total_input_tokens_api":235067,"total_answer_tokens_api":133562,"total_reasoning_tokens_api":0},"bn":{"score":0.6841666666666667,"input_tokens":225534,"answer_tokens":112819,"output_tokens":112819,"reasoning_tokens":0,"total_input_tokens_api":630632,"total_answer_tokens_api":284248,"total_reasoning_tokens_api":0},"de":{"score":0.8216666666666667,"input_tokens":191646,"answer_tokens":94672,"output_tokens":94672,"reasoning_tokens":0,"total_input_tokens_api":215924,"total_answer_tokens_api":98431,"total_reasoning_tokens_api":0},"en":{"score":0.8866666666666667,"input_tokens":159654,"answer_tokens":125254,"output_tokens":125254,"reasoning_tokens":0,"total_input_tokens_api":168629,"total_answer_tokens_api":120670,"total_reasoning_tokens_api":0},"es":{"score":0.8225000000000001,"input_tokens":182088,"answer_tokens":126609,"output_tokens":126609,"reasoning_tokens":0,"total_input_tokens_api":203214,"total_answer_tokens_api":129003,"total_reasoning_tokens_api":0},"fr":{"score":0.8116666666666666,"input_tokens":191346,"answer_tokens":107598,"output_tokens":107598,"reasoning_tokens":0,"total_input_tokens_api":215307,"total_answer_tokens_api":116448,"total_reasoning_tokens_api":0},"hi":{"score":0.6791666666666666,"input_tokens":209430,"answer_tokens":96328,"output_tokens":96328,"reasoning_tokens":0,"total_input_tokens_api":522480,"total_answer_tokens_api":231590,"total_reasoning_tokens_api":0},"id":{"score":0.8024999999999999,"input_tokens":181314,"answer_tokens":139093,"output_tokens":139093,"reasoning_tokens":0,"total_input_tokens_api":218685,"total_answer_tokens_api":163447,"total_reasoning_tokens_api":0},"it":{"score":0.8341666666666666,"input_tokens":199032,"answer_tokens":157627,"output_tokens":157627,"reasoning_tokens":0,"total_input_tokens_api":215346,"total_answer_tokens_api":164569,"total_reasoning_tokens_api":0},"ja":{"score":0.7858333333333333,"input_tokens":228129,"answer_tokens":173754,"output_tokens":173754,"reasoning_tokens":0,"total_input_tokens_api":222721,"total_answer_tokens_api":146587,"total_reasoning_tokens_api":0},"ko":{"score":0.7749999999999999,"input_tokens":199401,"answer_tokens":192042,"output_tokens":192042,"reasoning_tokens":0,"total_input_tokens_api":251445,"total_answer_tokens_api":237741,"total_reasoning_tokens_api":0},"my":{"score":0.5875,"input_tokens":353547,"answer_tokens":50998,"output_tokens":50998,"reasoning_tokens":0,"total_input_tokens_api":1141071,"total_answer_tokens_api":72862,"total_reasoning_tokens_api":0},"pt":{"score":0.8208333333333333,"input_tokens":178176,"answer_tokens":125862,"output_tokens":125862,"reasoning_tokens":0,"total_input_tokens_api":204896,"total_answer_tokens_api":140566,"total_reasoning_tokens_api":0},"sw":{"score":0.5766666666666665,"input_tokens":208677,"answer_tokens":83865,"output_tokens":83865,"reasoning_tokens":0,"total_input_tokens_api":260971,"total_answer_tokens_api":95995,"total_reasoning_tokens_api":0},"yo":{"score":0.45333333333333337,"input_tokens":307062,"answer_tokens":74076,"output_tokens":74076,"reasoning_tokens":0,"total_input_tokens_api":390860,"total_answer_tokens_api":75688,"total_reasoning_tokens_api":0},"zh":{"score":0.8091666666666667,"input_tokens":179793,"answer_tokens":139757,"output_tokens":139757,"reasoning_tokens":0,"total_input_tokens_api":165504,"total_answer_tokens_api":120166,"total_reasoning_tokens_api":0},"average":{"score":0.7434375,"input_tokens":3383385,"answer_tokens":1918943,"output_tokens":1918943,"reasoning_tokens":0,"total_input_tokens_api":5262752,"total_answer_tokens_api":2331573,"total_reasoning_tokens_api":0}},"name":"GLM-4.6V (Non-reasoning)","is_open_weights":true,"omniscience":-38.65,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.077,"num_correct":77,"omniscience":-48.7,"attempt_rate":0.648,"num_incorrect":564,"total_questions":1000,"num_not_attempted":352,"hallucination_rate":0.6110509209100758,"num_partial_answer":7}},"total":{"accuracy":0.16666666666666666,"num_correct":1000,"omniscience":-38.65,"attempt_rate":0.7451666666666666,"num_incorrect":3319,"total_questions":6000,"num_not_attempted":1529,"hallucination_rate":0.6638,"num_partial_answer":152},"Health":{"total":{"accuracy":0.175,"num_correct":175,"omniscience":-35,"attempt_rate":0.746,"num_incorrect":525,"total_questions":1000,"num_not_attempted":254,"hallucination_rate":0.6363636363636364,"num_partial_answer":46}},"Business":{"total":{"accuracy":0.128,"num_correct":128,"omniscience":-40.7,"attempt_rate":0.687,"num_incorrect":535,"total_questions":1000,"num_not_attempted":313,"hallucination_rate":0.6135321100917431,"num_partial_answer":24}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.44,"num_correct":44,"omniscience":-8,"attempt_rate":0.97,"num_incorrect":52,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9285714285714286,"num_partial_answer":1}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-78,"attempt_rate":0.86,"num_incorrect":41,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8541666666666666,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.9,"num_incorrect":40,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8695652173913043,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-46,"attempt_rate":0.8,"num_incorrect":31,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7380952380952381,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-58,"attempt_rate":0.9,"num_incorrect":36,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8372093023255814,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-22,"attempt_rate":0.9,"num_incorrect":26,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7428571428571429,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-61,"attempt_rate":0.9,"num_incorrect":75,"total_questions":100,"num_not_attempted":10,"hallucination_rate":0.872093023255814,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":26,"attempt_rate":0.98,"num_incorrect":17,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.85,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":-12,"attempt_rate":1,"num_incorrect":14,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.223,"num_correct":223,"omniscience":-44.6,"attempt_rate":0.914,"num_incorrect":669,"total_questions":1000,"num_not_attempted":86,"hallucination_rate":0.861003861003861,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-54,"attempt_rate":0.84,"num_incorrect":34,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7906976744186046,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.155,"num_correct":31,"omniscience":-57.5,"attempt_rate":0.9,"num_incorrect":146,"total_questions":200,"num_not_attempted":20,"hallucination_rate":0.863905325443787,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-39.09090909090909,"attempt_rate":0.9818181818181818,"num_incorrect":74,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9367088607594937,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.16666666666666666,"num_correct":15,"omniscience":-53.333333333333336,"attempt_rate":0.9,"num_incorrect":63,"total_questions":90,"num_not_attempted":9,"hallucination_rate":0.84,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.171,"num_correct":171,"omniscience":-33.9,"attempt_rate":0.692,"num_incorrect":510,"total_questions":1000,"num_not_attempted":308,"hallucination_rate":0.6151990349819059,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.226,"num_correct":226,"omniscience":-29,"attempt_rate":0.784,"num_incorrect":516,"total_questions":1000,"num_not_attempted":216,"hallucination_rate":0.6666666666666666,"num_partial_answer":42}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":108,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-08","representative_query_token_counts":null,"scicode":0.272,"short_name":"GLM-4.6V","show_host_model_evals":false,"size_class":"Medium","slug":"glm-4-6v","tau2":0.307,"terminalbench_hard":0.028,"tokenizer_id":"intellect_tokenizer","model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"46233b5d-ebfd-465c-9f8e-0f68f3812837","slug":"siliconflow_glm-4-6v","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"43098bd0-77ca-408b-b698-9d60b1d1c3b8","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6V","function_calling":true,"cache_write_price":null,"host_model_string":"SiliconFlow_GLM-4.6V (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"be37ca1a-47f4-49ae-b614-3e679dc9848a","slug":"parasail_glm-4-6v_fp8","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"43098bd0-77ca-408b-b698-9d60b1d1c3b8","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6V","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_GLM-4.6V (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.3,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0cba21ee-a351-4242-801d-1c27a121d26f","slug":"novita_glm-4-6v","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"43098bd0-77ca-408b-b698-9d60b1d1c3b8","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.6v","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.6V (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-6v","hosts_url":"/models/glm-4-6v/providers","name_and_creator_label":"GLM-4.6V, Z AI"},{"additional_text":null,"aime":null,"aime25":0.853,"agentic_index":19.25,"coding_index":19.13,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":655,"estimated_intelligence_index":21.280474303103592,"model_family_slug":"glm-4","frontier_model":false,"gdpval":752.918972642309,"gpqa":0.719,"hle":0.089,"humaneval":null,"id":"d2d7dd95-770f-4cb0-9bbc-d275ac19c265","ifbench":0.301,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":23.74,"intelligence_index_token_counts":{"input_tokens":367463683,"answer_tokens":13928934,"output_tokens":101067463,"reasoning_tokens":87138529},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.403,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.16,"math_500":null,"math_index":85.33,"mmlu_pro":0.799,"mmmu_pro":0.486,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://huggingface.co/zai-org/GLM-4.6V","multilingual_aa":{"ar":{"score":0.8025000000000001,"input_tokens":187734,"answer_tokens":448746,"output_tokens":1648719,"reasoning_tokens":1199973,"total_input_tokens_api":229413,"total_answer_tokens_api":1684004,"total_reasoning_tokens_api":0},"bn":{"score":0.8033333333333333,"input_tokens":225534,"answer_tokens":175317,"output_tokens":1565428,"reasoning_tokens":1390111,"total_input_tokens_api":626761,"total_answer_tokens_api":1988513,"total_reasoning_tokens_api":0},"de":{"score":0.8516666666666667,"input_tokens":191646,"answer_tokens":157221,"output_tokens":1537778,"reasoning_tokens":1380557,"total_input_tokens_api":211227,"total_answer_tokens_api":1586517,"total_reasoning_tokens_api":0},"en":{"score":0.9025,"input_tokens":159060,"answer_tokens":60771,"output_tokens":1519861,"reasoning_tokens":1459090,"total_input_tokens_api":163299,"total_answer_tokens_api":1544610,"total_reasoning_tokens_api":0},"es":{"score":0.8608333333333333,"input_tokens":181383,"answer_tokens":148988,"output_tokens":1531520,"reasoning_tokens":1382532,"total_input_tokens_api":197850,"total_answer_tokens_api":1579331,"total_reasoning_tokens_api":0},"fr":{"score":0.8625000000000002,"input_tokens":191346,"answer_tokens":173593,"output_tokens":1586602,"reasoning_tokens":1413009,"total_input_tokens_api":210508,"total_answer_tokens_api":1637878,"total_reasoning_tokens_api":0},"hi":{"score":0.7958333333333334,"input_tokens":209430,"answer_tokens":168399,"output_tokens":1592098,"reasoning_tokens":1423699,"total_input_tokens_api":524316,"total_answer_tokens_api":2098956,"total_reasoning_tokens_api":0},"id":{"score":0.8433333333333333,"input_tokens":180939,"answer_tokens":264738,"output_tokens":1694364,"reasoning_tokens":1429626,"total_input_tokens_api":213714,"total_answer_tokens_api":1806443,"total_reasoning_tokens_api":0},"it":{"score":0.8675,"input_tokens":198642,"answer_tokens":185312,"output_tokens":1581002,"reasoning_tokens":1395690,"total_input_tokens_api":210026,"total_answer_tokens_api":1617023,"total_reasoning_tokens_api":0},"ja":{"score":0.8291666666666666,"input_tokens":228129,"answer_tokens":299164,"output_tokens":2305928,"reasoning_tokens":2006764,"total_input_tokens_api":218475,"total_answer_tokens_api":2169868,"total_reasoning_tokens_api":0},"ko":{"score":0.8375,"input_tokens":199401,"answer_tokens":398024,"output_tokens":1997590,"reasoning_tokens":1599566,"total_input_tokens_api":246645,"total_answer_tokens_api":2060144,"total_reasoning_tokens_api":0},"my":{"score":0.7166666666666667,"input_tokens":353073,"answer_tokens":211907,"output_tokens":1166562,"reasoning_tokens":954655,"total_input_tokens_api":1134951,"total_answer_tokens_api":1521407,"total_reasoning_tokens_api":0},"pt":{"score":0.8616666666666667,"input_tokens":178176,"answer_tokens":207526,"output_tokens":1645466,"reasoning_tokens":1437940,"total_input_tokens_api":200193,"total_answer_tokens_api":1672720,"total_reasoning_tokens_api":0},"sw":{"score":0.7225,"input_tokens":208677,"answer_tokens":183627,"output_tokens":2104804,"reasoning_tokens":1921177,"total_input_tokens_api":256341,"total_answer_tokens_api":2233812,"total_reasoning_tokens_api":0},"yo":{"score":0.5208333333333334,"input_tokens":307062,"answer_tokens":470435,"output_tokens":3668299,"reasoning_tokens":3197864,"total_input_tokens_api":386436,"total_answer_tokens_api":3792782,"total_reasoning_tokens_api":0},"zh":{"score":0.8216666666666667,"input_tokens":178755,"answer_tokens":310198,"output_tokens":2202843,"reasoning_tokens":1892645,"total_input_tokens_api":159795,"total_answer_tokens_api":1875604,"total_reasoning_tokens_api":0},"average":{"score":0.8062500000000001,"input_tokens":3378987,"answer_tokens":3863966,"output_tokens":29348864,"reasoning_tokens":25484898,"total_input_tokens_api":5189950,"total_answer_tokens_api":30869612,"total_reasoning_tokens_api":0}},"name":"GLM-4.6V (Reasoning)","is_open_weights":true,"omniscience":-26.25,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.071,"num_correct":71,"omniscience":-33,"attempt_rate":0.476,"num_incorrect":401,"total_questions":1000,"num_not_attempted":524,"hallucination_rate":0.4316469321851453,"num_partial_answer":4}},"total":{"accuracy":0.152,"num_correct":912,"omniscience":-26.25,"attempt_rate":0.5936666666666667,"num_incorrect":2487,"total_questions":6000,"num_not_attempted":2438,"hallucination_rate":0.48879716981132076,"num_partial_answer":163},"Health":{"total":{"accuracy":0.152,"num_correct":152,"omniscience":-27.7,"attempt_rate":0.647,"num_incorrect":429,"total_questions":1000,"num_not_attempted":353,"hallucination_rate":0.5058962264150944,"num_partial_answer":66}},"Business":{"total":{"accuracy":0.132,"num_correct":132,"omniscience":-25,"attempt_rate":0.532,"num_incorrect":382,"total_questions":1000,"num_not_attempted":468,"hallucination_rate":0.4400921658986175,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-24,"attempt_rate":0.84,"num_incorrect":53,"total_questions":100,"num_not_attempted":16,"hallucination_rate":0.7464788732394366,"num_partial_answer":2}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-40,"attempt_rate":0.52,"num_incorrect":23,"total_questions":50,"num_not_attempted":24,"hallucination_rate":0.48936170212765956,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-60,"attempt_rate":0.8,"num_incorrect":35,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7777777777777778,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-34,"attempt_rate":0.84,"num_incorrect":29,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7631578947368421,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-32,"attempt_rate":0.68,"num_incorrect":25,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.6097560975609756,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-2,"attempt_rate":0.74,"num_incorrect":18,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.5454545454545454,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.1,"num_correct":10,"omniscience":-51,"attempt_rate":0.71,"num_incorrect":61,"total_questions":100,"num_not_attempted":29,"hallucination_rate":0.6777777777777778,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":22,"attempt_rate":0.9,"num_incorrect":15,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.625,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-48,"attempt_rate":0.6,"num_incorrect":13,"total_questions":25,"num_not_attempted":10,"hallucination_rate":0.5416666666666666,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-20,"attempt_rate":0.88,"num_incorrect":13,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.7647058823529411,"num_partial_answer":1}},"total":{"accuracy":0.198,"num_correct":198,"omniscience":-31.3,"attempt_rate":0.731,"num_incorrect":511,"total_questions":1000,"num_not_attempted":269,"hallucination_rate":0.6371571072319202,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-52,"attempt_rate":0.78,"num_incorrect":32,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.7272727272727273,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.17,"num_correct":34,"omniscience":-23,"attempt_rate":0.59,"num_incorrect":80,"total_questions":200,"num_not_attempted":82,"hallucination_rate":0.4819277108433735,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.22727272727272727,"num_correct":25,"omniscience":-31.818181818181817,"attempt_rate":0.7909090909090909,"num_incorrect":60,"total_questions":110,"num_not_attempted":23,"hallucination_rate":0.7058823529411765,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.14444444444444443,"num_correct":13,"omniscience":-45.55555555555556,"attempt_rate":0.7888888888888889,"num_incorrect":54,"total_questions":90,"num_not_attempted":19,"hallucination_rate":0.7012987012987013,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.158,"num_correct":158,"omniscience":-18.6,"attempt_rate":0.514,"num_incorrect":344,"total_questions":1000,"num_not_attempted":486,"hallucination_rate":0.4085510688836104,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.201,"num_correct":201,"omniscience":-21.9,"attempt_rate":0.662,"num_incorrect":420,"total_questions":1000,"num_not_attempted":338,"hallucination_rate":0.5256570713391739,"num_partial_answer":41}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":108,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-12-08","representative_query_token_counts":null,"scicode":0.304,"short_name":"GLM-4.6V","show_host_model_evals":false,"size_class":"Medium","slug":"glm-4-6v-reasoning","tau2":0.316,"terminalbench_hard":0.135,"tokenizer_id":"intellect_tokenizer","model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"c11fc5a4-4ef0-431e-8d60-b6056370fd16","slug":"siliconflow_glm-4-6v-reasoning","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"d2d7dd95-770f-4cb0-9bbc-d275ac19c265","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6V","function_calling":true,"cache_write_price":null,"host_model_string":"SiliconFlow_GLM-4.6V (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e479a030-265b-45d0-b996-47a87b092c26","slug":"deepinfra_glm-4-6v-reasoning_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"d2d7dd95-770f-4cb0-9bbc-d275ac19c265","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6V","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_GLM-4.6V (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.3,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3ff86a81-1430-48ad-8794-5373009d70db","slug":"parasail_glm-4-6v-reasoning_fp8","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"d2d7dd95-770f-4cb0-9bbc-d275ac19c265","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.6V","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_GLM-4.6V (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.3,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8baa8a94-86e5-4cbe-ae8d-4931056695fa","slug":"novita_glm-4-6v-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"d2d7dd95-770f-4cb0-9bbc-d275ac19c265","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.6v","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.6V (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-6v-reasoning","hosts_url":"/models/glm-4-6v-reasoning/providers","name_and_creator_label":"GLM-4.6V, Z AI"},{"additional_text":null,"aime":null,"aime25":0.48,"agentic_index":54,"coding_index":30.72,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":200000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":664,"estimated_intelligence_index":null,"model_family_slug":"glm-4","frontier_model":false,"gdpval":1176.9763966251235,"gpqa":0.664,"hle":0.061,"humaneval":null,"id":"81b6ddfc-111e-4422-bd44-42ee6165b699","ifbench":0.546,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":33.69,"intelligence_index_token_counts":{"input_tokens":197000267,"answer_tokens":12677421,"output_tokens":12677421,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.363,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.562,"math_500":null,"math_index":48,"mmlu_pro":0.794,"mmmu_pro":null,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://huggingface.co/zai-org/GLM-4.7","multilingual_aa":{"ar":{"score":0.8224999999999999,"input_tokens":188556,"answer_tokens":301578,"output_tokens":301578,"reasoning_tokens":0,"total_input_tokens_api":229236,"total_answer_tokens_api":334692,"total_reasoning_tokens_api":0},"bn":{"score":0.7691666666666666,"input_tokens":225534,"answer_tokens":435229,"output_tokens":435229,"reasoning_tokens":0,"total_input_tokens_api":625848,"total_answer_tokens_api":886877,"total_reasoning_tokens_api":0},"de":{"score":0.8633333333333333,"input_tokens":191646,"answer_tokens":477861,"output_tokens":477861,"reasoning_tokens":0,"total_input_tokens_api":210027,"total_answer_tokens_api":492935,"total_reasoning_tokens_api":0},"en":{"score":0.8958333333333334,"input_tokens":159654,"answer_tokens":326727,"output_tokens":326727,"reasoning_tokens":0,"total_input_tokens_api":162720,"total_answer_tokens_api":327452,"total_reasoning_tokens_api":0},"es":{"score":0.8608333333333333,"input_tokens":182088,"answer_tokens":293866,"output_tokens":293866,"reasoning_tokens":0,"total_input_tokens_api":197400,"total_answer_tokens_api":306708,"total_reasoning_tokens_api":0},"fr":{"score":0.8633333333333333,"input_tokens":191346,"answer_tokens":516795,"output_tokens":516795,"reasoning_tokens":0,"total_input_tokens_api":209307,"total_answer_tokens_api":543811,"total_reasoning_tokens_api":0},"hi":{"score":0.7775,"input_tokens":209430,"answer_tokens":714233,"output_tokens":714233,"reasoning_tokens":0,"total_input_tokens_api":523116,"total_answer_tokens_api":873380,"total_reasoning_tokens_api":0},"id":{"score":0.8408333333333333,"input_tokens":181314,"answer_tokens":307315,"output_tokens":307315,"reasoning_tokens":0,"total_input_tokens_api":212964,"total_answer_tokens_api":349378,"total_reasoning_tokens_api":0},"it":{"score":0.8758333333333334,"input_tokens":199032,"answer_tokens":525659,"output_tokens":525659,"reasoning_tokens":0,"total_input_tokens_api":209346,"total_answer_tokens_api":541380,"total_reasoning_tokens_api":0},"ja":{"score":0.8475,"input_tokens":228129,"answer_tokens":78022,"output_tokens":78022,"reasoning_tokens":0,"total_input_tokens_api":217275,"total_answer_tokens_api":74943,"total_reasoning_tokens_api":0},"ko":{"score":0.81,"input_tokens":199401,"answer_tokens":268402,"output_tokens":268402,"reasoning_tokens":0,"total_input_tokens_api":245445,"total_answer_tokens_api":340848,"total_reasoning_tokens_api":0},"my":{"score":0.6483333333333333,"input_tokens":353547,"answer_tokens":533319,"output_tokens":533319,"reasoning_tokens":0,"total_input_tokens_api":1135086,"total_answer_tokens_api":1247429,"total_reasoning_tokens_api":0},"pt":{"score":0.8583333333333334,"input_tokens":178176,"answer_tokens":113080,"output_tokens":113080,"reasoning_tokens":0,"total_input_tokens_api":198993,"total_answer_tokens_api":126843,"total_reasoning_tokens_api":0},"sw":{"score":0.6666666666666666,"input_tokens":208677,"answer_tokens":494411,"output_tokens":494411,"reasoning_tokens":0,"total_input_tokens_api":255141,"total_answer_tokens_api":524367,"total_reasoning_tokens_api":0},"yo":{"score":0.5416666666666666,"input_tokens":307062,"answer_tokens":240531,"output_tokens":240531,"reasoning_tokens":0,"total_input_tokens_api":385236,"total_answer_tokens_api":257887,"total_reasoning_tokens_api":0},"zh":{"score":0.8491666666666667,"input_tokens":179793,"answer_tokens":331142,"output_tokens":331142,"reasoning_tokens":0,"total_input_tokens_api":159504,"total_answer_tokens_api":292940,"total_reasoning_tokens_api":0},"average":{"score":0.7994270833333332,"input_tokens":3383385,"answer_tokens":5958170,"output_tokens":5958170,"reasoning_tokens":0,"total_input_tokens_api":5176644,"total_answer_tokens_api":7521870,"total_reasoning_tokens_api":0}},"name":"GLM-4.7 (Non-reasoning)","is_open_weights":true,"omniscience":-48.233,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.123,"num_correct":123,"omniscience":-65.3,"attempt_rate":0.906,"num_incorrect":776,"total_questions":1000,"num_not_attempted":94,"hallucination_rate":0.8848346636259977,"num_partial_answer":7}},"total":{"accuracy":0.22916666666666666,"num_correct":1375,"omniscience":-48.233333333333334,"attempt_rate":0.9606666666666667,"num_incorrect":4269,"total_questions":6000,"num_not_attempted":236,"hallucination_rate":0.923027027027027,"num_partial_answer":120},"Health":{"total":{"accuracy":0.235,"num_correct":235,"omniscience":-47.9,"attempt_rate":0.985,"num_incorrect":714,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9333333333333333,"num_partial_answer":36}},"Business":{"total":{"accuracy":0.181,"num_correct":181,"omniscience":-55.4,"attempt_rate":0.935,"num_incorrect":735,"total_questions":1000,"num_not_attempted":65,"hallucination_rate":0.8974358974358975,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.49,"num_correct":49,"omniscience":-1,"attempt_rate":1,"num_incorrect":50,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9803921568627451,"num_partial_answer":1}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9767441860465116,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-34,"attempt_rate":0.98,"num_incorrect":33,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9705882352941176,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-12,"attempt_rate":1,"num_incorrect":28,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-56,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-24,"attempt_rate":1,"num_incorrect":31,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-59,"attempt_rate":1,"num_incorrect":79,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9875,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":14,"attempt_rate":0.98,"num_incorrect":19,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.7916666666666666,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-60,"attempt_rate":1,"num_incorrect":20,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":4,"attempt_rate":0.96,"num_incorrect":11,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8461538461538461,"num_partial_answer":1}},"total":{"accuracy":0.32,"num_correct":320,"omniscience":-34,"attempt_rate":0.994,"num_incorrect":660,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.9705882352941176,"num_partial_answer":14},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":1,"num_incorrect":36,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9473684210526315,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.27,"num_correct":54,"omniscience":-45.5,"attempt_rate":0.995,"num_incorrect":145,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9931506849315068,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.34545454545454546,"num_correct":38,"omniscience":-26.363636363636363,"attempt_rate":0.990909090909091,"num_incorrect":67,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9305555555555556,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.32222222222222224,"num_correct":29,"omniscience":-34.44444444444444,"attempt_rate":1,"num_incorrect":60,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9836065573770492,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.244,"num_correct":244,"omniscience":-46.1,"attempt_rate":0.963,"num_incorrect":705,"total_questions":1000,"num_not_attempted":37,"hallucination_rate":0.9325396825396826,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.272,"num_correct":272,"omniscience":-40.7,"attempt_rate":0.981,"num_incorrect":679,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.9326923076923077,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":357,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-22","representative_query_token_counts":null,"scicode":0.354,"short_name":"GLM-4.7","show_host_model_evals":false,"size_class":"Large","slug":"glm-4-7-non-reasoning","tau2":0.942,"terminalbench_hard":0.284,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"38aa0951-6e48-4c9a-aaaf-ea156bebb838","slug":"gmi_glm-4-7-non-reasoning_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_GLM-4.7 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.16,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.32,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":3.13,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b7d6921a-0984-4666-8c40-daff45e6b347","slug":"deepinfra_glm-4-7-non-reasoning_fp4","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_GLM-4.7 (Non-reasoning)_(FP4)","cache_pricing_notes":null,"model_name_appendage":"(FP4)","price_1m_input_tokens":0.43,"price_1m_output_tokens":1.75,"price_1m_blended_3_to_1":0.76,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1.32,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"dfd7a9e9-f2d7-4876-b11b-afe94d0d5cea","slug":"novita_glm-4-7-non-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.7 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":204800,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4a732d2c-b67d-4427-885d-1e8a263c9d79","slug":"baseten_glm-4-7-non-reasoning","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_GLM-4.7 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":200000,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"09002032-5482-49e7-930d-803c65c3ea64","slug":"siliconflow_glm-4-7-non-reasoning","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"SiliconFlow_GLM-4.7 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c1400aaf-3bdf-4acd-b7ec-0435145faf35","slug":"parasail_glm-4-7-non-reasoning_fp8","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_GLM-4.7 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.45,"price_1m_output_tokens":2.1,"price_1m_blended_3_to_1":0.8625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.16,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9eb22cde-824b-4e1d-bfda-64a58e475664","slug":"fireworks_glm-4-7-non-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/glm-4p7","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_GLM-4.7 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b835b7ac-c1da-4448-b5e9-61f9d542d5e2","slug":"cerebras_glm-4-7-non-reasoning","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":null,"model_id":"81b6ddfc-111e-4422-bd44-42ee6165b699","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-glm-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_GLM-4.7 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2.25,"price_1m_output_tokens":2.75,"price_1m_blended_3_to_1":2.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131000,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-7-non-reasoning","hosts_url":"/models/glm-4-7-non-reasoning/providers","name_and_creator_label":"GLM-4.7, Z AI"},{"additional_text":null,"aime":null,"aime25":0.95,"agentic_index":55.07,"coding_index":34.9,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":200000,"critpt":0.017,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":656,"estimated_intelligence_index":null,"model_family_slug":"glm-4","frontier_model":false,"gdpval":1191.6830331605383,"gpqa":0.859,"hle":0.251,"humaneval":null,"id":"6fc35842-0165-44cf-8570-c484a92b3d8c","ifbench":0.679,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":41.73,"intelligence_index_token_counts":{"input_tokens":182641555,"answer_tokens":6773903,"output_tokens":167493394,"reasoning_tokens":160719491},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.64,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.894,"math_500":null,"math_index":95,"mmlu_pro":0.856,"mmmu_pro":null,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://github.com/zai-org/GLM-4.7","multilingual_aa":null,"name":"GLM-4.7 (Reasoning)","is_open_weights":true,"omniscience":-36.267,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.151,"num_correct":151,"omniscience":-63.2,"attempt_rate":0.948,"num_incorrect":783,"total_questions":1000,"num_not_attempted":52,"hallucination_rate":0.9222614840989399,"num_partial_answer":14}},"total":{"accuracy":0.2843333333333333,"num_correct":1706,"omniscience":-36.266666666666666,"attempt_rate":0.9561666666666667,"num_incorrect":3882,"total_questions":6000,"num_not_attempted":263,"hallucination_rate":0.904052165812762,"num_partial_answer":149},"Health":{"total":{"accuracy":0.291,"num_correct":291,"omniscience":-34.3,"attempt_rate":0.975,"num_incorrect":634,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.8942172073342737,"num_partial_answer":50}},"Business":{"total":{"accuracy":0.237,"num_correct":237,"omniscience":-44.6,"attempt_rate":0.94,"num_incorrect":683,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.8951507208387942,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.54,"num_correct":54,"omniscience":11,"attempt_rate":0.99,"num_incorrect":43,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9347826086956522,"num_partial_answer":2}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-44,"attempt_rate":0.88,"num_incorrect":33,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8461538461538461,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-30,"attempt_rate":0.88,"num_incorrect":29,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8055555555555556,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-10,"attempt_rate":0.96,"num_incorrect":26,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.896551724137931,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-38,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9714285714285714,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":14,"attempt_rate":0.96,"num_incorrect":20,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8695652173913043,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.16,"num_correct":16,"omniscience":-57,"attempt_rate":0.9,"num_incorrect":73,"total_questions":100,"num_not_attempted":10,"hallucination_rate":0.8690476190476191,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":30,"attempt_rate":1,"num_incorrect":16,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8421052631578947,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":0.96,"num_incorrect":17,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":0,"attempt_rate":0.88,"num_incorrect":11,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.7857142857142857,"num_partial_answer":0}},"total":{"accuracy":0.373,"num_correct":373,"omniscience":-18.5,"attempt_rate":0.948,"num_incorrect":558,"total_questions":1000,"num_not_attempted":52,"hallucination_rate":0.8899521531100478,"num_partial_answer":17},"Kotlin":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-30,"attempt_rate":0.94,"num_incorrect":31,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9117647058823529,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.31,"num_correct":62,"omniscience":-32,"attempt_rate":0.95,"num_incorrect":126,"total_questions":200,"num_not_attempted":10,"hallucination_rate":0.9130434782608695,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.45454545454545453,"num_correct":50,"omniscience":-3.6363636363636362,"attempt_rate":0.990909090909091,"num_incorrect":54,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.4222222222222222,"num_correct":38,"omniscience":-7.777777777777778,"attempt_rate":0.9333333333333333,"num_incorrect":45,"total_questions":90,"num_not_attempted":6,"hallucination_rate":0.8653846153846154,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.289,"num_correct":289,"omniscience":-36.8,"attempt_rate":0.956,"num_incorrect":657,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.9240506329113924,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.365,"num_correct":365,"omniscience":-20.2,"attempt_rate":0.97,"num_incorrect":567,"total_questions":1000,"num_not_attempted":30,"hallucination_rate":0.8929133858267716,"num_partial_answer":38}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":357,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","pass_back_reasoning":true},"release_date":"2025-12-22","representative_query_token_counts":null,"scicode":0.451,"short_name":"GLM-4.7","show_host_model_evals":false,"size_class":"Large","slug":"glm-4-7","tau2":0.959,"terminalbench_hard":0.298,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"c1510a4c-50f0-41a0-8667-be9e7c979db9","slug":"gmi_glm-4-7_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_GLM-4.7 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.4,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.8,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e412982c-c37f-4d26-9511-963c597a926d","slug":"baseten_glm-4-7","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_GLM-4.7 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d5eabda5-0bfc-43d4-a06f-5f9e8f5bcbda","slug":"novita_glm-4-7","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.7 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":204800,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"790c0227-40bf-49bc-9a2a-2f195cf87c7b","slug":"fireworks_glm-4-7","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/glm-4p7","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_GLM-4.7 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d703e6ec-66dc-4317-a29a-83b3b3d0eb00","slug":"siliconflow_glm-4-7","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"SiliconFlow_GLM-4.7 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0f5e1037-114e-4e37-a0df-c6efa9a0a7a0","slug":"deepinfra_glm-4-7_fp4","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_GLM-4.7 (Reasoning)_(FP4)","cache_pricing_notes":null,"model_name_appendage":"(FP4)","price_1m_input_tokens":0.43,"price_1m_output_tokens":1.75,"price_1m_blended_3_to_1":0.76,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":202752,"price_m_tokens_blended_3_to_1_per_dollar":1.32,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4e6858de-3724-4fdf-994b-10ad4920172a","slug":"parasail_glm-4-7_fp8","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.7-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_GLM-4.7 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.45,"price_1m_output_tokens":2.1,"price_1m_blended_3_to_1":0.8625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.16,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"28e931ea-976e-4a9b-8de1-f488498bdf52","slug":"cerebras_glm-4-7","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":null,"model_id":"6fc35842-0165-44cf-8570-c484a92b3d8c","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-glm-4.7","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_GLM-4.7 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2.25,"price_1m_output_tokens":2.75,"price_1m_blended_3_to_1":2.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131000,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-7","hosts_url":"/models/glm-4-7/providers","name_and_creator_label":"GLM-4.7, Z AI"},{"additional_text":null,"aime":0.943,"aime25":0.927,"agentic_index":41.41,"coding_index":40.3,"commercial_allowed":null,"computed_performance_host_model_id":"a315557b-b396-44a7-bf4b-de9990819183","context_window_tokens":256000,"critpt":0.02,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":413,"estimated_intelligence_index":40.70068622635178,"model_family_slug":"grok-4","frontier_model":false,"gdpval":990.2851359134816,"gpqa":0.877,"hle":0.239,"humaneval":0.977,"id":"5ea94a4a-55ac-4ea1-8898-2b3971e94af6","ifbench":0.537,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":null,"input_modality_text":true,"input_modality_video":null,"intelligence_index":41.35,"intelligence_index_token_counts":{"input_tokens":83610046,"answer_tokens":2953205,"output_tokens":88244316,"reasoning_tokens":85291111},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.68,"license_name":null,"license_url":null,"livecodebench":0.819,"math_500":0.99,"math_index":92.67,"mmlu_pro":0.866,"mmmu_pro":0.688,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8849999999999999,"input_tokens":188556,"answer_tokens":52485,"output_tokens":1510313,"reasoning_tokens":1457828,"total_input_tokens_api":1086096,"total_answer_tokens_api":77023,"total_reasoning_tokens_api":1457828},"bn":{"score":0.8908333333333333,"input_tokens":225534,"answer_tokens":37067,"output_tokens":1750550,"reasoning_tokens":1713483,"total_input_tokens_api":1189023,"total_answer_tokens_api":41509,"total_reasoning_tokens_api":1713483},"de":{"score":0.915,"input_tokens":191646,"answer_tokens":90692,"output_tokens":1325671,"reasoning_tokens":1234979,"total_input_tokens_api":1025436,"total_answer_tokens_api":101477,"total_reasoning_tokens_api":1234979},"en":{"score":0.9291666666666667,"input_tokens":159654,"answer_tokens":32170,"output_tokens":1134980,"reasoning_tokens":1102810,"total_input_tokens_api":974496,"total_answer_tokens_api":31391,"total_reasoning_tokens_api":1102810},"es":{"score":0.9283333333333333,"input_tokens":182088,"answer_tokens":47029,"output_tokens":1346093,"reasoning_tokens":1299064,"total_input_tokens_api":998379,"total_answer_tokens_api":46644,"total_reasoning_tokens_api":1299064},"fr":{"score":0.9166666666666666,"input_tokens":191346,"answer_tokens":35664,"output_tokens":1370492,"reasoning_tokens":1334828,"total_input_tokens_api":1006275,"total_answer_tokens_api":34970,"total_reasoning_tokens_api":1334828},"hi":{"score":0.8933333333333332,"input_tokens":209430,"answer_tokens":44803,"output_tokens":1525602,"reasoning_tokens":1480799,"total_input_tokens_api":1057818,"total_answer_tokens_api":50076,"total_reasoning_tokens_api":1480799},"id":{"score":0.9058333333333333,"input_tokens":181314,"answer_tokens":65478,"output_tokens":1187819,"reasoning_tokens":1122341,"total_input_tokens_api":1013391,"total_answer_tokens_api":71518,"total_reasoning_tokens_api":1122341},"it":{"score":0.9125,"input_tokens":199032,"answer_tokens":38511,"output_tokens":1385338,"reasoning_tokens":1346827,"total_input_tokens_api":1000185,"total_answer_tokens_api":35411,"total_reasoning_tokens_api":1346827},"ja":{"score":0.8808333333333334,"input_tokens":228129,"answer_tokens":76886,"output_tokens":1298845,"reasoning_tokens":1221959,"total_input_tokens_api":1004799,"total_answer_tokens_api":58883,"total_reasoning_tokens_api":1221959},"ko":{"score":0.8958333333333334,"input_tokens":199401,"answer_tokens":62119,"output_tokens":1336320,"reasoning_tokens":1274201,"total_input_tokens_api":1016781,"total_answer_tokens_api":61636,"total_reasoning_tokens_api":1274201},"my":{"score":0.8825,"input_tokens":353547,"answer_tokens":42113,"output_tokens":2229196,"reasoning_tokens":2187083,"total_input_tokens_api":1458879,"total_answer_tokens_api":52438,"total_reasoning_tokens_api":2187083},"pt":{"score":0.9250000000000002,"input_tokens":178176,"answer_tokens":64336,"output_tokens":1238020,"reasoning_tokens":1173684,"total_input_tokens_api":995580,"total_answer_tokens_api":63620,"total_reasoning_tokens_api":1173684},"sw":{"score":0.8783333333333333,"input_tokens":208677,"answer_tokens":25350,"output_tokens":1938657,"reasoning_tokens":1913307,"total_input_tokens_api":1057263,"total_answer_tokens_api":27816,"total_reasoning_tokens_api":1913307},"yo":{"score":0.785,"input_tokens":307062,"answer_tokens":17756,"output_tokens":3323780,"reasoning_tokens":3306024,"total_input_tokens_api":1182429,"total_answer_tokens_api":17946,"total_reasoning_tokens_api":3306024},"zh":{"score":0.8949999999999999,"input_tokens":179793,"answer_tokens":65926,"output_tokens":1161735,"reasoning_tokens":1095809,"total_input_tokens_api":978348,"total_answer_tokens_api":57789,"total_reasoning_tokens_api":1095809},"average":{"score":0.8949479166666667,"input_tokens":3383385,"answer_tokens":798385,"output_tokens":25063411,"reasoning_tokens":24265026,"total_input_tokens_api":17045178,"total_answer_tokens_api":830147,"total_reasoning_tokens_api":24265026}},"name":"Grok 4","is_open_weights":false,"omniscience":0.95,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.381,"num_correct":381,"omniscience":-2.6,"attempt_rate":0.802,"num_incorrect":407,"total_questions":1000,"num_not_attempted":198,"hallucination_rate":0.6575121163166397,"num_partial_answer":14}},"total":{"accuracy":0.39566666666666667,"num_correct":2374,"omniscience":0.95,"attempt_rate":0.7986666666666666,"num_incorrect":2317,"total_questions":6000,"num_not_attempted":1208,"hallucination_rate":0.638996138996139,"num_partial_answer":101},"Health":{"total":{"accuracy":0.374,"num_correct":374,"omniscience":-9.1,"attempt_rate":0.856,"num_incorrect":465,"total_questions":1000,"num_not_attempted":144,"hallucination_rate":0.7428115015974441,"num_partial_answer":17}},"Business":{"total":{"accuracy":0.343,"num_correct":343,"omniscience":-1.2,"attempt_rate":0.719,"num_incorrect":355,"total_questions":1000,"num_not_attempted":281,"hallucination_rate":0.5403348554033486,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.67,"num_correct":67,"omniscience":38,"attempt_rate":0.97,"num_incorrect":29,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.8787878787878788,"num_partial_answer":1}},"R":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":2,"attempt_rate":0.74,"num_incorrect":18,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.5806451612903226,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-18,"attempt_rate":0.7,"num_incorrect":22,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.5945945945945946,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":14,"attempt_rate":0.86,"num_incorrect":18,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.72,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":0,"attempt_rate":0.8,"num_incorrect":20,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.6666666666666666,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":16,"attempt_rate":0.88,"num_incorrect":17,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.68,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.38,"num_correct":38,"omniscience":-1,"attempt_rate":0.78,"num_incorrect":39,"total_questions":100,"num_not_attempted":22,"hallucination_rate":0.6290322580645161,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":38,"attempt_rate":0.92,"num_incorrect":12,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.631578947368421,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-20,"attempt_rate":0.84,"num_incorrect":13,"total_questions":25,"num_not_attempted":4,"hallucination_rate":0.7647058823529411,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.64,"num_correct":16,"omniscience":36,"attempt_rate":0.92,"num_incorrect":7,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7777777777777778,"num_partial_answer":0}},"total":{"accuracy":0.458,"num_correct":458,"omniscience":8.8,"attempt_rate":0.841,"num_incorrect":370,"total_questions":1000,"num_not_attempted":159,"hallucination_rate":0.6826568265682657,"num_partial_answer":13},"Kotlin":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-6,"attempt_rate":0.72,"num_incorrect":19,"total_questions":50,"num_not_attempted":14,"hallucination_rate":0.5588235294117647,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.425,"num_correct":85,"omniscience":2.5,"attempt_rate":0.835,"num_incorrect":80,"total_questions":200,"num_not_attempted":33,"hallucination_rate":0.6956521739130435,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.4909090909090909,"num_correct":54,"omniscience":12.727272727272727,"attempt_rate":0.8636363636363636,"num_incorrect":40,"total_questions":110,"num_not_attempted":15,"hallucination_rate":0.7142857142857143,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.45555555555555555,"num_correct":41,"omniscience":5.555555555555555,"attempt_rate":0.8777777777777778,"num_incorrect":36,"total_questions":90,"num_not_attempted":11,"hallucination_rate":0.7346938775510204,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.408,"num_correct":408,"omniscience":7.2,"attempt_rate":0.753,"num_incorrect":336,"total_questions":1000,"num_not_attempted":247,"hallucination_rate":0.5675675675675675,"num_partial_answer":9}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.41,"num_correct":410,"omniscience":2.6,"attempt_rate":0.821,"num_incorrect":384,"total_questions":1000,"num_not_attempted":179,"hallucination_rate":0.6508474576271186,"num_partial_answer":27}}},"output_modality_image":null,"output_modality_speech":null,"output_modality_text":true,"output_modality_video":null,"output_tokens":131072,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-07-10","representative_query_token_counts":null,"scicode":0.457,"short_name":"Grok 4","show_host_model_evals":false,"size_class":"Large","slug":"grok-4","tau2":0.749,"terminalbench_hard":0.376,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[{"id":"a315557b-b396-44a7-bf4b-de9990819183","slug":"xai_grok-4","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"5ea94a4a-55ac-4ea1-8898-2b3971e94af6","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4-0709","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 4","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":5.376,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"23559d28-0271-49ac-be8e-a9842858f168","slug":"azure_grok-4","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"5ea94a4a-55ac-4ea1-8898-2b3971e94af6","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_Grok 4","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":5.5,"price_1m_output_tokens":27.5,"price_1m_blended_3_to_1":11,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.09,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/grok-4","hosts_url":"/models/grok-4/providers","name_and_creator_label":"Grok 4, xAI"},{"additional_text":null,"aime":null,"aime25":0.413,"agentic_index":32.93,"coding_index":18.52,"commercial_allowed":null,"computed_performance_host_model_id":"0572c124-5534-4db1-94da-5e6983debce9","context_window_tokens":2000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":400,"estimated_intelligence_index":20.059341448451224,"model_family_slug":"grok-4","frontier_model":false,"gdpval":843.9915815296818,"gpqa":0.606,"hle":0.05,"humaneval":null,"id":"2dbb6dc7-8c40-4b6d-af9c-cf805f83b79a","ifbench":0.377,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":22.76,"intelligence_index_token_counts":{"input_tokens":78186092,"answer_tokens":4168909,"output_tokens":4168909,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.2,"license_name":null,"license_url":null,"livecodebench":0.401,"math_500":null,"math_index":41.33,"mmlu_pro":0.73,"mmmu_pro":0.481,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":null,"name":"Grok 4 Fast (Non-reasoning)","is_open_weights":false,"omniscience":-55.683,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.105,"num_correct":105,"omniscience":-68,"attempt_rate":0.9,"num_incorrect":785,"total_questions":1000,"num_not_attempted":100,"hallucination_rate":0.8770949720670391,"num_partial_answer":10}},"total":{"accuracy":0.16483333333333333,"num_correct":989,"omniscience":-55.68333333333333,"attempt_rate":0.9131666666666667,"num_incorrect":4330,"total_questions":6000,"num_not_attempted":521,"hallucination_rate":0.864098982239074,"num_partial_answer":160},"Health":{"total":{"accuracy":0.155,"num_correct":155,"omniscience":-59.5,"attempt_rate":0.954,"num_incorrect":750,"total_questions":1000,"num_not_attempted":46,"hallucination_rate":0.8875739644970414,"num_partial_answer":49}},"Business":{"total":{"accuracy":0.149,"num_correct":149,"omniscience":-49,"attempt_rate":0.805,"num_incorrect":639,"total_questions":1000,"num_not_attempted":195,"hallucination_rate":0.7508813160987075,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.32,"num_correct":32,"omniscience":-34,"attempt_rate":0.99,"num_incorrect":66,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9705882352941176,"num_partial_answer":1}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-66,"attempt_rate":0.9,"num_incorrect":39,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8863636363636364,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-54,"attempt_rate":0.86,"num_incorrect":34,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7906976744186046,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.94,"num_incorrect":37,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.925,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.918918918918919,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-66,"attempt_rate":0.97,"num_incorrect":81,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9529411764705882,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-10,"attempt_rate":0.98,"num_incorrect":26,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.896551724137931,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-8,"attempt_rate":0.96,"num_incorrect":12,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8,"num_partial_answer":2}},"total":{"accuracy":0.206,"num_correct":206,"omniscience":-52.1,"attempt_rate":0.959,"num_incorrect":727,"total_questions":1000,"num_not_attempted":41,"hallucination_rate":0.9156171284634761,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-56,"attempt_rate":0.84,"num_incorrect":34,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7727272727272727,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.175,"num_correct":35,"omniscience":-58.5,"attempt_rate":0.96,"num_incorrect":152,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.9212121212121213,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-38.18181818181818,"attempt_rate":0.990909090909091,"num_incorrect":73,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9240506329113924,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.15555555555555556,"num_correct":14,"omniscience":-64.44444444444444,"attempt_rate":0.9777777777777777,"num_incorrect":72,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9473684210526315,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.191,"num_correct":191,"omniscience":-53.1,"attempt_rate":0.935,"num_incorrect":722,"total_questions":1000,"num_not_attempted":65,"hallucination_rate":0.892459826946848,"num_partial_answer":22}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.183,"num_correct":183,"omniscience":-52.4,"attempt_rate":0.926,"num_incorrect":707,"total_questions":1000,"num_not_attempted":74,"hallucination_rate":0.8653610771113831,"num_partial_answer":36}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":2000000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-19","representative_query_token_counts":null,"scicode":0.329,"short_name":"Grok 4 Fast","show_host_model_evals":false,"size_class":"Medium","slug":"grok-4-fast","tau2":0.637,"terminalbench_hard":0.113,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[{"id":"ea495d54-cb26-4fb0-97d6-73b6f716427b","slug":"azure_grok-4-fast","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"2dbb6dc7-8c40-4b6d-af9c-cf805f83b79a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4-fast-non-reasoning","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_Grok 4 Fast (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.64,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0572c124-5534-4db1-94da-5e6983debce9","slug":"xai_grok-4-fast","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"2dbb6dc7-8c40-4b6d-af9c-cf805f83b79a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4-fast-non-reasoning","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 4 Fast (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.64,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/grok-4-fast","hosts_url":"/models/grok-4-fast/providers","name_and_creator_label":"Grok 4 Fast, xAI"},{"additional_text":null,"aime":null,"aime25":0.897,"agentic_index":38.97,"coding_index":26.56,"commercial_allowed":null,"computed_performance_host_model_id":"cd39cdbb-6c01-4594-95ee-12b8799f51d0","context_window_tokens":2000000,"critpt":0.029,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":404,"estimated_intelligence_index":35.64040452706353,"model_family_slug":"grok-4","frontier_model":false,"gdpval":1016.359682959805,"gpqa":0.847,"hle":0.17,"humaneval":null,"id":"573bbd93-114c-4b71-9ede-a73a7d4bdf84","ifbench":0.505,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":34.6,"intelligence_index_token_counts":{"input_tokens":73253945,"answer_tokens":3157929,"output_tokens":50769310,"reasoning_tokens":47611380},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.647,"license_name":null,"license_url":null,"livecodebench":0.832,"math_500":null,"math_index":89.67,"mmlu_pro":0.85,"mmmu_pro":0.618,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8666666666666667,"input_tokens":188556,"answer_tokens":89095,"output_tokens":705269,"reasoning_tokens":616174,"total_input_tokens_api":452496,"total_answer_tokens_api":111645,"total_reasoning_tokens_api":616174},"bn":{"score":0.87,"input_tokens":225534,"answer_tokens":101336,"output_tokens":894486,"reasoning_tokens":793150,"total_input_tokens_api":555423,"total_answer_tokens_api":133170,"total_reasoning_tokens_api":793150},"de":{"score":0.8925000000000001,"input_tokens":191646,"answer_tokens":131972,"output_tokens":791619,"reasoning_tokens":659647,"total_input_tokens_api":391836,"total_answer_tokens_api":147656,"total_reasoning_tokens_api":659647},"en":{"score":0.9125,"input_tokens":159654,"answer_tokens":83768,"output_tokens":546658,"reasoning_tokens":462890,"total_input_tokens_api":340896,"total_answer_tokens_api":81379,"total_reasoning_tokens_api":462890},"es":{"score":0.8991666666666666,"input_tokens":182088,"answer_tokens":99673,"output_tokens":646086,"reasoning_tokens":546413,"total_input_tokens_api":364779,"total_answer_tokens_api":98890,"total_reasoning_tokens_api":546413},"fr":{"score":0.8883333333333333,"input_tokens":191346,"answer_tokens":96351,"output_tokens":655175,"reasoning_tokens":558824,"total_input_tokens_api":372675,"total_answer_tokens_api":94352,"total_reasoning_tokens_api":558824},"hi":{"score":0.8716666666666666,"input_tokens":209430,"answer_tokens":104037,"output_tokens":752473,"reasoning_tokens":648436,"total_input_tokens_api":424218,"total_answer_tokens_api":113969,"total_reasoning_tokens_api":648436},"id":{"score":0.8833333333333334,"input_tokens":181314,"answer_tokens":111622,"output_tokens":682633,"reasoning_tokens":571011,"total_input_tokens_api":379791,"total_answer_tokens_api":122523,"total_reasoning_tokens_api":571011},"it":{"score":0.8958333333333334,"input_tokens":199032,"answer_tokens":98287,"output_tokens":655044,"reasoning_tokens":556757,"total_input_tokens_api":366585,"total_answer_tokens_api":89717,"total_reasoning_tokens_api":556757},"ja":{"score":0.87,"input_tokens":228129,"answer_tokens":135947,"output_tokens":765744,"reasoning_tokens":629797,"total_input_tokens_api":371199,"total_answer_tokens_api":106868,"total_reasoning_tokens_api":629797},"ko":{"score":0.8691666666666666,"input_tokens":199401,"answer_tokens":111426,"output_tokens":690020,"reasoning_tokens":578594,"total_input_tokens_api":383181,"total_answer_tokens_api":110555,"total_reasoning_tokens_api":578594},"my":{"score":0.7891666666666667,"input_tokens":353547,"answer_tokens":113980,"output_tokens":1269160,"reasoning_tokens":1155180,"total_input_tokens_api":826863,"total_answer_tokens_api":147437,"total_reasoning_tokens_api":1155180},"pt":{"score":0.8958333333333334,"input_tokens":178176,"answer_tokens":88962,"output_tokens":633914,"reasoning_tokens":544952,"total_input_tokens_api":361980,"total_answer_tokens_api":88313,"total_reasoning_tokens_api":544952},"sw":{"score":0.8275,"input_tokens":208677,"answer_tokens":92165,"output_tokens":892690,"reasoning_tokens":800525,"total_input_tokens_api":423663,"total_answer_tokens_api":100557,"total_reasoning_tokens_api":800525},"yo":{"score":0.6416666666666667,"input_tokens":307062,"answer_tokens":1774650,"output_tokens":3278797,"reasoning_tokens":1504147,"total_input_tokens_api":548829,"total_answer_tokens_api":897745,"total_reasoning_tokens_api":1504147},"zh":{"score":0.8658333333333333,"input_tokens":179793,"answer_tokens":104807,"output_tokens":625538,"reasoning_tokens":520731,"total_input_tokens_api":344748,"total_answer_tokens_api":88814,"total_reasoning_tokens_api":520731},"average":{"score":0.8586979166666666,"input_tokens":3383385,"answer_tokens":3338078,"output_tokens":14485306,"reasoning_tokens":11147228,"total_input_tokens_api":6909162,"total_answer_tokens_api":2533590,"total_reasoning_tokens_api":11147228}},"name":"Grok 4 Fast (Reasoning)","is_open_weights":false,"omniscience":-30.5,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.14,"num_correct":140,"omniscience":-43,"attempt_rate":0.724,"num_incorrect":570,"total_questions":1000,"num_not_attempted":276,"hallucination_rate":0.6627906976744186,"num_partial_answer":14}},"total":{"accuracy":0.22033333333333333,"num_correct":1322,"omniscience":-30.5,"attempt_rate":0.7616666666666667,"num_incorrect":3152,"total_questions":6000,"num_not_attempted":1430,"hallucination_rate":0.6737922188969645,"num_partial_answer":96},"Health":{"total":{"accuracy":0.228,"num_correct":228,"omniscience":-37,"attempt_rate":0.846,"num_incorrect":598,"total_questions":1000,"num_not_attempted":154,"hallucination_rate":0.7746113989637305,"num_partial_answer":20}},"Business":{"total":{"accuracy":0.19,"num_correct":190,"omniscience":-24.1,"attempt_rate":0.64,"num_incorrect":431,"total_questions":1000,"num_not_attempted":360,"hallucination_rate":0.5320987654320988,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.27,"num_correct":27,"omniscience":-39,"attempt_rate":0.95,"num_incorrect":66,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.9041095890410958,"num_partial_answer":2}},"R":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-40,"attempt_rate":0.76,"num_incorrect":29,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.7073170731707317,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-30,"attempt_rate":0.7,"num_incorrect":25,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.625,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-62,"attempt_rate":0.78,"num_incorrect":35,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.7608695652173914,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-32,"attempt_rate":0.76,"num_incorrect":27,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6923076923076923,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-20,"attempt_rate":0.86,"num_incorrect":25,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7142857142857143,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-55,"attempt_rate":0.81,"num_incorrect":68,"total_questions":100,"num_not_attempted":19,"hallucination_rate":0.7816091954022989,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":24,"attempt_rate":0.94,"num_incorrect":16,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7272727272727273,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-60,"attempt_rate":0.76,"num_incorrect":17,"total_questions":25,"num_not_attempted":6,"hallucination_rate":0.7391304347826086,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-16,"attempt_rate":0.96,"num_incorrect":14,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9333333333333333,"num_partial_answer":0}},"total":{"accuracy":0.224,"num_correct":224,"omniscience":-38.4,"attempt_rate":0.847,"num_incorrect":608,"total_questions":1000,"num_not_attempted":153,"hallucination_rate":0.7835051546391752,"num_partial_answer":15},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-40,"attempt_rate":0.8,"num_incorrect":29,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7073170731707317,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.225,"num_correct":45,"omniscience":-38,"attempt_rate":0.84,"num_incorrect":121,"total_questions":200,"num_not_attempted":32,"hallucination_rate":0.7806451612903226,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-41.81818181818182,"attempt_rate":0.9272727272727272,"num_incorrect":73,"total_questions":110,"num_not_attempted":8,"hallucination_rate":0.8795180722891566,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.15555555555555556,"num_correct":14,"omniscience":-54.44444444444444,"attempt_rate":0.8666666666666667,"num_incorrect":63,"total_questions":90,"num_not_attempted":12,"hallucination_rate":0.8289473684210527,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.219,"num_correct":219,"omniscience":-25.6,"attempt_rate":0.701,"num_incorrect":475,"total_questions":1000,"num_not_attempted":299,"hallucination_rate":0.6081946222791293,"num_partial_answer":7}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.321,"num_correct":321,"omniscience":-14.9,"attempt_rate":0.812,"num_incorrect":470,"total_questions":1000,"num_not_attempted":188,"hallucination_rate":0.6921944035346097,"num_partial_answer":21}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":2000000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-09-19","representative_query_token_counts":null,"scicode":0.442,"short_name":"Grok 4 Fast","show_host_model_evals":false,"size_class":"Medium","slug":"grok-4-fast-reasoning","tau2":0.658,"terminalbench_hard":0.177,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[{"id":"cd39cdbb-6c01-4594-95ee-12b8799f51d0","slug":"xai_grok-4-fast-reasoning","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"573bbd93-114c-4b71-9ede-a73a7d4bdf84","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4-fast-reasoning","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 4 Fast (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.64,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"bbd26e54-44df-47df-9ed5-2fcfe1dc9d02","slug":"azure_grok-4-fast-reasoning","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"573bbd93-114c-4b71-9ede-a73a7d4bdf84","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4-fast-reasoning","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_Grok 4 Fast (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.64,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/grok-4-fast-reasoning","hosts_url":"/models/grok-4-fast-reasoning/providers","name_and_creator_label":"Grok 4 Fast, xAI"},{"additional_text":null,"aime":null,"aime25":0.343,"agentic_index":33.51,"coding_index":18.86,"commercial_allowed":null,"computed_performance_host_model_id":"cfb31a60-61d8-4451-91ce-2ef401576bb6","context_window_tokens":2000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":415,"estimated_intelligence_index":19.90050190769766,"model_family_slug":"grok-4","frontier_model":false,"gdpval":856.9315715754692,"gpqa":0.637,"hle":0.05,"humaneval":null,"id":"49fd01f9-887d-4479-b8ce-771a81ecef4e","ifbench":0.365,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":23.53,"intelligence_index_token_counts":{"input_tokens":96570973,"answer_tokens":4554244,"output_tokens":4554244,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.22,"license_name":null,"license_url":null,"livecodebench":0.399,"math_500":null,"math_index":34.33,"mmlu_pro":0.743,"mmmu_pro":0.484,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":null,"name":"Grok 4.1 Fast (Non-reasoning)","is_open_weights":false,"omniscience":-52.317,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.109,"num_correct":109,"omniscience":-61.5,"attempt_rate":0.851,"num_incorrect":724,"total_questions":1000,"num_not_attempted":149,"hallucination_rate":0.8125701459034792,"num_partial_answer":18}},"total":{"accuracy":0.158,"num_correct":948,"omniscience":-52.31666666666667,"attempt_rate":0.8683333333333333,"num_incorrect":4087,"total_questions":6000,"num_not_attempted":790,"hallucination_rate":0.8089865399841647,"num_partial_answer":175},"Health":{"total":{"accuracy":0.152,"num_correct":152,"omniscience":-54.4,"attempt_rate":0.907,"num_incorrect":696,"total_questions":1000,"num_not_attempted":93,"hallucination_rate":0.8207547169811321,"num_partial_answer":59}},"Business":{"total":{"accuracy":0.136,"num_correct":136,"omniscience":-42.9,"attempt_rate":0.72,"num_incorrect":565,"total_questions":1000,"num_not_attempted":280,"hallucination_rate":0.6539351851851852,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.3,"num_correct":30,"omniscience":-36,"attempt_rate":0.97,"num_incorrect":66,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9428571428571428,"num_partial_answer":1}},"R":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":40,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-58,"attempt_rate":0.88,"num_incorrect":36,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8372093023255814,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-62,"attempt_rate":0.94,"num_incorrect":39,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9285714285714286,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-66,"attempt_rate":0.92,"num_incorrect":38,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8444444444444444,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.96,"num_incorrect":34,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.918918918918919,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-62,"attempt_rate":0.95,"num_incorrect":76,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.8837209302325582,"num_partial_answer":5}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-4,"attempt_rate":0.94,"num_incorrect":23,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7931034482758621,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-96,"attempt_rate":0.96,"num_incorrect":24,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.96,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-12,"attempt_rate":0.96,"num_incorrect":13,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"total":{"accuracy":0.205,"num_correct":205,"omniscience":-50.3,"attempt_rate":0.941,"num_incorrect":708,"total_questions":1000,"num_not_attempted":59,"hallucination_rate":0.8905660377358491,"num_partial_answer":28},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-46,"attempt_rate":0.8,"num_incorrect":30,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.6976744186046512,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.165,"num_correct":33,"omniscience":-59,"attempt_rate":0.935,"num_incorrect":151,"total_questions":200,"num_not_attempted":13,"hallucination_rate":0.9041916167664671,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.2727272727272727,"num_correct":30,"omniscience":-38.18181818181818,"attempt_rate":0.9818181818181818,"num_incorrect":72,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.2111111111111111,"num_correct":19,"omniscience":-52.22222222222222,"attempt_rate":0.9555555555555556,"num_incorrect":66,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.9295774647887324,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-53.6,"attempt_rate":0.889,"num_incorrect":703,"total_questions":1000,"num_not_attempted":111,"hallucination_rate":0.843937575030012,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.179,"num_correct":179,"omniscience":-51.2,"attempt_rate":0.902,"num_incorrect":691,"total_questions":1000,"num_not_attempted":98,"hallucination_rate":0.8416565164433617,"num_partial_answer":32}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":2000000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-11-19","representative_query_token_counts":null,"scicode":0.296,"short_name":"Grok 4.1 Fast","show_host_model_evals":false,"size_class":"Medium","slug":"grok-4-1-fast","tau2":0.637,"terminalbench_hard":0.135,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[{"id":"cfb31a60-61d8-4451-91ce-2ef401576bb6","slug":"xai_grok-4-1-fast","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"49fd01f9-887d-4479-b8ce-771a81ecef4e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4-1-fast-non-reasoning","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 4.1 Fast (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.64,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/grok-4-1-fast","hosts_url":"/models/grok-4-1-fast/providers","name_and_creator_label":"Grok 4.1 Fast, xAI"},{"additional_text":null,"aime":null,"aime25":0.893,"agentic_index":48.88,"coding_index":29.87,"commercial_allowed":null,"computed_performance_host_model_id":"42ae83b6-95f9-4ddd-9ee9-ccf9965e0d04","context_window_tokens":2000000,"critpt":0.029,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":417,"estimated_intelligence_index":39.4372165480614,"model_family_slug":"grok-4","frontier_model":false,"gdpval":1033.8962312766687,"gpqa":0.853,"hle":0.176,"humaneval":null,"id":"23149f9b-c904-43e2-9ec4-afa2bf843941","ifbench":0.527,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":38.17,"intelligence_index_token_counts":{"input_tokens":66596985,"answer_tokens":2802019,"output_tokens":52603091,"reasoning_tokens":49801072},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.68,"license_name":null,"license_url":null,"livecodebench":0.822,"math_500":null,"math_index":89.33,"mmlu_pro":0.854,"mmmu_pro":0.633,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8633333333333333,"input_tokens":188556,"answer_tokens":156759,"output_tokens":1085500,"reasoning_tokens":928741,"total_input_tokens_api":452496,"total_answer_tokens_api":230506,"total_reasoning_tokens_api":928741},"bn":{"score":0.87,"input_tokens":225534,"answer_tokens":172785,"output_tokens":1431830,"reasoning_tokens":1259045,"total_input_tokens_api":555423,"total_answer_tokens_api":289257,"total_reasoning_tokens_api":1259045},"de":{"score":0.8866666666666667,"input_tokens":191646,"answer_tokens":154668,"output_tokens":1103403,"reasoning_tokens":948735,"total_input_tokens_api":391836,"total_answer_tokens_api":170406,"total_reasoning_tokens_api":948735},"en":{"score":0.9166666666666666,"input_tokens":159654,"answer_tokens":126752,"output_tokens":802918,"reasoning_tokens":676166,"total_input_tokens_api":340896,"total_answer_tokens_api":122592,"total_reasoning_tokens_api":676166},"es":{"score":0.8975,"input_tokens":182088,"answer_tokens":146364,"output_tokens":934880,"reasoning_tokens":788516,"total_input_tokens_api":364779,"total_answer_tokens_api":144909,"total_reasoning_tokens_api":788516},"fr":{"score":0.8858333333333333,"input_tokens":191346,"answer_tokens":157480,"output_tokens":948145,"reasoning_tokens":790665,"total_input_tokens_api":372675,"total_answer_tokens_api":154127,"total_reasoning_tokens_api":790665},"hi":{"score":0.8675,"input_tokens":209430,"answer_tokens":160634,"output_tokens":1109728,"reasoning_tokens":949094,"total_input_tokens_api":424218,"total_answer_tokens_api":187981,"total_reasoning_tokens_api":949094},"id":{"score":0.8841666666666667,"input_tokens":181314,"answer_tokens":153409,"output_tokens":969176,"reasoning_tokens":815767,"total_input_tokens_api":379791,"total_answer_tokens_api":167128,"total_reasoning_tokens_api":815767},"it":{"score":0.8933333333333334,"input_tokens":199032,"answer_tokens":158775,"output_tokens":969667,"reasoning_tokens":810892,"total_input_tokens_api":366585,"total_answer_tokens_api":142727,"total_reasoning_tokens_api":810892},"ja":{"score":0.8758333333333334,"input_tokens":228129,"answer_tokens":144803,"output_tokens":1044172,"reasoning_tokens":899369,"total_input_tokens_api":371199,"total_answer_tokens_api":115236,"total_reasoning_tokens_api":899369},"ko":{"score":0.8666666666666667,"input_tokens":199401,"answer_tokens":147992,"output_tokens":1021154,"reasoning_tokens":873162,"total_input_tokens_api":383181,"total_answer_tokens_api":147699,"total_reasoning_tokens_api":873162},"my":{"score":0.7875,"input_tokens":353547,"answer_tokens":218498,"output_tokens":2057966,"reasoning_tokens":1839468,"total_input_tokens_api":826863,"total_answer_tokens_api":387222,"total_reasoning_tokens_api":1839468},"pt":{"score":0.8975,"input_tokens":178176,"answer_tokens":136389,"output_tokens":956420,"reasoning_tokens":820031,"total_input_tokens_api":361980,"total_answer_tokens_api":135606,"total_reasoning_tokens_api":820031},"sw":{"score":0.8275,"input_tokens":208677,"answer_tokens":160076,"output_tokens":1389957,"reasoning_tokens":1229881,"total_input_tokens_api":423663,"total_answer_tokens_api":183981,"total_reasoning_tokens_api":1229881},"yo":{"score":0.6116666666666667,"input_tokens":307062,"answer_tokens":413348,"output_tokens":2650298,"reasoning_tokens":2236950,"total_input_tokens_api":548829,"total_answer_tokens_api":523171,"total_reasoning_tokens_api":2236950},"zh":{"score":0.8650000000000001,"input_tokens":179793,"answer_tokens":140260,"output_tokens":886540,"reasoning_tokens":746280,"total_input_tokens_api":344748,"total_answer_tokens_api":119428,"total_reasoning_tokens_api":746280},"average":{"score":0.8560416666666668,"input_tokens":3383385,"answer_tokens":2748992,"output_tokens":19361754,"reasoning_tokens":16612762,"total_input_tokens_api":6909162,"total_answer_tokens_api":3221976,"total_reasoning_tokens_api":16612762}},"name":"Grok 4.1 Fast (Reasoning)","is_open_weights":false,"omniscience":-31.383,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.161,"num_correct":161,"omniscience":-44.7,"attempt_rate":0.789,"num_incorrect":608,"total_questions":1000,"num_not_attempted":211,"hallucination_rate":0.7246722288438617,"num_partial_answer":20}},"total":{"accuracy":0.235,"num_correct":1410,"omniscience":-31.383333333333333,"attempt_rate":0.8085,"num_incorrect":3293,"total_questions":6000,"num_not_attempted":1149,"hallucination_rate":0.7174291938997821,"num_partial_answer":148},"Health":{"total":{"accuracy":0.238,"num_correct":238,"omniscience":-36.3,"attempt_rate":0.879,"num_incorrect":601,"total_questions":1000,"num_not_attempted":121,"hallucination_rate":0.7887139107611548,"num_partial_answer":40}},"Business":{"total":{"accuracy":0.197,"num_correct":197,"omniscience":-25.4,"attempt_rate":0.671,"num_incorrect":451,"total_questions":1000,"num_not_attempted":329,"hallucination_rate":0.5616438356164384,"num_partial_answer":23}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.41,"num_correct":41,"omniscience":-15,"attempt_rate":0.98,"num_incorrect":56,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9491525423728814,"num_partial_answer":1}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-38,"attempt_rate":0.82,"num_incorrect":30,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7692307692307693,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-52,"attempt_rate":0.78,"num_incorrect":32,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.7272727272727273,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-68,"attempt_rate":0.88,"num_incorrect":39,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8666666666666667,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-40,"attempt_rate":0.88,"num_incorrect":32,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8421052631578947,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.98,"num_incorrect":31,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8857142857142857,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-50,"attempt_rate":0.84,"num_incorrect":67,"total_questions":100,"num_not_attempted":16,"hallucination_rate":0.8072289156626506,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":10,"attempt_rate":0.96,"num_incorrect":20,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-76,"attempt_rate":0.92,"num_incorrect":21,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9130434782608695,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.56,"num_correct":14,"omniscience":20,"attempt_rate":0.96,"num_incorrect":9,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8181818181818182,"num_partial_answer":1}},"total":{"accuracy":0.257,"num_correct":257,"omniscience":-38.1,"attempt_rate":0.915,"num_incorrect":638,"total_questions":1000,"num_not_attempted":85,"hallucination_rate":0.8586810228802153,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-30,"attempt_rate":0.84,"num_incorrect":27,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7105263157894737,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-47,"attempt_rate":0.915,"num_incorrect":138,"total_questions":200,"num_not_attempted":17,"hallucination_rate":0.8846153846153846,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-28.181818181818183,"attempt_rate":0.9727272727272728,"num_incorrect":67,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9054054054054054,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.18888888888888888,"num_correct":17,"omniscience":-57.77777777777778,"attempt_rate":0.9888888888888889,"num_incorrect":69,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9452054794520548,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.233,"num_correct":233,"omniscience":-29.7,"attempt_rate":0.778,"num_incorrect":530,"total_questions":1000,"num_not_attempted":222,"hallucination_rate":0.6910039113428944,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.324,"num_correct":324,"omniscience":-14.1,"attempt_rate":0.819,"num_incorrect":465,"total_questions":1000,"num_not_attempted":181,"hallucination_rate":0.6878698224852071,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":200000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-11-19","representative_query_token_counts":null,"scicode":0.442,"short_name":"Grok 4.1 Fast","show_host_model_evals":false,"size_class":"Medium","slug":"grok-4-1-fast-reasoning","tau2":0.933,"terminalbench_hard":0.227,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[{"id":"42ae83b6-95f9-4ddd-9ee9-ccf9965e0d04","slug":"xai_grok-4-1-fast-reasoning","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"23149f9b-c904-43e2-9ec4-afa2bf843941","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-4-1-fast-reasoning","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 4.1 Fast (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.64,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/grok-4-1-fast-reasoning","hosts_url":"/models/grok-4-1-fast-reasoning/providers","name_and_creator_label":"Grok 4.1 Fast, xAI"},{"additional_text":null,"aime":0.253,"aime25":0.26,"agentic_index":11.21,"coding_index":16.06,"commercial_allowed":true,"computed_performance_host_model_id":"3909c98f-92ea-4f5c-8514-80e3ddd59afa","context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"deepseek-v3-1","display_order":1385,"estimated_intelligence_index":17.06978519415099,"model_family_slug":"deepseek-v3","frontier_model":false,"gdpval":601.5105549188286,"gpqa":0.557,"hle":0.036,"humaneval":0.906,"id":"43fc5506-c5ed-4dee-9b85-962bf7ae3986","ifbench":0.348,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":null,"input_modality_text":null,"input_modality_video":null,"intelligence_index":16.91,"intelligence_index_token_counts":{"input_tokens":63351927,"answer_tokens":2602182,"output_tokens":2602182,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.591,"lab_claimed_hle":null,"lab_claimed_humaneval":0.652,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.29,"license_name":"DEEPSEEK LICENSE AGREEMENT","license_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3/blob/main/LICENSE-MODEL","livecodebench":0.359,"math_500":0.887,"math_index":26,"mmlu_pro":0.752,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3","multilingual_aa":{"mgsm":{"bn":0.9,"de":0.924,"en":0.972,"es":0.96,"fr":0.884,"ja":0.9,"sw":0.892,"zh":0.92},"mmlu":{"bn":0.761501210653753,"de":0.8247400655177325,"en":0.8699971514029341,"es":0.8415467882068082,"fr":0.8358495940749181,"ja":0.8104970801880074,"sw":0.7046004842615012,"zh":0.8196838057256801},"average":0.8637760112519584,"average_mgsm":0.9189999999999999,"average_mmlu":0.8085520225039169,"global_mmlu_lite":{"bn":null,"de":null,"en":null,"es":null,"fr":null,"ja":null,"sw":null,"zh":null},"average_per_language":{"bn":0.8307506053268765,"de":0.8743700327588663,"en":0.920998575701467,"es":0.9007733941034041,"fr":0.859924797037459,"ja":0.8552485400940038,"sw":0.7983002421307506,"zh":0.8698419028628401},"average_global_mmlu_lite":null},"name":"DeepSeek V3 (Dec '24)","is_open_weights":true,"omniscience":-43.633,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.162,"num_correct":162,"omniscience":-53,"attempt_rate":0.875,"num_incorrect":692,"total_questions":1000,"num_not_attempted":125,"hallucination_rate":0.8257756563245824,"num_partial_answer":21}},"total":{"accuracy":0.24066666666666667,"num_correct":1444,"omniscience":-43.63333333333333,"attempt_rate":0.9468333333333333,"num_incorrect":4062,"total_questions":6000,"num_not_attempted":319,"hallucination_rate":0.8915715539947322,"num_partial_answer":175},"Health":{"total":{"accuracy":0.244,"num_correct":244,"omniscience":-43.9,"attempt_rate":0.982,"num_incorrect":683,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.9034391534391535,"num_partial_answer":55}},"Business":{"total":{"accuracy":0.206,"num_correct":206,"omniscience":-46.7,"attempt_rate":0.896,"num_incorrect":673,"total_questions":1000,"num_not_attempted":104,"hallucination_rate":0.8476070528967254,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.42,"num_correct":42,"omniscience":-14,"attempt_rate":0.99,"num_incorrect":56,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9655172413793104,"num_partial_answer":1}},"R":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-40,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9444444444444444,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9166666666666666,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-34,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9705882352941176,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-42,"attempt_rate":1,"num_incorrect":70,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9722222222222222,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-2,"attempt_rate":0.98,"num_incorrect":23,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8214285714285714,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":1,"num_incorrect":20,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9523809523809523,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-12,"attempt_rate":1,"num_incorrect":13,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8666666666666667,"num_partial_answer":2}},"total":{"accuracy":0.314,"num_correct":314,"omniscience":-33.4,"attempt_rate":0.99,"num_incorrect":648,"total_questions":1000,"num_not_attempted":10,"hallucination_rate":0.9446064139941691,"num_partial_answer":28},"Kotlin":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-24,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9375,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.285,"num_correct":57,"omniscience":-38.5,"attempt_rate":0.975,"num_incorrect":134,"total_questions":200,"num_not_attempted":5,"hallucination_rate":0.9370629370629371,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.33636363636363636,"num_correct":37,"omniscience":-30.90909090909091,"attempt_rate":0.990909090909091,"num_incorrect":71,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9726027397260274,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.3111111111111111,"num_correct":28,"omniscience":-34.44444444444444,"attempt_rate":1,"num_incorrect":59,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9516129032258065,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.267,"num_correct":267,"omniscience":-40.8,"attempt_rate":0.96,"num_incorrect":675,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.9208731241473397,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.251,"num_correct":251,"omniscience":-44,"attempt_rate":0.978,"num_incorrect":691,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.9225634178905207,"num_partial_answer":36}}},"output_modality_image":null,"output_modality_speech":null,"output_modality_text":null,"output_modality_video":null,"output_tokens":null,"parameters":671,"reasoning_model":false,"reasoning_properties":null,"release_date":"2024-12-26","representative_query_token_counts":null,"scicode":0.354,"short_name":"DeepSeek V3 (Dec)","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3","tau2":0.228,"terminalbench_hard":0.064,"tokenizer_id":"deepseek_v3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"0011215f-e15a-4574-8108-ad0772243350","slug":"togetherai_deepseek-v3_fp8","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"43fc5506-c5ed-4dee-9b85-962bf7ae3986","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_DeepSeek V3 (Dec '24)_","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":1.25,"price_1m_blended_3_to_1":1.25,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.8,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f60dfe31-8c13-43c5-b34b-3a582c83b58b","slug":"novita_deepseek-v3","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"43fc5506-c5ed-4dee-9b85-962bf7ae3986","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek_v3","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.89,"price_1m_output_tokens":0.89,"price_1m_blended_3_to_1":0.89,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":64000,"price_m_tokens_blended_3_to_1_per_dollar":1.12,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4e7e4f66-b7e2-47dd-8193-45705464e528","slug":"novita_deepseek-v3_turbo","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"43fc5506-c5ed-4dee-9b85-962bf7ae3986","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3-turbo","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3 (Dec '24)_Turbo","cache_pricing_notes":null,"model_name_appendage":"Turbo","price_1m_input_tokens":0.4,"price_1m_output_tokens":1.3,"price_1m_blended_3_to_1":0.625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":64000,"price_m_tokens_blended_3_to_1_per_dollar":1.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4756d0dc-43ca-4486-98ee-a8809c6830bb","slug":"hyperbolic_deepseek-v3_fp8","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"43fc5506-c5ed-4dee-9b85-962bf7ae3986","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_DeepSeek V3 (Dec '24)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.25,"price_1m_output_tokens":0.25,"price_1m_blended_3_to_1":0.25,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":4,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b626e227-e630-4038-bc34-a6bf1d62c31b","slug":"deepinfra_deepseek-v3","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"43fc5506-c5ed-4dee-9b85-962bf7ae3986","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_DeepSeek V3 (Dec '24)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.32,"price_1m_output_tokens":0.89,"price_1m_blended_3_to_1":0.4625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.16,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3","hosts_url":"/models/deepseek-v3/providers","name_and_creator_label":"DeepSeek V3 (Dec), DeepSeek"},{"additional_text":"This model is an updated version of DeepSeek V3 and was launched on 24 March 2025 as DeepSeek-V3-0324. It is architecturally identical to the original December 2024 version of DeepSeek V3.","aime":0.52,"aime25":0.41,"agentic_index":19.56,"coding_index":21.38,"commercial_allowed":true,"computed_performance_host_model_id":"dd57486a-525f-435d-9cdb-0ca375ea7dba","context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"deepseek-v3-1","display_order":1408,"estimated_intelligence_index":21.58146734043695,"model_family_slug":"deepseek-v3","frontier_model":false,"gdpval":605.6602167027506,"gpqa":0.655,"hle":0.052,"humaneval":0.922,"id":"75e1c197-f239-4361-a9d6-66dccfead236","ifbench":0.41,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":22.48,"intelligence_index_token_counts":{"input_tokens":47030050,"answer_tokens":3891339,"output_tokens":3891339,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":68.4,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.41,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.405,"math_500":0.942,"math_index":41,"mmlu_pro":0.819,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3-0324","multilingual_aa":null,"name":"DeepSeek V3 0324","is_open_weights":true,"omniscience":-42.283,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.161,"num_correct":161,"omniscience":-44.4,"attempt_rate":0.78,"num_incorrect":605,"total_questions":1000,"num_not_attempted":220,"hallucination_rate":0.7210965435041716,"num_partial_answer":14}},"total":{"accuracy":0.23166666666666666,"num_correct":1390,"omniscience":-42.28333333333333,"attempt_rate":0.9126666666666666,"num_incorrect":3927,"total_questions":6000,"num_not_attempted":524,"hallucination_rate":0.8518438177874187,"num_partial_answer":159},"Health":{"total":{"accuracy":0.209,"num_correct":209,"omniscience":-50.8,"attempt_rate":0.983,"num_incorrect":717,"total_questions":1000,"num_not_attempted":17,"hallucination_rate":0.9064475347661188,"num_partial_answer":57}},"Business":{"total":{"accuracy":0.199,"num_correct":199,"omniscience":-43.7,"attempt_rate":0.849,"num_incorrect":636,"total_questions":1000,"num_not_attempted":151,"hallucination_rate":0.7940074906367042,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.4,"num_correct":40,"omniscience":-18,"attempt_rate":0.98,"num_incorrect":58,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9666666666666667,"num_partial_answer":0}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-40,"attempt_rate":0.84,"num_incorrect":31,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7948717948717948,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-30,"attempt_rate":0.92,"num_incorrect":30,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8571428571428571,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-46,"attempt_rate":0.92,"num_incorrect":34,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8717948717948718,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-56,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9024390243902439,"num_partial_answer":4}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-24,"attempt_rate":0.98,"num_incorrect":29,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8787878787878788,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.23,"num_correct":23,"omniscience":-47,"attempt_rate":0.96,"num_incorrect":70,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9090909090909091,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-10,"attempt_rate":0.96,"num_incorrect":25,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8333333333333334,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9444444444444444,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-20,"attempt_rate":0.96,"num_incorrect":13,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.7647058823529411,"num_partial_answer":3}},"total":{"accuracy":0.306,"num_correct":306,"omniscience":-31.4,"attempt_rate":0.953,"num_incorrect":620,"total_questions":1000,"num_not_attempted":47,"hallucination_rate":0.8933717579250721,"num_partial_answer":27},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-28,"attempt_rate":0.92,"num_incorrect":29,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8285714285714286,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.315,"num_correct":63,"omniscience":-28.5,"attempt_rate":0.925,"num_incorrect":120,"total_questions":200,"num_not_attempted":15,"hallucination_rate":0.8759124087591241,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.36363636363636365,"num_correct":40,"omniscience":-24.545454545454547,"attempt_rate":0.9818181818181818,"num_incorrect":67,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9571428571428572,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.3,"num_correct":27,"omniscience":-36.666666666666664,"attempt_rate":1,"num_incorrect":60,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9523809523809523,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.26,"num_correct":260,"omniscience":-40.6,"attempt_rate":0.943,"num_incorrect":666,"total_questions":1000,"num_not_attempted":57,"hallucination_rate":0.9,"num_partial_answer":17}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.255,"num_correct":255,"omniscience":-42.8,"attempt_rate":0.968,"num_incorrect":683,"total_questions":1000,"num_not_attempted":32,"hallucination_rate":0.9167785234899329,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":671,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-03-25","representative_query_token_counts":null,"scicode":0.358,"short_name":"DeepSeek V3 0324","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-0324","tau2":0.471,"terminalbench_hard":0.142,"tokenizer_id":"deepseek_v3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"62d4ce37-b2b2-4714-a09b-b6c10e9c39c7","slug":"nebius_deepseek-v3-0324_fast","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":{"max":0.692,"min":0.601,"median":0.659,"quartile_25":0.636,"quartile_75":0.672},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3-0324-fast","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_DeepSeek V3 0324_Fast","cache_pricing_notes":null,"model_name_appendage":"Fast","price_1m_input_tokens":2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"80ba5cee-b1e1-4b47-9fe6-7d1263621567","slug":"azure_deepseek-v3-0324","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":{"max":0.712,"min":0.606,"median":0.652,"quartile_25":0.641,"quartile_75":0.677},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-V3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_DeepSeek V3 0324 (Mar '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.14,"price_1m_output_tokens":4.56,"price_1m_blended_3_to_1":1.995,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e636cc04-b58c-4a4d-9803-3e440c35ca4d","slug":"hyperbolic_deepseek-v3-0324","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":{"max":0.692,"min":0.601,"median":0.639,"quartile_25":0.621,"quartile_75":0.667},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_DeepSeek V3 0324 (Mar '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":1.25,"price_1m_blended_3_to_1":1.25,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.8,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8083ba97-e9a5-4370-8d7b-d873b0a53226","slug":"nebius_deepseek-v3-0324","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":{"max":0.692,"min":0.621,"median":0.657,"quartile_25":0.639,"quartile_75":0.663},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_DeepSeek V3 0324 (Mar '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"31badd72-e8e1-4f60-99c2-d5017d69a4d9","slug":"sambanova_deepseek-v3-0324","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":{"max":0.717,"min":0.606,"median":0.649,"quartile_25":0.639,"quartile_75":0.674},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-V3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek V3 0324","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":4.5,"price_1m_blended_3_to_1":3.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.3,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d08f827f-4453-46d0-baaf-0e9bf2a6432b","slug":"togetherai_deepseek-v3-0324","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":{"max":0.702,"min":0.636,"median":0.657,"quartile_25":0.64,"quartile_75":0.662},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_DeepSeek V3 0324 (Mar '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":1.25,"price_1m_blended_3_to_1":1.25,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.8,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"62dbfb42-c795-40c1-9b31-8dd122cf6517","slug":"replicate_deepseek-v3-0324","deleted":false,"host_id":"259c5876-0842-4ff0-9bf5-75e8433ab14a","gpqa_16x":{"max":0.586,"min":0.51,"median":0.556,"quartile_25":0.534,"quartile_75":0.566},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-v3","function_calling":false,"cache_write_price":null,"host_model_string":"Replicate_DeepSeek V3 0324","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.45,"price_1m_output_tokens":1.45,"price_1m_blended_3_to_1":1.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.69,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"891f0c26-2aea-4700-9621-8a76e7e3f6bd","slug":"fireworks_deepseek-v3-0324","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":{"max":0.692,"min":0.596,"median":0.634,"quartile_25":0.616,"quartile_75":0.652},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/deepseek-v3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_DeepSeek V3 0324 (Mar '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.9,"price_1m_output_tokens":0.9,"price_1m_blended_3_to_1":0.9,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.11,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4c2cfa4d-bd03-494e-ba80-c3e92761149b","slug":"gmi_deepseek-v3-0324","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_DeepSeek V3 0324","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":0.35,"price_1m_blended_3_to_1":0.17,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":5.88,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"45dfe3c4-51e5-465d-b527-9eed75899a8a","slug":"novita_deepseek-v3-0324","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":{"max":0.667,"min":0.616,"median":0.639,"quartile_25":0.626,"quartile_75":0.652},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3 0324","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.27,"price_1m_output_tokens":1.12,"price_1m_blended_3_to_1":0.4825,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.07,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"84344d90-0cab-401c-b2db-cada32b3c191","slug":"deepinfra_deepseek-v3-0324","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":{"max":0.707,"min":0.611,"median":0.644,"quartile_25":0.635,"quartile_75":0.658},"model_id":"75e1c197-f239-4361-a9d6-66dccfead236","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3-0324","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_DeepSeek V3 0324","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.37,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.7,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-0324","hosts_url":"/models/deepseek-v3-0324/providers","name_and_creator_label":"DeepSeek V3 0324, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.59,"agentic_index":40.38,"coding_index":33.22,"commercial_allowed":true,"computed_performance_host_model_id":"5ecb5620-f1f0-41a9-915c-0cdafcf1c48a","context_window_tokens":128000,"critpt":0.009,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":352,"estimated_intelligence_index":28.92366021996763,"model_family_slug":"deepseek-v3","frontier_model":false,"gdpval":920.428585330221,"gpqa":0.751,"hle":0.105,"humaneval":null,"id":"6d9a176d-feb8-4dac-8872-afe32b31897f","ifbench":0.49,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":31.85,"intelligence_index_token_counts":{"input_tokens":345978568,"answer_tokens":14893517,"output_tokens":14893517,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.39,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.593,"math_500":null,"math_index":59,"mmlu_pro":0.837,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.2","multilingual_aa":{"ar":{"score":0.8416666666666667,"input_tokens":188556,"answer_tokens":169357,"output_tokens":169357,"reasoning_tokens":0,"total_input_tokens_api":213291,"total_answer_tokens_api":192098,"total_reasoning_tokens_api":0},"bn":{"score":0.8033333333333333,"input_tokens":225534,"answer_tokens":204675,"output_tokens":204675,"reasoning_tokens":0,"total_input_tokens_api":257652,"total_answer_tokens_api":233957,"total_reasoning_tokens_api":0},"de":{"score":0.8825,"input_tokens":191646,"answer_tokens":157482,"output_tokens":157482,"reasoning_tokens":0,"total_input_tokens_api":213600,"total_answer_tokens_api":175964,"total_reasoning_tokens_api":0},"en":{"score":0.9108333333333333,"input_tokens":159654,"answer_tokens":130375,"output_tokens":130375,"reasoning_tokens":0,"total_input_tokens_api":160503,"total_answer_tokens_api":129045,"total_reasoning_tokens_api":0},"es":{"score":0.8808333333333334,"input_tokens":182088,"answer_tokens":169433,"output_tokens":169433,"reasoning_tokens":0,"total_input_tokens_api":199287,"total_answer_tokens_api":181523,"total_reasoning_tokens_api":0},"fr":{"score":0.8783333333333333,"input_tokens":191346,"answer_tokens":162528,"output_tokens":162528,"reasoning_tokens":0,"total_input_tokens_api":210339,"total_answer_tokens_api":176242,"total_reasoning_tokens_api":0},"hi":{"score":0.8241666666666667,"input_tokens":209430,"answer_tokens":167599,"output_tokens":167599,"reasoning_tokens":0,"total_input_tokens_api":328056,"total_answer_tokens_api":266070,"total_reasoning_tokens_api":0},"id":{"score":0.8566666666666666,"input_tokens":181314,"answer_tokens":162383,"output_tokens":162383,"reasoning_tokens":0,"total_input_tokens_api":191544,"total_answer_tokens_api":171236,"total_reasoning_tokens_api":0},"it":{"score":0.8858333333333334,"input_tokens":199032,"answer_tokens":187738,"output_tokens":187738,"reasoning_tokens":0,"total_input_tokens_api":208071,"total_answer_tokens_api":193456,"total_reasoning_tokens_api":0},"ja":{"score":0.8325,"input_tokens":228129,"answer_tokens":204452,"output_tokens":204452,"reasoning_tokens":0,"total_input_tokens_api":203637,"total_answer_tokens_api":176342,"total_reasoning_tokens_api":0},"ko":{"score":0.8433333333333334,"input_tokens":199401,"answer_tokens":168754,"output_tokens":168754,"reasoning_tokens":0,"total_input_tokens_api":216120,"total_answer_tokens_api":182975,"total_reasoning_tokens_api":0},"my":{"score":0.7291666666666666,"input_tokens":353547,"answer_tokens":283286,"output_tokens":283286,"reasoning_tokens":0,"total_input_tokens_api":555792,"total_answer_tokens_api":445437,"total_reasoning_tokens_api":0},"pt":{"score":0.8799999999999999,"input_tokens":178176,"answer_tokens":162670,"output_tokens":162670,"reasoning_tokens":0,"total_input_tokens_api":198012,"total_answer_tokens_api":180034,"total_reasoning_tokens_api":0},"sw":{"score":0.73,"input_tokens":208677,"answer_tokens":184561,"output_tokens":184561,"reasoning_tokens":0,"total_input_tokens_api":253089,"total_answer_tokens_api":226318,"total_reasoning_tokens_api":0},"yo":{"score":0.5975,"input_tokens":307062,"answer_tokens":235618,"output_tokens":235618,"reasoning_tokens":0,"total_input_tokens_api":388761,"total_answer_tokens_api":254178,"total_reasoning_tokens_api":0},"zh":{"score":0.8516666666666667,"input_tokens":179793,"answer_tokens":176062,"output_tokens":176062,"reasoning_tokens":0,"total_input_tokens_api":154524,"total_answer_tokens_api":143549,"total_reasoning_tokens_api":0},"average":{"score":0.8267708333333332,"input_tokens":3383385,"answer_tokens":2926973,"output_tokens":2926973,"reasoning_tokens":0,"total_input_tokens_api":3952278,"total_answer_tokens_api":3328424,"total_reasoning_tokens_api":0}},"name":"DeepSeek V3.2 (Non-reasoning)","is_open_weights":true,"omniscience":-48.683,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-58.2,"attempt_rate":0.913,"num_incorrect":741,"total_questions":1000,"num_not_attempted":87,"hallucination_rate":0.8810939357907254,"num_partial_answer":13}},"total":{"accuracy":0.22766666666666666,"num_correct":1366,"omniscience":-48.68333333333333,"attempt_rate":0.962,"num_incorrect":4287,"total_questions":6000,"num_not_attempted":228,"hallucination_rate":0.9251186879585671,"num_partial_answer":119},"Health":{"total":{"accuracy":0.206,"num_correct":206,"omniscience":-54.5,"attempt_rate":0.985,"num_incorrect":751,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9458438287153652,"num_partial_answer":28}},"Business":{"total":{"accuracy":0.193,"num_correct":193,"omniscience":-54.1,"attempt_rate":0.946,"num_incorrect":734,"total_questions":1000,"num_not_attempted":54,"hallucination_rate":0.909541511771995,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.52,"num_correct":52,"omniscience":7,"attempt_rate":0.99,"num_incorrect":45,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9375,"num_partial_answer":2}},"R":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":37,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9736842105263158,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-36,"attempt_rate":0.98,"num_incorrect":33,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9428571428571428,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9459459459459459,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8947368421052632,"num_partial_answer":4}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.98,"num_incorrect":33,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9166666666666666,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-52,"attempt_rate":0.99,"num_incorrect":74,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9487179487179487,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":0.98,"num_incorrect":21,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.84,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":1,"num_incorrect":14,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.875,"num_partial_answer":2}},"total":{"accuracy":0.314,"num_correct":314,"omniscience":-33.1,"attempt_rate":0.985,"num_incorrect":645,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9402332361516035,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9090909090909091,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.285,"num_correct":57,"omniscience":-41,"attempt_rate":0.98,"num_incorrect":139,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.972027972027972,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-30,"attempt_rate":0.990909090909091,"num_incorrect":69,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9324324324324325,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.28888888888888886,"num_correct":26,"omniscience":-37.77777777777778,"attempt_rate":0.9777777777777777,"num_incorrect":60,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9375,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.249,"num_correct":249,"omniscience":-45.4,"attempt_rate":0.963,"num_incorrect":703,"total_questions":1000,"num_not_attempted":37,"hallucination_rate":0.9360852197070573,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.245,"num_correct":245,"omniscience":-46.8,"attempt_rate":0.98,"num_incorrect":713,"total_questions":1000,"num_not_attempted":20,"hallucination_rate":0.9443708609271523,"num_partial_answer":22}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":8000,"parameters":685,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-01","representative_query_token_counts":null,"scicode":0.387,"short_name":"DeepSeek V3.2","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-2","tau2":0.789,"terminalbench_hard":0.305,"tokenizer_id":"deepseek_v3_2_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"1b0bc85a-3a69-4b13-8d50-71beae01d285","slug":"siliconflow_deepseek-v3-2_fp8","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-v3.2","function_calling":true,"cache_write_price":null,"host_model_string":"SiliconFlow_DeepSeek V3.2 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.27,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.3075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163800,"price_m_tokens_blended_3_to_1_per_dollar":3.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5ecb5620-f1f0-41a9-915c-0cdafcf1c48a","slug":"deepseek_deepseek-v3-2-0112","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-chat","function_calling":true,"cache_write_price":null,"host_model_string":"DeepSeek_DeepSeek V3.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.28,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.315,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d674c726-d761-43c4-b44a-26024fca127b","slug":"google_deepseek-v3-2_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-v3.2-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_DeepSeek V3.2 (Non-reasoning)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.56,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.84,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.19,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c8ab5d4f-f1e2-49b8-9c99-dc36a0a8a2dc","slug":"baseten_deepseek-v3-2","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_DeepSeek V3.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.45,"price_1m_blended_3_to_1":0.3375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.96,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"bfc567df-b8a5-40cb-bbe0-102a0aee7d31","slug":"fireworks_deepseek-v3-2","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/deepseek-v3p2","function_calling":null,"cache_write_price":null,"host_model_string":"Fireworks_DeepSeek V3.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.56,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.84,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.19,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e588883e-d8b7-4339-9ef2-8387de051118","slug":"novita_deepseek-v3-2","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.2","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.28,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.315,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":3.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f7ad59a2-916b-41dd-af35-205071a48d8d","slug":"gmi_deepseek-v3-2-2","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2","function_calling":null,"cache_write_price":null,"host_model_string":"GMI_DeepSeek V3.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":0.16,"price_1m_blended_3_to_1":0.1225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":8.16,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7ed0936d-7007-4c85-ad52-5b84eba0c9e7","slug":"deepinfra_deepseek-v3-2-2","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"6d9a176d-feb8-4dac-8872-afe32b31897f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_DeepSeek V3.2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.26,"price_1m_output_tokens":0.39,"price_1m_blended_3_to_1":0.2925,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":3.42,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-2","hosts_url":"/models/deepseek-v3-2/providers","name_and_creator_label":"DeepSeek V3.2, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.92,"agentic_index":52.79,"coding_index":35.19,"commercial_allowed":true,"computed_performance_host_model_id":"8100b5d1-68fa-4683-9d42-df412d5c4b23","context_window_tokens":128000,"critpt":0.029,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":360,"estimated_intelligence_index":41.42978028964561,"model_family_slug":"deepseek-v3","frontier_model":false,"gdpval":1176.330896546377,"gpqa":0.84,"hle":0.222,"humaneval":null,"id":"d621247c-d47e-458c-82cb-a166bc3b37e5","ifbench":0.607,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":41.2,"intelligence_index_token_counts":{"input_tokens":160120975,"answer_tokens":4172762,"output_tokens":61435588,"reasoning_tokens":57262826},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.65,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.862,"math_500":null,"math_index":92,"mmlu_pro":0.862,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.2","multilingual_aa":{"ar":{"score":0.8516666666666667,"input_tokens":188556,"answer_tokens":80297,"output_tokens":631293,"reasoning_tokens":550996,"total_input_tokens_api":213291,"total_answer_tokens_api":91389,"total_reasoning_tokens_api":593403},"bn":{"score":0.8525,"input_tokens":225534,"answer_tokens":79994,"output_tokens":812560,"reasoning_tokens":732566,"total_input_tokens_api":257652,"total_answer_tokens_api":88762,"total_reasoning_tokens_api":769891},"de":{"score":0.9075000000000001,"input_tokens":191646,"answer_tokens":81136,"output_tokens":624781,"reasoning_tokens":543645,"total_input_tokens_api":213600,"total_answer_tokens_api":93997,"total_reasoning_tokens_api":616564},"en":{"score":0.9274999999999999,"input_tokens":159654,"answer_tokens":62359,"output_tokens":719638,"reasoning_tokens":657279,"total_input_tokens_api":160503,"total_answer_tokens_api":62853,"total_reasoning_tokens_api":658068},"es":{"score":0.91,"input_tokens":182088,"answer_tokens":65792,"output_tokens":833730,"reasoning_tokens":767938,"total_input_tokens_api":199287,"total_answer_tokens_api":69267,"total_reasoning_tokens_api":784703},"fr":{"score":0.8916666666666666,"input_tokens":188374,"answer_tokens":71063,"output_tokens":715003,"reasoning_tokens":643940,"total_input_tokens_api":206955,"total_answer_tokens_api":77852,"total_reasoning_tokens_api":670878},"hi":{"score":0.8574999999999999,"input_tokens":209430,"answer_tokens":72681,"output_tokens":701909,"reasoning_tokens":629228,"total_input_tokens_api":328056,"total_answer_tokens_api":106121,"total_reasoning_tokens_api":736655},"id":{"score":0.8941666666666667,"input_tokens":181314,"answer_tokens":73937,"output_tokens":644575,"reasoning_tokens":570638,"total_input_tokens_api":191544,"total_answer_tokens_api":79320,"total_reasoning_tokens_api":600212},"it":{"score":0.9066666666666666,"input_tokens":199032,"answer_tokens":72013,"output_tokens":922863,"reasoning_tokens":850850,"total_input_tokens_api":208071,"total_answer_tokens_api":74821,"total_reasoning_tokens_api":860536},"ja":{"score":0.8766666666666666,"input_tokens":228129,"answer_tokens":100785,"output_tokens":1008288,"reasoning_tokens":907503,"total_input_tokens_api":203637,"total_answer_tokens_api":87855,"total_reasoning_tokens_api":823320},"ko":{"score":0.875,"input_tokens":199401,"answer_tokens":82353,"output_tokens":847801,"reasoning_tokens":765448,"total_input_tokens_api":216120,"total_answer_tokens_api":89365,"total_reasoning_tokens_api":804630},"my":{"score":0.8041666666666667,"input_tokens":353547,"answer_tokens":124381,"output_tokens":1125436,"reasoning_tokens":1001055,"total_input_tokens_api":555792,"total_answer_tokens_api":184920,"total_reasoning_tokens_api":1273700},"pt":{"score":0.8975,"input_tokens":178176,"answer_tokens":70611,"output_tokens":682357,"reasoning_tokens":611746,"total_input_tokens_api":198012,"total_answer_tokens_api":76641,"total_reasoning_tokens_api":633355},"sw":{"score":0.8141666666666666,"input_tokens":208677,"answer_tokens":81362,"output_tokens":662066,"reasoning_tokens":580704,"total_input_tokens_api":253089,"total_answer_tokens_api":96566,"total_reasoning_tokens_api":608203},"yo":{"score":0.6741666666666667,"input_tokens":307062,"answer_tokens":66785,"output_tokens":1276617,"reasoning_tokens":1209832,"total_input_tokens_api":388761,"total_answer_tokens_api":69984,"total_reasoning_tokens_api":1279123},"zh":{"score":0.9058333333333334,"input_tokens":179793,"answer_tokens":87032,"output_tokens":996226,"reasoning_tokens":909194,"total_input_tokens_api":154524,"total_answer_tokens_api":71049,"total_reasoning_tokens_api":790738},"average":{"score":0.8654166666666667,"input_tokens":3380413,"answer_tokens":1272581,"output_tokens":13205143,"reasoning_tokens":11932562,"total_input_tokens_api":3948894,"total_answer_tokens_api":1420762,"total_reasoning_tokens_api":12503979}},"name":"DeepSeek V3.2 (Reasoning)","is_open_weights":true,"omniscience":-23.317,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.22,"num_correct":220,"omniscience":-36.7,"attempt_rate":0.824,"num_incorrect":587,"total_questions":1000,"num_not_attempted":176,"hallucination_rate":0.7525641025641026,"num_partial_answer":17}},"total":{"accuracy":0.32216666666666666,"num_correct":1933,"omniscience":-23.316666666666666,"attempt_rate":0.8978333333333334,"num_incorrect":3332,"total_questions":6000,"num_not_attempted":613,"hallucination_rate":0.8192771084337349,"num_partial_answer":122},"Health":{"total":{"accuracy":0.316,"num_correct":316,"omniscience":-28.2,"attempt_rate":0.941,"num_incorrect":598,"total_questions":1000,"num_not_attempted":59,"hallucination_rate":0.8742690058479532,"num_partial_answer":27}},"Business":{"total":{"accuracy":0.26,"num_correct":260,"omniscience":-30.5,"attempt_rate":0.844,"num_incorrect":565,"total_questions":1000,"num_not_attempted":156,"hallucination_rate":0.7635135135135135,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.63,"num_correct":63,"omniscience":28,"attempt_rate":1,"num_incorrect":35,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"R":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-30,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9696969696969697,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-10,"attempt_rate":0.98,"num_incorrect":27,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9642857142857143,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-2,"attempt_rate":0.92,"num_incorrect":23,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8214285714285714,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-32,"attempt_rate":0.92,"num_incorrect":30,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8333333333333334,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":0.96,"num_incorrect":21,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.84,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.3,"num_correct":30,"omniscience":-36,"attempt_rate":0.96,"num_incorrect":66,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9428571428571428,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.64,"num_correct":32,"omniscience":38,"attempt_rate":0.94,"num_incorrect":13,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7222222222222222,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-68,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9090909090909091,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.56,"num_correct":14,"omniscience":16,"attempt_rate":0.96,"num_incorrect":10,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9090909090909091,"num_partial_answer":0}},"total":{"accuracy":0.431,"num_correct":431,"omniscience":-7.9,"attempt_rate":0.959,"num_incorrect":510,"total_questions":1000,"num_not_attempted":41,"hallucination_rate":0.8963093145869947,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":29,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8787878787878788,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.395,"num_correct":79,"omniscience":-14,"attempt_rate":0.945,"num_incorrect":107,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.8842975206611571,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.43636363636363634,"num_correct":48,"omniscience":-8.181818181818182,"attempt_rate":0.9636363636363636,"num_incorrect":57,"total_questions":110,"num_not_attempted":4,"hallucination_rate":0.9193548387096774,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.5,"num_correct":45,"omniscience":5.555555555555555,"attempt_rate":0.9666666666666667,"num_incorrect":40,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.8888888888888888,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.326,"num_correct":326,"omniscience":-22.1,"attempt_rate":0.885,"num_incorrect":547,"total_questions":1000,"num_not_attempted":115,"hallucination_rate":0.8115727002967359,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.38,"num_correct":380,"omniscience":-14.5,"attempt_rate":0.934,"num_incorrect":525,"total_questions":1000,"num_not_attempted":66,"hallucination_rate":0.8467741935483871,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":685,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","pass_back_reasoning":"after_last_msg"},"release_date":"2025-12-01","representative_query_token_counts":null,"scicode":0.389,"short_name":"DeepSeek V3.2","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-2-reasoning","tau2":0.906,"terminalbench_hard":0.333,"tokenizer_id":"deepseek_v3_2_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"69f6244b-cdd7-4acb-bcc5-8148594e38ab","slug":"siliconflow_deepseek-v3-2-reasoning_fp8","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"d621247c-d47e-458c-82cb-a166bc3b37e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-v3.2","function_calling":true,"cache_write_price":null,"host_model_string":"SiliconFlow_DeepSeek V3.2 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.27,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.3075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163800,"price_m_tokens_blended_3_to_1_per_dollar":3.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8100b5d1-68fa-4683-9d42-df412d5c4b23","slug":"deepseek_deepseek-v3-2-0112-reasoning","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","gpqa_16x":null,"model_id":"d621247c-d47e-458c-82cb-a166bc3b37e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-reasoner","function_calling":true,"cache_write_price":null,"host_model_string":"DeepSeek_DeepSeek V3.2 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.28,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.315,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d770dadd-66f4-4a88-8e22-575c7c60a088","slug":"baseten_deepseek-v3-2-reasoning","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"d621247c-d47e-458c-82cb-a166bc3b37e5","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2","function_calling":null,"cache_write_price":null,"host_model_string":"Baseten_DeepSeek V3.2 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.45,"price_1m_blended_3_to_1":0.3375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.96,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"67569d39-f4cb-4064-a297-278ef1e3d2f1","slug":"google_deepseek-v3-2-reasoning_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"d621247c-d47e-458c-82cb-a166bc3b37e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-v3.2-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_DeepSeek V3.2 (Reasoning)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.56,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.84,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.19,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"df125f0f-8393-41dd-884d-4f9cf2ae7b63","slug":"novita_deepseek-v3-2-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"d621247c-d47e-458c-82cb-a166bc3b37e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.2","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.2 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.269,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.30175,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":3.31,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ef00d807-7eb0-4cba-8136-1195fcd7b953","slug":"parasail_deepseek-v3-2-reasoning_fp8","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"d621247c-d47e-458c-82cb-a166bc3b37e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_DeepSeek V3.2 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.28,"price_1m_output_tokens":0.45,"price_1m_blended_3_to_1":0.3225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":3.1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e005cf42-7810-4210-aaf6-0c0dca46388e","slug":"fireworks_deepseek-v3-2-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"d621247c-d47e-458c-82cb-a166bc3b37e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/deepseek-v3p2","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_DeepSeek V3.2 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.56,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.84,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.19,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-2-reasoning","hosts_url":"/models/deepseek-v3-2-reasoning/providers","name_and_creator_label":"DeepSeek V3.2, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.577,"agentic_index":30.97,"coding_index":28.91,"commercial_allowed":true,"computed_performance_host_model_id":"0d9d2b79-310f-419d-a9f1-3af154844f76","context_window_tokens":128000,"critpt":0.014,"deleted":false,"deprecated":true,"deprecated_to":"deepseek-v3-2","display_order":1405,"estimated_intelligence_index":24.599963345201186,"model_family_slug":"deepseek-v3","frontier_model":false,"gdpval":1093.192067811527,"gpqa":0.738,"hle":0.086,"humaneval":null,"id":"07c35e00-2b12-44c8-91cc-408629cd569e","ifbench":0.431,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":28.05,"intelligence_index_token_counts":{"input_tokens":155164608,"answer_tokens":9816954,"output_tokens":9816954,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.43,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.554,"math_500":null,"math_index":57.67,"mmlu_pro":0.836,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp","multilingual_aa":null,"name":"DeepSeek V3.2 Exp (Non-reasoning)","is_open_weights":true,"omniscience":-49.117,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.15,"num_correct":150,"omniscience":-56.3,"attempt_rate":0.87,"num_incorrect":713,"total_questions":1000,"num_not_attempted":130,"hallucination_rate":0.8388235294117647,"num_partial_answer":7}},"total":{"accuracy":0.22066666666666668,"num_correct":1324,"omniscience":-49.11666666666667,"attempt_rate":0.9498333333333333,"num_incorrect":4271,"total_questions":6000,"num_not_attempted":301,"hallucination_rate":0.9133875106928999,"num_partial_answer":104},"Health":{"total":{"accuracy":0.205,"num_correct":205,"omniscience":-55.2,"attempt_rate":0.983,"num_incorrect":757,"total_questions":1000,"num_not_attempted":17,"hallucination_rate":0.9522012578616352,"num_partial_answer":21}},"Business":{"total":{"accuracy":0.19,"num_correct":190,"omniscience":-52.6,"attempt_rate":0.924,"num_incorrect":716,"total_questions":1000,"num_not_attempted":76,"hallucination_rate":0.8839506172839506,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.43,"num_correct":43,"omniscience":-11,"attempt_rate":1,"num_incorrect":54,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9473684210526315,"num_partial_answer":3}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-54,"attempt_rate":0.98,"num_incorrect":38,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9743589743589743,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-36,"attempt_rate":0.94,"num_incorrect":32,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8888888888888888,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-30,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9696969696969697,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-56,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.95,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9230769230769231,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-55,"attempt_rate":0.98,"num_incorrect":76,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9620253164556962,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-12,"attempt_rate":0.98,"num_incorrect":27,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9310344827586207,"num_partial_answer":1}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-8,"attempt_rate":1,"num_incorrect":12,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8,"num_partial_answer":3}},"total":{"accuracy":0.286,"num_correct":286,"omniscience":-38.4,"attempt_rate":0.982,"num_incorrect":670,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.938375350140056,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.918918918918919,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.285,"num_correct":57,"omniscience":-38.5,"attempt_rate":0.975,"num_incorrect":134,"total_questions":200,"num_not_attempted":5,"hallucination_rate":0.9370629370629371,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.2909090909090909,"num_correct":32,"omniscience":-34.54545454545455,"attempt_rate":0.9818181818181818,"num_incorrect":70,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.8974358974358975,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-46.666666666666664,"attempt_rate":0.9888888888888889,"num_incorrect":65,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9701492537313433,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.255,"num_correct":255,"omniscience":-43.6,"attempt_rate":0.957,"num_incorrect":691,"total_questions":1000,"num_not_attempted":43,"hallucination_rate":0.9275167785234899,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.238,"num_correct":238,"omniscience":-48.6,"attempt_rate":0.983,"num_incorrect":724,"total_questions":1000,"num_not_attempted":17,"hallucination_rate":0.9501312335958005,"num_partial_answer":21}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":685,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-29","representative_query_token_counts":null,"scicode":0.399,"short_name":"DeepSeek V3.2 Exp","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-2-0925","tau2":0.339,"terminalbench_hard":0.234,"tokenizer_id":"deepseek_v3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"0d9d2b79-310f-419d-a9f1-3af154844f76","slug":"deepseek_deepseek-v3-2","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","gpqa_16x":null,"model_id":"07c35e00-2b12-44c8-91cc-408629cd569e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-chat","function_calling":true,"cache_write_price":0,"host_model_string":"DeepSeek_DeepSeek V3.2 Exp (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.28,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.315,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"cf6fd853-b9d0-487f-ae4b-662d65c271bd","slug":"novita_deepseek-v3-2_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"07c35e00-2b12-44c8-91cc-408629cd569e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.2-exp","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.2 Exp (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.27,"price_1m_output_tokens":0.41,"price_1m_blended_3_to_1":0.305,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":3.28,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0b1eaa25-4556-47b9-813d-66c61cf8951d","slug":"deepinfra_deepseek-v3-2","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"07c35e00-2b12-44c8-91cc-408629cd569e","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2-Exp","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_DeepSeek V3.2 Exp (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.21,"price_1m_output_tokens":0.32,"price_1m_blended_3_to_1":0.2375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":4.21,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-2-0925","hosts_url":"/models/deepseek-v3-2-0925/providers","name_and_creator_label":"DeepSeek V3.2 Exp, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.877,"agentic_index":28.44,"coding_index":31.96,"commercial_allowed":true,"computed_performance_host_model_id":"4cf12142-6a47-40c6-9f01-9cfd17de06ab","context_window_tokens":128000,"critpt":0.014,"deleted":false,"deprecated":true,"deprecated_to":"deepseek-v3-2-reasoning","display_order":1435,"estimated_intelligence_index":32.61280337729715,"model_family_slug":"deepseek-v3","frontier_model":false,"gdpval":1016.9859536521412,"gpqa":0.797,"hle":0.138,"humaneval":null,"id":"af134350-8ba3-4629-b56b-00bd6dcf60c4","ifbench":0.541,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.49,"intelligence_index_token_counts":{"input_tokens":82792191,"answer_tokens":3869148,"output_tokens":48947080,"reasoning_tokens":45077932},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.69,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.789,"math_500":null,"math_index":87.67,"mmlu_pro":0.85,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp","multilingual_aa":{"ar":{"score":0.85,"input_tokens":188556,"answer_tokens":247635,"output_tokens":1043521,"reasoning_tokens":795886,"total_input_tokens_api":213291,"total_answer_tokens_api":1150520,"total_reasoning_tokens_api":0},"bn":{"score":0.8633333333333333,"input_tokens":225534,"answer_tokens":284763,"output_tokens":1225519,"reasoning_tokens":940756,"total_input_tokens_api":257652,"total_answer_tokens_api":1267322,"total_reasoning_tokens_api":0},"de":{"score":0.9108333333333333,"input_tokens":191646,"answer_tokens":305565,"output_tokens":1173669,"reasoning_tokens":868104,"total_input_tokens_api":213600,"total_answer_tokens_api":1267537,"total_reasoning_tokens_api":0},"en":{"score":0.9233333333333333,"input_tokens":159654,"answer_tokens":282751,"output_tokens":1077173,"reasoning_tokens":794422,"total_input_tokens_api":160505,"total_answer_tokens_api":1083352,"total_reasoning_tokens_api":404},"es":{"score":0.9083333333333333,"input_tokens":182088,"answer_tokens":294715,"output_tokens":1182383,"reasoning_tokens":887668,"total_input_tokens_api":199287,"total_answer_tokens_api":1219149,"total_reasoning_tokens_api":0},"fr":{"score":0.9108333333333333,"input_tokens":191346,"answer_tokens":314374,"output_tokens":1234724,"reasoning_tokens":920350,"total_input_tokens_api":210339,"total_answer_tokens_api":1284795,"total_reasoning_tokens_api":0},"hi":{"score":0.8575,"input_tokens":209430,"answer_tokens":282966,"output_tokens":1253740,"reasoning_tokens":970774,"total_input_tokens_api":328060,"total_answer_tokens_api":1409489,"total_reasoning_tokens_api":3692},"id":{"score":0.8958333333333334,"input_tokens":181314,"answer_tokens":318122,"output_tokens":1194895,"reasoning_tokens":876773,"total_input_tokens_api":191544,"total_answer_tokens_api":1230164,"total_reasoning_tokens_api":0},"it":{"score":0.9049999999999999,"input_tokens":199032,"answer_tokens":326439,"output_tokens":1229564,"reasoning_tokens":903125,"total_input_tokens_api":208071,"total_answer_tokens_api":1256915,"total_reasoning_tokens_api":0},"ja":{"score":0.8658333333333333,"input_tokens":228129,"answer_tokens":299334,"output_tokens":1490638,"reasoning_tokens":1191304,"total_input_tokens_api":203637,"total_answer_tokens_api":1290687,"total_reasoning_tokens_api":0},"ko":{"score":0.8658333333333333,"input_tokens":199401,"answer_tokens":249892,"output_tokens":1148087,"reasoning_tokens":898195,"total_input_tokens_api":216120,"total_answer_tokens_api":1236616,"total_reasoning_tokens_api":0},"my":{"score":0.8308333333333332,"input_tokens":353547,"answer_tokens":315899,"output_tokens":1355293,"reasoning_tokens":1039394,"total_input_tokens_api":555792,"total_answer_tokens_api":1538745,"total_reasoning_tokens_api":0},"pt":{"score":0.91,"input_tokens":178176,"answer_tokens":309745,"output_tokens":1208438,"reasoning_tokens":898693,"total_input_tokens_api":198014,"total_answer_tokens_api":1258598,"total_reasoning_tokens_api":0},"sw":{"score":0.84,"input_tokens":208677,"answer_tokens":310725,"output_tokens":1379818,"reasoning_tokens":1069093,"total_input_tokens_api":253091,"total_answer_tokens_api":1447227,"total_reasoning_tokens_api":0},"yo":{"score":0.6549999999999999,"input_tokens":307062,"answer_tokens":294718,"output_tokens":1859685,"reasoning_tokens":1564967,"total_input_tokens_api":388761,"total_answer_tokens_api":1958265,"total_reasoning_tokens_api":0},"zh":{"score":0.8858333333333333,"input_tokens":179793,"answer_tokens":255489,"output_tokens":1256044,"reasoning_tokens":1000555,"total_input_tokens_api":154524,"total_answer_tokens_api":1029063,"total_reasoning_tokens_api":0},"average":{"score":0.8673958333333334,"input_tokens":3383385,"answer_tokens":4693132,"output_tokens":20313191,"reasoning_tokens":15620059,"total_input_tokens_api":3952288,"total_answer_tokens_api":20928444,"total_reasoning_tokens_api":4096}},"name":"DeepSeek V3.2 Exp (Reasoning)","is_open_weights":true,"omniscience":-31.9,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.172,"num_correct":172,"omniscience":-39.6,"attempt_rate":0.756,"num_incorrect":568,"total_questions":1000,"num_not_attempted":244,"hallucination_rate":0.6859903381642513,"num_partial_answer":16}},"total":{"accuracy":0.26966666666666667,"num_correct":1618,"omniscience":-31.9,"attempt_rate":0.873,"num_incorrect":3532,"total_questions":6000,"num_not_attempted":762,"hallucination_rate":0.8060246462802373,"num_partial_answer":88},"Health":{"total":{"accuracy":0.282,"num_correct":282,"omniscience":-35.4,"attempt_rate":0.935,"num_incorrect":636,"total_questions":1000,"num_not_attempted":65,"hallucination_rate":0.8857938718662952,"num_partial_answer":17}},"Business":{"total":{"accuracy":0.239,"num_correct":239,"omniscience":-32.1,"attempt_rate":0.814,"num_incorrect":560,"total_questions":1000,"num_not_attempted":186,"hallucination_rate":0.735873850197109,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.46,"num_correct":46,"omniscience":-6,"attempt_rate":0.99,"num_incorrect":52,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9629629629629629,"num_partial_answer":1}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.92,"num_incorrect":36,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-30,"attempt_rate":0.82,"num_incorrect":28,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7567567567567568,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-22,"attempt_rate":0.9,"num_incorrect":28,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8484848484848485,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":36,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-14,"attempt_rate":0.92,"num_incorrect":26,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8387096774193549,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-52,"attempt_rate":0.91,"num_incorrect":71,"total_questions":100,"num_not_attempted":9,"hallucination_rate":0.8765432098765432,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":22,"attempt_rate":0.92,"num_incorrect":16,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.6956521739130435,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-44,"attempt_rate":0.96,"num_incorrect":17,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8947368421052632,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.6,"num_correct":15,"omniscience":32,"attempt_rate":0.92,"num_incorrect":7,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7,"num_partial_answer":1}},"total":{"accuracy":0.302,"num_correct":302,"omniscience":-29.8,"attempt_rate":0.917,"num_incorrect":600,"total_questions":1000,"num_not_attempted":83,"hallucination_rate":0.8595988538681948,"num_partial_answer":15},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-46,"attempt_rate":0.88,"num_incorrect":33,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.825,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.24,"num_correct":48,"omniscience":-42,"attempt_rate":0.905,"num_incorrect":132,"total_questions":200,"num_not_attempted":19,"hallucination_rate":0.868421052631579,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-24.545454545454547,"attempt_rate":0.9090909090909091,"num_incorrect":63,"total_questions":110,"num_not_attempted":10,"hallucination_rate":0.8513513513513513,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.26666666666666666,"num_correct":24,"omniscience":-34.44444444444444,"attempt_rate":0.9222222222222223,"num_incorrect":55,"total_questions":90,"num_not_attempted":7,"hallucination_rate":0.8333333333333334,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.28,"num_correct":280,"omniscience":-30.8,"attempt_rate":0.874,"num_incorrect":588,"total_questions":1000,"num_not_attempted":126,"hallucination_rate":0.8166666666666667,"num_partial_answer":6}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.343,"num_correct":343,"omniscience":-23.7,"attempt_rate":0.942,"num_incorrect":580,"total_questions":1000,"num_not_attempted":58,"hallucination_rate":0.882800608828006,"num_partial_answer":19}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":685,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-09-29","representative_query_token_counts":null,"scicode":0.377,"short_name":"DeepSeek V3.2 Exp","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-2-reasoning-0925","tau2":0.339,"terminalbench_hard":0.291,"tokenizer_id":"deepseek_v3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"4cf12142-6a47-40c6-9f01-9cfd17de06ab","slug":"deepseek_deepseek-v3-2-reasoning","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","gpqa_16x":null,"model_id":"af134350-8ba3-4629-b56b-00bd6dcf60c4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-reasoner","function_calling":true,"cache_write_price":0,"host_model_string":"DeepSeek_DeepSeek V3.2 Exp (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.28,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.315,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"f382fff8-4d5f-4fd3-909b-0e8bfccd5f4f","slug":"novita_deepseek-v3-2-reasoning_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"af134350-8ba3-4629-b56b-00bd6dcf60c4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.2-exp","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.2 Exp (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.27,"price_1m_output_tokens":0.41,"price_1m_blended_3_to_1":0.305,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":3.28,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-2-reasoning-0925","hosts_url":"/models/deepseek-v3-2-reasoning-0925/providers","name_and_creator_label":"DeepSeek V3.2 Exp, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.967,"agentic_index":null,"coding_index":36.41,"commercial_allowed":true,"computed_performance_host_model_id":"9e9ecbff-3dfc-4d46-948c-045ff95e1310","context_window_tokens":128000,"critpt":0.074,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":350,"estimated_intelligence_index":34.07946327638502,"model_family_slug":"deepseek-v3","frontier_model":null,"gdpval":null,"gpqa":0.871,"hle":0.261,"humaneval":null,"id":"527e943a-adc6-4e69-93af-d1608e1b5fed","ifbench":0.639,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.593,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.896,"math_500":null,"math_index":96.67,"mmlu_pro":0.863,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale","multilingual_aa":{"ar":{"score":0.8958333333333334,"input_tokens":188556,"answer_tokens":37429,"output_tokens":1866131,"reasoning_tokens":1828702,"total_input_tokens_api":213291,"total_answer_tokens_api":38562,"total_reasoning_tokens_api":1870203},"bn":{"score":0.8791666666666668,"input_tokens":225534,"answer_tokens":37296,"output_tokens":1955790,"reasoning_tokens":1918494,"total_input_tokens_api":257652,"total_answer_tokens_api":38496,"total_reasoning_tokens_api":1966105},"de":{"score":0.91,"input_tokens":191646,"answer_tokens":30266,"output_tokens":1742134,"reasoning_tokens":1711868,"total_input_tokens_api":213600,"total_answer_tokens_api":32233,"total_reasoning_tokens_api":1755163},"en":{"score":0.9325000000000001,"input_tokens":159654,"answer_tokens":37668,"output_tokens":1438681,"reasoning_tokens":1401013,"total_input_tokens_api":160503,"total_answer_tokens_api":38282,"total_reasoning_tokens_api":1410570},"es":{"score":0.9191666666666668,"input_tokens":182088,"answer_tokens":35679,"output_tokens":1847592,"reasoning_tokens":1811913,"total_input_tokens_api":199287,"total_answer_tokens_api":37479,"total_reasoning_tokens_api":1846255},"fr":{"score":0.9083333333333333,"input_tokens":191346,"answer_tokens":41367,"output_tokens":1751654,"reasoning_tokens":1710287,"total_input_tokens_api":210339,"total_answer_tokens_api":44202,"total_reasoning_tokens_api":1749259},"hi":{"score":0.8916666666666666,"input_tokens":209430,"answer_tokens":38411,"output_tokens":1893093,"reasoning_tokens":1854682,"total_input_tokens_api":328056,"total_answer_tokens_api":40752,"total_reasoning_tokens_api":1985042},"id":{"score":0.9041666666666667,"input_tokens":181314,"answer_tokens":33039,"output_tokens":1648068,"reasoning_tokens":1615029,"total_input_tokens_api":191544,"total_answer_tokens_api":34129,"total_reasoning_tokens_api":1638398},"it":{"score":0.9133333333333334,"input_tokens":199032,"answer_tokens":38653,"output_tokens":1780615,"reasoning_tokens":1741962,"total_input_tokens_api":208071,"total_answer_tokens_api":39925,"total_reasoning_tokens_api":1764951},"ja":{"score":0.8941666666666667,"input_tokens":228129,"answer_tokens":42061,"output_tokens":2038471,"reasoning_tokens":1996410,"total_input_tokens_api":203637,"total_answer_tokens_api":41695,"total_reasoning_tokens_api":1977095},"ko":{"score":0.8933333333333334,"input_tokens":199401,"answer_tokens":43221,"output_tokens":1956007,"reasoning_tokens":1912786,"total_input_tokens_api":216120,"total_answer_tokens_api":44297,"total_reasoning_tokens_api":1948363},"my":{"score":0.8458333333333333,"input_tokens":353547,"answer_tokens":34923,"output_tokens":2477274,"reasoning_tokens":2442351,"total_input_tokens_api":555792,"total_answer_tokens_api":38246,"total_reasoning_tokens_api":2719255},"pt":{"score":0.9091666666666667,"input_tokens":178176,"answer_tokens":33825,"output_tokens":1707702,"reasoning_tokens":1673877,"total_input_tokens_api":198012,"total_answer_tokens_api":35797,"total_reasoning_tokens_api":1712719},"sw":{"score":0.8533333333333334,"input_tokens":208677,"answer_tokens":29226,"output_tokens":2140412,"reasoning_tokens":2111186,"total_input_tokens_api":253089,"total_answer_tokens_api":31241,"total_reasoning_tokens_api":2209026},"yo":{"score":0.68,"input_tokens":307062,"answer_tokens":28025,"output_tokens":3860847,"reasoning_tokens":3832822,"total_input_tokens_api":388761,"total_answer_tokens_api":29587,"total_reasoning_tokens_api":4132939},"zh":{"score":0.9091666666666667,"input_tokens":179793,"answer_tokens":41557,"output_tokens":1928061,"reasoning_tokens":1886504,"total_input_tokens_api":154524,"total_answer_tokens_api":40626,"total_reasoning_tokens_api":1861718},"average":{"score":0.8836979166666667,"input_tokens":3383385,"answer_tokens":582646,"output_tokens":32032532,"reasoning_tokens":31449886,"total_input_tokens_api":3952278,"total_answer_tokens_api":605549,"total_reasoning_tokens_api":32547061}},"name":"DeepSeek V3.2 Speciale","is_open_weights":true,"omniscience":-19.233,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.31,"num_correct":310,"omniscience":-30.3,"attempt_rate":0.935,"num_incorrect":613,"total_questions":1000,"num_not_attempted":65,"hallucination_rate":0.8884057971014493,"num_partial_answer":12}},"total":{"accuracy":0.3675,"num_correct":2205,"omniscience":-19.233333333333334,"attempt_rate":0.9465,"num_incorrect":3359,"total_questions":6000,"num_not_attempted":321,"hallucination_rate":0.8851119894598155,"num_partial_answer":115},"Health":{"total":{"accuracy":0.357,"num_correct":357,"omniscience":-23.3,"attempt_rate":0.976,"num_incorrect":590,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.9175738724727839,"num_partial_answer":29}},"Business":{"total":{"accuracy":0.307,"num_correct":307,"omniscience":-25.5,"attempt_rate":0.887,"num_incorrect":562,"total_questions":1000,"num_not_attempted":113,"hallucination_rate":0.810966810966811,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.63,"num_correct":63,"omniscience":27,"attempt_rate":1,"num_incorrect":36,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.972972972972973,"num_partial_answer":1}},"R":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-22,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.967741935483871,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":31,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.96875,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-16,"attempt_rate":0.96,"num_incorrect":28,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9333333333333333,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-20,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":20,"attempt_rate":1,"num_incorrect":20,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.31,"num_correct":31,"omniscience":-36,"attempt_rate":0.99,"num_incorrect":67,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9710144927536232,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":30,"attempt_rate":0.94,"num_incorrect":14,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.6666666666666666,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-36,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.56,"num_correct":14,"omniscience":20,"attempt_rate":1,"num_incorrect":9,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8181818181818182,"num_partial_answer":2}},"total":{"accuracy":0.438,"num_correct":438,"omniscience":-9.1,"attempt_rate":0.984,"num_incorrect":529,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.9412811387900356,"num_partial_answer":17},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":31,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8857142857142857,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.405,"num_correct":81,"omniscience":-15.5,"attempt_rate":0.98,"num_incorrect":112,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9411764705882353,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.4727272727272727,"num_correct":52,"omniscience":-1.8181818181818181,"attempt_rate":0.990909090909091,"num_incorrect":54,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9310344827586207,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.4222222222222222,"num_correct":38,"omniscience":-13.333333333333334,"attempt_rate":0.9888888888888889,"num_incorrect":50,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9615384615384616,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.394,"num_correct":394,"omniscience":-14.3,"attempt_rate":0.942,"num_incorrect":537,"total_questions":1000,"num_not_attempted":58,"hallucination_rate":0.8861386138613861,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.399,"num_correct":399,"omniscience":-12.9,"attempt_rate":0.955,"num_incorrect":528,"total_questions":1000,"num_not_attempted":45,"hallucination_rate":0.8785357737104825,"num_partial_answer":28}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":685,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-12-01","representative_query_token_counts":null,"scicode":0.44,"short_name":"DeepSeek V3.2 Speciale","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-2-speciale","tau2":0,"terminalbench_hard":0.326,"tokenizer_id":"deepseek_v3_2_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"66266717-10d9-4842-b5e3-38bcad0d7d97","slug":"gmi_deepseek-v3-2-speciale_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"527e943a-adc6-4e69-93af-d1608e1b5fed","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2-Speciale","function_calling":false,"cache_write_price":null,"host_model_string":"GMI_DeepSeek V3.2 Speciale_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.28,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.31,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":3.23,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9e9ecbff-3dfc-4d46-948c-045ff95e1310","slug":"deepseek_deepseek-v3-2-speciale","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","gpqa_16x":null,"model_id":"527e943a-adc6-4e69-93af-d1608e1b5fed","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-reasoner","function_calling":false,"cache_write_price":null,"host_model_string":"DeepSeek_DeepSeek V3.2 Speciale","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.28,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.315,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9f7cfd13-eb15-4ffa-a99b-2e78b840cf6e","slug":"parasail_deepseek-v3-2-speciale_fp8","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"527e943a-adc6-4e69-93af-d1608e1b5fed","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.2-Speciale","function_calling":false,"cache_write_price":null,"host_model_string":"Parasail_DeepSeek V3.2 Speciale_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.4,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.425,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.35,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-2-speciale","hosts_url":"/models/deepseek-v3-2-speciale/providers","name_and_creator_label":"DeepSeek V3.2 Speciale, DeepSeek"},{"additional_text":null,"aime":0.693,"aime25":0.57,"agentic_index":null,"coding_index":21.43,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"kimi-k2-0905","display_order":1546,"estimated_intelligence_index":25.863428734733116,"model_family_slug":"kimi-k2","frontier_model":null,"gdpval":null,"gpqa":0.766,"hle":0.07,"humaneval":0.926,"id":"441734a9-8901-4850-9bae-b474c370291f","ifbench":0.415,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.51,"license_name":"Modified MIT License","license_url":"https://huggingface.co/moonshotai/Kimi-K2-Instruct/blob/main/LICENSE","livecodebench":0.556,"math_500":0.971,"math_index":57,"mmlu_pro":0.824,"mmmu_pro":null,"model_creator_id":"0a177021-87dd-4250-9a37-f01df196bfe0","model_weights_source_url":"https://huggingface.co/moonshotai/Kimi-K2-Instruct","multilingual_aa":null,"name":"Kimi K2","is_open_weights":true,"omniscience":-30.117,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-35.7,"attempt_rate":0.706,"num_incorrect":524,"total_questions":1000,"num_not_attempted":294,"hallucination_rate":0.6290516206482593,"num_partial_answer":15}},"total":{"accuracy":0.258,"num_correct":1548,"omniscience":-30.116666666666667,"attempt_rate":0.8446666666666667,"num_incorrect":3355,"total_questions":6000,"num_not_attempted":932,"hallucination_rate":0.7535938903863432,"num_partial_answer":165},"Health":{"total":{"accuracy":0.228,"num_correct":228,"omniscience":-41,"attempt_rate":0.919,"num_incorrect":638,"total_questions":1000,"num_not_attempted":81,"hallucination_rate":0.8264248704663213,"num_partial_answer":53}},"Business":{"total":{"accuracy":0.242,"num_correct":242,"omniscience":-27.9,"attempt_rate":0.786,"num_incorrect":521,"total_questions":1000,"num_not_attempted":214,"hallucination_rate":0.6873350923482849,"num_partial_answer":23}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.42,"num_correct":42,"omniscience":-14,"attempt_rate":0.99,"num_incorrect":56,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9655172413793104,"num_partial_answer":1}},"R":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-30,"attempt_rate":0.94,"num_incorrect":31,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9117647058823529,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-30,"attempt_rate":0.86,"num_incorrect":28,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7567567567567568,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":29,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8529411764705882,"num_partial_answer":4}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-48,"attempt_rate":0.86,"num_incorrect":33,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8048780487804879,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-8,"attempt_rate":0.98,"num_incorrect":26,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9285714285714286,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.27,"num_correct":27,"omniscience":-35,"attempt_rate":0.9,"num_incorrect":62,"total_questions":100,"num_not_attempted":10,"hallucination_rate":0.8493150684931506,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":22,"attempt_rate":1,"num_incorrect":17,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7727272727272727,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-36,"attempt_rate":0.92,"num_incorrect":16,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8888888888888888,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.56,"num_correct":14,"omniscience":20,"attempt_rate":0.96,"num_incorrect":9,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8181818181818182,"num_partial_answer":1}},"total":{"accuracy":0.359,"num_correct":359,"omniscience":-18.8,"attempt_rate":0.933,"num_incorrect":547,"total_questions":1000,"num_not_attempted":67,"hallucination_rate":0.8533541341653667,"num_partial_answer":27},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-26,"attempt_rate":0.94,"num_incorrect":28,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.365,"num_correct":73,"omniscience":-14,"attempt_rate":0.88,"num_incorrect":101,"total_questions":200,"num_not_attempted":24,"hallucination_rate":0.7952755905511811,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.36363636363636365,"num_correct":40,"omniscience":-20.90909090909091,"attempt_rate":0.9545454545454546,"num_incorrect":63,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.9,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.4111111111111111,"num_correct":37,"omniscience":-12.222222222222221,"attempt_rate":0.9777777777777777,"num_incorrect":48,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9056603773584906,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.244,"num_correct":244,"omniscience":-33.8,"attempt_rate":0.844,"num_incorrect":582,"total_questions":1000,"num_not_attempted":156,"hallucination_rate":0.7698412698412699,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.308,"num_correct":308,"omniscience":-23.5,"attempt_rate":0.88,"num_incorrect":543,"total_questions":1000,"num_not_attempted":120,"hallucination_rate":0.7846820809248555,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":1000,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-07-11","representative_query_token_counts":null,"scicode":0.345,"short_name":"Kimi K2","show_host_model_evals":false,"size_class":"Large","slug":"kimi-k2","tau2":0.611,"terminalbench_hard":0.149,"tokenizer_id":null,"model_creators":{"id":"0a177021-87dd-4250-9a37-f01df196bfe0","logo":"","name":"Kimi","slug":"kimi","color":"#047AFE","deleted":true,"host_id":"44cc5bf5-a562-4c80-aa6f-29de5b5e4903","created_at":"2025-01-28T17:24:10.093766+00:00","logo_small":"kimi_small.png","creator_url":"https://www.moonshot.cn/","display_order":37,"logo_url":"/img/logos/","logo_small_url":"/img/logos/kimi_small.png"},"host_models":[{"id":"6f5a39e0-ea10-4030-b3be-4c5ffa229424","slug":"moonshot-ai_kimi-k2","deleted":false,"host_id":"44cc5bf5-a562-4c80-aa6f-29de5b5e4903","gpqa_16x":null,"model_id":"441734a9-8901-4850-9bae-b474c370291f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"kimi-k2-0711-preview","function_calling":true,"cache_write_price":null,"host_model_string":"Moonshot AI_Kimi K2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f811056b-59f6-4e46-8a2b-1d5a913c987b","slug":"novita_kimi-k2","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"441734a9-8901-4850-9bae-b474c370291f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/kimi-k2-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Kimi K2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.57,"price_1m_output_tokens":2.3,"price_1m_blended_3_to_1":1.0025,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9d8725b5-319b-44e6-bf43-9ccb3574f9a3","slug":"parasail_kimi-k2","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"441734a9-8901-4850-9bae-b474c370291f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"parasail-kimi-k2-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_Kimi K2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.5,"price_1m_output_tokens":4,"price_1m_blended_3_to_1":2.125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.47,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2dd25ebf-e086-4a94-9c03-c4b952f7861a","slug":"togetherai_kimi-k2","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"441734a9-8901-4850-9bae-b474c370291f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Kimi k2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"fa68ae35-af99-4553-b18e-9ed604655a51","slug":"groq_kimi-k2","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":null,"model_id":"441734a9-8901-4850-9bae-b474c370291f","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/kimi-k2-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_Kimi K2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d28a20ef-b5b6-442f-9460-adf0ef8d2ad6","slug":"deepinfra_kimi-k2","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"441734a9-8901-4850-9bae-b474c370291f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Kimi K2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f0c3a518-b964-4a44-9831-6fc99d806330","slug":"nebius_kimi-k2","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"441734a9-8901-4850-9bae-b474c370291f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Kimi K2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2.4,"price_1m_blended_3_to_1":0.975,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131000,"price_m_tokens_blended_3_to_1_per_dollar":1.03,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/kimi-k2","hosts_url":"/models/kimi-k2/providers","name_and_creator_label":"Kimi K2, Kimi"},{"additional_text":null,"aime":null,"aime25":0.573,"agentic_index":26.71,"coding_index":25.35,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":524,"estimated_intelligence_index":27.452437255049592,"model_family_slug":"kimi-k2","frontier_model":false,"gdpval":544.0488830982231,"gpqa":0.767,"hle":0.063,"humaneval":null,"id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","ifbench":0.417,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.92,"intelligence_index_token_counts":{"input_tokens":266450300,"answer_tokens":6919844,"output_tokens":6919844,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.523,"license_name":"Modified MIT License","license_url":"https://huggingface.co/moonshotai/Kimi-K2-Instruct/blob/main/LICENSE","livecodebench":0.61,"math_500":null,"math_index":57.33,"mmlu_pro":0.819,"mmmu_pro":null,"model_creator_id":"0a177021-87dd-4250-9a37-f01df196bfe0","model_weights_source_url":"https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905","multilingual_aa":{"ar":{"score":0.8016666666666667,"input_tokens":188556,"answer_tokens":220192,"output_tokens":220192,"reasoning_tokens":0,"total_input_tokens_api":287070,"total_answer_tokens_api":319046,"total_reasoning_tokens_api":0},"bn":{"score":0.7691666666666667,"input_tokens":225534,"answer_tokens":300286,"output_tokens":300286,"reasoning_tokens":0,"total_input_tokens_api":379293,"total_answer_tokens_api":513269,"total_reasoning_tokens_api":0},"de":{"score":0.8683333333333333,"input_tokens":191646,"answer_tokens":254775,"output_tokens":254775,"reasoning_tokens":0,"total_input_tokens_api":266505,"total_answer_tokens_api":330446,"total_reasoning_tokens_api":0},"en":{"score":0.9075000000000001,"input_tokens":159654,"answer_tokens":342211,"output_tokens":342211,"reasoning_tokens":0,"total_input_tokens_api":191958,"total_answer_tokens_api":343137,"total_reasoning_tokens_api":0},"es":{"score":0.8791666666666668,"input_tokens":182088,"answer_tokens":231283,"output_tokens":231283,"reasoning_tokens":0,"total_input_tokens_api":249684,"total_answer_tokens_api":293423,"total_reasoning_tokens_api":0},"fr":{"score":0.8700000000000001,"input_tokens":191346,"answer_tokens":216290,"output_tokens":216290,"reasoning_tokens":0,"total_input_tokens_api":261012,"total_answer_tokens_api":270180,"total_reasoning_tokens_api":0},"hi":{"score":0.7941666666666668,"input_tokens":209430,"answer_tokens":292472,"output_tokens":292472,"reasoning_tokens":0,"total_input_tokens_api":354432,"total_answer_tokens_api":495233,"total_reasoning_tokens_api":0},"id":{"score":0.8574999999999999,"input_tokens":181314,"answer_tokens":228014,"output_tokens":228014,"reasoning_tokens":0,"total_input_tokens_api":246486,"total_answer_tokens_api":290818,"total_reasoning_tokens_api":0},"it":{"score":0.8883333333333333,"input_tokens":199032,"answer_tokens":292490,"output_tokens":292490,"reasoning_tokens":0,"total_input_tokens_api":258519,"total_answer_tokens_api":343986,"total_reasoning_tokens_api":0},"ja":{"score":0.8641666666666667,"input_tokens":228129,"answer_tokens":334290,"output_tokens":334290,"reasoning_tokens":0,"total_input_tokens_api":258129,"total_answer_tokens_api":333369,"total_reasoning_tokens_api":0},"ko":{"score":0.83,"input_tokens":199401,"answer_tokens":270091,"output_tokens":270091,"reasoning_tokens":0,"total_input_tokens_api":279996,"total_answer_tokens_api":356674,"total_reasoning_tokens_api":0},"my":{"score":0.6625000000000001,"input_tokens":353547,"answer_tokens":335143,"output_tokens":335143,"reasoning_tokens":0,"total_input_tokens_api":418983,"total_answer_tokens_api":357272,"total_reasoning_tokens_api":0},"pt":{"score":0.8775,"input_tokens":178176,"answer_tokens":193867,"output_tokens":193867,"reasoning_tokens":0,"total_input_tokens_api":248052,"total_answer_tokens_api":251693,"total_reasoning_tokens_api":0},"sw":{"score":0.6658333333333334,"input_tokens":208677,"answer_tokens":271811,"output_tokens":271811,"reasoning_tokens":0,"total_input_tokens_api":281436,"total_answer_tokens_api":346082,"total_reasoning_tokens_api":0},"yo":{"score":0.5191666666666667,"input_tokens":307062,"answer_tokens":368608,"output_tokens":368608,"reasoning_tokens":0,"total_input_tokens_api":394557,"total_answer_tokens_api":447547,"total_reasoning_tokens_api":0},"zh":{"score":0.8741666666666666,"input_tokens":179793,"answer_tokens":337942,"output_tokens":337942,"reasoning_tokens":0,"total_input_tokens_api":180522,"total_answer_tokens_api":263848,"total_reasoning_tokens_api":0},"average":{"score":0.8080729166666667,"input_tokens":3383385,"answer_tokens":4489765,"output_tokens":4489765,"reasoning_tokens":0,"total_input_tokens_api":4556634,"total_answer_tokens_api":5556023,"total_reasoning_tokens_api":0}},"name":"Kimi K2 0905","is_open_weights":true,"omniscience":-28.35,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.148,"num_correct":148,"omniscience":-30,"attempt_rate":0.607,"num_incorrect":448,"total_questions":1000,"num_not_attempted":393,"hallucination_rate":0.5258215962441315,"num_partial_answer":11}},"total":{"accuracy":0.24033333333333334,"num_correct":1442,"omniscience":-28.35,"attempt_rate":0.7906666666666666,"num_incorrect":3143,"total_questions":6000,"num_not_attempted":1256,"hallucination_rate":0.6895568231680561,"num_partial_answer":159},"Health":{"total":{"accuracy":0.233,"num_correct":233,"omniscience":-38.5,"attempt_rate":0.909,"num_incorrect":618,"total_questions":1000,"num_not_attempted":91,"hallucination_rate":0.8057366362451108,"num_partial_answer":58}},"Business":{"total":{"accuracy":0.207,"num_correct":207,"omniscience":-22.5,"attempt_rate":0.661,"num_incorrect":432,"total_questions":1000,"num_not_attempted":339,"hallucination_rate":0.544766708701135,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.47,"num_correct":47,"omniscience":-2,"attempt_rate":0.97,"num_incorrect":49,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9245283018867925,"num_partial_answer":1}},"R":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-28,"attempt_rate":0.8,"num_incorrect":27,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7297297297297297,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-38,"attempt_rate":0.76,"num_incorrect":28,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6829268292682927,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-18,"attempt_rate":0.94,"num_incorrect":27,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.84375,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-48,"attempt_rate":0.8,"num_incorrect":31,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7209302325581395,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-34,"attempt_rate":0.94,"num_incorrect":32,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9142857142857143,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.16,"num_correct":16,"omniscience":-43,"attempt_rate":0.75,"num_incorrect":59,"total_questions":100,"num_not_attempted":25,"hallucination_rate":0.7023809523809523,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":28,"attempt_rate":0.94,"num_incorrect":14,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.6363636363636364,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-40,"attempt_rate":0.88,"num_incorrect":16,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.8421052631578947,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":12,"attempt_rate":0.92,"num_incorrect":9,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.6923076923076923,"num_partial_answer":2}},"total":{"accuracy":0.33,"num_correct":330,"omniscience":-20.6,"attempt_rate":0.889,"num_incorrect":536,"total_questions":1000,"num_not_attempted":111,"hallucination_rate":0.8,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-26,"attempt_rate":0.9,"num_incorrect":28,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.335,"num_correct":67,"omniscience":-18.5,"attempt_rate":0.87,"num_incorrect":104,"total_questions":200,"num_not_attempted":26,"hallucination_rate":0.7819548872180451,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.4090909090909091,"num_correct":45,"omniscience":-12.727272727272727,"attempt_rate":0.9636363636363636,"num_incorrect":59,"total_questions":110,"num_not_attempted":4,"hallucination_rate":0.9076923076923077,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.35555555555555557,"num_correct":32,"omniscience":-23.333333333333332,"attempt_rate":0.9777777777777777,"num_incorrect":53,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9137931034482759,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.247,"num_correct":247,"omniscience":-31.4,"attempt_rate":0.824,"num_incorrect":561,"total_questions":1000,"num_not_attempted":176,"hallucination_rate":0.7450199203187251,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.277,"num_correct":277,"omniscience":-27.1,"attempt_rate":0.854,"num_incorrect":548,"total_questions":1000,"num_not_attempted":146,"hallucination_rate":0.7579529737206085,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":200000,"parameters":1000,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-05","representative_query_token_counts":null,"scicode":0.307,"short_name":"Kimi K2 0905","show_host_model_evals":false,"size_class":"Large","slug":"kimi-k2-0905","tau2":0.734,"terminalbench_hard":0.227,"tokenizer_id":null,"model_creators":{"id":"0a177021-87dd-4250-9a37-f01df196bfe0","logo":"","name":"Kimi","slug":"kimi","color":"#047AFE","deleted":true,"host_id":"44cc5bf5-a562-4c80-aa6f-29de5b5e4903","created_at":"2025-01-28T17:24:10.093766+00:00","logo_small":"kimi_small.png","creator_url":"https://www.moonshot.cn/","display_order":37,"logo_url":"/img/logos/","logo_small_url":"/img/logos/kimi_small.png"},"host_models":[{"id":"ec89356f-3c48-42b7-aee5-084b6a73f266","slug":"parasail_kimi-k2-0905","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"parasail-kimi-k2-instruct-0905","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_Kimi K2 0905","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.99,"price_1m_output_tokens":2.99,"price_1m_blended_3_to_1":1.49,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e680dfb1-0c47-45bf-86a8-ccc4cc1cbfe3","slug":"fireworks_kimi-k2-0905","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/kimi-k2-instruct-0905","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Kimi K2 0905","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.2,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":1.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.83,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f471ad52-2893-4405-8953-bbe75bef3fb1","slug":"deepinfra_kimi-k2-0905","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Instruct-0905","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Kimi K2 0905","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.8,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"64e6ce2f-08de-44c1-b56d-f076c06e945a","slug":"baseten_kimi-k2-0905_fp4","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Instruct-0905","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_Kimi K2 0905_(FP4)","cache_pricing_notes":null,"model_name_appendage":"(FP4)","price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e3cb949c-48ac-4428-9484-31a3e1bf48df","slug":"groq_kimi-k2-0905","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":null,"model_id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/kimi-k2-instruct-0905","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_Kimi K2 0905","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ffc78a96-021d-4aad-bb80-5fc205a9db74","slug":"togetherai_kimi-k2-0905","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Instruct-0905","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Kimi K2 0905","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"bf41466f-1855-466d-9325-fad7fad1c821","slug":"novita_kimi-k2-0905","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"66445f84-b2e3-4202-afdc-92ba0f0e5f36","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/kimi-k2-0905","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Kimi K2 0905","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/kimi-k2-0905","hosts_url":"/models/kimi-k2-0905/providers","name_and_creator_label":"Kimi K2 0905, Kimi"},{"additional_text":null,"aime":null,"aime25":0.947,"agentic_index":47.7,"coding_index":33.51,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":0.026,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":523,"estimated_intelligence_index":42.59875182249899,"model_family_slug":"kimi-k2","frontier_model":false,"gdpval":998.8325760026808,"gpqa":0.838,"hle":0.223,"humaneval":null,"id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","ifbench":0.681,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":40.32,"intelligence_index_token_counts":{"input_tokens":96873370,"answer_tokens":4812127,"output_tokens":100010575,"reasoning_tokens":95198448},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.663,"license_name":"Modified MIT License","license_url":"https://huggingface.co/moonshotai/Kimi-K2-Thinking/blob/main/LICENSE","livecodebench":0.853,"math_500":null,"math_index":94.67,"mmlu_pro":0.848,"mmmu_pro":null,"model_creator_id":"0a177021-87dd-4250-9a37-f01df196bfe0","model_weights_source_url":"https://huggingface.co/moonshotai/Kimi-K2-Thinking","multilingual_aa":{"ar":{"score":0.7133333333333334,"input_tokens":188556,"answer_tokens":243440,"output_tokens":2110517,"reasoning_tokens":1867077,"total_input_tokens_api":260377,"total_answer_tokens_api":2210364,"total_reasoning_tokens_api":0},"bn":{"score":0.7483333333333334,"input_tokens":225534,"answer_tokens":159251,"output_tokens":2157883,"reasoning_tokens":1998632,"total_input_tokens_api":352893,"total_answer_tokens_api":2378321,"total_reasoning_tokens_api":0},"de":{"score":0.7799999999999999,"input_tokens":191646,"answer_tokens":177741,"output_tokens":1942538,"reasoning_tokens":1764797,"total_input_tokens_api":240105,"total_answer_tokens_api":2063246,"total_reasoning_tokens_api":0},"en":{"score":0.8616666666666667,"input_tokens":159654,"answer_tokens":216935,"output_tokens":2540850,"reasoning_tokens":2323915,"total_input_tokens_api":165558,"total_answer_tokens_api":2556639,"total_reasoning_tokens_api":0},"es":{"score":0.8333333333333334,"input_tokens":182088,"answer_tokens":278629,"output_tokens":2104918,"reasoning_tokens":1826289,"total_input_tokens_api":223284,"total_answer_tokens_api":2202221,"total_reasoning_tokens_api":0},"fr":{"score":0.8374999999999999,"input_tokens":191346,"answer_tokens":167622,"output_tokens":2151248,"reasoning_tokens":1983626,"total_input_tokens_api":234612,"total_answer_tokens_api":2267708,"total_reasoning_tokens_api":0},"hi":{"score":0.6691666666666666,"input_tokens":209430,"answer_tokens":236286,"output_tokens":2080369,"reasoning_tokens":1844083,"total_input_tokens_api":328032,"total_answer_tokens_api":2273583,"total_reasoning_tokens_api":0},"id":{"score":0.7958333333333334,"input_tokens":181314,"answer_tokens":151021,"output_tokens":2150191,"reasoning_tokens":1999170,"total_input_tokens_api":220086,"total_answer_tokens_api":2263517,"total_reasoning_tokens_api":0},"it":{"score":0.7233333333333333,"input_tokens":199032,"answer_tokens":152063,"output_tokens":1951984,"reasoning_tokens":1799921,"total_input_tokens_api":232119,"total_answer_tokens_api":2035942,"total_reasoning_tokens_api":0},"ja":{"score":0.7491666666666666,"input_tokens":228129,"answer_tokens":231461,"output_tokens":2588045,"reasoning_tokens":2356584,"total_input_tokens_api":231621,"total_answer_tokens_api":2593668,"total_reasoning_tokens_api":0},"ko":{"score":0.7441666666666666,"input_tokens":199401,"answer_tokens":186915,"output_tokens":2023439,"reasoning_tokens":1836524,"total_input_tokens_api":253596,"total_answer_tokens_api":2134355,"total_reasoning_tokens_api":0},"my":{"score":0.6083333333333333,"input_tokens":353547,"answer_tokens":228631,"output_tokens":2155885,"reasoning_tokens":1927254,"total_input_tokens_api":392247,"total_answer_tokens_api":2147858,"total_reasoning_tokens_api":0},"pt":{"score":0.7391666666666667,"input_tokens":178176,"answer_tokens":251925,"output_tokens":2067921,"reasoning_tokens":1815996,"total_input_tokens_api":221487,"total_answer_tokens_api":2173251,"total_reasoning_tokens_api":0},"sw":{"score":0.6791666666666667,"input_tokens":208677,"answer_tokens":148130,"output_tokens":1945785,"reasoning_tokens":1797655,"total_input_tokens_api":254845,"total_answer_tokens_api":2046325,"total_reasoning_tokens_api":0},"yo":{"score":0.5041666666666668,"input_tokens":307062,"answer_tokens":175889,"output_tokens":3607049,"reasoning_tokens":3431160,"total_input_tokens_api":368157,"total_answer_tokens_api":3828508,"total_reasoning_tokens_api":0},"zh":{"score":0.7758333333333333,"input_tokens":179793,"answer_tokens":117961,"output_tokens":2113086,"reasoning_tokens":1995125,"total_input_tokens_api":154122,"total_answer_tokens_api":1911249,"total_reasoning_tokens_api":0},"average":{"score":0.73515625,"input_tokens":3383385,"answer_tokens":3123900,"output_tokens":35691708,"reasoning_tokens":32567808,"total_input_tokens_api":4133141,"total_answer_tokens_api":37086755,"total_reasoning_tokens_api":0}},"name":"Kimi K2 Thinking","is_open_weights":true,"omniscience":-23.417,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.175,"num_correct":175,"omniscience":-35.1,"attempt_rate":0.722,"num_incorrect":526,"total_questions":1000,"num_not_attempted":278,"hallucination_rate":0.6375757575757576,"num_partial_answer":21}},"total":{"accuracy":0.29233333333333333,"num_correct":1754,"omniscience":-23.416666666666668,"attempt_rate":0.845,"num_incorrect":3159,"total_questions":6000,"num_not_attempted":930,"hallucination_rate":0.7439943476212906,"num_partial_answer":157},"Health":{"total":{"accuracy":0.29,"num_correct":290,"omniscience":-29.9,"attempt_rate":0.918,"num_incorrect":589,"total_questions":1000,"num_not_attempted":82,"hallucination_rate":0.8295774647887324,"num_partial_answer":39}},"Business":{"total":{"accuracy":0.256,"num_correct":256,"omniscience":-22.8,"attempt_rate":0.762,"num_incorrect":484,"total_questions":1000,"num_not_attempted":238,"hallucination_rate":0.6505376344086021,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.6,"num_correct":60,"omniscience":23,"attempt_rate":1,"num_incorrect":37,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.925,"num_partial_answer":3}},"R":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.94,"num_incorrect":34,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.918918918918919,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-28,"attempt_rate":0.9,"num_incorrect":29,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8285714285714286,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-20,"attempt_rate":0.98,"num_incorrect":29,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9354838709677419,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-22,"attempt_rate":0.94,"num_incorrect":28,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8484848484848485,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":14,"attempt_rate":0.94,"num_incorrect":19,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7916666666666666,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-49,"attempt_rate":0.93,"num_incorrect":70,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.8860759493670886,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":34,"attempt_rate":0.94,"num_incorrect":13,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.65,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":16,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":12,"attempt_rate":0.96,"num_incorrect":9,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.6923076923076923,"num_partial_answer":3}},"total":{"accuracy":0.409,"num_correct":409,"omniscience":-10.6,"attempt_rate":0.95,"num_incorrect":515,"total_questions":1000,"num_not_attempted":50,"hallucination_rate":0.871404399323181,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-8,"attempt_rate":0.92,"num_incorrect":24,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.37,"num_correct":74,"omniscience":-17,"attempt_rate":0.935,"num_incorrect":108,"total_questions":200,"num_not_attempted":13,"hallucination_rate":0.8571428571428571,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.4727272727272727,"num_correct":52,"omniscience":-3.6363636363636362,"attempt_rate":0.990909090909091,"num_incorrect":56,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9655172413793104,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.4666666666666667,"num_correct":42,"omniscience":-1.1111111111111112,"attempt_rate":0.9444444444444444,"num_incorrect":43,"total_questions":90,"num_not_attempted":5,"hallucination_rate":0.8958333333333334,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.274,"num_correct":274,"omniscience":-22.2,"attempt_rate":0.789,"num_incorrect":496,"total_questions":1000,"num_not_attempted":211,"hallucination_rate":0.6831955922865014,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.35,"num_correct":350,"omniscience":-19.9,"attempt_rate":0.929,"num_incorrect":549,"total_questions":1000,"num_not_attempted":71,"hallucination_rate":0.8446153846153847,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":96000,"parameters":1000,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-06","representative_query_token_counts":null,"scicode":0.424,"short_name":"Kimi K2 Thinking","show_host_model_evals":false,"size_class":"Large","slug":"kimi-k2-thinking","tau2":0.93,"terminalbench_hard":0.291,"tokenizer_id":null,"model_creators":{"id":"0a177021-87dd-4250-9a37-f01df196bfe0","logo":"","name":"Kimi","slug":"kimi","color":"#047AFE","deleted":true,"host_id":"44cc5bf5-a562-4c80-aa6f-29de5b5e4903","created_at":"2025-01-28T17:24:10.093766+00:00","logo_small":"kimi_small.png","creator_url":"https://www.moonshot.cn/","display_order":37,"logo_url":"/img/logos/","logo_small_url":"/img/logos/kimi_small.png"},"host_models":[{"id":"035d196d-b987-45ed-ae81-c0ef480fa3bd","slug":"moonshot-ai_kimi-k2-thinking_turbo","deleted":false,"host_id":"44cc5bf5-a562-4c80-aa6f-29de5b5e4903","gpqa_16x":null,"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"kimi-k2-thinking-turbo","function_calling":true,"cache_write_price":null,"host_model_string":"Moonshot AI_Kimi K2 Thinking_Turbo","cache_pricing_notes":null,"model_name_appendage":"Turbo","price_1m_input_tokens":1.15,"price_1m_output_tokens":8,"price_1m_blended_3_to_1":2.8625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"78af6868-e19f-4fcf-8e7b-7137459077c1","slug":"moonshot-ai_kimi-k2-thinking","deleted":false,"host_id":"44cc5bf5-a562-4c80-aa6f-29de5b5e4903","gpqa_16x":{"max":0.854,"min":0.823,"median":0.841,"quartile_25":0.837,"quartile_75":0.848},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.867,"median":0.967,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":{"max":0.697,"min":0.646,"median":0.673,"quartile_25":0.657,"quartile_75":0.684},"host_api_id":"kimi-k2-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Moonshot AI_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2ebaf0bc-b364-4d7e-a054-1728ba4306c6","slug":"google_kimi-k2-thinking_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":{"max":0.864,"min":0.808,"median":0.838,"quartile_25":0.831,"quartile_75":0.855},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":{"max":1,"min":0.933,"median":0.967,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":{"max":0.643,"min":0.588,"median":0.628,"quartile_25":0.616,"quartile_75":0.637},"host_api_id":"moonshotai/kimi-k2-thinking-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Kimi K2 Thinking_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"97f158c7-704d-4b85-9b71-3f870fcdcdad","slug":"amazon-bedrock_kimi-k2-thinking","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshot.kimi-k2-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"74427c5d-9d47-46ae-85f9-717a450ad6a5","slug":"togetherai_kimi-k2-thinking","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":{"max":0.848,"min":0.773,"median":0.828,"quartile_25":0.818,"quartile_75":0.84},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":false,"aime25_32x":{"max":1,"min":0.833,"median":0.933,"quartile_25":0.9,"quartile_75":0.967},"ifbench_8x":{"max":0.67,"min":0.605,"median":0.646,"quartile_25":0.643,"quartile_75":0.647},"host_api_id":"moonshotai/Kimi-K2-Thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.2,"price_1m_output_tokens":4,"price_1m_blended_3_to_1":1.9,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.53,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b7eb09ed-a9ba-44f7-85b7-1acdc2623c35","slug":"fireworks_kimi-k2-thinking","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":{"max":0.854,"min":0.798,"median":0.833,"quartile_25":0.817,"quartile_75":0.848},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.8,"median":0.933,"quartile_25":0.9,"quartile_75":0.942},"ifbench_8x":{"max":0.687,"min":0.646,"median":0.656,"quartile_25":0.65,"quartile_75":0.681},"host_api_id":"accounts/fireworks/models/kimi-k2-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"831b4a66-33ec-4999-bd3f-3a36f36f420c","slug":"baseten_kimi-k2-thinking","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":{"max":0.894,"min":0.818,"median":0.838,"quartile_25":0.828,"quartile_75":0.854},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.933,"median":0.95,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":{"max":0.667,"min":0.629,"median":0.651,"quartile_25":0.635,"quartile_75":0.661},"host_api_id":"moonshotai/Kimi-K2-Thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"03e894fc-e36b-49b6-8902-738d39682ccc","slug":"parasail_kimi-k2-thinking","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":{"max":0.874,"min":0.823,"median":0.854,"quartile_25":0.843,"quartile_75":0.864},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":null,"aime25_32x":{"max":0.967,"min":0.9,"median":0.95,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":{"max":0.643,"min":0.599,"median":0.634,"quartile_25":0.613,"quartile_75":0.64},"host_api_id":"moonshotai/Kimi-K2-Thinking","function_calling":null,"cache_write_price":null,"host_model_string":"Parasail_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2.25,"price_1m_blended_3_to_1":0.9375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.07,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f8a195b4-acea-4c4a-87b2-847990fb3b88","slug":"nebius_kimi-k2-thinking_fp8","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Kimi K2 Thinking_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8a735083-77a7-48dd-8ffb-4329280c15e8","slug":"deepinfra_kimi-k2-thinking","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":{"max":0.843,"min":0.682,"median":0.765,"quartile_25":0.736,"quartile_75":0.784},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.867,"min":0.5,"median":0.7,"quartile_25":0.6,"quartile_75":0.733},"ifbench_8x":{"max":0.684,"min":0.633,"median":0.648,"quartile_25":0.641,"quartile_75":0.654},"host_api_id":"moonshotai/Kimi-K2-Thinking","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.47,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.8525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9f42f2dc-854a-4c92-a964-0886d26d3f67","slug":"gmi_kimi-k2-thinking","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"moonshotai/Kimi-K2-Thinking","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.32,"price_1m_output_tokens":0.48,"price_1m_blended_3_to_1":0.36,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.78,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"41409c95-ca9b-4bef-b9e7-2196d5014705","slug":"novita_kimi-k2-thinking","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":{"max":0.813,"min":0.763,"median":0.783,"quartile_25":0.778,"quartile_75":0.799},"model_id":"bddebfd3-0a8d-47f5-b722-bc4c2ca5a5dc","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.8,"min":0.4,"median":0.617,"quartile_25":0.492,"quartile_75":0.675},"ifbench_8x":{"max":0.67,"min":0.595,"median":0.617,"quartile_25":0.605,"quartile_75":0.63},"host_api_id":"moonshotai/kimi-k2-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Kimi K2 Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.93,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/kimi-k2-thinking","hosts_url":"/models/kimi-k2-thinking/providers","name_and_creator_label":"Kimi K2 Thinking, Kimi"},{"additional_text":null,"aime":null,"aime25":0.783,"agentic_index":47.32,"coding_index":28.11,"commercial_allowed":true,"computed_performance_host_model_id":"a9a6b1f0-ccb9-4542-ac36-c3da2b8d74ff","context_window_tokens":204800,"critpt":0.009,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":471,"estimated_intelligence_index":36.69461275632168,"model_family_slug":"MiniMax-M2","frontier_model":false,"gdpval":1051.3250992084377,"gpqa":0.777,"hle":0.125,"humaneval":null,"id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","ifbench":0.723,"inference_parameters_active_billions":10,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":35.65,"intelligence_index_token_counts":{"input_tokens":116592167,"answer_tokens":5306767,"output_tokens":85086499,"reasoning_tokens":79779732},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.61,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.826,"math_500":null,"math_index":78.33,"mmlu_pro":0.82,"mmmu_pro":null,"model_creator_id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","model_weights_source_url":"https://huggingface.co/MiniMaxAI/MiniMax-M2","multilingual_aa":{"ar":{"score":0.8308333333333334,"input_tokens":188556,"answer_tokens":118531,"output_tokens":1243590,"reasoning_tokens":1125059,"total_input_tokens_api":230454,"total_answer_tokens_api":116171,"total_reasoning_tokens_api":1102542},"bn":{"score":0.8016666666666667,"input_tokens":225534,"answer_tokens":108629,"output_tokens":1405394,"reasoning_tokens":1296765,"total_input_tokens_api":466719,"total_answer_tokens_api":144743,"total_reasoning_tokens_api":1437885},"de":{"score":0.8541666666666666,"input_tokens":191646,"answer_tokens":123064,"output_tokens":1240289,"reasoning_tokens":1117225,"total_input_tokens_api":253587,"total_answer_tokens_api":132395,"total_reasoning_tokens_api":1112185},"en":{"score":0.9058333333333334,"input_tokens":159654,"answer_tokens":174808,"output_tokens":1400000,"reasoning_tokens":1225192,"total_input_tokens_api":203415,"total_answer_tokens_api":171100,"total_reasoning_tokens_api":1200779},"es":{"score":0.8666666666666667,"input_tokens":182088,"answer_tokens":118415,"output_tokens":1188973,"reasoning_tokens":1070558,"total_input_tokens_api":220635,"total_answer_tokens_api":113325,"total_reasoning_tokens_api":1042554},"fr":{"score":0.8533333333333334,"input_tokens":191346,"answer_tokens":95144,"output_tokens":1193612,"reasoning_tokens":1098468,"total_input_tokens_api":229659,"total_answer_tokens_api":91761,"total_reasoning_tokens_api":1073022},"hi":{"score":0.8208333333333333,"input_tokens":209430,"answer_tokens":136109,"output_tokens":1383905,"reasoning_tokens":1247796,"total_input_tokens_api":378252,"total_answer_tokens_api":184826,"total_reasoning_tokens_api":1320698},"id":{"score":0.8424999999999999,"input_tokens":181314,"answer_tokens":119297,"output_tokens":1149182,"reasoning_tokens":1029885,"total_input_tokens_api":210237,"total_answer_tokens_api":108222,"total_reasoning_tokens_api":998638},"it":{"score":0.8458333333333333,"input_tokens":199032,"answer_tokens":119587,"output_tokens":1221468,"reasoning_tokens":1101881,"total_input_tokens_api":252645,"total_answer_tokens_api":124127,"total_reasoning_tokens_api":1089388},"ja":{"score":0.8308333333333332,"input_tokens":228129,"answer_tokens":124749,"output_tokens":1386133,"reasoning_tokens":1261384,"total_input_tokens_api":211032,"total_answer_tokens_api":95215,"total_reasoning_tokens_api":1154201},"ko":{"score":0.8158333333333334,"input_tokens":199401,"answer_tokens":102434,"output_tokens":1344342,"reasoning_tokens":1241908,"total_input_tokens_api":229932,"total_answer_tokens_api":97256,"total_reasoning_tokens_api":1207210},"my":{"score":0.7399999999999999,"input_tokens":353547,"answer_tokens":109770,"output_tokens":1764989,"reasoning_tokens":1655219,"total_input_tokens_api":1177887,"total_answer_tokens_api":145082,"total_reasoning_tokens_api":2106121},"pt":{"score":0.8283333333333333,"input_tokens":178176,"answer_tokens":75806,"output_tokens":1074024,"reasoning_tokens":998218,"total_input_tokens_api":219702,"total_answer_tokens_api":74138,"total_reasoning_tokens_api":978022},"sw":{"score":0.7516666666666666,"input_tokens":208677,"answer_tokens":122203,"output_tokens":1908110,"reasoning_tokens":1785907,"total_input_tokens_api":292209,"total_answer_tokens_api":133830,"total_reasoning_tokens_api":1824037},"yo":{"score":0.4991666666666666,"input_tokens":307062,"answer_tokens":134426,"output_tokens":3614188,"reasoning_tokens":3479762,"total_input_tokens_api":435597,"total_answer_tokens_api":138906,"total_reasoning_tokens_api":3705525},"zh":{"score":0.8591666666666667,"input_tokens":179793,"answer_tokens":224599,"output_tokens":1633601,"reasoning_tokens":1409002,"total_input_tokens_api":194208,"total_answer_tokens_api":171473,"total_reasoning_tokens_api":1182902},"average":{"score":0.8091666666666666,"input_tokens":3383385,"answer_tokens":2007571,"output_tokens":24151800,"reasoning_tokens":22144229,"total_input_tokens_api":5206170,"total_answer_tokens_api":2042570,"total_reasoning_tokens_api":22535709}},"name":"MiniMax-M2","is_open_weights":true,"omniscience":-49.533,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.123,"num_correct":123,"omniscience":-62.5,"attempt_rate":0.895,"num_incorrect":748,"total_questions":1000,"num_not_attempted":105,"hallucination_rate":0.8529076396807298,"num_partial_answer":24}},"total":{"accuracy":0.20833333333333334,"num_correct":1250,"omniscience":-49.53333333333333,"attempt_rate":0.9465,"num_incorrect":4222,"total_questions":6000,"num_not_attempted":321,"hallucination_rate":0.8888421052631579,"num_partial_answer":207},"Health":{"total":{"accuracy":0.219,"num_correct":219,"omniscience":-47.6,"attempt_rate":0.967,"num_incorrect":695,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.8898847631241997,"num_partial_answer":53}},"Business":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-55.4,"attempt_rate":0.916,"num_incorrect":721,"total_questions":1000,"num_not_attempted":84,"hallucination_rate":0.865546218487395,"num_partial_answer":28}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.3,"num_correct":30,"omniscience":-34,"attempt_rate":1,"num_incorrect":64,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9142857142857143,"num_partial_answer":6}},"R":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-56,"attempt_rate":0.96,"num_incorrect":38,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.95,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-52,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-48,"attempt_rate":0.94,"num_incorrect":35,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8974358974358975,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-32,"attempt_rate":0.94,"num_incorrect":30,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8333333333333334,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-47,"attempt_rate":0.98,"num_incorrect":72,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.96,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":30,"attempt_rate":1,"num_incorrect":14,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.6666666666666666,"num_partial_answer":7}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":1,"num_incorrect":14,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.875,"num_partial_answer":2}},"total":{"accuracy":0.268,"num_correct":268,"omniscience":-40.9,"attempt_rate":0.979,"num_incorrect":677,"total_questions":1000,"num_not_attempted":21,"hallucination_rate":0.924863387978142,"num_partial_answer":34},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-60,"attempt_rate":0.98,"num_incorrect":38,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9047619047619048,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.255,"num_correct":51,"omniscience":-44,"attempt_rate":0.965,"num_incorrect":139,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9328859060402684,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-40,"attempt_rate":0.990909090909091,"num_incorrect":75,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9493670886075949,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-43.333333333333336,"attempt_rate":0.9888888888888889,"num_incorrect":62,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9253731343283582,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.189,"num_correct":189,"omniscience":-55.1,"attempt_rate":0.948,"num_incorrect":740,"total_questions":1000,"num_not_attempted":52,"hallucination_rate":0.9124537607891492,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.284,"num_correct":284,"omniscience":-35.7,"attempt_rate":0.974,"num_incorrect":641,"total_questions":1000,"num_not_attempted":26,"hallucination_rate":0.8952513966480447,"num_partial_answer":49}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":230,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-10-26","representative_query_token_counts":null,"scicode":0.361,"short_name":"MiniMax-M2","show_host_model_evals":false,"size_class":"Large","slug":"minimax-m2","tau2":0.868,"terminalbench_hard":0.241,"tokenizer_id":null,"model_creators":{"id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","logo":"minimax.webp","name":"MiniMax","slug":"minimax","color":"#EB3568","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","created_at":"2024-10-09T18:26:15.518615+00:00","logo_small":"minimax_small.svg","creator_url":"https://minimaxi.com/","display_order":25,"logo_url":"/img/logos/minimax.webp","logo_small_url":"/img/logos/minimax_small.svg"},"host_models":[{"id":"5379ddf7-c693-4ccf-b106-98fca62e40d7","slug":"deepinfra_minimax-m2","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"MiniMaxAI/MiniMax-M2","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_MiniMax-M2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.254,"price_1m_output_tokens":1.02,"price_1m_blended_3_to_1":0.4455,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.24,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"6cab1cf7-f0d0-4482-99a0-693f17061bbb","slug":"amazon-bedrock_minimax-m2","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"minimax.minimax-m2","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_MiniMax-M2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0cae9080-4f73-4d99-bfbd-2a2bb297334b","slug":"novita_minimax-m2","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"minimax/minimax-m2","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_MiniMax-M2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":204800,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"33ea17d3-2a33-4282-a74f-37926fbbb158","slug":"fireworks_minimax-m2","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/minimax-m2","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_MiniMax-M2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":196608,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c5cd8234-917f-4640-9660-e7085a441128","slug":"google_minimax-m2_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"minimaxai/minimax-m2-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_MiniMax-M2_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":196608,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f6350818-84a0-4940-a9b6-1e963cadba83","slug":"gmi_minimax-m2_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"MiniMaxAI/MiniMax-M2","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_MiniMax-M2_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":196608,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"a9a6b1f0-ccb9-4542-ac36-c3da2b8d74ff","slug":"minimax_minimax-m2","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","gpqa_16x":null,"model_id":"f74ea286-cd29-4eb4-af14-1389b19c21e5","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"M2-preview-1004","function_calling":true,"cache_write_price":null,"host_model_string":"MiniMax_MiniMax-M2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/minimax-m2","hosts_url":"/models/minimax-m2/providers","name_and_creator_label":"MiniMax-M2, MiniMax"},{"additional_text":null,"aime":null,"aime25":0.827,"agentic_index":47.59,"coding_index":31.55,"commercial_allowed":true,"computed_performance_host_model_id":"0df440a5-1172-4feb-8a5e-26aec6214a37","context_window_tokens":204800,"critpt":0.003,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":472,"estimated_intelligence_index":37.850150379154066,"model_family_slug":"MiniMax-M2","frontier_model":false,"gdpval":1075.1224423174558,"gpqa":0.83,"hle":0.222,"humaneval":null,"id":"272ff333-442f-4169-a804-ac9177bc99d7","ifbench":0.699,"inference_parameters_active_billions":10,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":39.29,"intelligence_index_token_counts":{"input_tokens":147919655,"answer_tokens":7316425,"output_tokens":58364061,"reasoning_tokens":51047636},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.59,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.81,"math_500":null,"math_index":82.67,"mmlu_pro":0.875,"mmmu_pro":null,"model_creator_id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","model_weights_source_url":"https://huggingface.co/MiniMaxAI/MiniMax-M2-1","multilingual_aa":{"ar":{"score":0.8433333333333334,"input_tokens":188556,"answer_tokens":198690,"output_tokens":665347,"reasoning_tokens":466657,"total_input_tokens_api":232854,"total_answer_tokens_api":192572,"total_reasoning_tokens_api":450888},"bn":{"score":0.8491666666666667,"input_tokens":225534,"answer_tokens":286308,"output_tokens":816203,"reasoning_tokens":529895,"total_input_tokens_api":469119,"total_answer_tokens_api":545213,"total_reasoning_tokens_api":555360},"de":{"score":0.8941666666666667,"input_tokens":191646,"answer_tokens":279949,"output_tokens":946668,"reasoning_tokens":666719,"total_input_tokens_api":255987,"total_answer_tokens_api":306583,"total_reasoning_tokens_api":663230},"en":{"score":0.9191666666666668,"input_tokens":159654,"answer_tokens":192118,"output_tokens":921951,"reasoning_tokens":729833,"total_input_tokens_api":205815,"total_answer_tokens_api":188381,"total_reasoning_tokens_api":711194},"es":{"score":0.8841666666666667,"input_tokens":182088,"answer_tokens":252773,"output_tokens":823104,"reasoning_tokens":570331,"total_input_tokens_api":223035,"total_answer_tokens_api":239335,"total_reasoning_tokens_api":552528},"fr":{"score":0.8858333333333333,"input_tokens":191346,"answer_tokens":246773,"output_tokens":837889,"reasoning_tokens":591116,"total_input_tokens_api":232059,"total_answer_tokens_api":234777,"total_reasoning_tokens_api":573276},"hi":{"score":0.8475,"input_tokens":209430,"answer_tokens":265189,"output_tokens":771189,"reasoning_tokens":506000,"total_input_tokens_api":380652,"total_answer_tokens_api":436636,"total_reasoning_tokens_api":519092},"id":{"score":0.8716666666666666,"input_tokens":181314,"answer_tokens":281033,"output_tokens":837671,"reasoning_tokens":556638,"total_input_tokens_api":212637,"total_answer_tokens_api":244884,"total_reasoning_tokens_api":534759},"it":{"score":0.8841666666666667,"input_tokens":199032,"answer_tokens":294692,"output_tokens":850472,"reasoning_tokens":555780,"total_input_tokens_api":255045,"total_answer_tokens_api":309552,"total_reasoning_tokens_api":547531},"ja":{"score":0.8724999999999999,"input_tokens":228129,"answer_tokens":304391,"output_tokens":911787,"reasoning_tokens":607396,"total_input_tokens_api":213432,"total_answer_tokens_api":200509,"total_reasoning_tokens_api":567889},"ko":{"score":0.8641666666666667,"input_tokens":199401,"answer_tokens":245002,"output_tokens":827424,"reasoning_tokens":582422,"total_input_tokens_api":232332,"total_answer_tokens_api":223860,"total_reasoning_tokens_api":562605},"my":{"score":0.7758333333333334,"input_tokens":353547,"answer_tokens":432324,"output_tokens":1022535,"reasoning_tokens":590211,"total_input_tokens_api":1180281,"total_answer_tokens_api":1263542,"total_reasoning_tokens_api":763545},"pt":{"score":0.8799999999999999,"input_tokens":178176,"answer_tokens":240672,"output_tokens":774569,"reasoning_tokens":533897,"total_input_tokens_api":222102,"total_answer_tokens_api":232253,"total_reasoning_tokens_api":518519},"sw":{"score":0.7733333333333334,"input_tokens":208677,"answer_tokens":303618,"output_tokens":888813,"reasoning_tokens":585195,"total_input_tokens_api":294609,"total_answer_tokens_api":369617,"total_reasoning_tokens_api":584142},"yo":{"score":0.5233333333333333,"input_tokens":307062,"answer_tokens":293550,"output_tokens":1655885,"reasoning_tokens":1362335,"total_input_tokens_api":437997,"total_answer_tokens_api":343673,"total_reasoning_tokens_api":1421992},"zh":{"score":0.8716666666666667,"input_tokens":179793,"answer_tokens":246356,"output_tokens":1459390,"reasoning_tokens":1213034,"total_input_tokens_api":196608,"total_answer_tokens_api":186869,"total_reasoning_tokens_api":1018367},"average":{"score":0.8400000000000001,"input_tokens":3383385,"answer_tokens":4363438,"output_tokens":15010897,"reasoning_tokens":10647459,"total_input_tokens_api":5244564,"total_answer_tokens_api":5518256,"total_reasoning_tokens_api":10544917}},"name":"MiniMax-M2.1","is_open_weights":true,"omniscience":-29.8,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.099,"num_correct":99,"omniscience":-28,"attempt_rate":0.488,"num_incorrect":379,"total_questions":1000,"num_not_attempted":512,"hallucination_rate":0.42064372918978915,"num_partial_answer":10}},"total":{"accuracy":0.22066666666666668,"num_correct":1324,"omniscience":-29.8,"attempt_rate":0.753,"num_incorrect":3112,"total_questions":6000,"num_not_attempted":1482,"hallucination_rate":0.6655260906757913,"num_partial_answer":82},"Health":{"total":{"accuracy":0.257,"num_correct":257,"omniscience":-40.3,"attempt_rate":0.94,"num_incorrect":660,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.8882907133243607,"num_partial_answer":23}},"Business":{"total":{"accuracy":0.19,"num_correct":190,"omniscience":-35.8,"attempt_rate":0.753,"num_incorrect":548,"total_questions":1000,"num_not_attempted":247,"hallucination_rate":0.6765432098765433,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.41,"num_correct":41,"omniscience":-11,"attempt_rate":0.93,"num_incorrect":52,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.8813559322033898,"num_partial_answer":0}},"R":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-30,"attempt_rate":0.68,"num_incorrect":24,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.5853658536585366,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-38,"attempt_rate":0.74,"num_incorrect":28,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.6829268292682927,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-36,"attempt_rate":0.88,"num_incorrect":31,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8378378378378378,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-48,"attempt_rate":0.92,"num_incorrect":35,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8974358974358975,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-20,"attempt_rate":0.92,"num_incorrect":28,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.875,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-44,"attempt_rate":0.85,"num_incorrect":64,"total_questions":100,"num_not_attempted":15,"hallucination_rate":0.8,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":4,"attempt_rate":0.92,"num_incorrect":22,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8461538461538461,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-16,"attempt_rate":0.88,"num_incorrect":13,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.8125,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-16,"attempt_rate":0.88,"num_incorrect":13,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.8125,"num_partial_answer":0}},"total":{"accuracy":0.283,"num_correct":283,"omniscience":-25.9,"attempt_rate":0.829,"num_incorrect":542,"total_questions":1000,"num_not_attempted":171,"hallucination_rate":0.7559274755927475,"num_partial_answer":4},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-14,"attempt_rate":0.56,"num_incorrect":17,"total_questions":50,"num_not_attempted":22,"hallucination_rate":0.425,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.255,"num_correct":51,"omniscience":-28,"attempt_rate":0.795,"num_incorrect":107,"total_questions":200,"num_not_attempted":41,"hallucination_rate":0.7181208053691275,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.34545454545454546,"num_correct":38,"omniscience":-16.363636363636363,"attempt_rate":0.8545454545454545,"num_incorrect":56,"total_questions":110,"num_not_attempted":16,"hallucination_rate":0.7777777777777778,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.23333333333333334,"num_correct":21,"omniscience":-34.44444444444444,"attempt_rate":0.8111111111111111,"num_incorrect":52,"total_questions":90,"num_not_attempted":17,"hallucination_rate":0.7536231884057971,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.16,"num_correct":160,"omniscience":-25.6,"attempt_rate":0.587,"num_incorrect":416,"total_questions":1000,"num_not_attempted":413,"hallucination_rate":0.49523809523809526,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.335,"num_correct":335,"omniscience":-23.2,"attempt_rate":0.921,"num_incorrect":567,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.8526315789473684,"num_partial_answer":19}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":230,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-12-23","representative_query_token_counts":null,"scicode":0.407,"short_name":"MiniMax-M2.1","show_host_model_evals":false,"size_class":"Large","slug":"minimax-m2-1","tau2":0.854,"terminalbench_hard":0.27,"tokenizer_id":null,"model_creators":{"id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","logo":"minimax.webp","name":"MiniMax","slug":"minimax","color":"#EB3568","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","created_at":"2024-10-09T18:26:15.518615+00:00","logo_small":"minimax_small.svg","creator_url":"https://minimaxi.com/","display_order":25,"logo_url":"/img/logos/minimax.webp","logo_small_url":"/img/logos/minimax_small.svg"},"host_models":[{"id":"0df440a5-1172-4feb-8a5e-26aec6214a37","slug":"minimax_minimax-m2-1","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","gpqa_16x":null,"model_id":"272ff333-442f-4169-a804-ac9177bc99d7","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"MiniMax-M2.1","function_calling":true,"cache_write_price":null,"host_model_string":"MiniMax_MiniMax-M2.1","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"60a18bd9-0942-4686-a357-bd2c76f372dc","slug":"fireworks_minimax-m2-1","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"272ff333-442f-4169-a804-ac9177bc99d7","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/minimax-m2p1","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_MiniMax-M2.1","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":204800,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"aeb3dc1d-ebee-4216-a67e-ea3f530393b9","slug":"novita_minimax-m2-1","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"272ff333-442f-4169-a804-ac9177bc99d7","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"minimax/minimax-m2.1","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_MiniMax-M2.1","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":204800,"price_m_tokens_blended_3_to_1_per_dollar":1.9,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ef1df7c9-755a-4f45-b4b8-c5f8198fadc1","slug":"gmi_minimax-m2-1_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"272ff333-442f-4169-a804-ac9177bc99d7","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"MiniMaxAI/MiniMax-M2.1","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_MiniMax-M2.1_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.12,"price_1m_output_tokens":0.48,"price_1m_blended_3_to_1":0.21,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":196608,"price_m_tokens_blended_3_to_1_per_dollar":4.76,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"02b5e291-0b61-402f-b2e0-362008799c7c","slug":"deepinfra_minimax-m2-1_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"272ff333-442f-4169-a804-ac9177bc99d7","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"MiniMaxAI/MiniMax-M2.1","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_MiniMax-M2.1_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.28,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.51,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":196608,"price_m_tokens_blended_3_to_1_per_dollar":1.96,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/minimax-m2-1","hosts_url":"/models/minimax-m2-1/providers","name_and_creator_label":"MiniMax-M2.1, MiniMax"},{"additional_text":null,"aime":null,"aime25":0.677,"agentic_index":null,"coding_index":24.72,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":598,"estimated_intelligence_index":24.50237258104732,"model_family_slug":"mimo","frontier_model":null,"gdpval":null,"gpqa":0.656,"hle":0.08,"humaneval":null,"id":"82b36b4d-84dd-4bc0-ad32-e3aee9442789","ifbench":0.399,"inference_parameters_active_billions":15,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.313,"license_name":null,"license_url":null,"livecodebench":0.402,"math_500":null,"math_index":67.67,"mmlu_pro":0.744,"mmmu_pro":null,"model_creator_id":"5147c8b4-61d5-4070-9324-8adf8aa144c2","model_weights_source_url":"https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash","multilingual_aa":{"ar":{"score":0.5483333333333333,"input_tokens":188556,"answer_tokens":272345,"output_tokens":272345,"reasoning_tokens":0,"total_input_tokens_api":242814,"total_answer_tokens_api":316261,"total_reasoning_tokens_api":0},"bn":{"score":0.5225,"input_tokens":225534,"answer_tokens":336390,"output_tokens":336390,"reasoning_tokens":0,"total_input_tokens_api":584361,"total_answer_tokens_api":823791,"total_reasoning_tokens_api":0},"de":{"score":0.7583333333333333,"input_tokens":191646,"answer_tokens":310520,"output_tokens":310520,"reasoning_tokens":0,"total_input_tokens_api":249654,"total_answer_tokens_api":370663,"total_reasoning_tokens_api":0},"en":{"score":0.8066666666666666,"input_tokens":159654,"answer_tokens":299043,"output_tokens":299043,"reasoning_tokens":0,"total_input_tokens_api":189957,"total_answer_tokens_api":306259,"total_reasoning_tokens_api":0},"es":{"score":0.7433333333333335,"input_tokens":182088,"answer_tokens":258838,"output_tokens":258838,"reasoning_tokens":0,"total_input_tokens_api":232227,"total_answer_tokens_api":296569,"total_reasoning_tokens_api":0},"fr":{"score":0.7183333333333334,"input_tokens":191346,"answer_tokens":281961,"output_tokens":281961,"reasoning_tokens":0,"total_input_tokens_api":243633,"total_answer_tokens_api":323446,"total_reasoning_tokens_api":0},"hi":{"score":0.35083333333333333,"input_tokens":209430,"answer_tokens":292870,"output_tokens":292870,"reasoning_tokens":0,"total_input_tokens_api":522861,"total_answer_tokens_api":658388,"total_reasoning_tokens_api":0},"id":{"score":0.6466666666666666,"input_tokens":181314,"answer_tokens":402047,"output_tokens":402047,"reasoning_tokens":0,"total_input_tokens_api":241842,"total_answer_tokens_api":482125,"total_reasoning_tokens_api":0},"it":{"score":0.7508333333333334,"input_tokens":199032,"answer_tokens":325763,"output_tokens":325763,"reasoning_tokens":0,"total_input_tokens_api":246462,"total_answer_tokens_api":359487,"total_reasoning_tokens_api":0},"ja":{"score":0.6525,"input_tokens":228129,"answer_tokens":472987,"output_tokens":472987,"reasoning_tokens":0,"total_input_tokens_api":236820,"total_answer_tokens_api":439960,"total_reasoning_tokens_api":0},"ko":{"score":0.6725,"input_tokens":199401,"answer_tokens":330801,"output_tokens":330801,"reasoning_tokens":0,"total_input_tokens_api":246075,"total_answer_tokens_api":357715,"total_reasoning_tokens_api":0},"my":{"score":0.47750000000000004,"input_tokens":353547,"answer_tokens":724871,"output_tokens":724871,"reasoning_tokens":0,"total_input_tokens_api":925746,"total_answer_tokens_api":1745278,"total_reasoning_tokens_api":0},"pt":{"score":0.6791666666666667,"input_tokens":178176,"answer_tokens":291187,"output_tokens":291187,"reasoning_tokens":0,"total_input_tokens_api":231831,"total_answer_tokens_api":344617,"total_reasoning_tokens_api":0},"sw":{"score":0.61,"input_tokens":208677,"answer_tokens":438264,"output_tokens":438264,"reasoning_tokens":0,"total_input_tokens_api":284199,"total_answer_tokens_api":545764,"total_reasoning_tokens_api":0},"yo":{"score":0.4266666666666667,"input_tokens":307062,"answer_tokens":825777,"output_tokens":825777,"reasoning_tokens":0,"total_input_tokens_api":393510,"total_answer_tokens_api":988976,"total_reasoning_tokens_api":0},"zh":{"score":0.6575000000000001,"input_tokens":179793,"answer_tokens":519076,"output_tokens":519076,"reasoning_tokens":0,"total_input_tokens_api":194184,"total_answer_tokens_api":458215,"total_reasoning_tokens_api":0},"average":{"score":0.6263541666666667,"input_tokens":3383385,"answer_tokens":6382740,"output_tokens":6382740,"reasoning_tokens":0,"total_input_tokens_api":5266176,"total_answer_tokens_api":8817514,"total_reasoning_tokens_api":0}},"name":"MiMo-V2-Flash (Non-reasoning)","is_open_weights":true,"omniscience":-44.6,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.088,"num_correct":88,"omniscience":-45,"attempt_rate":0.637,"num_incorrect":538,"total_questions":1000,"num_not_attempted":363,"hallucination_rate":0.5899122807017544,"num_partial_answer":11}},"total":{"accuracy":0.16316666666666665,"num_correct":979,"omniscience":-44.6,"attempt_rate":0.8083333333333333,"num_incorrect":3655,"total_questions":6000,"num_not_attempted":1150,"hallucination_rate":0.7279426409081856,"num_partial_answer":216},"Health":{"total":{"accuracy":0.162,"num_correct":162,"omniscience":-39.9,"attempt_rate":0.815,"num_incorrect":561,"total_questions":1000,"num_not_attempted":185,"hallucination_rate":0.6694510739856802,"num_partial_answer":92}},"Business":{"total":{"accuracy":0.13,"num_correct":130,"omniscience":-50.6,"attempt_rate":0.796,"num_incorrect":636,"total_questions":1000,"num_not_attempted":204,"hallucination_rate":0.7310344827586207,"num_partial_answer":30}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.34,"num_correct":34,"omniscience":-29,"attempt_rate":0.98,"num_incorrect":63,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"R":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-46,"attempt_rate":0.82,"num_incorrect":32,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7804878048780488,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-44,"attempt_rate":0.86,"num_incorrect":31,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7560975609756098,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-34,"attempt_rate":0.88,"num_incorrect":30,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8108108108108109,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-40,"attempt_rate":0.92,"num_incorrect":32,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8421052631578947,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-32,"attempt_rate":0.9,"num_incorrect":30,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8333333333333334,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-59,"attempt_rate":0.89,"num_incorrect":73,"total_questions":100,"num_not_attempted":11,"hallucination_rate":0.8488372093023255,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":0,"attempt_rate":0.96,"num_incorrect":23,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8518518518518519,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":14,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8235294117647058,"num_partial_answer":2}},"total":{"accuracy":0.253,"num_correct":253,"omniscience":-37.7,"attempt_rate":0.907,"num_incorrect":630,"total_questions":1000,"num_not_attempted":93,"hallucination_rate":0.8433734939759037,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-60,"attempt_rate":0.94,"num_incorrect":38,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9047619047619048,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.235,"num_correct":47,"omniscience":-34,"attempt_rate":0.835,"num_incorrect":115,"total_questions":200,"num_not_attempted":33,"hallucination_rate":0.7516339869281046,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-27.272727272727273,"attempt_rate":0.9454545454545454,"num_incorrect":66,"total_questions":110,"num_not_attempted":6,"hallucination_rate":0.8918918918918919,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.24444444444444444,"num_correct":22,"omniscience":-45.55555555555556,"attempt_rate":0.9666666666666667,"num_incorrect":63,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9264705882352942,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.158,"num_correct":158,"omniscience":-45.8,"attempt_rate":0.789,"num_incorrect":616,"total_questions":1000,"num_not_attempted":211,"hallucination_rate":0.7315914489311164,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.188,"num_correct":188,"omniscience":-48.6,"attempt_rate":0.906,"num_incorrect":674,"total_questions":1000,"num_not_attempted":94,"hallucination_rate":0.8300492610837439,"num_partial_answer":44}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":262144,"parameters":309,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-16","representative_query_token_counts":null,"scicode":0.259,"short_name":"MiMo-V2-Flash","show_host_model_evals":false,"size_class":"Large","slug":"mimo-v2-flash","tau2":0.839,"terminalbench_hard":0.241,"tokenizer_id":null,"model_creators":{"id":"5147c8b4-61d5-4070-9324-8adf8aa144c2","logo":"xiaomi.png","name":"Xiaomi","slug":"xiaomi","color":"#ff6900","deleted":false,"host_id":null,"created_at":"2025-05-02T02:39:04.320004+00:00","logo_small":"xiaomi_small.svg","creator_url":"https://huggingface.co/XiaomiMiMo","display_order":77,"logo_url":"/img/logos/xiaomi.png","logo_small_url":"/img/logos/xiaomi_small.svg"},"host_models":[{"id":"03a2758e-b0c6-48c0-8d98-cd0ba53b429a","slug":"xiaomi_mimo-v2-flash","deleted":false,"host_id":"13322191-4a01-4827-883e-d138358987e2","gpqa_16x":null,"model_id":"82b36b4d-84dd-4bc0-ad32-e3aee9442789","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mimo-v2-flash","function_calling":true,"cache_write_price":null,"host_model_string":"Xiaomi_MiMo-V2-Flash (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mimo-v2-flash","hosts_url":"/models/mimo-v2-flash/providers","name_and_creator_label":"MiMo-V2-Flash, Xiaomi"},{"additional_text":null,"aime":null,"aime25":0.963,"agentic_index":52.45,"coding_index":30.61,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":0.043,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":599,"estimated_intelligence_index":41.6278724157506,"model_family_slug":"mimo","frontier_model":false,"gdpval":1124.322328012167,"gpqa":0.846,"hle":0.211,"humaneval":null,"id":"be185709-ddb4-4268-9597-856464359b25","ifbench":0.642,"inference_parameters_active_billions":15,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":39.03,"intelligence_index_token_counts":{"input_tokens":180649700,"answer_tokens":4056826,"output_tokens":98070100,"reasoning_tokens":94013274},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.63,"license_name":null,"license_url":null,"livecodebench":0.868,"math_500":null,"math_index":96.33,"mmlu_pro":0.843,"mmmu_pro":null,"model_creator_id":"5147c8b4-61d5-4070-9324-8adf8aa144c2","model_weights_source_url":"https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash","multilingual_aa":{"ar":{"score":0.8541666666666666,"input_tokens":188556,"answer_tokens":508767,"output_tokens":3005551,"reasoning_tokens":2496784,"total_input_tokens_api":240414,"total_answer_tokens_api":526605,"total_reasoning_tokens_api":2604628},"bn":{"score":0.8416666666666667,"input_tokens":225534,"answer_tokens":300086,"output_tokens":3247444,"reasoning_tokens":2947358,"total_input_tokens_api":581961,"total_answer_tokens_api":533530,"total_reasoning_tokens_api":3550970},"de":{"score":0.8866666666666667,"input_tokens":191646,"answer_tokens":368367,"output_tokens":2411600,"reasoning_tokens":2043233,"total_input_tokens_api":247254,"total_answer_tokens_api":434843,"total_reasoning_tokens_api":2289685},"en":{"score":0.915,"input_tokens":159654,"answer_tokens":52238,"output_tokens":1685902,"reasoning_tokens":1633664,"total_input_tokens_api":187557,"total_answer_tokens_api":57467,"total_reasoning_tokens_api":1695576},"es":{"score":0.8983333333333333,"input_tokens":182088,"answer_tokens":51530,"output_tokens":2093889,"reasoning_tokens":2042359,"total_input_tokens_api":229827,"total_answer_tokens_api":62610,"total_reasoning_tokens_api":2152362},"fr":{"score":0.89,"input_tokens":191346,"answer_tokens":84795,"output_tokens":2088743,"reasoning_tokens":2003948,"total_input_tokens_api":241233,"total_answer_tokens_api":101441,"total_reasoning_tokens_api":2134461},"hi":{"score":0.8500000000000001,"input_tokens":209430,"answer_tokens":132349,"output_tokens":2430375,"reasoning_tokens":2298026,"total_input_tokens_api":520461,"total_answer_tokens_api":322200,"total_reasoning_tokens_api":2985297},"id":{"score":0.8650000000000001,"input_tokens":181314,"answer_tokens":219754,"output_tokens":2035280,"reasoning_tokens":1815526,"total_input_tokens_api":239442,"total_answer_tokens_api":275541,"total_reasoning_tokens_api":2059037},"it":{"score":0.8916666666666666,"input_tokens":199032,"answer_tokens":53330,"output_tokens":2011958,"reasoning_tokens":1958628,"total_input_tokens_api":244062,"total_answer_tokens_api":62608,"total_reasoning_tokens_api":2064862},"ja":{"score":0.8616666666666667,"input_tokens":228129,"answer_tokens":135651,"output_tokens":2563992,"reasoning_tokens":2428341,"total_input_tokens_api":234420,"total_answer_tokens_api":133274,"total_reasoning_tokens_api":2459801},"ko":{"score":0.8758333333333334,"input_tokens":199401,"answer_tokens":57184,"output_tokens":2428355,"reasoning_tokens":2371171,"total_input_tokens_api":243675,"total_answer_tokens_api":67534,"total_reasoning_tokens_api":2466130},"my":{"score":0.785,"input_tokens":353547,"answer_tokens":446154,"output_tokens":3669297,"reasoning_tokens":3223143,"total_input_tokens_api":923352,"total_answer_tokens_api":716441,"total_reasoning_tokens_api":4454872},"pt":{"score":0.88,"input_tokens":178176,"answer_tokens":74002,"output_tokens":1962755,"reasoning_tokens":1888753,"total_input_tokens_api":229431,"total_answer_tokens_api":90434,"total_reasoning_tokens_api":1996819},"sw":{"score":0.7758333333333334,"input_tokens":208677,"answer_tokens":95225,"output_tokens":2442541,"reasoning_tokens":2347316,"total_input_tokens_api":281799,"total_answer_tokens_api":115601,"total_reasoning_tokens_api":2526462},"yo":{"score":0.5541666666666667,"input_tokens":307062,"answer_tokens":66858,"output_tokens":6559040,"reasoning_tokens":6492182,"total_input_tokens_api":391110,"total_answer_tokens_api":82538,"total_reasoning_tokens_api":7078207},"zh":{"score":0.8849999999999999,"input_tokens":179793,"answer_tokens":174855,"output_tokens":2102247,"reasoning_tokens":1927392,"total_input_tokens_api":191784,"total_answer_tokens_api":162555,"total_reasoning_tokens_api":1756064},"average":{"score":0.8443750000000001,"input_tokens":3383385,"answer_tokens":2821145,"output_tokens":42738969,"reasoning_tokens":39917824,"total_input_tokens_api":5227782,"total_answer_tokens_api":3745222,"total_reasoning_tokens_api":44275233}},"name":"MiMo-V2-Flash (Reasoning)","is_open_weights":true,"omniscience":-41.833,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.15,"num_correct":150,"omniscience":-63.6,"attempt_rate":0.944,"num_incorrect":786,"total_questions":1000,"num_not_attempted":56,"hallucination_rate":0.9247058823529412,"num_partial_answer":8}},"total":{"accuracy":0.2633333333333333,"num_correct":1580,"omniscience":-41.833333333333336,"attempt_rate":0.9618333333333333,"num_incorrect":4090,"total_questions":6000,"num_not_attempted":229,"hallucination_rate":0.9253393665158371,"num_partial_answer":101},"Health":{"total":{"accuracy":0.251,"num_correct":251,"omniscience":-45.1,"attempt_rate":0.981,"num_incorrect":702,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.9372496662216289,"num_partial_answer":28}},"Business":{"total":{"accuracy":0.205,"num_correct":205,"omniscience":-49.5,"attempt_rate":0.927,"num_incorrect":700,"total_questions":1000,"num_not_attempted":73,"hallucination_rate":0.8805031446540881,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.48,"num_correct":48,"omniscience":-4,"attempt_rate":1,"num_incorrect":52,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"R":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.94,"num_incorrect":33,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9166666666666666,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.94,"num_incorrect":31,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8857142857142857,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.96,"num_incorrect":33,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-40,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-34,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9705882352941176,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.23,"num_correct":23,"omniscience":-54,"attempt_rate":1,"num_incorrect":77,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":26,"attempt_rate":0.98,"num_incorrect":18,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-28,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":8,"attempt_rate":0.96,"num_incorrect":11,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9166666666666666,"num_partial_answer":0}},"total":{"accuracy":0.348,"num_correct":348,"omniscience":-27.5,"attempt_rate":0.984,"num_incorrect":623,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.9555214723926381,"num_partial_answer":13},"Kotlin":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.96,"num_incorrect":33,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.315,"num_correct":63,"omniscience":-33,"attempt_rate":0.98,"num_incorrect":129,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9416058394160584,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.4090909090909091,"num_correct":45,"omniscience":-15.454545454545455,"attempt_rate":1,"num_incorrect":62,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9538461538461539,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.3111111111111111,"num_correct":28,"omniscience":-35.55555555555556,"attempt_rate":1,"num_incorrect":60,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.967741935483871,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.233,"num_correct":233,"omniscience":-48.4,"attempt_rate":0.962,"num_incorrect":717,"total_questions":1000,"num_not_attempted":38,"hallucination_rate":0.9348109517601043,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.393,"num_correct":393,"omniscience":-16.9,"attempt_rate":0.973,"num_incorrect":562,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9258649093904449,"num_partial_answer":18}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":262144,"parameters":309,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","pass_back_reasoning":true},"release_date":"2025-12-16","representative_query_token_counts":null,"scicode":0.394,"short_name":"MiMo-V2-Flash","show_host_model_evals":false,"size_class":"Large","slug":"mimo-v2-flash-reasoning","tau2":0.95,"terminalbench_hard":0.262,"tokenizer_id":null,"model_creators":{"id":"5147c8b4-61d5-4070-9324-8adf8aa144c2","logo":"xiaomi.png","name":"Xiaomi","slug":"xiaomi","color":"#ff6900","deleted":false,"host_id":null,"created_at":"2025-05-02T02:39:04.320004+00:00","logo_small":"xiaomi_small.svg","creator_url":"https://huggingface.co/XiaomiMiMo","display_order":77,"logo_url":"/img/logos/xiaomi.png","logo_small_url":"/img/logos/xiaomi_small.svg"},"host_models":[{"id":"68859693-e23a-4590-9eb8-9a7a235a4770","slug":"xiaomi_mimo-v2-flash-reasoning","deleted":false,"host_id":"13322191-4a01-4827-883e-d138358987e2","gpqa_16x":null,"model_id":"be185709-ddb4-4268-9597-856464359b25","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mimo-v2-flash","function_calling":true,"cache_write_price":null,"host_model_string":"Xiaomi_MiMo-V2-Flash (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mimo-v2-flash-reasoning","hosts_url":"/models/mimo-v2-flash-reasoning/providers","name_and_creator_label":"MiMo-V2-Flash, Xiaomi"},{"additional_text":null,"aime":null,"aime25":0.947,"agentic_index":41.82,"coding_index":17.87,"commercial_allowed":null,"computed_performance_host_model_id":"39c0dde8-9de3-4c11-8d10-9b1e3adeb799","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":641,"estimated_intelligence_index":39.000713970763684,"model_family_slug":"kat_code","frontier_model":false,"gdpval":855.4445629324221,"gpqa":0.764,"hle":0.334,"humaneval":null,"id":"fb112343-c82c-4b43-afea-996bd5101d62","ifbench":0.684,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":36.03,"intelligence_index_token_counts":{"input_tokens":287832065,"answer_tokens":5096988,"output_tokens":5096988,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.74,"license_name":null,"license_url":null,"livecodebench":0.747,"math_500":null,"math_index":94.67,"mmlu_pro":0.813,"mmmu_pro":null,"model_creator_id":"2703c169-86d9-406b-8be1-ae5be8177f3c","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8433333333333334,"input_tokens":188556,"answer_tokens":296307,"output_tokens":296307,"reasoning_tokens":0,"total_input_tokens_api":221214,"total_answer_tokens_api":310384,"total_reasoning_tokens_api":0},"bn":{"score":0.8233333333333334,"input_tokens":225534,"answer_tokens":293752,"output_tokens":293752,"reasoning_tokens":0,"total_input_tokens_api":562761,"total_answer_tokens_api":355966,"total_reasoning_tokens_api":0},"de":{"score":0.8633333333333333,"input_tokens":191646,"answer_tokens":279306,"output_tokens":279306,"reasoning_tokens":0,"total_input_tokens_api":228054,"total_answer_tokens_api":298642,"total_reasoning_tokens_api":0},"en":{"score":0.9075000000000001,"input_tokens":159654,"answer_tokens":286666,"output_tokens":286666,"reasoning_tokens":0,"total_input_tokens_api":168357,"total_answer_tokens_api":295347,"total_reasoning_tokens_api":0},"es":{"score":0.8716666666666667,"input_tokens":182088,"answer_tokens":261133,"output_tokens":261133,"reasoning_tokens":0,"total_input_tokens_api":210627,"total_answer_tokens_api":278138,"total_reasoning_tokens_api":0},"fr":{"score":0.8658333333333333,"input_tokens":191346,"answer_tokens":288967,"output_tokens":288967,"reasoning_tokens":0,"total_input_tokens_api":222033,"total_answer_tokens_api":307586,"total_reasoning_tokens_api":0},"hi":{"score":0.8291666666666666,"input_tokens":209430,"answer_tokens":279671,"output_tokens":279671,"reasoning_tokens":0,"total_input_tokens_api":501261,"total_answer_tokens_api":316636,"total_reasoning_tokens_api":0},"id":{"score":0.8633333333333333,"input_tokens":181314,"answer_tokens":287101,"output_tokens":287101,"reasoning_tokens":0,"total_input_tokens_api":220242,"total_answer_tokens_api":349098,"total_reasoning_tokens_api":0},"it":{"score":0.8633333333333333,"input_tokens":199032,"answer_tokens":285796,"output_tokens":285796,"reasoning_tokens":0,"total_input_tokens_api":224862,"total_answer_tokens_api":299382,"total_reasoning_tokens_api":0},"ja":{"score":0.8483333333333333,"input_tokens":228129,"answer_tokens":315788,"output_tokens":315788,"reasoning_tokens":0,"total_input_tokens_api":215220,"total_answer_tokens_api":317710,"total_reasoning_tokens_api":0},"ko":{"score":0.8441666666666666,"input_tokens":199401,"answer_tokens":288384,"output_tokens":288384,"reasoning_tokens":0,"total_input_tokens_api":224475,"total_answer_tokens_api":302309,"total_reasoning_tokens_api":0},"my":{"score":0.7733333333333334,"input_tokens":353547,"answer_tokens":288716,"output_tokens":288716,"reasoning_tokens":0,"total_input_tokens_api":904200,"total_answer_tokens_api":386992,"total_reasoning_tokens_api":0},"pt":{"score":0.8574999999999999,"input_tokens":178176,"answer_tokens":262500,"output_tokens":262500,"reasoning_tokens":0,"total_input_tokens_api":210231,"total_answer_tokens_api":284309,"total_reasoning_tokens_api":0},"sw":{"score":0.6516666666666667,"input_tokens":208677,"answer_tokens":302433,"output_tokens":302433,"reasoning_tokens":0,"total_input_tokens_api":262599,"total_answer_tokens_api":329166,"total_reasoning_tokens_api":0},"yo":{"score":0.4791666666666667,"input_tokens":307062,"answer_tokens":293973,"output_tokens":293973,"reasoning_tokens":0,"total_input_tokens_api":371910,"total_answer_tokens_api":316795,"total_reasoning_tokens_api":0},"zh":{"score":0.8841666666666667,"input_tokens":179793,"answer_tokens":287365,"output_tokens":287365,"reasoning_tokens":0,"total_input_tokens_api":172584,"total_answer_tokens_api":285789,"total_reasoning_tokens_api":0},"average":{"score":0.8168229166666667,"input_tokens":3383385,"answer_tokens":4597858,"output_tokens":4597858,"reasoning_tokens":0,"total_input_tokens_api":4920630,"total_answer_tokens_api":5034249,"total_reasoning_tokens_api":0}},"name":"KAT-Coder-Pro V1","is_open_weights":false,"omniscience":-35.533,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.079,"num_correct":79,"omniscience":-39.2,"attempt_rate":0.558,"num_incorrect":471,"total_questions":1000,"num_not_attempted":442,"hallucination_rate":0.511400651465798,"num_partial_answer":8}},"total":{"accuracy":0.18466666666666667,"num_correct":1108,"omniscience":-35.53333333333333,"attempt_rate":0.7406666666666667,"num_incorrect":3240,"total_questions":6000,"num_not_attempted":1556,"hallucination_rate":0.6623058053965658,"num_partial_answer":96},"Health":{"total":{"accuracy":0.172,"num_correct":172,"omniscience":-41.8,"attempt_rate":0.794,"num_incorrect":590,"total_questions":1000,"num_not_attempted":206,"hallucination_rate":0.7125603864734299,"num_partial_answer":32}},"Business":{"total":{"accuracy":0.137,"num_correct":137,"omniscience":-32.9,"attempt_rate":0.616,"num_incorrect":466,"total_questions":1000,"num_not_attempted":384,"hallucination_rate":0.5399768250289687,"num_partial_answer":13}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.48,"num_correct":48,"omniscience":-4,"attempt_rate":1,"num_incorrect":52,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-44,"attempt_rate":0.84,"num_incorrect":32,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.8,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-44,"attempt_rate":0.76,"num_incorrect":30,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.7142857142857143,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":31,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.96875,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-54,"attempt_rate":0.9,"num_incorrect":36,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8780487804878049,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-30,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9696969696969697,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-45,"attempt_rate":0.83,"num_incorrect":64,"total_questions":100,"num_not_attempted":17,"hallucination_rate":0.7901234567901234,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":4,"attempt_rate":0.94,"num_incorrect":21,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7777777777777778,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-28,"attempt_rate":0.8,"num_incorrect":13,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.6842105263157895,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":16,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":0}},"total":{"accuracy":0.29,"num_correct":290,"omniscience":-33,"attempt_rate":0.921,"num_incorrect":620,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.8732394366197183,"num_partial_answer":11},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.92,"num_incorrect":31,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8857142857142857,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.26,"num_correct":52,"omniscience":-35.5,"attempt_rate":0.9,"num_incorrect":123,"total_questions":200,"num_not_attempted":20,"hallucination_rate":0.831081081081081,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.33636363636363636,"num_correct":37,"omniscience":-30.90909090909091,"attempt_rate":0.990909090909091,"num_incorrect":71,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9726027397260274,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.2222222222222222,"num_correct":20,"omniscience":-53.333333333333336,"attempt_rate":0.9888888888888889,"num_incorrect":68,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9714285714285714,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.173,"num_correct":173,"omniscience":-38.7,"attempt_rate":0.741,"num_incorrect":560,"total_questions":1000,"num_not_attempted":259,"hallucination_rate":0.6771463119709794,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.257,"num_correct":257,"omniscience":-27.6,"attempt_rate":0.814,"num_incorrect":533,"total_questions":1000,"num_not_attempted":186,"hallucination_rate":0.7173620457604307,"num_partial_answer":24}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-11-11","representative_query_token_counts":null,"scicode":0.366,"short_name":"KAT-Coder-Pro V1","show_host_model_evals":false,"size_class":null,"slug":"kat-coder-pro-v1","tau2":0.886,"terminalbench_hard":0.085,"tokenizer_id":null,"model_creators":{"id":"2703c169-86d9-406b-8be1-ae5be8177f3c","logo":"","name":"KwaiKAT","slug":"kwaikat","color":"#0c69ff","deleted":true,"host_id":null,"created_at":"2025-11-30T21:23:26.937874+00:00","logo_small":"kwaikat_small.svg","creator_url":"https://www.streamlake.ai/product/kat-coder","display_order":111,"logo_url":"/img/logos/","logo_small_url":"/img/logos/kwaikat_small.svg"},"host_models":[{"id":"39c0dde8-9de3-4c11-8d10-9b1e3adeb799","slug":"novita_kat-coder-pro-v1","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"fb112343-c82c-4b43-afea-996bd5101d62","footnotes":"Free on Novita","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"kat-coder","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_KAT-Coder-Pro V1","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0,"price_1m_output_tokens":0,"price_1m_blended_3_to_1":0,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":256000,"price_m_tokens_blended_3_to_1_per_dollar":null,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/kat-coder-pro-v1","hosts_url":"/models/kat-coder-pro-v1/providers","name_and_creator_label":"KAT-Coder-Pro V1, KwaiKAT"},{"additional_text":null,"aime":null,"aime25":0.337,"agentic_index":24.27,"coding_index":12.24,"commercial_allowed":null,"computed_performance_host_model_id":"efe698e8-9ae1-451c-a5a0-6831936f4b2f","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":441,"estimated_intelligence_index":18.570604974774277,"model_family_slug":"nova-2","frontier_model":false,"gdpval":570.7429564715144,"gpqa":0.603,"hle":0.03,"humaneval":null,"id":"76bce7fb-3a3f-4b66-a78d-35ccf3edf5d2","ifbench":0.405,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":18.67,"intelligence_index_token_counts":{"input_tokens":862008259,"answer_tokens":74072128,"output_tokens":74072128,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.177,"license_name":null,"license_url":null,"livecodebench":0.346,"math_500":null,"math_index":33.67,"mmlu_pro":0.743,"mmmu_pro":0.49,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":null,"name":"Nova 2.0 Lite (Non-reasoning)","is_open_weights":false,"omniscience":-60.483,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.066,"num_correct":66,"omniscience":-59.3,"attempt_rate":0.738,"num_incorrect":659,"total_questions":1000,"num_not_attempted":262,"hallucination_rate":0.7055674518201285,"num_partial_answer":13}},"total":{"accuracy":0.13283333333333333,"num_correct":797,"omniscience":-60.483333333333334,"attempt_rate":0.8973333333333333,"num_incorrect":4426,"total_questions":6000,"num_not_attempted":616,"hallucination_rate":0.8506630789928887,"num_partial_answer":161},"Health":{"total":{"accuracy":0.132,"num_correct":132,"omniscience":-64.8,"attempt_rate":0.96,"num_incorrect":780,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.8986175115207373,"num_partial_answer":48}},"Business":{"total":{"accuracy":0.112,"num_correct":112,"omniscience":-61.7,"attempt_rate":0.862,"num_incorrect":729,"total_questions":1000,"num_not_attempted":138,"hallucination_rate":0.8209459459459459,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-56,"attempt_rate":0.99,"num_incorrect":77,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9746835443037974,"num_partial_answer":1}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-92,"attempt_rate":0.96,"num_incorrect":47,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9591836734693877,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":40,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":4}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9534883720930233,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-62,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8837209302325582,"num_partial_answer":5}},"Java":{"total":{"accuracy":0.12,"num_correct":12,"omniscience":-72,"attempt_rate":0.97,"num_incorrect":84,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-28,"attempt_rate":0.98,"num_incorrect":28,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.7777777777777778,"num_partial_answer":7}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-84,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-36,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.173,"num_correct":173,"omniscience":-59.4,"attempt_rate":0.973,"num_incorrect":767,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9274486094316807,"num_partial_answer":33},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-54,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8780487804878049,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.175,"num_correct":35,"omniscience":-58,"attempt_rate":0.95,"num_incorrect":151,"total_questions":200,"num_not_attempted":10,"hallucination_rate":0.9151515151515152,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.21818181818181817,"num_correct":24,"omniscience":-50,"attempt_rate":0.9818181818181818,"num_incorrect":79,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9186046511627907,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.16666666666666666,"num_correct":15,"omniscience":-62.22222222222222,"attempt_rate":0.9777777777777777,"num_incorrect":71,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9466666666666667,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.15,"num_correct":150,"omniscience":-61.2,"attempt_rate":0.929,"num_incorrect":762,"total_questions":1000,"num_not_attempted":71,"hallucination_rate":0.8964705882352941,"num_partial_answer":17}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.164,"num_correct":164,"omniscience":-56.5,"attempt_rate":0.922,"num_incorrect":729,"total_questions":1000,"num_not_attempted":78,"hallucination_rate":0.8720095693779905,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-10-29","representative_query_token_counts":null,"scicode":0.24,"short_name":"Nova 2.0 Lite","show_host_model_evals":false,"size_class":"Medium","slug":"nova-2-0-lite","tau2":0.62,"terminalbench_hard":0.064,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"efe698e8-9ae1-451c-a5a0-6831936f4b2f","slug":"amazon-bedrock_nova-2-0-lite","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"76bce7fb-3a3f-4b66-a78d-35ccf3edf5d2","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-lite-v1:0","function_calling":null,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Lite (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-lite","hosts_url":"/models/nova-2-0-lite/providers","name_and_creator_label":"Nova 2.0 Lite, Amazon"},{"additional_text":null,"aime":null,"aime25":0.467,"agentic_index":30.59,"coding_index":13.48,"commercial_allowed":null,"computed_performance_host_model_id":"84c2b973-510b-48f7-b3e9-e9a068664796","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":438,"estimated_intelligence_index":24.980985435655143,"model_family_slug":"nova-2","frontier_model":false,"gdpval":683.4810133892288,"gpqa":0.698,"hle":0.042,"humaneval":null,"id":"6fd796d3-f346-4f66-97df-5da81714fc73","ifbench":0.612,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":24.9,"intelligence_index_token_counts":{"input_tokens":54428192,"answer_tokens":2214930,"output_tokens":20966556,"reasoning_tokens":18751626},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.52,"license_name":null,"license_url":null,"livecodebench":0.469,"math_500":null,"math_index":46.67,"mmlu_pro":0.788,"mmmu_pro":0.58,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":null,"name":"Nova 2.0 Lite (low)","is_open_weights":false,"omniscience":-54.95,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.092,"num_correct":92,"omniscience":-62.2,"attempt_rate":0.813,"num_incorrect":714,"total_questions":1000,"num_not_attempted":187,"hallucination_rate":0.7863436123348018,"num_partial_answer":7}},"total":{"accuracy":0.1675,"num_correct":1005,"omniscience":-54.95,"attempt_rate":0.9048333333333334,"num_incorrect":4302,"total_questions":6000,"num_not_attempted":571,"hallucination_rate":0.8612612612612612,"num_partial_answer":122},"Health":{"total":{"accuracy":0.175,"num_correct":175,"omniscience":-56.4,"attempt_rate":0.938,"num_incorrect":739,"total_questions":1000,"num_not_attempted":62,"hallucination_rate":0.8957575757575758,"num_partial_answer":24}},"Business":{"total":{"accuracy":0.137,"num_correct":137,"omniscience":-57.5,"attempt_rate":0.867,"num_incorrect":712,"total_questions":1000,"num_not_attempted":133,"hallucination_rate":0.8250289687137891,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.26,"num_correct":26,"omniscience":-46,"attempt_rate":1,"num_incorrect":72,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.972972972972973,"num_partial_answer":2}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-80,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-60,"attempt_rate":0.9,"num_incorrect":37,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8604651162790697,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-68,"attempt_rate":0.94,"num_incorrect":39,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8666666666666667,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9090909090909091,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-66,"attempt_rate":0.97,"num_incorrect":80,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9302325581395349,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-4,"attempt_rate":0.96,"num_incorrect":23,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.7931034482758621,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9444444444444444,"num_partial_answer":1}},"total":{"accuracy":0.199,"num_correct":199,"omniscience":-54.7,"attempt_rate":0.972,"num_incorrect":746,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.9313358302122348,"num_partial_answer":27},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-58,"attempt_rate":0.96,"num_incorrect":38,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.926829268292683,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-51.5,"attempt_rate":0.96,"num_incorrect":147,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.9423076923076923,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.21818181818181817,"num_correct":24,"omniscience":-49.09090909090909,"attempt_rate":0.9727272727272728,"num_incorrect":78,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9069767441860465,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.1111111111111111,"num_correct":10,"omniscience":-73.33333333333333,"attempt_rate":0.9777777777777777,"num_incorrect":76,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.95,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.161,"num_correct":161,"omniscience":-55.8,"attempt_rate":0.893,"num_incorrect":719,"total_questions":1000,"num_not_attempted":107,"hallucination_rate":0.8569725864123957,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.241,"num_correct":241,"omniscience":-43.1,"attempt_rate":0.946,"num_incorrect":672,"total_questions":1000,"num_not_attempted":54,"hallucination_rate":0.8853754940711462,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-10-29","representative_query_token_counts":null,"scicode":0.333,"short_name":"Nova 2.0 Lite (low)","show_host_model_evals":false,"size_class":"Medium","slug":"nova-2-0-lite-reasoning-low","tau2":0.719,"terminalbench_hard":0.035,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"84c2b973-510b-48f7-b3e9-e9a068664796","slug":"amazon-bedrock_nova-2-0-lite-reasoning-low","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"6fd796d3-f346-4f66-97df-5da81714fc73","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-lite-v1:0","function_calling":null,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Lite (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-lite-reasoning-low","hosts_url":"/models/nova-2-0-lite-reasoning-low/providers","name_and_creator_label":"Nova 2.0 Lite (low), Amazon"},{"additional_text":null,"aime":null,"aime25":0.887,"agentic_index":34.55,"coding_index":23.14,"commercial_allowed":null,"computed_performance_host_model_id":"918a53c0-f40f-4c88-b230-5bd41d1efe2a","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":428,"estimated_intelligence_index":33.346904614770665,"model_family_slug":"nova-2","frontier_model":false,"gdpval":767.610963856774,"gpqa":0.768,"hle":0.086,"humaneval":null,"id":"fbdf8da1-b341-448c-b3cb-8aff1d8f70b9","ifbench":0.685,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":29.89,"intelligence_index_token_counts":{"input_tokens":93283461,"answer_tokens":4204990,"output_tokens":61958085,"reasoning_tokens":57753095},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.583,"license_name":null,"license_url":null,"livecodebench":0.663,"math_500":null,"math_index":88.67,"mmlu_pro":0.813,"mmmu_pro":0.625,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":null,"name":"Nova 2.0 Lite (medium)","is_open_weights":false,"omniscience":-57.633,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.107,"num_correct":107,"omniscience":-64.4,"attempt_rate":0.862,"num_incorrect":751,"total_questions":1000,"num_not_attempted":138,"hallucination_rate":0.8409854423292273,"num_partial_answer":4}},"total":{"accuracy":0.17366666666666666,"num_correct":1042,"omniscience":-57.63333333333333,"attempt_rate":0.9425,"num_incorrect":4500,"total_questions":6000,"num_not_attempted":345,"hallucination_rate":0.9076240419524002,"num_partial_answer":113},"Health":{"total":{"accuracy":0.172,"num_correct":172,"omniscience":-60.8,"attempt_rate":0.976,"num_incorrect":780,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.9420289855072463,"num_partial_answer":24}},"Business":{"total":{"accuracy":0.143,"num_correct":143,"omniscience":-61.3,"attempt_rate":0.92,"num_incorrect":756,"total_questions":1000,"num_not_attempted":80,"hallucination_rate":0.882147024504084,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-48,"attempt_rate":1,"num_incorrect":73,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9733333333333334,"num_partial_answer":2}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-90,"attempt_rate":0.98,"num_incorrect":47,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9791666666666666,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-78,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9777777777777777,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-54,"attempt_rate":0.92,"num_incorrect":36,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8780487804878049,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9523809523809523,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-26,"attempt_rate":0.96,"num_incorrect":29,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8529411764705882,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-71,"attempt_rate":0.98,"num_incorrect":84,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9655172413793104,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":18,"attempt_rate":0.98,"num_incorrect":19,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8636363636363636,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-84,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-36,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.204,"num_correct":204,"omniscience":-55,"attempt_rate":0.976,"num_incorrect":754,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.9472361809045227,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-62,"attempt_rate":0.92,"num_incorrect":38,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8837209302325582,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.215,"num_correct":43,"omniscience":-52.5,"attempt_rate":0.96,"num_incorrect":148,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.9426751592356688,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.20909090909090908,"num_correct":23,"omniscience":-54.54545454545455,"attempt_rate":0.990909090909091,"num_incorrect":83,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9540229885057471,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.16666666666666666,"num_correct":15,"omniscience":-64.44444444444444,"attempt_rate":0.9888888888888889,"num_incorrect":73,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9733333333333334,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.171,"num_correct":171,"omniscience":-59.3,"attempt_rate":0.946,"num_incorrect":764,"total_questions":1000,"num_not_attempted":54,"hallucination_rate":0.9215922798552473,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.245,"num_correct":245,"omniscience":-45,"attempt_rate":0.975,"num_incorrect":695,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.9205298013245033,"num_partial_answer":35}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-10-29","representative_query_token_counts":null,"scicode":0.368,"short_name":"Nova 2.0 Lite (medium)","show_host_model_evals":false,"size_class":"Medium","slug":"nova-2-0-lite-reasoning-medium","tau2":0.757,"terminalbench_hard":0.163,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"918a53c0-f40f-4c88-b230-5bd41d1efe2a","slug":"amazon-bedrock_nova-2-0-lite-reasoning-medium","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"fbdf8da1-b341-448c-b3cb-8aff1d8f70b9","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-lite-v1:0","function_calling":null,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Lite (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-lite-reasoning-medium","hosts_url":"/models/nova-2-0-lite-reasoning-medium/providers","name_and_creator_label":"Nova 2.0 Lite (medium), Amazon"},{"additional_text":null,"aime":null,"aime25":0.37,"agentic_index":17.08,"coding_index":13.55,"commercial_allowed":null,"computed_performance_host_model_id":"5248f8d3-ab2d-4d1b-989b-01b70c11c0fd","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":423,"estimated_intelligence_index":17.832719657356495,"model_family_slug":"nova-2","frontier_model":false,"gdpval":538.2444318713827,"gpqa":0.555,"hle":0.039,"humaneval":null,"id":"1f6478c9-3e22-4586-adbe-841782859677","ifbench":0.411,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":17.06,"intelligence_index_token_counts":{"input_tokens":1304417142,"answer_tokens":88681790,"output_tokens":88681790,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.223,"license_name":null,"license_url":null,"livecodebench":0.305,"math_500":null,"math_index":37,"mmlu_pro":0.719,"mmmu_pro":0.499,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.745,"input_tokens":62852,"answer_tokens":235385,"output_tokens":235385,"reasoning_tokens":0,"total_input_tokens_api":79913,"total_answer_tokens_api":240909,"total_reasoning_tokens_api":0},"bn":{"score":0.7175,"input_tokens":75178,"answer_tokens":125222,"output_tokens":125222,"reasoning_tokens":0,"total_input_tokens_api":95185,"total_answer_tokens_api":133643,"total_reasoning_tokens_api":0},"de":{"score":0.8075,"input_tokens":63882,"answer_tokens":123070,"output_tokens":123070,"reasoning_tokens":0,"total_input_tokens_api":79886,"total_answer_tokens_api":120308,"total_reasoning_tokens_api":0},"en":{"score":0.855,"input_tokens":53218,"answer_tokens":106087,"output_tokens":106087,"reasoning_tokens":0,"total_input_tokens_api":69584,"total_answer_tokens_api":104466,"total_reasoning_tokens_api":0},"es":{"score":0.8225,"input_tokens":60696,"answer_tokens":131664,"output_tokens":131664,"reasoning_tokens":0,"total_input_tokens_api":78525,"total_answer_tokens_api":133987,"total_reasoning_tokens_api":0},"fr":{"score":0.8025,"input_tokens":63782,"answer_tokens":139878,"output_tokens":139878,"reasoning_tokens":0,"total_input_tokens_api":81263,"total_answer_tokens_api":141962,"total_reasoning_tokens_api":0},"hi":{"score":0.73,"input_tokens":69810,"answer_tokens":117514,"output_tokens":117514,"reasoning_tokens":0,"total_input_tokens_api":90461,"total_answer_tokens_api":128741,"total_reasoning_tokens_api":0},"id":{"score":0.8025,"input_tokens":60438,"answer_tokens":197283,"output_tokens":197283,"reasoning_tokens":0,"total_input_tokens_api":74875,"total_answer_tokens_api":189466,"total_reasoning_tokens_api":0},"it":{"score":0.795,"input_tokens":66344,"answer_tokens":154868,"output_tokens":154868,"reasoning_tokens":0,"total_input_tokens_api":79161,"total_answer_tokens_api":140813,"total_reasoning_tokens_api":0},"ja":{"score":0.7775,"input_tokens":76043,"answer_tokens":168830,"output_tokens":168830,"reasoning_tokens":0,"total_input_tokens_api":79559,"total_answer_tokens_api":132526,"total_reasoning_tokens_api":0},"ko":{"score":0.765,"input_tokens":66467,"answer_tokens":143991,"output_tokens":143991,"reasoning_tokens":0,"total_input_tokens_api":85290,"total_answer_tokens_api":149192,"total_reasoning_tokens_api":0},"my":{"score":0.4825,"input_tokens":117849,"answer_tokens":274383,"output_tokens":274383,"reasoning_tokens":0,"total_input_tokens_api":243525,"total_answer_tokens_api":512043,"total_reasoning_tokens_api":0},"pt":{"score":0.785,"input_tokens":59392,"answer_tokens":135387,"output_tokens":135387,"reasoning_tokens":0,"total_input_tokens_api":77343,"total_answer_tokens_api":138233,"total_reasoning_tokens_api":0},"sw":{"score":0.565,"input_tokens":69559,"answer_tokens":157640,"output_tokens":157640,"reasoning_tokens":0,"total_input_tokens_api":97073,"total_answer_tokens_api":214877,"total_reasoning_tokens_api":0},"yo":{"score":0.4025,"input_tokens":102354,"answer_tokens":213338,"output_tokens":213338,"reasoning_tokens":0,"total_input_tokens_api":138916,"total_answer_tokens_api":240491,"total_reasoning_tokens_api":0},"zh":{"score":0.7775,"input_tokens":59931,"answer_tokens":123353,"output_tokens":123353,"reasoning_tokens":0,"total_input_tokens_api":75668,"total_answer_tokens_api":118240,"total_reasoning_tokens_api":0},"average":{"score":0.72703125,"input_tokens":1127795,"answer_tokens":2547893,"output_tokens":2547893,"reasoning_tokens":0,"total_input_tokens_api":1526227,"total_answer_tokens_api":2839897,"total_reasoning_tokens_api":0}},"name":"Nova 2.0 Omni (Non-reasoning)","is_open_weights":false,"omniscience":-65.233,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.076,"num_correct":76,"omniscience":-69,"attempt_rate":0.853,"num_incorrect":766,"total_questions":1000,"num_not_attempted":147,"hallucination_rate":0.829004329004329,"num_partial_answer":11}},"total":{"accuracy":0.12383333333333334,"num_correct":743,"omniscience":-65.23333333333333,"attempt_rate":0.92,"num_incorrect":4657,"total_questions":6000,"num_not_attempted":480,"hallucination_rate":0.8858664637626023,"num_partial_answer":120},"Health":{"total":{"accuracy":0.13,"num_correct":130,"omniscience":-65.8,"attempt_rate":0.966,"num_incorrect":788,"total_questions":1000,"num_not_attempted":34,"hallucination_rate":0.9057471264367816,"num_partial_answer":48}},"Business":{"total":{"accuracy":0.105,"num_correct":105,"omniscience":-67.6,"attempt_rate":0.896,"num_incorrect":781,"total_questions":1000,"num_not_attempted":104,"hallucination_rate":0.8726256983240224,"num_partial_answer":10}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-52,"attempt_rate":0.95,"num_incorrect":73,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.9240506329113924,"num_partial_answer":1}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-72,"attempt_rate":0.76,"num_incorrect":37,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.7551020408163265,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.92,"num_incorrect":40,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8695652173913043,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-68,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-62,"attempt_rate":0.94,"num_incorrect":38,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8837209302325582,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-56,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8571428571428571,"num_partial_answer":5}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-74,"attempt_rate":0.96,"num_incorrect":85,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9550561797752809,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-24,"attempt_rate":1,"num_incorrect":29,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8787878787878788,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":21,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-44,"attempt_rate":0.96,"num_incorrect":17,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8947368421052632,"num_partial_answer":1}},"total":{"accuracy":0.159,"num_correct":159,"omniscience":-59.7,"attempt_rate":0.939,"num_incorrect":756,"total_questions":1000,"num_not_attempted":61,"hallucination_rate":0.8989298454221165,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-70,"attempt_rate":0.88,"num_incorrect":39,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8478260869565217,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.16,"num_correct":32,"omniscience":-59.5,"attempt_rate":0.92,"num_incorrect":151,"total_questions":200,"num_not_attempted":16,"hallucination_rate":0.8988095238095238,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-44.54545454545455,"attempt_rate":0.9727272727272728,"num_incorrect":76,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9156626506024096,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.1111111111111111,"num_correct":10,"omniscience":-68.88888888888889,"attempt_rate":0.9444444444444444,"num_incorrect":72,"total_questions":90,"num_not_attempted":5,"hallucination_rate":0.9,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.132,"num_correct":132,"omniscience":-67.7,"attempt_rate":0.95,"num_incorrect":809,"total_questions":1000,"num_not_attempted":50,"hallucination_rate":0.9320276497695853,"num_partial_answer":9}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.141,"num_correct":141,"omniscience":-61.6,"attempt_rate":0.916,"num_incorrect":757,"total_questions":1000,"num_not_attempted":84,"hallucination_rate":0.8812572759022119,"num_partial_answer":18}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-11-26","representative_query_token_counts":null,"scicode":0.279,"short_name":"Nova 2.0 Omni","show_host_model_evals":false,"size_class":"Medium","slug":"nova-2-0-omni","tau2":0.447,"terminalbench_hard":0.064,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"5248f8d3-ab2d-4d1b-989b-01b70c11c0fd","slug":"amazon-bedrock_nova-2-0-omni","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"1f6478c9-3e22-4586-adbe-841782859677","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-omni-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Omni (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-omni","hosts_url":"/models/nova-2-0-omni/providers","name_and_creator_label":"Nova 2.0 Omni, Amazon"},{"additional_text":null,"aime":null,"aime25":0.56,"agentic_index":25.94,"coding_index":13.78,"commercial_allowed":null,"computed_performance_host_model_id":"c4388640-9b82-4894-8ac0-ceaf7077eff1","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":432,"estimated_intelligence_index":26.264020294343602,"model_family_slug":"nova-2","frontier_model":false,"gdpval":584.718593676912,"gpqa":0.699,"hle":0.04,"humaneval":null,"id":"b36ff8f3-0323-49d1-a063-ab09704fdb0c","ifbench":0.618,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":23.96,"intelligence_index_token_counts":{"input_tokens":105906935,"answer_tokens":2931632,"output_tokens":21223321,"reasoning_tokens":18291688},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.51,"license_name":null,"license_url":null,"livecodebench":0.592,"math_500":null,"math_index":56,"mmlu_pro":0.798,"mmmu_pro":0.598,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.845,"input_tokens":62852,"answer_tokens":87913,"output_tokens":442319,"reasoning_tokens":354406,"total_input_tokens_api":99913,"total_answer_tokens_api":87913,"total_reasoning_tokens_api":354406},"bn":{"score":0.8225,"input_tokens":75178,"answer_tokens":90415,"output_tokens":475989,"reasoning_tokens":385574,"total_input_tokens_api":115185,"total_answer_tokens_api":90415,"total_reasoning_tokens_api":385574},"de":{"score":0.8725,"input_tokens":63882,"answer_tokens":94304,"output_tokens":439711,"reasoning_tokens":345407,"total_input_tokens_api":99886,"total_answer_tokens_api":94304,"total_reasoning_tokens_api":345407},"en":{"score":0.895,"input_tokens":53218,"answer_tokens":96301,"output_tokens":387904,"reasoning_tokens":291603,"total_input_tokens_api":89584,"total_answer_tokens_api":96301,"total_reasoning_tokens_api":291603},"es":{"score":0.865,"input_tokens":60696,"answer_tokens":96015,"output_tokens":442817,"reasoning_tokens":346802,"total_input_tokens_api":98525,"total_answer_tokens_api":96015,"total_reasoning_tokens_api":346802},"fr":{"score":0.8625,"input_tokens":63782,"answer_tokens":99478,"output_tokens":466025,"reasoning_tokens":366547,"total_input_tokens_api":101263,"total_answer_tokens_api":99478,"total_reasoning_tokens_api":366547},"hi":{"score":0.8325,"input_tokens":69810,"answer_tokens":86369,"output_tokens":460257,"reasoning_tokens":373888,"total_input_tokens_api":110461,"total_answer_tokens_api":86369,"total_reasoning_tokens_api":373888},"id":{"score":0.86,"input_tokens":60438,"answer_tokens":101303,"output_tokens":464575,"reasoning_tokens":363272,"total_input_tokens_api":94875,"total_answer_tokens_api":101303,"total_reasoning_tokens_api":363272},"it":{"score":0.865,"input_tokens":66344,"answer_tokens":107967,"output_tokens":465606,"reasoning_tokens":357639,"total_input_tokens_api":99161,"total_answer_tokens_api":107967,"total_reasoning_tokens_api":357639},"ja":{"score":0.85,"input_tokens":76043,"answer_tokens":107264,"output_tokens":455919,"reasoning_tokens":348655,"total_input_tokens_api":99559,"total_answer_tokens_api":107264,"total_reasoning_tokens_api":348655},"ko":{"score":0.8325,"input_tokens":66467,"answer_tokens":95754,"output_tokens":493516,"reasoning_tokens":397762,"total_input_tokens_api":105290,"total_answer_tokens_api":95754,"total_reasoning_tokens_api":397762},"my":{"score":0.655,"input_tokens":117849,"answer_tokens":107814,"output_tokens":672597,"reasoning_tokens":564783,"total_input_tokens_api":263475,"total_answer_tokens_api":107814,"total_reasoning_tokens_api":564783},"pt":{"score":0.8625,"input_tokens":59392,"answer_tokens":96481,"output_tokens":452043,"reasoning_tokens":355562,"total_input_tokens_api":97343,"total_answer_tokens_api":96481,"total_reasoning_tokens_api":355562},"sw":{"score":0.7125,"input_tokens":69559,"answer_tokens":100744,"output_tokens":541329,"reasoning_tokens":440585,"total_input_tokens_api":117073,"total_answer_tokens_api":100744,"total_reasoning_tokens_api":440585},"yo":{"score":0.48,"input_tokens":102354,"answer_tokens":98450,"output_tokens":630008,"reasoning_tokens":531558,"total_input_tokens_api":158916,"total_answer_tokens_api":98450,"total_reasoning_tokens_api":531558},"zh":{"score":0.85,"input_tokens":59931,"answer_tokens":92821,"output_tokens":465265,"reasoning_tokens":372444,"total_input_tokens_api":95668,"total_answer_tokens_api":92821,"total_reasoning_tokens_api":372444},"average":{"score":0.8101562499999999,"input_tokens":1127795,"answer_tokens":1559393,"output_tokens":7755880,"reasoning_tokens":6196487,"total_input_tokens_api":1846177,"total_answer_tokens_api":1559393,"total_reasoning_tokens_api":6196487}},"name":"Nova 2.0 Omni (low)","is_open_weights":false,"omniscience":-51.4,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.103,"num_correct":103,"omniscience":-59,"attempt_rate":0.804,"num_incorrect":693,"total_questions":1000,"num_not_attempted":196,"hallucination_rate":0.7725752508361204,"num_partial_answer":8}},"total":{"accuracy":0.1775,"num_correct":1065,"omniscience":-51.4,"attempt_rate":0.8881666666666667,"num_incorrect":4149,"total_questions":6000,"num_not_attempted":671,"hallucination_rate":0.8407294832826747,"num_partial_answer":115},"Health":{"total":{"accuracy":0.176,"num_correct":176,"omniscience":-55.6,"attempt_rate":0.934,"num_incorrect":732,"total_questions":1000,"num_not_attempted":66,"hallucination_rate":0.8883495145631068,"num_partial_answer":26}},"Business":{"total":{"accuracy":0.136,"num_correct":136,"omniscience":-54.6,"attempt_rate":0.833,"num_incorrect":682,"total_questions":1000,"num_not_attempted":167,"hallucination_rate":0.7893518518518519,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.3,"num_correct":30,"omniscience":-39,"attempt_rate":0.99,"num_incorrect":69,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9857142857142858,"num_partial_answer":0}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-82,"attempt_rate":0.98,"num_incorrect":45,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9782608695652174,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-74,"attempt_rate":0.96,"num_incorrect":42,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9333333333333333,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.98,"num_incorrect":37,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.925,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-74,"attempt_rate":1,"num_incorrect":43,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9772727272727273,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-26,"attempt_rate":0.96,"num_incorrect":29,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8529411764705882,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-65,"attempt_rate":0.96,"num_incorrect":80,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":18,"attempt_rate":1,"num_incorrect":19,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8636363636363636,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-76,"attempt_rate":0.92,"num_incorrect":21,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9130434782608695,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-36,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.219,"num_correct":219,"omniscience":-50.5,"attempt_rate":0.967,"num_incorrect":724,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.9270166453265045,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.17,"num_correct":34,"omniscience":-56,"attempt_rate":0.92,"num_incorrect":146,"total_questions":200,"num_not_attempted":16,"hallucination_rate":0.8795180722891566,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.3090909090909091,"num_correct":34,"omniscience":-33.63636363636363,"attempt_rate":0.990909090909091,"num_incorrect":71,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9342105263157895,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.18888888888888888,"num_correct":17,"omniscience":-57.77777777777778,"attempt_rate":1,"num_incorrect":69,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9452054794520548,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.188,"num_correct":188,"omniscience":-47.7,"attempt_rate":0.869,"num_incorrect":665,"total_questions":1000,"num_not_attempted":131,"hallucination_rate":0.8189655172413793,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.243,"num_correct":243,"omniscience":-41,"attempt_rate":0.922,"num_incorrect":653,"total_questions":1000,"num_not_attempted":78,"hallucination_rate":0.8626155878467635,"num_partial_answer":26}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-26","representative_query_token_counts":null,"scicode":0.343,"short_name":"Nova 2.0 Omni (low)","show_host_model_evals":false,"size_class":"Medium","slug":"nova-2-0-omni-reasoning-low","tau2":0.678,"terminalbench_hard":0.035,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"4e6961e5-a255-4778-8201-a0ca21b0a821","slug":"amazon-bedrock_nova-2-0-omni-reasoning-low","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"b36ff8f3-0323-49d1-a063-ab09704fdb0c","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-omni-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Omni (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-omni-reasoning-low","hosts_url":"/models/nova-2-0-omni-reasoning-low/providers","name_and_creator_label":"Nova 2.0 Omni (low), Amazon"},{"additional_text":null,"aime":null,"aime25":0.897,"agentic_index":38.03,"coding_index":14.91,"commercial_allowed":null,"computed_performance_host_model_id":"c188fb22-f336-414c-98c1-074b12629666","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":436,"estimated_intelligence_index":31.84419016269486,"model_family_slug":"nova-2","frontier_model":false,"gdpval":838.9852141096479,"gpqa":0.76,"hle":0.068,"humaneval":null,"id":"018c60e8-e908-431a-ba57-c840b1df3987","ifbench":0.662,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.84,"intelligence_index_token_counts":{"input_tokens":61477245,"answer_tokens":3320894,"output_tokens":45302757,"reasoning_tokens":41981863},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.537,"license_name":null,"license_url":null,"livecodebench":0.66,"math_500":null,"math_index":89.67,"mmlu_pro":0.809,"mmmu_pro":0.619,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.845,"input_tokens":62852,"answer_tokens":112270,"output_tokens":637348,"reasoning_tokens":525078,"total_input_tokens_api":93913,"total_answer_tokens_api":112270,"total_reasoning_tokens_api":525078},"bn":{"score":0.8275,"input_tokens":75178,"answer_tokens":115589,"output_tokens":708331,"reasoning_tokens":592742,"total_input_tokens_api":109185,"total_answer_tokens_api":115589,"total_reasoning_tokens_api":592742},"de":{"score":0.8725,"input_tokens":63882,"answer_tokens":111824,"output_tokens":599858,"reasoning_tokens":488034,"total_input_tokens_api":93886,"total_answer_tokens_api":111824,"total_reasoning_tokens_api":488034},"en":{"score":0.8775,"input_tokens":53218,"answer_tokens":111607,"output_tokens":562907,"reasoning_tokens":451300,"total_input_tokens_api":83584,"total_answer_tokens_api":111607,"total_reasoning_tokens_api":451300},"es":{"score":0.87,"input_tokens":60696,"answer_tokens":110166,"output_tokens":612017,"reasoning_tokens":501851,"total_input_tokens_api":92525,"total_answer_tokens_api":110166,"total_reasoning_tokens_api":501851},"fr":{"score":0.8725,"input_tokens":63782,"answer_tokens":117997,"output_tokens":643372,"reasoning_tokens":525375,"total_input_tokens_api":95263,"total_answer_tokens_api":117997,"total_reasoning_tokens_api":525375},"hi":{"score":0.805,"input_tokens":69810,"answer_tokens":107355,"output_tokens":682256,"reasoning_tokens":574901,"total_input_tokens_api":104461,"total_answer_tokens_api":107355,"total_reasoning_tokens_api":574901},"id":{"score":0.8675,"input_tokens":60438,"answer_tokens":118265,"output_tokens":650048,"reasoning_tokens":531783,"total_input_tokens_api":88875,"total_answer_tokens_api":118265,"total_reasoning_tokens_api":531783},"it":{"score":0.8775,"input_tokens":66344,"answer_tokens":125827,"output_tokens":653068,"reasoning_tokens":527241,"total_input_tokens_api":93161,"total_answer_tokens_api":125827,"total_reasoning_tokens_api":527241},"ja":{"score":0.8325,"input_tokens":76043,"answer_tokens":145417,"output_tokens":696191,"reasoning_tokens":550774,"total_input_tokens_api":93559,"total_answer_tokens_api":145417,"total_reasoning_tokens_api":550774},"ko":{"score":0.8325,"input_tokens":66467,"answer_tokens":124271,"output_tokens":691845,"reasoning_tokens":567574,"total_input_tokens_api":99290,"total_answer_tokens_api":124271,"total_reasoning_tokens_api":567574},"my":{"score":0.695,"input_tokens":117849,"answer_tokens":163722,"output_tokens":1147771,"reasoning_tokens":984049,"total_input_tokens_api":257490,"total_answer_tokens_api":163722,"total_reasoning_tokens_api":984049},"pt":{"score":0.85,"input_tokens":59392,"answer_tokens":116560,"output_tokens":649298,"reasoning_tokens":532738,"total_input_tokens_api":91343,"total_answer_tokens_api":116560,"total_reasoning_tokens_api":532738},"sw":{"score":0.7225,"input_tokens":69559,"answer_tokens":127827,"output_tokens":819166,"reasoning_tokens":691339,"total_input_tokens_api":111073,"total_answer_tokens_api":127827,"total_reasoning_tokens_api":691339},"yo":{"score":0.4525,"input_tokens":102354,"answer_tokens":127365,"output_tokens":1149805,"reasoning_tokens":1022440,"total_input_tokens_api":152916,"total_answer_tokens_api":127365,"total_reasoning_tokens_api":1022440},"zh":{"score":0.8525,"input_tokens":59931,"answer_tokens":123685,"output_tokens":650664,"reasoning_tokens":526979,"total_input_tokens_api":89668,"total_answer_tokens_api":123685,"total_reasoning_tokens_api":526979},"average":{"score":0.80953125,"input_tokens":1127795,"answer_tokens":1959747,"output_tokens":11553945,"reasoning_tokens":9594198,"total_input_tokens_api":1750192,"total_answer_tokens_api":1959747,"total_reasoning_tokens_api":9594198}},"name":"Nova 2.0 Omni (medium)","is_open_weights":false,"omniscience":-59.7,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.099,"num_correct":99,"omniscience":-70.3,"attempt_rate":0.904,"num_incorrect":802,"total_questions":1000,"num_not_attempted":96,"hallucination_rate":0.8901220865704772,"num_partial_answer":3}},"total":{"accuracy":0.172,"num_correct":1032,"omniscience":-59.7,"attempt_rate":0.9536666666666667,"num_incorrect":4614,"total_questions":6000,"num_not_attempted":278,"hallucination_rate":0.928743961352657,"num_partial_answer":76},"Health":{"total":{"accuracy":0.173,"num_correct":173,"omniscience":-61.8,"attempt_rate":0.984,"num_incorrect":791,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.9564691656590084,"num_partial_answer":20}},"Business":{"total":{"accuracy":0.148,"num_correct":148,"omniscience":-60.4,"attempt_rate":0.909,"num_incorrect":752,"total_questions":1000,"num_not_attempted":91,"hallucination_rate":0.8826291079812206,"num_partial_answer":9}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-57,"attempt_rate":1,"num_incorrect":78,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9873417721518988,"num_partial_answer":1}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-82,"attempt_rate":0.98,"num_incorrect":45,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9782608695652174,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-70,"attempt_rate":0.96,"num_incorrect":41,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9318181818181818,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":0.96,"num_incorrect":41,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9534883720930233,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-76,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-36,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-71,"attempt_rate":0.99,"num_incorrect":85,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9883720930232558,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":4,"attempt_rate":0.98,"num_incorrect":21,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.7777777777777778,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"total":{"accuracy":0.194,"num_correct":194,"omniscience":-58.5,"attempt_rate":0.986,"num_incorrect":779,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.966501240694789,"num_partial_answer":13},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-58,"attempt_rate":0.96,"num_incorrect":38,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.926829268292683,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.195,"num_correct":39,"omniscience":-58,"attempt_rate":0.98,"num_incorrect":155,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9627329192546584,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-49.09090909090909,"attempt_rate":1,"num_incorrect":81,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9759036144578314,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.15555555555555556,"num_correct":14,"omniscience":-67.77777777777777,"attempt_rate":1,"num_incorrect":75,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9868421052631579,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.18,"num_correct":180,"omniscience":-59.6,"attempt_rate":0.967,"num_incorrect":776,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.9463414634146341,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.238,"num_correct":238,"omniscience":-47.6,"attempt_rate":0.972,"num_incorrect":714,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.937007874015748,"num_partial_answer":20}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-26","representative_query_token_counts":null,"scicode":0.362,"short_name":"Nova 2.0 Omni (medium)","show_host_model_evals":false,"size_class":"Medium","slug":"nova-2-0-omni-reasoning-medium","tau2":0.804,"terminalbench_hard":0.043,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"c188fb22-f336-414c-98c1-074b12629666","slug":"amazon-bedrock_nova-2-0-omni-reasoning-medium-perf","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"018c60e8-e908-431a-ba57-c840b1df3987","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"no_measurements","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Omni (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-omni-reasoning-medium","hosts_url":"/models/nova-2-0-omni-reasoning-medium/providers","name_and_creator_label":"Nova 2.0 Omni (medium), Amazon"},{"additional_text":null,"aime":null,"aime25":0.307,"agentic_index":26.42,"coding_index":19.78,"commercial_allowed":null,"computed_performance_host_model_id":"2d61c34c-3c7f-4cb7-9578-f5a6b8568b31","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":439,"estimated_intelligence_index":21.886717651702874,"model_family_slug":"nova-2","frontier_model":false,"gdpval":552.999407317485,"gpqa":0.636,"hle":0.04,"humaneval":null,"id":"a20ae33a-46e1-41e6-81a0-fe8b00d2e538","ifbench":0.52,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":23.37,"intelligence_index_token_counts":{"input_tokens":681831447,"answer_tokens":44234485,"output_tokens":44234485,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.283,"license_name":null,"license_url":null,"livecodebench":0.473,"math_500":null,"math_index":30.67,"mmlu_pro":0.772,"mmmu_pro":null,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.81,"input_tokens":62852,"answer_tokens":141083,"output_tokens":141083,"reasoning_tokens":0,"total_input_tokens_api":79913,"total_answer_tokens_api":139451,"total_reasoning_tokens_api":0},"bn":{"score":0.7675,"input_tokens":75178,"answer_tokens":180056,"output_tokens":180056,"reasoning_tokens":0,"total_input_tokens_api":94884,"total_answer_tokens_api":178828,"total_reasoning_tokens_api":0},"de":{"score":0.8525,"input_tokens":63882,"answer_tokens":149949,"output_tokens":149949,"reasoning_tokens":0,"total_input_tokens_api":79886,"total_answer_tokens_api":146056,"total_reasoning_tokens_api":0},"en":{"score":0.8975,"input_tokens":53218,"answer_tokens":140614,"output_tokens":140614,"reasoning_tokens":0,"total_input_tokens_api":69458,"total_answer_tokens_api":133755,"total_reasoning_tokens_api":0},"es":{"score":0.8425,"input_tokens":60696,"answer_tokens":164304,"output_tokens":164304,"reasoning_tokens":0,"total_input_tokens_api":78266,"total_answer_tokens_api":154035,"total_reasoning_tokens_api":0},"fr":{"score":0.8425,"input_tokens":63782,"answer_tokens":172975,"output_tokens":172975,"reasoning_tokens":0,"total_input_tokens_api":81263,"total_answer_tokens_api":174304,"total_reasoning_tokens_api":0},"hi":{"score":0.7875,"input_tokens":69810,"answer_tokens":168420,"output_tokens":168420,"reasoning_tokens":0,"total_input_tokens_api":89835,"total_answer_tokens_api":166976,"total_reasoning_tokens_api":0},"id":{"score":0.825,"input_tokens":60438,"answer_tokens":167685,"output_tokens":167685,"reasoning_tokens":0,"total_input_tokens_api":74696,"total_answer_tokens_api":156691,"total_reasoning_tokens_api":0},"it":{"score":0.85,"input_tokens":66344,"answer_tokens":171868,"output_tokens":171868,"reasoning_tokens":0,"total_input_tokens_api":79161,"total_answer_tokens_api":157458,"total_reasoning_tokens_api":0},"ja":{"score":0.815,"input_tokens":76043,"answer_tokens":203179,"output_tokens":203179,"reasoning_tokens":0,"total_input_tokens_api":79559,"total_answer_tokens_api":160731,"total_reasoning_tokens_api":0},"ko":{"score":0.805,"input_tokens":66467,"answer_tokens":196944,"output_tokens":196944,"reasoning_tokens":0,"total_input_tokens_api":84428,"total_answer_tokens_api":195498,"total_reasoning_tokens_api":0},"my":{"score":0.6225,"input_tokens":117849,"answer_tokens":173419,"output_tokens":173419,"reasoning_tokens":0,"total_input_tokens_api":243525,"total_answer_tokens_api":295033,"total_reasoning_tokens_api":0},"pt":{"score":0.8675,"input_tokens":59392,"answer_tokens":174390,"output_tokens":174390,"reasoning_tokens":0,"total_input_tokens_api":77343,"total_answer_tokens_api":175798,"total_reasoning_tokens_api":0},"sw":{"score":0.675,"input_tokens":69559,"answer_tokens":149103,"output_tokens":149103,"reasoning_tokens":0,"total_input_tokens_api":96956,"total_answer_tokens_api":150465,"total_reasoning_tokens_api":0},"yo":{"score":0.515,"input_tokens":102354,"answer_tokens":189439,"output_tokens":189439,"reasoning_tokens":0,"total_input_tokens_api":138691,"total_answer_tokens_api":191510,"total_reasoning_tokens_api":0},"zh":{"score":0.805,"input_tokens":59931,"answer_tokens":168409,"output_tokens":168409,"reasoning_tokens":0,"total_input_tokens_api":75668,"total_answer_tokens_api":160848,"total_reasoning_tokens_api":0},"average":{"score":0.78625,"input_tokens":1127795,"answer_tokens":2711837,"output_tokens":2711837,"reasoning_tokens":0,"total_input_tokens_api":1523532,"total_answer_tokens_api":2737437,"total_reasoning_tokens_api":0}},"name":"Nova 2.0 Pro Preview (Non-reasoning)","is_open_weights":false,"omniscience":-50.367,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.094,"num_correct":94,"omniscience":-52.5,"attempt_rate":0.719,"num_incorrect":619,"total_questions":1000,"num_not_attempted":281,"hallucination_rate":0.6832229580573952,"num_partial_answer":6}},"total":{"accuracy":0.15866666666666668,"num_correct":952,"omniscience":-50.36666666666667,"attempt_rate":0.8475,"num_incorrect":3974,"total_questions":6000,"num_not_attempted":915,"hallucination_rate":0.7872424722662441,"num_partial_answer":159},"Health":{"total":{"accuracy":0.162,"num_correct":162,"omniscience":-47.7,"attempt_rate":0.863,"num_incorrect":639,"total_questions":1000,"num_not_attempted":137,"hallucination_rate":0.7625298329355609,"num_partial_answer":62}},"Business":{"total":{"accuracy":0.118,"num_correct":118,"omniscience":-49.7,"attempt_rate":0.756,"num_incorrect":615,"total_questions":1000,"num_not_attempted":244,"hallucination_rate":0.6972789115646258,"num_partial_answer":23}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-40,"attempt_rate":0.99,"num_incorrect":69,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.971830985915493,"num_partial_answer":1}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-70,"attempt_rate":0.9,"num_incorrect":40,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8888888888888888,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":0.98,"num_incorrect":40,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.92,"num_incorrect":35,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.875,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-64,"attempt_rate":0.98,"num_incorrect":39,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9069767441860465,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.98,"num_incorrect":33,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9166666666666666,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.12,"num_correct":12,"omniscience":-74,"attempt_rate":0.99,"num_incorrect":86,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9772727272727273,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-8,"attempt_rate":0.98,"num_incorrect":25,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8620689655172413,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-52,"attempt_rate":0.92,"num_incorrect":18,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":0}},"total":{"accuracy":0.225,"num_correct":225,"omniscience":-49.1,"attempt_rate":0.968,"num_incorrect":716,"total_questions":1000,"num_not_attempted":32,"hallucination_rate":0.9238709677419354,"num_partial_answer":27},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-54,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8780487804878049,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.25,"num_correct":50,"omniscience":-45.5,"attempt_rate":0.97,"num_incorrect":141,"total_questions":200,"num_not_attempted":6,"hallucination_rate":0.94,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-33.63636363636363,"attempt_rate":0.9545454545454546,"num_incorrect":68,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.8607594936708861,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.23333333333333334,"num_correct":21,"omniscience":-47.77777777777778,"attempt_rate":0.9888888888888889,"num_incorrect":64,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.927536231884058,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.157,"num_correct":157,"omniscience":-52.9,"attempt_rate":0.858,"num_incorrect":686,"total_questions":1000,"num_not_attempted":142,"hallucination_rate":0.8137603795966786,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.196,"num_correct":196,"omniscience":-50.3,"attempt_rate":0.921,"num_incorrect":699,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.8694029850746269,"num_partial_answer":26}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-11-27","representative_query_token_counts":null,"scicode":0.281,"short_name":"Nova 2.0 Pro Preview","show_host_model_evals":false,"size_class":"Large","slug":"nova-2-0-pro","tau2":0.716,"terminalbench_hard":0.156,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"2d61c34c-3c7f-4cb7-9578-f5a6b8568b31","slug":"amazon-bedrock_nova-2-0-pro","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"a20ae33a-46e1-41e6-81a0-fe8b00d2e538","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-pro-preview-20251202-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Pro Preview (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-pro","hosts_url":"/models/nova-2-0-pro/providers","name_and_creator_label":"Nova 2.0 Pro Preview, Amazon"},{"additional_text":null,"aime":null,"aime25":0.633,"agentic_index":39.71,"coding_index":23.76,"commercial_allowed":null,"computed_performance_host_model_id":"4bae469f-6789-4ec2-a7f8-99b387891fb0","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":429,"estimated_intelligence_index":33.25865230349994,"model_family_slug":"nova-2","frontier_model":false,"gdpval":763.3436480545442,"gpqa":0.751,"hle":0.052,"humaneval":null,"id":"f4274721-ef28-4121-aa88-8e97267a5a82","ifbench":0.796,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.18,"intelligence_index_token_counts":{"input_tokens":63879988,"answer_tokens":2805017,"output_tokens":16736655,"reasoning_tokens":13931638},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.617,"license_name":null,"license_url":null,"livecodebench":0.638,"math_500":null,"math_index":63.33,"mmlu_pro":0.822,"mmmu_pro":0.627,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":null,"name":"Nova 2.0 Pro Preview (low)","is_open_weights":false,"omniscience":-47.5,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.122,"num_correct":122,"omniscience":-57.6,"attempt_rate":0.829,"num_incorrect":698,"total_questions":1000,"num_not_attempted":171,"hallucination_rate":0.7949886104783599,"num_partial_answer":9}},"total":{"accuracy":0.20983333333333334,"num_correct":1259,"omniscience":-47.5,"attempt_rate":0.9166666666666666,"num_incorrect":4109,"total_questions":6000,"num_not_attempted":500,"hallucination_rate":0.8666947901286648,"num_partial_answer":132},"Health":{"total":{"accuracy":0.215,"num_correct":215,"omniscience":-49.2,"attempt_rate":0.952,"num_incorrect":707,"total_questions":1000,"num_not_attempted":48,"hallucination_rate":0.9006369426751593,"num_partial_answer":30}},"Business":{"total":{"accuracy":0.158,"num_correct":158,"omniscience":-51.9,"attempt_rate":0.852,"num_incorrect":677,"total_questions":1000,"num_not_attempted":148,"hallucination_rate":0.8040380047505938,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.38,"num_correct":38,"omniscience":-20,"attempt_rate":1,"num_incorrect":58,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9354838709677419,"num_partial_answer":4}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-78,"attempt_rate":0.96,"num_incorrect":43,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9347826086956522,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-48,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-24,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9375,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-67,"attempt_rate":0.99,"num_incorrect":81,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9418604651162791,"num_partial_answer":4}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":12,"attempt_rate":0.98,"num_incorrect":20,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8333333333333334,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-84,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-16,"attempt_rate":1,"num_incorrect":13,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8125,"num_partial_answer":3}},"total":{"accuracy":0.268,"num_correct":268,"omniscience":-41.8,"attempt_rate":0.987,"num_incorrect":686,"total_questions":1000,"num_not_attempted":13,"hallucination_rate":0.9371584699453552,"num_partial_answer":33},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.27,"num_correct":54,"omniscience":-43,"attempt_rate":0.98,"num_incorrect":140,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.958904109589041,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-30,"attempt_rate":0.9818181818181818,"num_incorrect":69,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9324324324324325,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.23333333333333334,"num_correct":21,"omniscience":-50,"attempt_rate":0.9888888888888889,"num_incorrect":66,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9565217391304348,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.215,"num_correct":215,"omniscience":-47,"attempt_rate":0.922,"num_incorrect":685,"total_questions":1000,"num_not_attempted":78,"hallucination_rate":0.8726114649681529,"num_partial_answer":22}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.281,"num_correct":281,"omniscience":-37.5,"attempt_rate":0.958,"num_incorrect":656,"total_questions":1000,"num_not_attempted":42,"hallucination_rate":0.9123783031988874,"num_partial_answer":21}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-27","representative_query_token_counts":null,"scicode":0.387,"short_name":"Nova 2.0 Pro Preview (low)","show_host_model_evals":false,"size_class":"Large","slug":"nova-2-0-pro-reasoning-low","tau2":0.906,"terminalbench_hard":0.163,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"4bae469f-6789-4ec2-a7f8-99b387891fb0","slug":"amazon-bedrock_nova-2-0-pro-reasoning-low","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"f4274721-ef28-4121-aa88-8e97267a5a82","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-pro-preview-20251202-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Pro Preview (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-pro-reasoning-low","hosts_url":"/models/nova-2-0-pro-reasoning-low/providers","name_and_creator_label":"Nova 2.0 Pro Preview (low), Amazon"},{"additional_text":null,"aime":null,"aime25":0.89,"agentic_index":46.75,"coding_index":29.37,"commercial_allowed":null,"computed_performance_host_model_id":"f733c1e5-385f-4549-8c33-c4b32e02615f","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":425,"estimated_intelligence_index":37.71998095666592,"model_family_slug":"nova-2","frontier_model":false,"gdpval":975.7876094570838,"gpqa":0.785,"hle":0.089,"humaneval":null,"id":"0d94dc87-12c8-4d4a-8d99-804ce3f17bc2","ifbench":0.79,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":35.32,"intelligence_index_token_counts":{"input_tokens":85041888,"answer_tokens":3185104,"output_tokens":36024901,"reasoning_tokens":32839797},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.543,"license_name":null,"license_url":null,"livecodebench":0.73,"math_500":null,"math_index":89,"mmlu_pro":0.83,"mmmu_pro":0.645,"model_creator_id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","model_weights_source_url":null,"multilingual_aa":null,"name":"Nova 2.0 Pro Preview (medium)","is_open_weights":false,"omniscience":-50.3,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.143,"num_correct":143,"omniscience":-55.8,"attempt_rate":0.853,"num_incorrect":701,"total_questions":1000,"num_not_attempted":147,"hallucination_rate":0.8179696616102684,"num_partial_answer":9}},"total":{"accuracy":0.2095,"num_correct":1257,"omniscience":-50.3,"attempt_rate":0.94,"num_incorrect":4275,"total_questions":6000,"num_not_attempted":360,"hallucination_rate":0.9013282732447818,"num_partial_answer":108},"Health":{"total":{"accuracy":0.197,"num_correct":197,"omniscience":-53.7,"attempt_rate":0.957,"num_incorrect":734,"total_questions":1000,"num_not_attempted":43,"hallucination_rate":0.9140722291407223,"num_partial_answer":26}},"Business":{"total":{"accuracy":0.156,"num_correct":156,"omniscience":-57.6,"attempt_rate":0.902,"num_incorrect":732,"total_questions":1000,"num_not_attempted":98,"hallucination_rate":0.8672985781990521,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.37,"num_correct":37,"omniscience":-24,"attempt_rate":1,"num_incorrect":61,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9682539682539683,"num_partial_answer":2}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-70,"attempt_rate":0.96,"num_incorrect":41,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9318181818181818,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-78,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9777777777777777,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.96,"num_incorrect":34,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.918918918918919,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-56,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-26,"attempt_rate":1,"num_incorrect":31,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.96875,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-70,"attempt_rate":1,"num_incorrect":84,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":0,"attempt_rate":1,"num_incorrect":24,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9444444444444444,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":-8,"attempt_rate":1,"num_incorrect":13,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9285714285714286,"num_partial_answer":1}},"total":{"accuracy":0.257,"num_correct":257,"omniscience":-45.8,"attempt_rate":0.992,"num_incorrect":715,"total_questions":1000,"num_not_attempted":8,"hallucination_rate":0.9623149394347241,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.245,"num_correct":49,"omniscience":-49.5,"attempt_rate":0.99,"num_incorrect":148,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9801324503311258,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.3,"num_correct":33,"omniscience":-35.45454545454545,"attempt_rate":0.990909090909091,"num_incorrect":72,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.935064935064935,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.18888888888888888,"num_correct":17,"omniscience":-60,"attempt_rate":1,"num_incorrect":71,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9726027397260274,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.227,"num_correct":227,"omniscience":-49.4,"attempt_rate":0.962,"num_incorrect":721,"total_questions":1000,"num_not_attempted":38,"hallucination_rate":0.9327296248382924,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.277,"num_correct":277,"omniscience":-39.5,"attempt_rate":0.974,"num_incorrect":672,"total_questions":1000,"num_not_attempted":26,"hallucination_rate":0.9294605809128631,"num_partial_answer":25}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65535,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-27","representative_query_token_counts":null,"scicode":0.427,"short_name":"Nova 2.0 Pro Preview (medium)","show_host_model_evals":false,"size_class":"Large","slug":"nova-2-0-pro-reasoning-medium","tau2":0.927,"terminalbench_hard":0.227,"tokenizer_id":null,"model_creators":{"id":"bb5a4e55-7969-4ab4-8702-3b9fd6547dc2","logo":"aws.webp","name":"Amazon","slug":"aws","color":"#FF9900","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","created_at":"2024-03-25T03:50:24.749352+00:00","logo_small":"aws_small.svg","creator_url":"https://aws.amazon.com/","display_order":12,"logo_url":"/img/logos/aws.webp","logo_small_url":"/img/logos/aws_small.svg"},"host_models":[{"id":"f733c1e5-385f-4549-8c33-c4b32e02615f","slug":"amazon-bedrock_nova-2-0-pro-reasoning-medium","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"0d94dc87-12c8-4d4a-8d99-804ce3f17bc2","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.amazon.nova-2-pro-preview-20251202-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Nova 2.0 Pro Preview (medium)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nova-2-0-pro-reasoning-medium","hosts_url":"/models/nova-2-0-pro-reasoning-medium/providers","name_and_creator_label":"Nova 2.0 Pro Preview (medium), Amazon"},{"additional_text":null,"aime":null,"aime25":0.793,"agentic_index":36.32,"coding_index":30.13,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":0.003,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":844,"estimated_intelligence_index":32.82958048095464,"model_family_slug":"doubao-seed-code","frontier_model":false,"gdpval":1012.0993093136026,"gpqa":0.764,"hle":0.133,"humaneval":null,"id":"4d6dd5ce-08cb-4e87-9288-1dd2f022aa35","ifbench":0.514,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":33.19,"intelligence_index_token_counts":{"input_tokens":104773478,"answer_tokens":4426722,"output_tokens":47306714,"reasoning_tokens":42879991},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.653,"license_name":null,"license_url":null,"livecodebench":0.766,"math_500":null,"math_index":79.33,"mmlu_pro":0.854,"mmmu_pro":0.681,"model_creator_id":"2354746c-4775-4a06-b64d-0ba4137785b8","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.7525,"input_tokens":188556,"answer_tokens":345900,"output_tokens":1642654,"reasoning_tokens":1296754,"total_input_tokens_api":271308,"total_answer_tokens_api":363101,"total_reasoning_tokens_api":1401304},"bn":{"score":0.7675000000000001,"input_tokens":225534,"answer_tokens":343747,"output_tokens":1672416,"reasoning_tokens":1328669,"total_input_tokens_api":384648,"total_answer_tokens_api":365062,"total_reasoning_tokens_api":1491949},"de":{"score":0.8616666666666667,"input_tokens":191646,"answer_tokens":338323,"output_tokens":1448550,"reasoning_tokens":1110227,"total_input_tokens_api":256203,"total_answer_tokens_api":350310,"total_reasoning_tokens_api":1191908},"en":{"score":0.9108333333333333,"input_tokens":159654,"answer_tokens":295765,"output_tokens":948768,"reasoning_tokens":653003,"total_input_tokens_api":212805,"total_answer_tokens_api":303817,"total_reasoning_tokens_api":694011},"es":{"score":0.8616666666666667,"input_tokens":182088,"answer_tokens":343554,"output_tokens":1429925,"reasoning_tokens":1086371,"total_input_tokens_api":248346,"total_answer_tokens_api":356194,"total_reasoning_tokens_api":1165064},"fr":{"score":0.8616666666666667,"input_tokens":191346,"answer_tokens":337892,"output_tokens":1382869,"reasoning_tokens":1044977,"total_input_tokens_api":256434,"total_answer_tokens_api":350208,"total_reasoning_tokens_api":1120655},"hi":{"score":0.8041666666666667,"input_tokens":209430,"answer_tokens":337232,"output_tokens":1539350,"reasoning_tokens":1202118,"total_input_tokens_api":374904,"total_answer_tokens_api":359367,"total_reasoning_tokens_api":1351826},"id":{"score":0.8383333333333334,"input_tokens":181314,"answer_tokens":353168,"output_tokens":1540071,"reasoning_tokens":1186903,"total_input_tokens_api":242547,"total_answer_tokens_api":366664,"total_reasoning_tokens_api":1265736},"it":{"score":0.8625000000000002,"input_tokens":199032,"answer_tokens":346642,"output_tokens":1512100,"reasoning_tokens":1165458,"total_input_tokens_api":254220,"total_answer_tokens_api":356900,"total_reasoning_tokens_api":1238782},"ja":{"score":0.8083333333333335,"input_tokens":228129,"answer_tokens":339232,"output_tokens":1586910,"reasoning_tokens":1247678,"total_input_tokens_api":318747,"total_answer_tokens_api":358616,"total_reasoning_tokens_api":1347409},"ko":{"score":0.8108333333333334,"input_tokens":199401,"answer_tokens":339397,"output_tokens":1536512,"reasoning_tokens":1197115,"total_input_tokens_api":277080,"total_answer_tokens_api":353434,"total_reasoning_tokens_api":1286747},"my":{"score":0.7008333333333333,"input_tokens":353547,"answer_tokens":341319,"output_tokens":2029288,"reasoning_tokens":1687969,"total_input_tokens_api":483759,"total_answer_tokens_api":359671,"total_reasoning_tokens_api":1866910},"pt":{"score":0.8416666666666667,"input_tokens":178176,"answer_tokens":331278,"output_tokens":1443856,"reasoning_tokens":1112578,"total_input_tokens_api":247914,"total_answer_tokens_api":346574,"total_reasoning_tokens_api":1198525},"sw":{"score":0.7091666666666666,"input_tokens":208677,"answer_tokens":335705,"output_tokens":1983934,"reasoning_tokens":1648229,"total_input_tokens_api":291402,"total_answer_tokens_api":349965,"total_reasoning_tokens_api":1780663},"yo":{"score":0.54,"input_tokens":307062,"answer_tokens":358111,"output_tokens":2448396,"reasoning_tokens":2090285,"total_input_tokens_api":404049,"total_answer_tokens_api":379677,"total_reasoning_tokens_api":2332748},"zh":{"score":0.8291666666666666,"input_tokens":179793,"answer_tokens":309376,"output_tokens":1286933,"reasoning_tokens":977557,"total_input_tokens_api":212361,"total_answer_tokens_api":305882,"total_reasoning_tokens_api":987560},"average":{"score":0.7975520833333334,"input_tokens":3383385,"answer_tokens":5396641,"output_tokens":25432532,"reasoning_tokens":20035891,"total_input_tokens_api":4736727,"total_answer_tokens_api":5625442,"total_reasoning_tokens_api":21721797}},"name":"Doubao Seed Code","is_open_weights":false,"omniscience":-35.933,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.128,"num_correct":128,"omniscience":-50.8,"attempt_rate":0.775,"num_incorrect":636,"total_questions":1000,"num_not_attempted":225,"hallucination_rate":0.7293577981651376,"num_partial_answer":11}},"total":{"accuracy":0.23866666666666667,"num_correct":1432,"omniscience":-35.93333333333333,"attempt_rate":0.8623333333333333,"num_incorrect":3588,"total_questions":6000,"num_not_attempted":826,"hallucination_rate":0.7854640980735552,"num_partial_answer":154},"Health":{"total":{"accuracy":0.221,"num_correct":221,"omniscience":-41.8,"attempt_rate":0.903,"num_incorrect":639,"total_questions":1000,"num_not_attempted":97,"hallucination_rate":0.8202824133504493,"num_partial_answer":43}},"Business":{"total":{"accuracy":0.207,"num_correct":207,"omniscience":-33.2,"attempt_rate":0.77,"num_incorrect":539,"total_questions":1000,"num_not_attempted":230,"hallucination_rate":0.6796973518284993,"num_partial_answer":24}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.44,"num_correct":44,"omniscience":-8,"attempt_rate":0.99,"num_incorrect":52,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9285714285714286,"num_partial_answer":3}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-74,"attempt_rate":0.9,"num_incorrect":41,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8913043478260869,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-42,"attempt_rate":0.9,"num_incorrect":32,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8205128205128205,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-40,"attempt_rate":0.96,"num_incorrect":34,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9444444444444444,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-46,"attempt_rate":1,"num_incorrect":36,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.972972972972973,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-38,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8648648648648649,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.26,"num_correct":26,"omniscience":-45,"attempt_rate":0.98,"num_incorrect":71,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9594594594594594,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":22,"attempt_rate":0.96,"num_incorrect":16,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.6956521739130435,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":-4,"attempt_rate":0.96,"num_incorrect":12,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8571428571428571,"num_partial_answer":1}},"total":{"accuracy":0.303,"num_correct":303,"omniscience":-32.6,"attempt_rate":0.963,"num_incorrect":629,"total_questions":1000,"num_not_attempted":37,"hallucination_rate":0.9024390243902439,"num_partial_answer":31},"Kotlin":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-30,"attempt_rate":0.88,"num_incorrect":28,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.7567567567567568,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.265,"num_correct":53,"omniscience":-39.5,"attempt_rate":0.945,"num_incorrect":132,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.8979591836734694,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.38181818181818183,"num_correct":42,"omniscience":-19.09090909090909,"attempt_rate":0.990909090909091,"num_incorrect":63,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9264705882352942,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.26666666666666666,"num_correct":24,"omniscience":-44.44444444444444,"attempt_rate":1,"num_incorrect":64,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9696969696969697,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.245,"num_correct":245,"omniscience":-34,"attempt_rate":0.845,"num_incorrect":585,"total_questions":1000,"num_not_attempted":155,"hallucination_rate":0.7748344370860927,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.328,"num_correct":328,"omniscience":-23.2,"attempt_rate":0.918,"num_incorrect":560,"total_questions":1000,"num_not_attempted":82,"hallucination_rate":0.8333333333333334,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-11","representative_query_token_counts":null,"scicode":0.407,"short_name":"Doubao Seed Code","show_host_model_evals":false,"size_class":"Medium","slug":"doubao-seed-code","tau2":0.582,"terminalbench_hard":0.248,"tokenizer_id":null,"model_creators":{"id":"2354746c-4775-4a06-b64d-0ba4137785b8","logo":"bytedance.svg","name":"ByteDance Seed","slug":"bytedance_seed","color":"#3c8bff","deleted":false,"host_id":null,"created_at":"2025-04-09T10:59:59.683243+00:00","logo_small":"bytedance_small.svg","creator_url":"","display_order":234324327,"logo_url":"/img/logos/bytedance.svg","logo_small_url":"/img/logos/bytedance_small.svg"},"host_models":[{"id":"348c2007-3293-4fa1-b9d7-cb7258ecc993","slug":"zenmux_doubao-seed-code","deleted":false,"host_id":"bf728967-8260-4723-84b4-2d0840523d6b","gpqa_16x":null,"model_id":"4d6dd5ce-08cb-4e87-9288-1dd2f022aa35","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"volcengine/doubao-seed-code","function_calling":true,"cache_write_price":null,"host_model_string":"ZenMux_Doubao Seed Code","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.17,"price_1m_output_tokens":1.12,"price_1m_blended_3_to_1":0.4075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":256000,"price_m_tokens_blended_3_to_1_per_dollar":2.45,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/doubao-seed-code","hosts_url":"/models/doubao-seed-code/providers","name_and_creator_label":"Doubao Seed Code, ByteDance Seed"},{"additional_text":null,"aime":null,"aime25":0.847,"agentic_index":44.82,"coding_index":28.68,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":845,"estimated_intelligence_index":null,"model_family_slug":"doubao-seed-code","frontier_model":false,"gdpval":925.3674046494532,"gpqa":0.801,"hle":0.148,"humaneval":null,"id":"80fb9560-3613-4865-be24-548f8559e5e7","ifbench":0.563,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":true,"intelligence_index":34.87,"intelligence_index_token_counts":{"input_tokens":84896657,"answer_tokens":3329921,"output_tokens":51471496,"reasoning_tokens":48141575},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.62,"license_name":null,"license_url":null,"livecodebench":0.745,"math_500":null,"math_index":84.67,"mmlu_pro":0.85,"mmmu_pro":0.712,"model_creator_id":"2354746c-4775-4a06-b64d-0ba4137785b8","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8450000000000001,"input_tokens":188556,"answer_tokens":284316,"output_tokens":921372,"reasoning_tokens":637056,"total_input_tokens_api":276108,"total_answer_tokens_api":360451,"total_reasoning_tokens_api":704470},"bn":{"score":0.8391666666666667,"input_tokens":225534,"answer_tokens":303556,"output_tokens":1017287,"reasoning_tokens":713731,"total_input_tokens_api":389448,"total_answer_tokens_api":426787,"total_reasoning_tokens_api":854462},"de":{"score":0.8958333333333334,"input_tokens":191646,"answer_tokens":322543,"output_tokens":860135,"reasoning_tokens":537592,"total_input_tokens_api":261003,"total_answer_tokens_api":356716,"total_reasoning_tokens_api":573226},"en":{"score":0.9125,"input_tokens":159654,"answer_tokens":286908,"output_tokens":743581,"reasoning_tokens":456673,"total_input_tokens_api":217605,"total_answer_tokens_api":297155,"total_reasoning_tokens_api":481533},"es":{"score":0.8983333333333333,"input_tokens":182088,"answer_tokens":336890,"output_tokens":879466,"reasoning_tokens":542576,"total_input_tokens_api":253146,"total_answer_tokens_api":376520,"total_reasoning_tokens_api":579002},"fr":{"score":0.8933333333333334,"input_tokens":191346,"answer_tokens":330320,"output_tokens":877095,"reasoning_tokens":546775,"total_input_tokens_api":261234,"total_answer_tokens_api":365374,"total_reasoning_tokens_api":583039},"hi":{"score":0.8383333333333334,"input_tokens":209430,"answer_tokens":306232,"output_tokens":988394,"reasoning_tokens":682162,"total_input_tokens_api":379704,"total_answer_tokens_api":486006,"total_reasoning_tokens_api":816561},"id":{"score":0.8775,"input_tokens":181314,"answer_tokens":338634,"output_tokens":915792,"reasoning_tokens":577158,"total_input_tokens_api":247347,"total_answer_tokens_api":372450,"total_reasoning_tokens_api":614445},"it":{"score":0.8983333333333333,"input_tokens":199032,"answer_tokens":355707,"output_tokens":917929,"reasoning_tokens":562222,"total_input_tokens_api":259020,"total_answer_tokens_api":368634,"total_reasoning_tokens_api":594070},"ja":{"score":0.8758333333333334,"input_tokens":228129,"answer_tokens":318779,"output_tokens":921353,"reasoning_tokens":602574,"total_input_tokens_api":323547,"total_answer_tokens_api":354102,"total_reasoning_tokens_api":649056},"ko":{"score":0.8716666666666667,"input_tokens":199401,"answer_tokens":293253,"output_tokens":930185,"reasoning_tokens":636932,"total_input_tokens_api":281880,"total_answer_tokens_api":321359,"total_reasoning_tokens_api":684861},"my":{"score":0.7933333333333333,"input_tokens":353547,"answer_tokens":327050,"output_tokens":1131490,"reasoning_tokens":804440,"total_input_tokens_api":488547,"total_answer_tokens_api":364707,"total_reasoning_tokens_api":890657},"pt":{"score":0.8933333333333332,"input_tokens":178176,"answer_tokens":331981,"output_tokens":895435,"reasoning_tokens":563454,"total_input_tokens_api":252228,"total_answer_tokens_api":389566,"total_reasoning_tokens_api":605477},"sw":{"score":0.7641666666666665,"input_tokens":208677,"answer_tokens":323854,"output_tokens":1083816,"reasoning_tokens":759962,"total_input_tokens_api":296202,"total_answer_tokens_api":379481,"total_reasoning_tokens_api":822242},"yo":{"score":0.5599999999999999,"input_tokens":307062,"answer_tokens":308939,"output_tokens":1267023,"reasoning_tokens":958084,"total_input_tokens_api":408849,"total_answer_tokens_api":338161,"total_reasoning_tokens_api":1060498},"zh":{"score":0.8825,"input_tokens":179793,"answer_tokens":273755,"output_tokens":807884,"reasoning_tokens":534129,"total_input_tokens_api":217161,"total_answer_tokens_api":248622,"total_reasoning_tokens_api":461050},"average":{"score":0.8461979166666667,"input_tokens":3383385,"answer_tokens":5042717,"output_tokens":15158237,"reasoning_tokens":10115520,"total_input_tokens_api":4813029,"total_answer_tokens_api":5806091,"total_reasoning_tokens_api":10974649}},"name":"Doubao-Seed-1.8","is_open_weights":false,"omniscience":-41.883,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.137,"num_correct":137,"omniscience":-59.6,"attempt_rate":0.888,"num_incorrect":733,"total_questions":1000,"num_not_attempted":112,"hallucination_rate":0.8493626882966396,"num_partial_answer":18}},"total":{"accuracy":0.24983333333333332,"num_correct":1499,"omniscience":-41.88333333333333,"attempt_rate":0.947,"num_incorrect":4012,"total_questions":6000,"num_not_attempted":318,"hallucination_rate":0.8913574761164186,"num_partial_answer":171},"Health":{"total":{"accuracy":0.231,"num_correct":231,"omniscience":-48,"attempt_rate":0.985,"num_incorrect":711,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9245773732119635,"num_partial_answer":43}},"Business":{"total":{"accuracy":0.229,"num_correct":229,"omniscience":-41.4,"attempt_rate":0.898,"num_incorrect":643,"total_questions":1000,"num_not_attempted":102,"hallucination_rate":0.833981841763943,"num_partial_answer":26}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.5,"num_correct":50,"omniscience":4,"attempt_rate":0.99,"num_incorrect":46,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.92,"num_partial_answer":3}},"R":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-66,"attempt_rate":0.98,"num_incorrect":41,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9761904761904762,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-40,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.96,"num_incorrect":33,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-42,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9722222222222222,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-8,"attempt_rate":1,"num_incorrect":25,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8620689655172413,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-52,"attempt_rate":1,"num_incorrect":74,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9487179487179487,"num_partial_answer":4}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":24,"attempt_rate":1,"num_incorrect":16,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7272727272727273,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-52,"attempt_rate":1,"num_incorrect":19,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-12,"attempt_rate":0.96,"num_incorrect":13,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"total":{"accuracy":0.329,"num_correct":329,"omniscience":-30,"attempt_rate":0.991,"num_incorrect":629,"total_questions":1000,"num_not_attempted":9,"hallucination_rate":0.9374068554396423,"num_partial_answer":33},"Kotlin":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-36,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8888888888888888,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.285,"num_correct":57,"omniscience":-41.5,"attempt_rate":0.995,"num_incorrect":140,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9790209790209791,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.35454545454545455,"num_correct":39,"omniscience":-24.545454545454547,"attempt_rate":0.990909090909091,"num_incorrect":66,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9295774647887324,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.35555555555555557,"num_correct":32,"omniscience":-25.555555555555557,"attempt_rate":1,"num_incorrect":55,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9482758620689655,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.255,"num_correct":255,"omniscience":-42.7,"attempt_rate":0.958,"num_incorrect":682,"total_questions":1000,"num_not_attempted":42,"hallucination_rate":0.9154362416107382,"num_partial_answer":21}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.318,"num_correct":318,"omniscience":-29.6,"attempt_rate":0.962,"num_incorrect":614,"total_questions":1000,"num_not_attempted":38,"hallucination_rate":0.9002932551319648,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-12-18","representative_query_token_counts":null,"scicode":0.449,"short_name":"Doubao-Seed-1.8","show_host_model_evals":false,"size_class":"Medium","slug":"doubao-seed-1-8","tau2":0.915,"terminalbench_hard":0.206,"tokenizer_id":null,"model_creators":{"id":"2354746c-4775-4a06-b64d-0ba4137785b8","logo":"bytedance.svg","name":"ByteDance Seed","slug":"bytedance_seed","color":"#3c8bff","deleted":false,"host_id":null,"created_at":"2025-04-09T10:59:59.683243+00:00","logo_small":"bytedance_small.svg","creator_url":"","display_order":234324327,"logo_url":"/img/logos/bytedance.svg","logo_small_url":"/img/logos/bytedance_small.svg"},"host_models":[{"id":"377a9d11-8657-41c0-bb35-a6b103b0d724","slug":"zenmux_doubao-seed-1-8","deleted":false,"host_id":"bf728967-8260-4723-84b4-2d0840523d6b","gpqa_16x":null,"model_id":"80fb9560-3613-4865-be24-548f8559e5e7","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"volcengine/doubao-seed-1.8","function_calling":true,"cache_write_price":null,"host_model_string":"ZenMux_Doubao-Seed-1.8","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":0.28,"price_1m_blended_3_to_1":0.1525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":6.56,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/doubao-seed-1-8","hosts_url":"/models/doubao-seed-1-8/providers","name_and_creator_label":"Doubao-Seed-1.8, ByteDance Seed"},{"additional_text":null,"aime":0.223,"aime25":0.21,"agentic_index":35.82,"coding_index":25.78,"commercial_allowed":null,"computed_performance_host_model_id":"325bf193-92f2-4628-a2d9-566c3b4d7f55","context_window_tokens":200000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"claude-4-sonnet","display_order":1251,"estimated_intelligence_index":21.444644765142435,"model_family_slug":"claude-3-7","frontier_model":false,"gdpval":1073.0409580949115,"gpqa":0.656,"hle":0.048,"humaneval":0.949,"id":"d925845d-39ad-4de3-8495-f176b79828c0","ifbench":0.44,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":30.55,"intelligence_index_token_counts":{"input_tokens":118121517,"answer_tokens":5543462,"output_tokens":5543462,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-10-01","lab_claimed_aime":null,"lab_claimed_gpqa":0.68,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.483,"license_name":null,"license_url":null,"livecodebench":0.394,"math_500":0.85,"math_index":21,"mmlu_pro":0.803,"mmmu_pro":0.601,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 3.7 Sonnet (Non-reasoning)","is_open_weights":false,"omniscience":-10.983,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.288,"num_correct":288,"omniscience":-4.2,"attempt_rate":0.635,"num_incorrect":330,"total_questions":1000,"num_not_attempted":365,"hallucination_rate":0.46348314606741575,"num_partial_answer":17}},"total":{"accuracy":0.2698333333333333,"num_correct":1619,"omniscience":-10.983333333333333,"attempt_rate":0.6808333333333333,"num_incorrect":2278,"total_questions":6000,"num_not_attempted":1915,"hallucination_rate":0.5199726089933805,"num_partial_answer":188},"Health":{"total":{"accuracy":0.219,"num_correct":219,"omniscience":-17.7,"attempt_rate":0.683,"num_incorrect":396,"total_questions":1000,"num_not_attempted":317,"hallucination_rate":0.5070422535211268,"num_partial_answer":68}},"Business":{"total":{"accuracy":0.274,"num_correct":274,"omniscience":-6,"attempt_rate":0.631,"num_incorrect":334,"total_questions":1000,"num_not_attempted":369,"hallucination_rate":0.46005509641873277,"num_partial_answer":23}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.41,"num_correct":41,"omniscience":-11,"attempt_rate":0.95,"num_incorrect":52,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.8813559322033898,"num_partial_answer":2}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-36,"attempt_rate":0.8,"num_incorrect":29,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7435897435897436,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-30,"attempt_rate":0.88,"num_incorrect":29,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8055555555555556,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-28,"attempt_rate":0.76,"num_incorrect":24,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6,"num_partial_answer":4}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-50,"attempt_rate":0.94,"num_incorrect":34,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8292682926829268,"num_partial_answer":4}},"HTML":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":16,"attempt_rate":0.76,"num_incorrect":14,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.5,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-40,"attempt_rate":0.9,"num_incorrect":64,"total_questions":100,"num_not_attempted":10,"hallucination_rate":0.8421052631578947,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":20,"attempt_rate":0.9,"num_incorrect":16,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.6666666666666666,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-40,"attempt_rate":0.8,"num_incorrect":15,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.75,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":4,"attempt_rate":0.88,"num_incorrect":10,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.7142857142857143,"num_partial_answer":1}},"total":{"accuracy":0.295,"num_correct":295,"omniscience":-21.9,"attempt_rate":0.835,"num_incorrect":514,"total_questions":1000,"num_not_attempted":165,"hallucination_rate":0.7290780141843972,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-28,"attempt_rate":0.8,"num_incorrect":27,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7297297297297297,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.27,"num_correct":54,"omniscience":-20,"attempt_rate":0.745,"num_incorrect":94,"total_questions":200,"num_not_attempted":51,"hallucination_rate":0.6438356164383562,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-20.90909090909091,"attempt_rate":0.8181818181818182,"num_incorrect":54,"total_questions":110,"num_not_attempted":20,"hallucination_rate":0.6835443037974683,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.26666666666666666,"num_correct":24,"omniscience":-31.11111111111111,"attempt_rate":0.8555555555555555,"num_incorrect":52,"total_questions":90,"num_not_attempted":13,"hallucination_rate":0.7878787878787878,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.278,"num_correct":278,"omniscience":-3.8,"attempt_rate":0.612,"num_incorrect":316,"total_questions":1000,"num_not_attempted":388,"hallucination_rate":0.4376731301939058,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.265,"num_correct":265,"omniscience":-12.3,"attempt_rate":0.689,"num_incorrect":388,"total_questions":1000,"num_not_attempted":311,"hallucination_rate":0.527891156462585,"num_partial_answer":36}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":8192,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-02-24","representative_query_token_counts":null,"scicode":0.376,"short_name":"Claude 3.7 Sonnet","show_host_model_evals":false,"size_class":"Large","slug":"claude-3-7-sonnet","tau2":0.5,"terminalbench_hard":0.199,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"325bf193-92f2-4628-a2d9-566c3b4d7f55","slug":"anthropic_claude-3-7-sonnet","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"d925845d-39ad-4de3-8495-f176b79828c0","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-3-7-sonnet-20250219","function_calling":true,"cache_write_price":3.75,"host_model_string":"Anthropic_Claude 3.7 Sonnet (Non-reasoning)","cache_pricing_notes":"1h cache write: $6","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":"100","override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"ce6611e3-e962-463f-98c6-9a53d47a11b2","slug":"amazon-bedrock_claude-3-7-sonnet","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"d925845d-39ad-4de3-8495-f176b79828c0","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-3-7-sonnet-20250219-v1:0","function_calling":true,"cache_write_price":3.75,"host_model_string":"Amazon Bedrock_Claude 3.7 Sonnet (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":"100","override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"aca69cb2-a677-48b5-ba46-11797a0ca3f6","slug":"databricks_claude-3-7-sonnet","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"d925845d-39ad-4de3-8495-f176b79828c0","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-claude-3-7-sonnet","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_Claude 3.7 Sonnet (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":3.335,"image_input_pricing_notes":null,"supports_images_input_note":"100","override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"df8de9c0-b614-4812-9e00-620574392c9d","slug":"google_claude-3-7-sonnet_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"d925845d-39ad-4de3-8495-f176b79828c0","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-3-7-sonnet@20250219","function_calling":true,"cache_write_price":3.75,"host_model_string":"Google_Claude 3.7 Sonnet (Non-reasoning)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-3-7-sonnet","hosts_url":"/models/claude-3-7-sonnet/providers","name_and_creator_label":"Claude 3.7 Sonnet, Anthropic"},{"additional_text":null,"aime":0.487,"aime25":0.563,"agentic_index":37.08,"coding_index":26.66,"commercial_allowed":null,"computed_performance_host_model_id":"5619e548-8f61-40a3-8f22-5821c98999f8","context_window_tokens":200000,"critpt":0.009,"deleted":false,"deprecated":true,"deprecated_to":"claude-4-sonnet-thinking","display_order":1248,"estimated_intelligence_index":27.062390319753344,"model_family_slug":"claude-3-7","frontier_model":false,"gdpval":1060.21397906596,"gpqa":0.772,"hle":0.103,"humaneval":0.978,"id":"13358187-4584-479c-ab43-5bcdf8f297a4","ifbench":0.483,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":34.4,"intelligence_index_token_counts":{"input_tokens":113708944,"answer_tokens":5702356,"output_tokens":65023323,"reasoning_tokens":59320967},"knowledge_cutoff_date":"2024-10-01","lab_claimed_aime":null,"lab_claimed_gpqa":0.782,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.607,"license_name":null,"license_url":null,"livecodebench":0.473,"math_500":0.947,"math_index":56.33,"mmlu_pro":0.837,"mmmu_pro":null,"model_creator_id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","model_weights_source_url":null,"multilingual_aa":null,"name":"Claude 3.7 Sonnet (Reasoning)","is_open_weights":false,"omniscience":-1.733,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.248,"num_correct":248,"omniscience":10.2,"attempt_rate":0.409,"num_incorrect":146,"total_questions":1000,"num_not_attempted":591,"hallucination_rate":0.19414893617021275,"num_partial_answer":15}},"total":{"accuracy":0.26766666666666666,"num_correct":1606,"omniscience":-1.7333333333333334,"attempt_rate":0.5801666666666667,"num_incorrect":1710,"total_questions":6000,"num_not_attempted":2519,"hallucination_rate":0.3891670459717797,"num_partial_answer":165},"Health":{"total":{"accuracy":0.248,"num_correct":248,"omniscience":-13.2,"attempt_rate":0.679,"num_incorrect":380,"total_questions":1000,"num_not_attempted":321,"hallucination_rate":0.5053191489361702,"num_partial_answer":51}},"Business":{"total":{"accuracy":0.239,"num_correct":239,"omniscience":0.7,"attempt_rate":0.49,"num_incorrect":232,"total_questions":1000,"num_not_attempted":510,"hallucination_rate":0.30486202365308807,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.5,"num_correct":50,"omniscience":12,"attempt_rate":0.91,"num_incorrect":38,"total_questions":100,"num_not_attempted":9,"hallucination_rate":0.76,"num_partial_answer":3}},"R":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-2,"attempt_rate":0.54,"num_incorrect":14,"total_questions":50,"num_not_attempted":23,"hallucination_rate":0.3783783783783784,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-22,"attempt_rate":0.56,"num_incorrect":19,"total_questions":50,"num_not_attempted":22,"hallucination_rate":0.4523809523809524,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-8,"attempt_rate":0.52,"num_incorrect":14,"total_questions":50,"num_not_attempted":24,"hallucination_rate":0.35,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-6,"attempt_rate":0.7,"num_incorrect":17,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.4722222222222222,"num_partial_answer":4}},"HTML":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":18,"attempt_rate":0.76,"num_incorrect":14,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.5185185185185185,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-29,"attempt_rate":0.7,"num_incorrect":49,"total_questions":100,"num_not_attempted":30,"hallucination_rate":0.6125,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":26,"attempt_rate":0.9,"num_incorrect":14,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.6086956521739131,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":4,"attempt_rate":0.64,"num_incorrect":7,"total_questions":25,"num_not_attempted":9,"hallucination_rate":0.4117647058823529,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":0,"attempt_rate":0.8,"num_incorrect":10,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.6666666666666666,"num_partial_answer":0}},"total":{"accuracy":0.303,"num_correct":303,"omniscience":-4.8,"attempt_rate":0.679,"num_incorrect":351,"total_questions":1000,"num_not_attempted":321,"hallucination_rate":0.503586800573888,"num_partial_answer":25},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-12,"attempt_rate":0.56,"num_incorrect":16,"total_questions":50,"num_not_attempted":22,"hallucination_rate":0.4,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.24,"num_correct":48,"omniscience":-5.5,"attempt_rate":0.535,"num_incorrect":59,"total_questions":200,"num_not_attempted":93,"hallucination_rate":0.3881578947368421,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.38181818181818183,"num_correct":42,"omniscience":2.727272727272727,"attempt_rate":0.7818181818181819,"num_incorrect":39,"total_questions":110,"num_not_attempted":24,"hallucination_rate":0.5735294117647058,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.2222222222222222,"num_correct":20,"omniscience":-23.333333333333332,"attempt_rate":0.6888888888888889,"num_incorrect":41,"total_questions":90,"num_not_attempted":28,"hallucination_rate":0.5857142857142857,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.254,"num_correct":254,"omniscience":4.3,"attempt_rate":0.489,"num_incorrect":211,"total_questions":1000,"num_not_attempted":511,"hallucination_rate":0.2828418230563003,"num_partial_answer":24}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.314,"num_correct":314,"omniscience":-7.6,"attempt_rate":0.735,"num_incorrect":390,"total_questions":1000,"num_not_attempted":265,"hallucination_rate":0.5685131195335277,"num_partial_answer":31}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-02-24","representative_query_token_counts":{"n_queries":180,"updated_at":"2025-03-16T23:59:41.667311","input_tokens":1029,"answer_tokens":935,"output_tokens":2040,"reasoning_tokens":1105,"max_answer_tokens_used":7764,"max_output_tokens_used":9090,"max_reasoning_tokens_used":8455},"scicode":0.403,"short_name":"Claude 3.7 Sonnet","show_host_model_evals":false,"size_class":"Large","slug":"claude-3-7-sonnet-thinking","tau2":0.547,"terminalbench_hard":0.199,"tokenizer_id":null,"model_creators":{"id":"f0aa413f-e8ae-4fcd-9c48-0e049f4f3128","logo":"anthropic.svg","name":"Anthropic","slug":"anthropic","color":"#cc785c","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"anthropic_small.svg","creator_url":"https://www.anthropic.com/","display_order":4,"logo_url":"/img/logos/anthropic.svg","logo_small_url":"/img/logos/anthropic_small.svg"},"host_models":[{"id":"5619e548-8f61-40a3-8f22-5821c98999f8","slug":"anthropic_claude-3-7-sonnet-thinking","deleted":false,"host_id":"a7b7b981-8720-4260-92c4-ceb47e785efc","gpqa_16x":null,"model_id":"13358187-4584-479c-ab43-5bcdf8f297a4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"claude-3-7-sonnet-20250219","function_calling":true,"cache_write_price":3.75,"host_model_string":"Anthropic_Claude 3.7 Sonnet (Reasoning)","cache_pricing_notes":"1h cache write: $6 ","model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":"100","override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"db289df0-794a-4edf-a240-6047c10bf6e7","slug":"amazon-bedrock_claude-3-7-sonnet-thinking","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"13358187-4584-479c-ab43-5bcdf8f297a4","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.anthropic.claude-3-7-sonnet-20250219-v1:0","function_calling":true,"cache_write_price":3.75,"host_model_string":"Amazon Bedrock_Claude 3.7 Sonnet (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":4,"image_input_pricing_notes":null,"supports_images_input_note":"100","override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/claude-3-7-sonnet-thinking","hosts_url":"/models/claude-3-7-sonnet-thinking/providers","name_and_creator_label":"Claude 3.7 Sonnet, Anthropic"},{"additional_text":null,"aime":0.5,"aime25":0.603,"agentic_index":16.47,"coding_index":17.25,"commercial_allowed":null,"computed_performance_host_model_id":"632565dd-6e51-41af-894a-7d61ba4e7b0e","context_window_tokens":1000000,"critpt":0.014,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-flash-preview-09-2025","display_order":1202,"estimated_intelligence_index":21.078423891125734,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":816.5151983807854,"gpqa":0.683,"hle":0.051,"humaneval":0.951,"id":"6afbfb62-27e4-435e-9c85-d9fe1b92519e","ifbench":0.39,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":20.77,"intelligence_index_token_counts":{"input_tokens":138513494,"answer_tokens":13614869,"output_tokens":13614869,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.459,"license_name":null,"license_url":null,"livecodebench":0.495,"math_500":0.932,"math_index":60.33,"mmlu_pro":0.809,"mmmu_pro":0.655,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash (Non-reasoning)","is_open_weights":false,"omniscience":-43.75,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.227,"num_correct":227,"omniscience":-47.4,"attempt_rate":0.941,"num_incorrect":701,"total_questions":1000,"num_not_attempted":59,"hallucination_rate":0.906856403622251,"num_partial_answer":13}},"total":{"accuracy":0.2535,"num_correct":1521,"omniscience":-43.75,"attempt_rate":0.9665,"num_incorrect":4146,"total_questions":6000,"num_not_attempted":201,"hallucination_rate":0.9256530475552579,"num_partial_answer":132},"Health":{"total":{"accuracy":0.226,"num_correct":226,"omniscience":-48,"attempt_rate":0.985,"num_incorrect":706,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9121447028423773,"num_partial_answer":53}},"Business":{"total":{"accuracy":0.222,"num_correct":222,"omniscience":-49.7,"attempt_rate":0.959,"num_incorrect":719,"total_questions":1000,"num_not_attempted":41,"hallucination_rate":0.9241645244215938,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.45,"num_correct":45,"omniscience":-8,"attempt_rate":0.99,"num_incorrect":53,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9636363636363636,"num_partial_answer":1}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.94,"num_incorrect":37,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.925,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-54,"attempt_rate":0.92,"num_incorrect":35,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8333333333333334,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-52,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.94,"num_incorrect":37,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.925,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-32,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-43,"attempt_rate":0.83,"num_incorrect":63,"total_questions":100,"num_not_attempted":17,"hallucination_rate":0.7875,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":0,"attempt_rate":1,"num_incorrect":24,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":0,"attempt_rate":1,"num_incorrect":12,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":1}},"total":{"accuracy":0.289,"num_correct":289,"omniscience":-36.5,"attempt_rate":0.96,"num_incorrect":654,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.919831223628692,"num_partial_answer":17},"Kotlin":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":33,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8461538461538461,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.27,"num_correct":54,"omniscience":-41.5,"attempt_rate":0.97,"num_incorrect":137,"total_questions":200,"num_not_attempted":6,"hallucination_rate":0.9383561643835616,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.36363636363636365,"num_correct":40,"omniscience":-24.545454545454547,"attempt_rate":0.990909090909091,"num_incorrect":67,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9571428571428572,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-44.44444444444444,"attempt_rate":0.9888888888888889,"num_incorrect":63,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9402985074626866,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.28,"num_correct":280,"omniscience":-39.2,"attempt_rate":0.967,"num_incorrect":672,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.9333333333333333,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.277,"num_correct":277,"omniscience":-41.7,"attempt_rate":0.987,"num_incorrect":694,"total_questions":1000,"num_not_attempted":13,"hallucination_rate":0.9598893499308437,"num_partial_answer":16}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-05-20","representative_query_token_counts":null,"scicode":0.291,"short_name":"Gemini 2.5 Flash","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash","tau2":0.149,"terminalbench_hard":0.113,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"b5597136-a69e-4629-b2a9-350595cf79b4","slug":"google_gemini-2-5-flash-05-20_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"6afbfb62-27e4-435e-9c85-d9fe1b92519e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"google/gemini-2.5-flash","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash (Non-reasoning)_(Vertex)","cache_pricing_notes":null,"model_name_appendage":"(Vertex)","price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":0.1935,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":1},{"id":"632565dd-6e51-41af-894a-7d61ba4e7b0e","slug":"google_gemini-2-5-flash-05-20_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"6afbfb62-27e4-435e-9c85-d9fe1b92519e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash (Non-reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":0.1935,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash","hosts_url":"/models/gemini-2-5-flash/providers","name_and_creator_label":"Gemini 2.5 Flash, Google"},{"additional_text":null,"aime":0.823,"aime25":0.733,"agentic_index":20.6,"coding_index":21.63,"commercial_allowed":null,"computed_performance_host_model_id":"62c274b1-8084-4070-8c51-d0decbecb1ed","context_window_tokens":1000000,"critpt":0.011,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-flash-preview-09-2025-reasoning","display_order":1223,"estimated_intelligence_index":28.025784261074286,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":790.318677489238,"gpqa":0.79,"hle":0.111,"humaneval":0.962,"id":"219ed587-60c5-4a48-9517-8480e08d0ca1","ifbench":0.503,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":27.12,"intelligence_index_token_counts":{"input_tokens":138801251,"answer_tokens":9628449,"output_tokens":57091695,"reasoning_tokens":47463245},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.617,"license_name":null,"license_url":null,"livecodebench":0.695,"math_500":0.981,"math_index":73.33,"mmlu_pro":0.832,"mmmu_pro":0.691,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash (Reasoning)","is_open_weights":false,"omniscience":-30.85,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.243,"num_correct":243,"omniscience":-32.8,"attempt_rate":0.83,"num_incorrect":571,"total_questions":1000,"num_not_attempted":170,"hallucination_rate":0.7542932628797886,"num_partial_answer":16}},"total":{"accuracy":0.249,"num_correct":1494,"omniscience":-30.85,"attempt_rate":0.8323333333333334,"num_incorrect":3345,"total_questions":6000,"num_not_attempted":1006,"hallucination_rate":0.7423435419440746,"num_partial_answer":155},"Health":{"total":{"accuracy":0.239,"num_correct":239,"omniscience":-36.9,"attempt_rate":0.891,"num_incorrect":608,"total_questions":1000,"num_not_attempted":109,"hallucination_rate":0.7989487516425755,"num_partial_answer":44}},"Business":{"total":{"accuracy":0.212,"num_correct":212,"omniscience":-31.5,"attempt_rate":0.758,"num_incorrect":527,"total_questions":1000,"num_not_attempted":242,"hallucination_rate":0.6687817258883249,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.42,"num_correct":42,"omniscience":-12,"attempt_rate":0.98,"num_incorrect":54,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9310344827586207,"num_partial_answer":2}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-42,"attempt_rate":0.88,"num_incorrect":32,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8205128205128205,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-32,"attempt_rate":0.84,"num_incorrect":29,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7837837837837838,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.92,"num_incorrect":35,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.875,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-40,"attempt_rate":0.94,"num_incorrect":33,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8918918918918919,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":29,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8787878787878788,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-60,"attempt_rate":0.97,"num_incorrect":77,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.927710843373494,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":12,"attempt_rate":1,"num_incorrect":20,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8333333333333334,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-64,"attempt_rate":0.88,"num_incorrect":19,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.8636363636363636,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":0.92,"num_incorrect":14,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.875,"num_partial_answer":0}},"total":{"accuracy":0.273,"num_correct":273,"omniscience":-35.2,"attempt_rate":0.924,"num_incorrect":625,"total_questions":1000,"num_not_attempted":76,"hallucination_rate":0.859697386519945,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-40,"attempt_rate":0.84,"num_incorrect":30,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.75,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-44.5,"attempt_rate":0.92,"num_incorrect":133,"total_questions":200,"num_not_attempted":16,"hallucination_rate":0.8525641025641025,"num_partial_answer":7}},"JavaScript":{"total":{"accuracy":0.3090909090909091,"num_correct":34,"omniscience":-28.181818181818183,"attempt_rate":0.9,"num_incorrect":65,"total_questions":110,"num_not_attempted":11,"hallucination_rate":0.8552631578947368,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.26666666666666666,"num_correct":24,"omniscience":-34.44444444444444,"attempt_rate":0.9111111111111111,"num_incorrect":55,"total_questions":90,"num_not_attempted":8,"hallucination_rate":0.8333333333333334,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.249,"num_correct":249,"omniscience":-30.7,"attempt_rate":0.822,"num_incorrect":556,"total_questions":1000,"num_not_attempted":178,"hallucination_rate":0.7403462050599201,"num_partial_answer":17}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.278,"num_correct":278,"omniscience":-18,"attempt_rate":0.769,"num_incorrect":458,"total_questions":1000,"num_not_attempted":231,"hallucination_rate":0.6343490304709142,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-05-20","representative_query_token_counts":null,"scicode":0.394,"short_name":"Gemini 2.5 Flash","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-reasoning","tau2":0.316,"terminalbench_hard":0.128,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"aa6228d9-3bb8-4d62-a3b6-4014385522da","slug":"google_gemini-2-5-flash-reasoning-05-20_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"219ed587-60c5-4a48-9517-8480e08d0ca1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"google/gemini-2.5-flash","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash (Reasoning)_(Vertex)","cache_pricing_notes":null,"model_name_appendage":"(Vertex)","price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":0.1935,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":1},{"id":"62c274b1-8084-4070-8c51-d0decbecb1ed","slug":"google_gemini-2-5-flash-05-20-reasoning_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"219ed587-60c5-4a48-9517-8480e08d0ca1","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash (Reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":0.1935,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash-reasoning","hosts_url":"/models/gemini-2-5-flash-reasoning/providers","name_and_creator_label":"Gemini 2.5 Flash, Google"},{"additional_text":null,"aime":0.433,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":"29f6b622-c248-4527-acdf-f7ea4ce0b246","context_window_tokens":1000000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-flash","display_order":1201,"estimated_intelligence_index":17.844790713497186,"model_family_slug":"gemini-2-5","frontier_model":null,"gdpval":null,"gpqa":0.594,"hle":0.05,"humaneval":null,"id":"55a3ebf6-6117-4cc1-8596-c6de6e552fd4","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":0.406,"math_500":0.926,"math_index":null,"mmlu_pro":0.783,"mmmu_pro":0.62,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash Preview (Non-reasoning)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-17","representative_query_token_counts":null,"scicode":0.233,"short_name":"Gemini 2.5 Flash","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-04-2025","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[],"model_url":"/models/gemini-2-5-flash-04-2025","hosts_url":"/models/gemini-2-5-flash-04-2025/providers","name_and_creator_label":"Gemini 2.5 Flash, Google"},{"additional_text":null,"aime":0.843,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":"c13f5215-44e2-4607-9e22-3bc2752b1034","context_window_tokens":1000000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-flash-reasoning","display_order":1196,"estimated_intelligence_index":24.29283568571511,"model_family_slug":"gemini-2-5","frontier_model":null,"gdpval":null,"gpqa":0.698,"hle":0.116,"humaneval":null,"id":"68c89ebf-779c-4445-9241-de964cd17355","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":0.88,"lab_claimed_gpqa":0.783,"lab_claimed_hle":0.121,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.635,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":0.505,"math_500":0.981,"math_index":null,"mmlu_pro":0.8,"mmmu_pro":null,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash Preview (Reasoning)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-04-17","representative_query_token_counts":null,"scicode":0.359,"short_name":"Gemini 2.5 Flash","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-reasoning-04-2025","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[],"model_url":"/models/gemini-2-5-flash-reasoning-04-2025","hosts_url":"/models/gemini-2-5-flash-reasoning-04-2025/providers","name_and_creator_label":"Gemini 2.5 Flash, Google"},{"additional_text":null,"aime":null,"aime25":0.567,"agentic_index":23.7,"coding_index":21.48,"commercial_allowed":null,"computed_performance_host_model_id":"f8cfe1d8-3d1e-4f85-80a9-892b76386a1f","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gemini-3-flash","display_order":1213,"estimated_intelligence_index":24.875290289463265,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":924.5279244326819,"gpqa":0.766,"hle":0.078,"humaneval":null,"id":"877fdfc9-2026-477a-af96-e4fd602c0131","ifbench":0.435,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":25.54,"intelligence_index_token_counts":{"input_tokens":158406835,"answer_tokens":22700825,"output_tokens":22700825,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.567,"license_name":null,"license_url":null,"livecodebench":0.625,"math_500":null,"math_index":56.67,"mmlu_pro":0.836,"mmmu_pro":0.702,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash Preview (Sep '25) (Non-reasoning)","is_open_weights":false,"omniscience":-41.317,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.241,"num_correct":241,"omniscience":-39.6,"attempt_rate":0.894,"num_incorrect":637,"total_questions":1000,"num_not_attempted":106,"hallucination_rate":0.839262187088274,"num_partial_answer":16}},"total":{"accuracy":0.25766666666666665,"num_correct":1546,"omniscience":-41.31666666666667,"attempt_rate":0.9486666666666667,"num_incorrect":4025,"total_questions":6000,"num_not_attempted":308,"hallucination_rate":0.9036820835204311,"num_partial_answer":121},"Health":{"total":{"accuracy":0.233,"num_correct":233,"omniscience":-47.6,"attempt_rate":0.976,"num_incorrect":709,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.924380704041721,"num_partial_answer":34}},"Business":{"total":{"accuracy":0.215,"num_correct":215,"omniscience":-47.1,"attempt_rate":0.921,"num_incorrect":686,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.8738853503184714,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.41,"num_correct":41,"omniscience":-14,"attempt_rate":0.99,"num_incorrect":55,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9322033898305084,"num_partial_answer":3}},"R":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":34,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8947368421052632,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-42,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9722222222222222,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-44,"attempt_rate":1,"num_incorrect":36,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9230769230769231,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-12,"attempt_rate":1,"num_incorrect":28,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.23,"num_correct":23,"omniscience":-54,"attempt_rate":1,"num_incorrect":77,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":0.94,"num_incorrect":21,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.84,"num_partial_answer":1}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":8,"attempt_rate":0.92,"num_incorrect":10,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7692307692307693,"num_partial_answer":1}},"total":{"accuracy":0.306,"num_correct":306,"omniscience":-34.9,"attempt_rate":0.973,"num_incorrect":655,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9438040345821326,"num_partial_answer":12},"Kotlin":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-38,"attempt_rate":0.92,"num_incorrect":32,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8648648648648649,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.24,"num_correct":48,"omniscience":-47.5,"attempt_rate":0.965,"num_incorrect":143,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9407894736842105,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.38181818181818183,"num_correct":42,"omniscience":-21.818181818181817,"attempt_rate":1,"num_incorrect":66,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9705882352941176,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.2777777777777778,"num_correct":25,"omniscience":-40,"attempt_rate":0.9777777777777777,"num_incorrect":61,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9384615384615385,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.277,"num_correct":277,"omniscience":-37.4,"attempt_rate":0.944,"num_incorrect":651,"total_questions":1000,"num_not_attempted":56,"hallucination_rate":0.9004149377593361,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.274,"num_correct":274,"omniscience":-41.3,"attempt_rate":0.984,"num_incorrect":687,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.9462809917355371,"num_partial_answer":23}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-25","representative_query_token_counts":null,"scicode":0.375,"short_name":"Gemini 2.5 Flash (Sep)","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-preview-09-2025","tau2":0.284,"terminalbench_hard":0.135,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"f8cfe1d8-3d1e-4f85-80a9-892b76386a1f","slug":"google_gemini-2-5-flash-preview-09-2025_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"877fdfc9-2026-477a-af96-e4fd602c0131","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash-preview-09-2025","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash Preview (Sep '25) (Non-reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash-preview-09-2025","hosts_url":"/models/gemini-2-5-flash-preview-09-2025/providers","name_and_creator_label":"Gemini 2.5 Flash (Sep), Google"},{"additional_text":null,"aime":null,"aime25":0.783,"agentic_index":34.07,"coding_index":23.9,"commercial_allowed":null,"computed_performance_host_model_id":"5a2d71c4-77ca-47a2-882d-40d3868d9ffd","context_window_tokens":1000000,"critpt":0.003,"deleted":false,"deprecated":true,"deprecated_to":"gemini-3-flash","display_order":1221,"estimated_intelligence_index":30.546495116688067,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":1066.8930869231158,"gpqa":0.793,"hle":0.127,"humaneval":null,"id":"c7667559-d9b6-43f1-8cd8-8bdbc78d190b","ifbench":0.523,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":30.77,"intelligence_index_token_counts":{"input_tokens":77977416,"answer_tokens":5466088,"output_tokens":47954330,"reasoning_tokens":42488241},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.643,"license_name":null,"license_url":null,"livecodebench":0.713,"math_500":null,"math_index":78.33,"mmlu_pro":0.842,"mmmu_pro":0.731,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8933333333333332,"input_tokens":188556,"answer_tokens":303959,"output_tokens":1207397,"reasoning_tokens":903438,"total_input_tokens_api":206397,"total_answer_tokens_api":333519,"total_reasoning_tokens_api":903438},"bn":{"score":0.8758333333333334,"input_tokens":225534,"answer_tokens":396255,"output_tokens":1315045,"reasoning_tokens":918790,"total_input_tokens_api":184848,"total_answer_tokens_api":302019,"total_reasoning_tokens_api":918790},"de":{"score":0.9033333333333333,"input_tokens":191646,"answer_tokens":281609,"output_tokens":1162565,"reasoning_tokens":880956,"total_input_tokens_api":202893,"total_answer_tokens_api":292847,"total_reasoning_tokens_api":880956},"en":{"score":0.9216666666666667,"input_tokens":159654,"answer_tokens":237924,"output_tokens":1020598,"reasoning_tokens":782674,"total_input_tokens_api":167769,"total_answer_tokens_api":243702,"total_reasoning_tokens_api":782674},"es":{"score":0.9191666666666668,"input_tokens":182088,"answer_tokens":285955,"output_tokens":1143985,"reasoning_tokens":858030,"total_input_tokens_api":190269,"total_answer_tokens_api":290636,"total_reasoning_tokens_api":858030},"fr":{"score":0.9075000000000001,"input_tokens":191346,"answer_tokens":282360,"output_tokens":1163577,"reasoning_tokens":881217,"total_input_tokens_api":204930,"total_answer_tokens_api":294627,"total_reasoning_tokens_api":881217},"hi":{"score":0.8758333333333334,"input_tokens":209430,"answer_tokens":389581,"output_tokens":1322743,"reasoning_tokens":933162,"total_input_tokens_api":191553,"total_answer_tokens_api":338836,"total_reasoning_tokens_api":933162},"id":{"score":0.9075000000000001,"input_tokens":181314,"answer_tokens":337334,"output_tokens":1212734,"reasoning_tokens":875400,"total_input_tokens_api":180828,"total_answer_tokens_api":324420,"total_reasoning_tokens_api":875400},"it":{"score":0.9091666666666667,"input_tokens":199032,"answer_tokens":315525,"output_tokens":1208647,"reasoning_tokens":893122,"total_input_tokens_api":199491,"total_answer_tokens_api":307286,"total_reasoning_tokens_api":893122},"ja":{"score":0.8933333333333334,"input_tokens":228129,"answer_tokens":436223,"output_tokens":1357825,"reasoning_tokens":921602,"total_input_tokens_api":190545,"total_answer_tokens_api":339179,"total_reasoning_tokens_api":921602},"ko":{"score":0.8883333333333333,"input_tokens":199401,"answer_tokens":388176,"output_tokens":1307116,"reasoning_tokens":918940,"total_input_tokens_api":200520,"total_answer_tokens_api":381844,"total_reasoning_tokens_api":918940},"my":{"score":0.8675,"input_tokens":353547,"answer_tokens":587137,"output_tokens":1623548,"reasoning_tokens":1036411,"total_input_tokens_api":298347,"total_answer_tokens_api":473876,"total_reasoning_tokens_api":1036411},"pt":{"score":0.8958333333333334,"input_tokens":178176,"answer_tokens":289328,"output_tokens":1154844,"reasoning_tokens":865516,"total_input_tokens_api":189723,"total_answer_tokens_api":303170,"total_reasoning_tokens_api":865516},"sw":{"score":0.8658333333333333,"input_tokens":208677,"answer_tokens":322951,"output_tokens":1281170,"reasoning_tokens":958219,"total_input_tokens_api":233826,"total_answer_tokens_api":359783,"total_reasoning_tokens_api":958219},"yo":{"score":0.7833333333333333,"input_tokens":307062,"answer_tokens":453272,"output_tokens":1607300,"reasoning_tokens":1154028,"total_input_tokens_api":348756,"total_answer_tokens_api":515086,"total_reasoning_tokens_api":1154028},"zh":{"score":0.8958333333333334,"input_tokens":179793,"answer_tokens":368103,"output_tokens":1289208,"reasoning_tokens":921105,"total_input_tokens_api":173439,"total_answer_tokens_api":335912,"total_reasoning_tokens_api":921105},"average":{"score":0.8877083333333333,"input_tokens":3383385,"answer_tokens":5675692,"output_tokens":20378302,"reasoning_tokens":14702610,"total_input_tokens_api":3364134,"total_answer_tokens_api":5436742,"total_reasoning_tokens_api":14702610}},"name":"Gemini 2.5 Flash Preview (Sep '25) (Reasoning)","is_open_weights":false,"omniscience":-37.5,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.265,"num_correct":265,"omniscience":-36.8,"attempt_rate":0.917,"num_incorrect":633,"total_questions":1000,"num_not_attempted":83,"hallucination_rate":0.8612244897959184,"num_partial_answer":19}},"total":{"accuracy":0.2698333333333333,"num_correct":1619,"omniscience":-37.5,"attempt_rate":0.9391666666666667,"num_incorrect":3869,"total_questions":6000,"num_not_attempted":365,"hallucination_rate":0.883131705090162,"num_partial_answer":147},"Health":{"total":{"accuracy":0.24,"num_correct":240,"omniscience":-45,"attempt_rate":0.968,"num_incorrect":690,"total_questions":1000,"num_not_attempted":32,"hallucination_rate":0.9078947368421053,"num_partial_answer":38}},"Business":{"total":{"accuracy":0.227,"num_correct":227,"omniscience":-41.1,"attempt_rate":0.886,"num_incorrect":638,"total_questions":1000,"num_not_attempted":114,"hallucination_rate":0.8253557567917206,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.4,"num_correct":40,"omniscience":-15,"attempt_rate":0.96,"num_incorrect":55,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":0.98,"num_incorrect":39,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.975,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9230769230769231,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.92,"num_incorrect":31,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8857142857142857,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-38,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9714285714285714,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-12,"attempt_rate":0.94,"num_incorrect":26,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.23,"num_correct":23,"omniscience":-48,"attempt_rate":0.94,"num_incorrect":71,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.922077922077922,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":16,"attempt_rate":0.96,"num_incorrect":19,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8260869565217391,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":17,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8947368421052632,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":4,"attempt_rate":0.92,"num_incorrect":11,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8461538461538461,"num_partial_answer":0}},"total":{"accuracy":0.299,"num_correct":299,"omniscience":-33.9,"attempt_rate":0.95,"num_incorrect":638,"total_questions":1000,"num_not_attempted":50,"hallucination_rate":0.9101283880171184,"num_partial_answer":13},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-38,"attempt_rate":0.88,"num_incorrect":31,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8157894736842105,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.225,"num_correct":45,"omniscience":-48.5,"attempt_rate":0.945,"num_incorrect":142,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.9161290322580645,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.34545454545454546,"num_correct":38,"omniscience":-25.454545454545453,"attempt_rate":0.9545454545454546,"num_incorrect":66,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.2777777777777778,"num_correct":25,"omniscience":-38.888888888888886,"attempt_rate":0.9888888888888889,"num_incorrect":60,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9230769230769231,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.275,"num_correct":275,"omniscience":-37.6,"attempt_rate":0.949,"num_incorrect":651,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.8979310344827586,"num_partial_answer":23}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.313,"num_correct":313,"omniscience":-30.6,"attempt_rate":0.965,"num_incorrect":619,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.901018922852984,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-09-25","representative_query_token_counts":null,"scicode":0.405,"short_name":"Gemini 2.5 Flash (Sep)","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-preview-09-2025-reasoning","tau2":0.456,"terminalbench_hard":0.156,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"5a2d71c4-77ca-47a2-882d-40d3868d9ffd","slug":"google_gemini-2-5-flash-preview-09-2025-reasoning_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"c7667559-d9b6-43f1-8cd8-8bdbc78d190b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash-preview-09-2025","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash Preview (Sep '25) (Reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.3,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":0.85,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.18,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash-preview-09-2025-reasoning","hosts_url":"/models/gemini-2-5-flash-preview-09-2025-reasoning/providers","name_and_creator_label":"Gemini 2.5 Flash (Sep), Google"},{"additional_text":null,"aime":0.5,"aime25":0.353,"agentic_index":7.68,"coding_index":7.32,"commercial_allowed":null,"computed_performance_host_model_id":"c09df253-ff9d-4f67-9672-9eef6b26771b","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-flash-lite-preview-09-2025","display_order":1212,"estimated_intelligence_index":16.009462487620045,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":519.8699721194372,"gpqa":0.474,"hle":0.037,"humaneval":0.927,"id":"1d81aa1c-64c8-442a-9c41-81b37e407b91","ifbench":0.315,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":12.83,"intelligence_index_token_counts":{"input_tokens":154835790,"answer_tokens":30981263,"output_tokens":30981263,"reasoning_tokens":0},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":0.646,"lab_claimed_hle":0.051,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.337,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.313,"license_name":null,"license_url":null,"livecodebench":0.4,"math_500":0.926,"math_index":35.33,"mmlu_pro":0.724,"mmmu_pro":0.54,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash-Lite (Non-reasoning)","is_open_weights":false,"omniscience":-59.45,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.126,"num_correct":126,"omniscience":-54.2,"attempt_rate":0.803,"num_incorrect":668,"total_questions":1000,"num_not_attempted":197,"hallucination_rate":0.7643020594965675,"num_partial_answer":9}},"total":{"accuracy":0.14833333333333334,"num_correct":890,"omniscience":-59.45,"attempt_rate":0.9101666666666667,"num_incorrect":4457,"total_questions":6000,"num_not_attempted":539,"hallucination_rate":0.872211350293542,"num_partial_answer":114},"Health":{"total":{"accuracy":0.14,"num_correct":140,"omniscience":-63.6,"attempt_rate":0.945,"num_incorrect":776,"total_questions":1000,"num_not_attempted":55,"hallucination_rate":0.9023255813953488,"num_partial_answer":29}},"Business":{"total":{"accuracy":0.116,"num_correct":116,"omniscience":-64.3,"attempt_rate":0.893,"num_incorrect":759,"total_questions":1000,"num_not_attempted":107,"hallucination_rate":0.8585972850678733,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-41,"attempt_rate":0.99,"num_incorrect":69,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":2}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-86,"attempt_rate":0.96,"num_incorrect":45,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9375,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-76,"attempt_rate":0.96,"num_incorrect":42,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9130434782608695,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-54,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-62,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975609756097561,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9090909090909091,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-73,"attempt_rate":0.96,"num_incorrect":84,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9438202247191011,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":10,"attempt_rate":0.96,"num_incorrect":20,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-68,"attempt_rate":0.92,"num_incorrect":20,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9090909090909091,"num_partial_answer":0}},"total":{"accuracy":0.183,"num_correct":183,"omniscience":-58.9,"attempt_rate":0.976,"num_incorrect":772,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.944920440636475,"num_partial_answer":21},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-64,"attempt_rate":0.92,"num_incorrect":38,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8636363636363636,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.16,"num_correct":32,"omniscience":-65,"attempt_rate":0.97,"num_incorrect":162,"total_questions":200,"num_not_attempted":6,"hallucination_rate":0.9642857142857143,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.22727272727272727,"num_correct":25,"omniscience":-50,"attempt_rate":0.990909090909091,"num_incorrect":80,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.1111111111111111,"num_correct":10,"omniscience":-76.66666666666667,"attempt_rate":1,"num_incorrect":79,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9875,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-56,"attempt_rate":0.887,"num_incorrect":719,"total_questions":1000,"num_not_attempted":113,"hallucination_rate":0.8549346016646849,"num_partial_answer":9}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.166,"num_correct":166,"omniscience":-59.7,"attempt_rate":0.957,"num_incorrect":763,"total_questions":1000,"num_not_attempted":43,"hallucination_rate":0.9148681055155875,"num_partial_answer":28}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-06-17","representative_query_token_counts":null,"scicode":0.177,"short_name":"Gemini 2.5 Flash-Lite","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-lite","tau2":0.19,"terminalbench_hard":0.021,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"c09df253-ff9d-4f67-9672-9eef6b26771b","slug":"google_gemini-2-5-flash-lite_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"1d81aa1c-64c8-442a-9c41-81b37e407b91","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash-lite","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash-Lite (Non-reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":0.1032,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash-lite","hosts_url":"/models/gemini-2-5-flash-lite/providers","name_and_creator_label":"Gemini 2.5 Flash-Lite, Google"},{"additional_text":null,"aime":0.703,"aime25":0.533,"agentic_index":7.98,"coding_index":9.28,"commercial_allowed":null,"computed_performance_host_model_id":"6ac0a711-f93e-4699-852f-c9c27e5ecd2c","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-flash-lite-preview-09-2025-reasoning","display_order":1198,"estimated_intelligence_index":20.878291874781308,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":529.5716722404059,"gpqa":0.625,"hle":0.064,"humaneval":0.971,"id":"f4e8194a-d0e6-48eb-92be-4307de5aeeec","ifbench":0.499,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":17.84,"intelligence_index_token_counts":{"input_tokens":349915613,"answer_tokens":23813551,"output_tokens":125472991,"reasoning_tokens":101659440},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":0.667,"lab_claimed_hle":0.069,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.343,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.513,"license_name":null,"license_url":null,"livecodebench":0.593,"math_500":0.969,"math_index":53.33,"mmlu_pro":0.759,"mmmu_pro":0.582,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash-Lite (Reasoning)","is_open_weights":false,"omniscience":-46.983,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.117,"num_correct":117,"omniscience":-52.2,"attempt_rate":0.762,"num_incorrect":639,"total_questions":1000,"num_not_attempted":238,"hallucination_rate":0.7236693091732729,"num_partial_answer":6}},"total":{"accuracy":0.17133333333333334,"num_correct":1028,"omniscience":-46.983333333333334,"attempt_rate":0.8283333333333334,"num_incorrect":3847,"total_questions":6000,"num_not_attempted":1030,"hallucination_rate":0.7737329042638778,"num_partial_answer":95},"Health":{"total":{"accuracy":0.175,"num_correct":175,"omniscience":-48.2,"attempt_rate":0.86,"num_incorrect":657,"total_questions":1000,"num_not_attempted":140,"hallucination_rate":0.7963636363636364,"num_partial_answer":28}},"Business":{"total":{"accuracy":0.126,"num_correct":126,"omniscience":-51.1,"attempt_rate":0.773,"num_incorrect":637,"total_questions":1000,"num_not_attempted":227,"hallucination_rate":0.7288329519450801,"num_partial_answer":10}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.34,"num_correct":34,"omniscience":-27,"attempt_rate":0.98,"num_incorrect":61,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9242424242424242,"num_partial_answer":3}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-74,"attempt_rate":0.82,"num_incorrect":39,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.8125,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-60,"attempt_rate":0.84,"num_incorrect":36,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.8181818181818182,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-46,"attempt_rate":0.86,"num_incorrect":33,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.825,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-58,"attempt_rate":0.94,"num_incorrect":38,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.926829268292683,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-28,"attempt_rate":0.9,"num_incorrect":29,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8285714285714286,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-64,"attempt_rate":0.93,"num_incorrect":78,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.9069767441860465,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":4,"attempt_rate":0.94,"num_incorrect":21,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7777777777777778,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-60,"attempt_rate":0.84,"num_incorrect":18,"total_questions":25,"num_not_attempted":4,"hallucination_rate":0.8181818181818182,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":18,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"total":{"accuracy":0.191,"num_correct":191,"omniscience":-51.8,"attempt_rate":0.915,"num_incorrect":709,"total_questions":1000,"num_not_attempted":85,"hallucination_rate":0.8763906056860321,"num_partial_answer":15},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-56,"attempt_rate":0.86,"num_incorrect":35,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.813953488372093,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.14,"num_correct":28,"omniscience":-63.5,"attempt_rate":0.93,"num_incorrect":155,"total_questions":200,"num_not_attempted":14,"hallucination_rate":0.9011627906976745,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.22727272727272727,"num_correct":25,"omniscience":-44.54545454545455,"attempt_rate":0.9272727272727272,"num_incorrect":74,"total_questions":110,"num_not_attempted":8,"hallucination_rate":0.8705882352941177,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.1,"num_correct":9,"omniscience":-72.22222222222223,"attempt_rate":0.9222222222222223,"num_incorrect":74,"total_questions":90,"num_not_attempted":7,"hallucination_rate":0.9135802469135802,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.174,"num_correct":174,"omniscience":-41.6,"attempt_rate":0.776,"num_incorrect":590,"total_questions":1000,"num_not_attempted":224,"hallucination_rate":0.7142857142857143,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.245,"num_correct":245,"omniscience":-37,"attempt_rate":0.884,"num_incorrect":615,"total_questions":1000,"num_not_attempted":116,"hallucination_rate":0.8145695364238411,"num_partial_answer":24}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-06-17","representative_query_token_counts":null,"scicode":0.193,"short_name":"Gemini 2.5 Flash-Lite","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-lite-reasoning","tau2":0.184,"terminalbench_hard":0.043,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"6ac0a711-f93e-4699-852f-c9c27e5ecd2c","slug":"google_gemini-2-5-flash-lite-reasoning_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"f4e8194a-d0e6-48eb-92be-4307de5aeeec","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash-lite","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash-Lite (Reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":0.1032,"image_input_pricing_notes":"258 tokens per 768x768 tile","supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash-lite-reasoning","hosts_url":"/models/gemini-2-5-flash-lite-reasoning/providers","name_and_creator_label":"Gemini 2.5 Flash-Lite, Google"},{"additional_text":null,"aime":null,"aime25":0.467,"agentic_index":12.54,"coding_index":14.22,"commercial_allowed":null,"computed_performance_host_model_id":"1f9116d1-eafc-4b3e-89ad-1c2b83aac11e","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":248,"estimated_intelligence_index":21.736436480231458,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":562.0882280605948,"gpqa":0.651,"hle":0.046,"humaneval":null,"id":"71f51ea9-94fe-4635-a80d-4cfffbb685f4","ifbench":0.418,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":19.92,"intelligence_index_token_counts":{"input_tokens":244376357,"answer_tokens":30833066,"output_tokens":30833066,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.48,"license_name":null,"license_url":null,"livecodebench":0.641,"math_500":null,"math_index":46.67,"mmlu_pro":0.796,"mmmu_pro":0.634,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Flash-Lite Preview (Sep '25) (Non-reasoning)","is_open_weights":false,"omniscience":-43.717,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.085,"num_correct":85,"omniscience":-38.6,"attempt_rate":0.567,"num_incorrect":471,"total_questions":1000,"num_not_attempted":433,"hallucination_rate":0.5147540983606558,"num_partial_answer":11}},"total":{"accuracy":0.1335,"num_correct":801,"omniscience":-43.71666666666667,"attempt_rate":0.7218333333333333,"num_incorrect":3424,"total_questions":6000,"num_not_attempted":1669,"hallucination_rate":0.6585881900365455,"num_partial_answer":106},"Health":{"total":{"accuracy":0.128,"num_correct":128,"omniscience":-46.2,"attempt_rate":0.753,"num_incorrect":590,"total_questions":1000,"num_not_attempted":247,"hallucination_rate":0.676605504587156,"num_partial_answer":35}},"Business":{"total":{"accuracy":0.107,"num_correct":107,"omniscience":-40.2,"attempt_rate":0.632,"num_incorrect":509,"total_questions":1000,"num_not_attempted":368,"hallucination_rate":0.5699888017917133,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-34,"attempt_rate":0.94,"num_incorrect":62,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.8611111111111112,"num_partial_answer":4}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-66,"attempt_rate":0.78,"num_incorrect":36,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.7659574468085106,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-56,"attempt_rate":0.8,"num_incorrect":34,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7727272727272727,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-66,"attempt_rate":0.9,"num_incorrect":39,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8863636363636364,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-54,"attempt_rate":0.82,"num_incorrect":34,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7906976744186046,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-30,"attempt_rate":0.86,"num_incorrect":27,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7105263157894737,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.06,"num_correct":6,"omniscience":-75,"attempt_rate":0.88,"num_incorrect":81,"total_questions":100,"num_not_attempted":12,"hallucination_rate":0.8617021276595744,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-14,"attempt_rate":0.9,"num_incorrect":26,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8387096774193549,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":23,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-16,"attempt_rate":0.96,"num_incorrect":14,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9333333333333333,"num_partial_answer":0}},"total":{"accuracy":0.171,"num_correct":171,"omniscience":-53.5,"attempt_rate":0.895,"num_incorrect":706,"total_questions":1000,"num_not_attempted":105,"hallucination_rate":0.8516284680337757,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-62,"attempt_rate":0.84,"num_incorrect":36,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.8,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.155,"num_correct":31,"omniscience":-54.5,"attempt_rate":0.88,"num_incorrect":140,"total_questions":200,"num_not_attempted":24,"hallucination_rate":0.8284023668639053,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.2545454545454545,"num_correct":28,"omniscience":-43.63636363636363,"attempt_rate":0.9636363636363636,"num_incorrect":76,"total_questions":110,"num_not_attempted":4,"hallucination_rate":0.926829268292683,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.1,"num_correct":9,"omniscience":-76.66666666666667,"attempt_rate":0.9777777777777777,"num_incorrect":78,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9629629629629629,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.146,"num_correct":146,"omniscience":-37.5,"attempt_rate":0.678,"num_incorrect":521,"total_questions":1000,"num_not_attempted":322,"hallucination_rate":0.6100702576112412,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.164,"num_correct":164,"omniscience":-46.3,"attempt_rate":0.806,"num_incorrect":627,"total_questions":1000,"num_not_attempted":194,"hallucination_rate":0.75,"num_partial_answer":15}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-25","representative_query_token_counts":null,"scicode":0.285,"short_name":"Gemini 2.5 Flash-Lite (Sep)","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-lite-preview-09-2025","tau2":0.304,"terminalbench_hard":0.071,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"1f9116d1-eafc-4b3e-89ad-1c2b83aac11e","slug":"google_gemini-2-5-flash-lite-preview-09-2025_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"71f51ea9-94fe-4635-a80d-4cfffbb685f4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash-lite-preview-09-2025","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash-Lite Preview (Sep '25) (Non-reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash-lite-preview-09-2025","hosts_url":"/models/gemini-2-5-flash-lite-preview-09-2025/providers","name_and_creator_label":"Gemini 2.5 Flash-Lite (Sep), Google"},{"additional_text":null,"aime":null,"aime25":0.687,"agentic_index":14.98,"coding_index":17.61,"commercial_allowed":null,"computed_performance_host_model_id":"5f7a2fd2-1af1-465b-bd60-9afe2c8d9e5e","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":250,"estimated_intelligence_index":25.679036352531774,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":621.0686492233141,"gpqa":0.709,"hle":0.066,"humaneval":null,"id":"84922739-425f-46e1-87ac-bb4268dcacbb","ifbench":0.526,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":22.29,"intelligence_index_token_counts":{"input_tokens":203373369,"answer_tokens":9760091,"output_tokens":48743154,"reasoning_tokens":38983062},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.59,"license_name":null,"license_url":null,"livecodebench":0.688,"math_500":null,"math_index":68.67,"mmlu_pro":0.808,"mmmu_pro":0.65,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8375,"input_tokens":188556,"answer_tokens":275877,"output_tokens":1229908,"reasoning_tokens":954031,"total_input_tokens_api":206397,"total_answer_tokens_api":303020,"total_reasoning_tokens_api":954031},"bn":{"score":0.8333333333333334,"input_tokens":225534,"answer_tokens":354833,"output_tokens":1340215,"reasoning_tokens":985382,"total_input_tokens_api":184848,"total_answer_tokens_api":269772,"total_reasoning_tokens_api":985382},"de":{"score":0.8641666666666667,"input_tokens":191646,"answer_tokens":264144,"output_tokens":1162898,"reasoning_tokens":898754,"total_input_tokens_api":202893,"total_answer_tokens_api":274905,"total_reasoning_tokens_api":898754},"en":{"score":0.8875000000000001,"input_tokens":159654,"answer_tokens":200539,"output_tokens":983671,"reasoning_tokens":783132,"total_input_tokens_api":167769,"total_answer_tokens_api":205752,"total_reasoning_tokens_api":783132},"es":{"score":0.8716666666666667,"input_tokens":182088,"answer_tokens":255448,"output_tokens":1160118,"reasoning_tokens":904670,"total_input_tokens_api":190269,"total_answer_tokens_api":260451,"total_reasoning_tokens_api":904670},"fr":{"score":0.8616666666666667,"input_tokens":191346,"answer_tokens":262444,"output_tokens":1174485,"reasoning_tokens":912041,"total_input_tokens_api":204930,"total_answer_tokens_api":273440,"total_reasoning_tokens_api":912041},"hi":{"score":0.8374999999999999,"input_tokens":209430,"answer_tokens":328417,"output_tokens":1302707,"reasoning_tokens":974290,"total_input_tokens_api":191553,"total_answer_tokens_api":287189,"total_reasoning_tokens_api":974290},"id":{"score":0.8691666666666666,"input_tokens":181314,"answer_tokens":303495,"output_tokens":1211682,"reasoning_tokens":908187,"total_input_tokens_api":180828,"total_answer_tokens_api":292245,"total_reasoning_tokens_api":908187},"it":{"score":0.8675,"input_tokens":199032,"answer_tokens":294756,"output_tokens":1236492,"reasoning_tokens":941736,"total_input_tokens_api":199491,"total_answer_tokens_api":287784,"total_reasoning_tokens_api":941736},"ja":{"score":0.8450000000000001,"input_tokens":228129,"answer_tokens":474661,"output_tokens":1596543,"reasoning_tokens":1121882,"total_input_tokens_api":190545,"total_answer_tokens_api":371780,"total_reasoning_tokens_api":1121882},"ko":{"score":0.86,"input_tokens":199401,"answer_tokens":314418,"output_tokens":1268839,"reasoning_tokens":954421,"total_input_tokens_api":200520,"total_answer_tokens_api":309945,"total_reasoning_tokens_api":954421},"my":{"score":0.8024999999999999,"input_tokens":353547,"answer_tokens":493583,"output_tokens":1603968,"reasoning_tokens":1110385,"total_input_tokens_api":298347,"total_answer_tokens_api":402390,"total_reasoning_tokens_api":1110385},"pt":{"score":0.8641666666666667,"input_tokens":178176,"answer_tokens":266550,"output_tokens":1173936,"reasoning_tokens":907386,"total_input_tokens_api":189723,"total_answer_tokens_api":279829,"total_reasoning_tokens_api":907386},"sw":{"score":0.7908333333333332,"input_tokens":208677,"answer_tokens":315103,"output_tokens":1327076,"reasoning_tokens":1011973,"total_input_tokens_api":233826,"total_answer_tokens_api":351871,"total_reasoning_tokens_api":1011973},"yo":{"score":0.6541666666666667,"input_tokens":307062,"answer_tokens":2284131,"output_tokens":3660116,"reasoning_tokens":1375985,"total_input_tokens_api":348756,"total_answer_tokens_api":2619778,"total_reasoning_tokens_api":1375985},"zh":{"score":0.8591666666666667,"input_tokens":179793,"answer_tokens":311196,"output_tokens":1289839,"reasoning_tokens":978643,"total_input_tokens_api":173439,"total_answer_tokens_api":287222,"total_reasoning_tokens_api":978643},"average":{"score":0.8378645833333334,"input_tokens":3383385,"answer_tokens":6999595,"output_tokens":22722493,"reasoning_tokens":15722898,"total_input_tokens_api":3364134,"total_answer_tokens_api":7077373,"total_reasoning_tokens_api":15722898}},"name":"Gemini 2.5 Flash-Lite Preview (Sep '25) (Reasoning)","is_open_weights":false,"omniscience":-54.633,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.121,"num_correct":121,"omniscience":-59.9,"attempt_rate":0.856,"num_incorrect":720,"total_questions":1000,"num_not_attempted":144,"hallucination_rate":0.8191126279863481,"num_partial_answer":15}},"total":{"accuracy":0.17133333333333334,"num_correct":1028,"omniscience":-54.63333333333333,"attempt_rate":0.9118333333333334,"num_incorrect":4306,"total_questions":6000,"num_not_attempted":529,"hallucination_rate":0.8660498793242156,"num_partial_answer":137},"Health":{"total":{"accuracy":0.158,"num_correct":158,"omniscience":-60.4,"attempt_rate":0.947,"num_incorrect":762,"total_questions":1000,"num_not_attempted":53,"hallucination_rate":0.9049881235154394,"num_partial_answer":27}},"Business":{"total":{"accuracy":0.147,"num_correct":147,"omniscience":-55.7,"attempt_rate":0.873,"num_incorrect":704,"total_questions":1000,"num_not_attempted":127,"hallucination_rate":0.8253223915592028,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-39,"attempt_rate":1,"num_incorrect":68,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9577464788732394,"num_partial_answer":3}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-76,"attempt_rate":0.96,"num_incorrect":43,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9555555555555556,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-66,"attempt_rate":0.9,"num_incorrect":38,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8444444444444444,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-58,"attempt_rate":0.94,"num_incorrect":38,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.926829268292683,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9545454545454546,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-32,"attempt_rate":0.86,"num_incorrect":28,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7368421052631579,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-66,"attempt_rate":0.92,"num_incorrect":79,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.9080459770114943,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-8,"attempt_rate":0.88,"num_incorrect":22,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.6875,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":23,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-44,"attempt_rate":0.96,"num_incorrect":16,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8,"num_partial_answer":3}},"total":{"accuracy":0.18,"num_correct":180,"omniscience":-55.3,"attempt_rate":0.937,"num_incorrect":733,"total_questions":1000,"num_not_attempted":63,"hallucination_rate":0.8939024390243903,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-50,"attempt_rate":0.86,"num_incorrect":33,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7857142857142857,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.15,"num_correct":30,"omniscience":-63,"attempt_rate":0.945,"num_incorrect":156,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.9176470588235294,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-44.54545454545455,"attempt_rate":0.9545454545454546,"num_incorrect":76,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.9156626506024096,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.13333333333333333,"num_correct":12,"omniscience":-65.55555555555556,"attempt_rate":0.9222222222222223,"num_incorrect":71,"total_questions":90,"num_not_attempted":7,"hallucination_rate":0.9102564102564102,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.183,"num_correct":183,"omniscience":-52,"attempt_rate":0.903,"num_incorrect":703,"total_questions":1000,"num_not_attempted":97,"hallucination_rate":0.8604651162790697,"num_partial_answer":17}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.239,"num_correct":239,"omniscience":-44.5,"attempt_rate":0.955,"num_incorrect":684,"total_questions":1000,"num_not_attempted":45,"hallucination_rate":0.8988173455978975,"num_partial_answer":32}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-09-08","representative_query_token_counts":null,"scicode":0.287,"short_name":"Gemini 2.5 Flash-Lite (Sep)","show_host_model_evals":false,"size_class":"Medium","slug":"gemini-2-5-flash-lite-preview-09-2025-reasoning","tau2":0.307,"terminalbench_hard":0.121,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"5f7a2fd2-1af1-465b-bd60-9afe2c8d9e5e","slug":"google_gemini-2-5-flash-lite-preview-09-2025-reasoning_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"84922739-425f-46e1-87ac-bb4268dcacbb","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-flash-lite-preview-09-2025","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Flash-Lite Preview (Sep '25) (Reasoning)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":1}],"model_url":"/models/gemini-2-5-flash-lite-preview-09-2025-reasoning","hosts_url":"/models/gemini-2-5-flash-lite-preview-09-2025-reasoning/providers","name_and_creator_label":"Gemini 2.5 Flash-Lite (Sep), Google"},{"additional_text":null,"aime":0.887,"aime25":0.877,"agentic_index":32.43,"coding_index":30.82,"commercial_allowed":null,"computed_performance_host_model_id":"06c7750a-02e9-4958-8c9d-70eb5878433a","context_window_tokens":1000000,"critpt":0.026,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":255,"estimated_intelligence_index":35.022473411509566,"model_family_slug":"gemini-2-5","frontier_model":false,"gdpval":932.5400794342868,"gpqa":0.844,"hle":0.211,"humaneval":null,"id":"27202e5f-c82d-4710-92e9-4317877d4883","ifbench":0.487,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":34.11,"intelligence_index_token_counts":{"input_tokens":83119024,"answer_tokens":5541631,"output_tokens":64974844,"reasoning_tokens":59433212},"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.66,"license_name":null,"license_url":null,"livecodebench":0.801,"math_500":0.967,"math_index":87.67,"mmlu_pro":0.862,"mmmu_pro":0.749,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.9033333333333333,"input_tokens":188556,"answer_tokens":124250,"output_tokens":1784898,"reasoning_tokens":1660648,"total_input_tokens_api":207630,"total_answer_tokens_api":139075,"total_reasoning_tokens_api":1660648},"bn":{"score":0.9008333333333333,"input_tokens":225534,"answer_tokens":212044,"output_tokens":1904433,"reasoning_tokens":1692389,"total_input_tokens_api":324462,"total_answer_tokens_api":325824,"total_reasoning_tokens_api":1692389},"de":{"score":0.9241666666666667,"input_tokens":191646,"answer_tokens":211645,"output_tokens":1882447,"reasoning_tokens":1670802,"total_input_tokens_api":193998,"total_answer_tokens_api":208932,"total_reasoning_tokens_api":1670802},"en":{"score":0.9333333333333335,"input_tokens":159654,"answer_tokens":246212,"output_tokens":1768990,"reasoning_tokens":1522778,"total_input_tokens_api":166416,"total_answer_tokens_api":252664,"total_reasoning_tokens_api":1522778},"es":{"score":0.915,"input_tokens":182088,"answer_tokens":207494,"output_tokens":1861946,"reasoning_tokens":1654452,"total_input_tokens_api":186327,"total_answer_tokens_api":207504,"total_reasoning_tokens_api":1654452},"fr":{"score":0.9258333333333333,"input_tokens":191346,"answer_tokens":203285,"output_tokens":1873641,"reasoning_tokens":1670356,"total_input_tokens_api":199242,"total_answer_tokens_api":209324,"total_reasoning_tokens_api":1670356},"hi":{"score":0.8875000000000001,"input_tokens":209430,"answer_tokens":185242,"output_tokens":1922318,"reasoning_tokens":1737076,"total_input_tokens_api":243663,"total_answer_tokens_api":219309,"total_reasoning_tokens_api":1737076},"id":{"score":0.9125,"input_tokens":181314,"answer_tokens":265622,"output_tokens":1925315,"reasoning_tokens":1659693,"total_input_tokens_api":176118,"total_answer_tokens_api":246497,"total_reasoning_tokens_api":1659693},"it":{"score":0.9233333333333333,"input_tokens":199032,"answer_tokens":235766,"output_tokens":1895837,"reasoning_tokens":1660071,"total_input_tokens_api":195759,"total_answer_tokens_api":224837,"total_reasoning_tokens_api":1660071},"ja":{"score":0.91,"input_tokens":228129,"answer_tokens":314861,"output_tokens":2191815,"reasoning_tokens":1876954,"total_input_tokens_api":186939,"total_answer_tokens_api":240102,"total_reasoning_tokens_api":1876954},"ko":{"score":0.89,"input_tokens":199401,"answer_tokens":267196,"output_tokens":2040382,"reasoning_tokens":1773186,"total_input_tokens_api":224259,"total_answer_tokens_api":307082,"total_reasoning_tokens_api":1773186},"my":{"score":0.8908333333333333,"input_tokens":353547,"answer_tokens":207609,"output_tokens":1983049,"reasoning_tokens":1775440,"total_input_tokens_api":510315,"total_answer_tokens_api":307717,"total_reasoning_tokens_api":1775440},"pt":{"score":0.9208333333333334,"input_tokens":178176,"answer_tokens":220565,"output_tokens":1866158,"reasoning_tokens":1645593,"total_input_tokens_api":186663,"total_answer_tokens_api":228157,"total_reasoning_tokens_api":1645593},"sw":{"score":0.8908333333333333,"input_tokens":208677,"answer_tokens":166988,"output_tokens":1883285,"reasoning_tokens":1716297,"total_input_tokens_api":229605,"total_answer_tokens_api":183252,"total_reasoning_tokens_api":1716297},"yo":{"score":0.8141666666666666,"input_tokens":307062,"answer_tokens":176812,"output_tokens":2171910,"reasoning_tokens":1995098,"total_input_tokens_api":353058,"total_answer_tokens_api":204281,"total_reasoning_tokens_api":1995098},"zh":{"score":0.9075000000000001,"input_tokens":179793,"answer_tokens":307580,"output_tokens":2032715,"reasoning_tokens":1725135,"total_input_tokens_api":172119,"total_answer_tokens_api":280417,"total_reasoning_tokens_api":1725135},"average":{"score":0.9031250000000001,"input_tokens":3383385,"answer_tokens":3553171,"output_tokens":30989139,"reasoning_tokens":27435968,"total_input_tokens_api":3756573,"total_answer_tokens_api":3784974,"total_reasoning_tokens_api":27435968}},"name":"Gemini 2.5 Pro","is_open_weights":false,"omniscience":-17.95,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.405,"num_correct":405,"omniscience":-10.3,"attempt_rate":0.939,"num_incorrect":508,"total_questions":1000,"num_not_attempted":61,"hallucination_rate":0.853781512605042,"num_partial_answer":26}},"total":{"accuracy":0.37483333333333335,"num_correct":2249,"omniscience":-17.95,"attempt_rate":0.9611666666666666,"num_incorrect":3326,"total_questions":6000,"num_not_attempted":233,"hallucination_rate":0.8866968808317782,"num_partial_answer":192},"Health":{"total":{"accuracy":0.309,"num_correct":309,"omniscience":-30.6,"attempt_rate":0.984,"num_incorrect":615,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.8900144717800289,"num_partial_answer":60}},"Business":{"total":{"accuracy":0.317,"num_correct":317,"omniscience":-26.3,"attempt_rate":0.926,"num_incorrect":580,"total_questions":1000,"num_not_attempted":74,"hallucination_rate":0.849194729136164,"num_partial_answer":29}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.57,"num_correct":57,"omniscience":17,"attempt_rate":1,"num_incorrect":40,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9302325581395349,"num_partial_answer":3}},"R":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-18,"attempt_rate":1,"num_incorrect":29,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9666666666666667,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.92,"num_incorrect":31,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8857142857142857,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":2,"attempt_rate":0.94,"num_incorrect":23,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8846153846153846,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":18,"attempt_rate":0.98,"num_incorrect":20,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.3,"num_correct":30,"omniscience":-37,"attempt_rate":0.98,"num_incorrect":67,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9571428571428572,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":30,"attempt_rate":0.98,"num_incorrect":14,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.6666666666666666,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-28,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":12,"attempt_rate":0.96,"num_incorrect":10,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8333333333333334,"num_partial_answer":1}},"total":{"accuracy":0.431,"num_correct":431,"omniscience":-8.7,"attempt_rate":0.968,"num_incorrect":518,"total_questions":1000,"num_not_attempted":32,"hallucination_rate":0.9103690685413005,"num_partial_answer":19},"Kotlin":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-34,"attempt_rate":0.94,"num_incorrect":31,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8611111111111112,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.385,"num_correct":77,"omniscience":-16,"attempt_rate":0.94,"num_incorrect":109,"total_questions":200,"num_not_attempted":12,"hallucination_rate":0.8861788617886179,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.5454545454545454,"num_correct":60,"omniscience":10,"attempt_rate":0.990909090909091,"num_incorrect":49,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.98,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.4222222222222222,"num_correct":38,"omniscience":-10,"attempt_rate":0.9666666666666667,"num_incorrect":47,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9038461538461539,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.401,"num_correct":401,"omniscience":-15.1,"attempt_rate":0.971,"num_incorrect":552,"total_questions":1000,"num_not_attempted":29,"hallucination_rate":0.9215358931552587,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.386,"num_correct":386,"omniscience":-16.7,"attempt_rate":0.979,"num_incorrect":553,"total_questions":1000,"num_not_attempted":21,"hallucination_rate":0.9006514657980456,"num_partial_answer":40}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-06-05","representative_query_token_counts":null,"scicode":0.428,"short_name":"Gemini 2.5 Pro","show_host_model_evals":false,"size_class":"Large","slug":"gemini-2-5-pro","tau2":0.541,"terminalbench_hard":0.248,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"bb687077-830b-42d3-81f3-7b440d8db0c6","slug":"google_gemini-2-5-pro-06-05_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"27202e5f-c82d-4710-92e9-4317877d4883","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $1.25/$10 per M tokens\r\n- >200K-1M: $2,5/$15 per M tokens","json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-pro","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Pro_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":1.29,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":4.5},{"id":"06c7750a-02e9-4958-8c9d-70eb5878433a","slug":"google_gemini-2-5-pro-06-05_ai-studio","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"27202e5f-c82d-4710-92e9-4317877d4883","footnotes":"Tiered pricing:\r\n\r\n- ≤200K: $1.25/$10 per M tokens\r\n- >200K-1M: $2,5/$15 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-pro","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Pro_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":1.29,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":4.5}],"model_url":"/models/gemini-2-5-pro","hosts_url":"/models/gemini-2-5-pro/providers","name_and_creator_label":"Gemini 2.5 Pro, Google"},{"additional_text":null,"aime":0.87,"aime25":null,"agentic_index":null,"coding_index":46.7292835,"commercial_allowed":null,"computed_performance_host_model_id":"c1bad3b9-e55a-4094-a4a5-2da68d8ec829","context_window_tokens":1000000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-pro","display_order":1206,"estimated_intelligence_index":30.295702949046902,"model_family_slug":"gemini-2-5","frontier_model":null,"gdpval":null,"gpqa":0.836,"hle":0.171,"humaneval":0.985,"id":"62de31e8-a1a3-429c-b634-a2afccfd9363","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":0.778,"math_500":0.98,"math_index":null,"mmlu_pro":0.858,"mmmu_pro":null,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Pro Preview (Mar' 25)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-03-25","representative_query_token_counts":null,"scicode":0.395,"short_name":"Gemini 2.5 Pro (Mar)","show_host_model_evals":false,"size_class":"Large","slug":"gemini-2-5-pro-03-25","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"c1bad3b9-e55a-4094-a4a5-2da68d8ec829","slug":"google_gemini-2-5-pro-experimental-03-25","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"62de31e8-a1a3-429c-b634-a2afccfd9363","footnotes":"- Price for >200k tokens:\r\n$2.50 per 1M tokens (input)\r\n$15.00 per 1M tokens (output)","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-pro-preview-03-25","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Pro Preview (Mar' 25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":0,"image_input_pricing_notes":"Gemini experimental models available for free with usage limitations","supports_images_input_note":"3600","override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":4.5}],"model_url":"/models/gemini-2-5-pro-03-25","hosts_url":"/models/gemini-2-5-pro-03-25/providers","name_and_creator_label":"Gemini 2.5 Pro (Mar), Google"},{"additional_text":"\n\n\n","aime":0.843,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":"58591ef4-f3ce-4779-ac42-24c763628ebf","context_window_tokens":1000000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"gemini-2-5-pro","display_order":1194,"estimated_intelligence_index":29.54758250414228,"model_family_slug":"gemini-2-5","frontier_model":null,"gdpval":null,"gpqa":0.822,"hle":0.154,"humaneval":0.989,"id":"073b5329-c4b3-4f1f-8f97-4753aadf4398","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":"2025-01-01","lab_claimed_aime":null,"lab_claimed_gpqa":0.83,"lab_claimed_hle":0.178,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.756,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":0.77,"math_500":0.986,"math_index":null,"mmlu_pro":0.837,"mmmu_pro":null,"model_creator_id":"faddc6d9-2c14-445f-9b28-56726f59c793","model_weights_source_url":null,"multilingual_aa":null,"name":"Gemini 2.5 Pro Preview (May' 25)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-05-06","representative_query_token_counts":null,"scicode":0.416,"short_name":"Gemini 2.5 Pro (May)","show_host_model_evals":false,"size_class":"Large","slug":"gemini-2-5-pro-05-06","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"faddc6d9-2c14-445f-9b28-56726f59c793","logo":"google.svg","name":"Google","slug":"google","color":"#34A853","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","created_at":"2023-12-11T15:02:41.273606+00:00","logo_small":"google_small.svg","creator_url":"https://deepmind.google/technologies/gemini/","display_order":3,"logo_url":"/img/logos/google.svg","logo_small_url":"/img/logos/google_small.svg"},"host_models":[{"id":"58591ef4-f3ce-4779-ac42-24c763628ebf","slug":"google_gemini-2-5-pro-05-06","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"073b5329-c4b3-4f1f-8f97-4753aadf4398","footnotes":"Tiered pricing:\n\n- ≤200K: $1.25/$10 per M tokens\n- >200K: $2.5/$15 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gemini-2.5-pro-preview-05-06","function_calling":true,"cache_write_price":0,"host_model_string":"Google_Gemini 2.5 Pro Preview (May' 25)_(AI Studio)","cache_pricing_notes":null,"model_name_appendage":"(AI Studio)","price_1m_input_tokens":1.25,"price_1m_output_tokens":10,"price_1m_blended_3_to_1":3.4375,"price_per_1k_1mp_images":1.29,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":4.5}],"model_url":"/models/gemini-2-5-pro-05-06","hosts_url":"/models/gemini-2-5-pro-05-06/providers","name_and_creator_label":"Gemini 2.5 Pro (May), Google"},{"additional_text":null,"aime":null,"aime25":0.497,"agentic_index":31.47,"coding_index":27.36,"commercial_allowed":true,"computed_performance_host_model_id":"074ded36-4f72-40c3-99b3-8086489424d5","context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"deepseek-v3-1-terminus","display_order":1403,"estimated_intelligence_index":23.635030457487737,"model_family_slug":"deepseek-v3-1","frontier_model":false,"gdpval":1094.408388927867,"gpqa":0.735,"hle":0.063,"humaneval":null,"id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","ifbench":0.378,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.62,"intelligence_index_token_counts":{"input_tokens":153892866,"answer_tokens":9034886,"output_tokens":9034886,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.45,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.577,"math_500":null,"math_index":49.67,"mmlu_pro":0.833,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.1","multilingual_aa":null,"name":"DeepSeek V3.1 (Non-reasoning)","is_open_weights":true,"omniscience":-43.533,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.153,"num_correct":153,"omniscience":-44.4,"attempt_rate":0.764,"num_incorrect":597,"total_questions":1000,"num_not_attempted":236,"hallucination_rate":0.704840613931523,"num_partial_answer":14}},"total":{"accuracy":0.223,"num_correct":1338,"omniscience":-43.53333333333333,"attempt_rate":0.9076666666666666,"num_incorrect":3950,"total_questions":6000,"num_not_attempted":554,"hallucination_rate":0.8472758472758473,"num_partial_answer":158},"Health":{"total":{"accuracy":0.185,"num_correct":185,"omniscience":-53.8,"attempt_rate":0.966,"num_incorrect":723,"total_questions":1000,"num_not_attempted":34,"hallucination_rate":0.8871165644171779,"num_partial_answer":58}},"Business":{"total":{"accuracy":0.191,"num_correct":191,"omniscience":-43.5,"attempt_rate":0.846,"num_incorrect":626,"total_questions":1000,"num_not_attempted":154,"hallucination_rate":0.7737948084054388,"num_partial_answer":29}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.48,"num_correct":48,"omniscience":-2,"attempt_rate":0.99,"num_incorrect":50,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9615384615384616,"num_partial_answer":1}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-52,"attempt_rate":0.96,"num_incorrect":37,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9487179487179487,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.92,"num_incorrect":36,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-62,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9285714285714286,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9459459459459459,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-50,"attempt_rate":1,"num_incorrect":74,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9736842105263158,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":0.96,"num_incorrect":21,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.84,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-52,"attempt_rate":1,"num_incorrect":19,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":1,"num_incorrect":14,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.875,"num_partial_answer":2}},"total":{"accuracy":0.31,"num_correct":310,"omniscience":-33.8,"attempt_rate":0.981,"num_incorrect":648,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.9391304347826087,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-28,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8823529411764706,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.3,"num_correct":60,"omniscience":-35.5,"attempt_rate":0.975,"num_incorrect":131,"total_questions":200,"num_not_attempted":5,"hallucination_rate":0.9357142857142857,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.3181818181818182,"num_correct":35,"omniscience":-33.63636363636363,"attempt_rate":0.990909090909091,"num_incorrect":72,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.96,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.32222222222222224,"num_correct":29,"omniscience":-32.22222222222222,"attempt_rate":0.9888888888888889,"num_incorrect":58,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9508196721311475,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.258,"num_correct":258,"omniscience":-40,"attempt_rate":0.924,"num_incorrect":658,"total_questions":1000,"num_not_attempted":76,"hallucination_rate":0.8867924528301887,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.241,"num_correct":241,"omniscience":-45.7,"attempt_rate":0.965,"num_incorrect":698,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.919631093544137,"num_partial_answer":26}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":8000,"parameters":685,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-08-21","representative_query_token_counts":null,"scicode":0.367,"short_name":"DeepSeek V3.1","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-1","tau2":0.348,"terminalbench_hard":0.227,"tokenizer_id":null,"model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"7476de24-3d4f-4de2-bf2f-dc98dbdbcffc","slug":"amazon-bedrock_deepseek-v3-1","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek.v3-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_DeepSeek V3.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.58,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.855,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0868a911-79b9-4679-9dc9-156a7b843b09","slug":"novita_deepseek-v3-1","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.1","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.55,"price_1m_output_tokens":1.66,"price_1m_blended_3_to_1":0.8275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"a6cd0c8a-e98e-4c69-acdb-08506a8cfe77","slug":"togetherai_deepseek-v3-1","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.1","function_calling":false,"cache_write_price":null,"host_model_string":"Together.ai_DeepSeek V3.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":1.7,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"92f57d06-a959-4c99-8311-ea58fbe328b0","slug":"google_deepseek-v3-1_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-v3.1-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_DeepSeek V3.1 (Non-reasoning)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.6,"price_1m_output_tokens":1.7,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"94a83a44-5865-4f21-95d9-11184edcb509","slug":"sambanova_deepseek-v3-1","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-V3.1","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek V3.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":4.5,"price_1m_blended_3_to_1":3.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.3,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"80b036ba-724b-4eee-b15f-5c578fd08451","slug":"fireworks_deepseek-v3-1","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/deepseek-v3p1","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_DeepSeek V3.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.56,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.84,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.19,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ba4f87c0-ef87-494e-acc3-9433949cb25d","slug":"baseten_deepseek-v3-1_fp8","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.1","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_DeepSeek V3.1 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.5,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d6e22015-e98e-4b96-a3db-04f6da8a1497","slug":"lightningai_deepseek-v3-1","deleted":false,"host_id":"e4236e4f-1a6f-4c51-b91b-dd33ff9a5f97","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"lightning-ai/DeepSeek-V3.1","function_calling":false,"cache_write_price":null,"host_model_string":"Lightning AI_DeepSeek V3.1 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.32,"price_1m_output_tokens":1.1,"price_1m_blended_3_to_1":0.515,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":164000,"price_m_tokens_blended_3_to_1_per_dollar":1.94,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"6a17f01b-7bff-4add-85d1-69257016403e","slug":"deepinfra_deepseek-v3-1_fp4","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.1","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_DeepSeek V3.1 (Non-reasoning)_(FP4)","cache_pricing_notes":null,"model_name_appendage":"(FP4)","price_1m_input_tokens":0.21,"price_1m_output_tokens":0.79,"price_1m_blended_3_to_1":0.355,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.82,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c402b62a-819a-4a35-a1f8-34f6453fccef","slug":"gmi_deepseek-v3-1_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"fb65266f-5a7d-403c-85d5-ccdf0d1ca838","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.1","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_DeepSeek V3.1 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.11,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.1825,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":5.48,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-1","hosts_url":"/models/deepseek-v3-1/providers","name_and_creator_label":"DeepSeek V3.1, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.897,"agentic_index":null,"coding_index":29.12,"commercial_allowed":true,"computed_performance_host_model_id":"a38587ce-3097-4fed-8e96-a17199f5871f","context_window_tokens":128000,"critpt":0.02,"deleted":false,"deprecated":true,"deprecated_to":"deepseek-v3-1-terminus-reasoning","display_order":1415,"estimated_intelligence_index":30.16040444122351,"model_family_slug":"deepseek-v3-1","frontier_model":null,"gdpval":null,"gpqa":0.779,"hle":0.13,"humaneval":null,"id":"198b717f-42c8-4ab7-a699-ae9373d669d3","ifbench":0.415,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.533,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.784,"math_500":null,"math_index":89.67,"mmlu_pro":0.851,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.1","multilingual_aa":null,"name":"DeepSeek V3.1 (Reasoning)","is_open_weights":true,"omniscience":-30.583,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.198,"num_correct":198,"omniscience":-34.2,"attempt_rate":0.753,"num_incorrect":540,"total_questions":1000,"num_not_attempted":247,"hallucination_rate":0.6733167082294265,"num_partial_answer":15}},"total":{"accuracy":0.281,"num_correct":1686,"omniscience":-30.583333333333332,"attempt_rate":0.8896666666666667,"num_incorrect":3521,"total_questions":6000,"num_not_attempted":662,"hallucination_rate":0.816179879462216,"num_partial_answer":131},"Health":{"total":{"accuracy":0.295,"num_correct":295,"omniscience":-33.2,"attempt_rate":0.954,"num_incorrect":627,"total_questions":1000,"num_not_attempted":46,"hallucination_rate":0.8893617021276595,"num_partial_answer":32}},"Business":{"total":{"accuracy":0.231,"num_correct":231,"omniscience":-34.8,"attempt_rate":0.828,"num_incorrect":579,"total_questions":1000,"num_not_attempted":172,"hallucination_rate":0.752925877763329,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.49,"num_correct":49,"omniscience":0,"attempt_rate":1,"num_incorrect":49,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9607843137254902,"num_partial_answer":2}},"R":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-32,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-18,"attempt_rate":1,"num_incorrect":29,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9666666666666667,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-28,"attempt_rate":0.96,"num_incorrect":30,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8823529411764706,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-34,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9705882352941176,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-14,"attempt_rate":0.98,"num_incorrect":28,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9655172413793104,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-52,"attempt_rate":0.93,"num_incorrect":71,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.8765432098765432,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.58,"num_correct":29,"omniscience":24,"attempt_rate":0.96,"num_incorrect":17,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8095238095238095,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-28,"attempt_rate":0.96,"num_incorrect":15,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8823529411764706,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":16,"attempt_rate":0.92,"num_incorrect":9,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.75,"num_partial_answer":1}},"total":{"accuracy":0.359,"num_correct":359,"omniscience":-22.3,"attempt_rate":0.97,"num_incorrect":582,"total_questions":1000,"num_not_attempted":30,"hallucination_rate":0.9079563182527302,"num_partial_answer":29},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-28,"attempt_rate":0.96,"num_incorrect":29,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8285714285714286,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.305,"num_correct":61,"omniscience":-32,"attempt_rate":0.955,"num_incorrect":125,"total_questions":200,"num_not_attempted":9,"hallucination_rate":0.8992805755395683,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.33636363636363636,"num_correct":37,"omniscience":-26.363636363636363,"attempt_rate":0.9818181818181818,"num_incorrect":66,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9041095890410958,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.4222222222222222,"num_correct":38,"omniscience":-11.11111111111111,"attempt_rate":0.9777777777777777,"num_incorrect":48,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9230769230769231,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.272,"num_correct":272,"omniscience":-32.6,"attempt_rate":0.882,"num_incorrect":598,"total_questions":1000,"num_not_attempted":118,"hallucination_rate":0.8214285714285714,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.331,"num_correct":331,"omniscience":-26.4,"attempt_rate":0.951,"num_incorrect":595,"total_questions":1000,"num_not_attempted":49,"hallucination_rate":0.8893871449925261,"num_partial_answer":25}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":685,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-08-21","representative_query_token_counts":null,"scicode":0.391,"short_name":"DeepSeek V3.1","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-1-reasoning","tau2":0.374,"terminalbench_hard":0.241,"tokenizer_id":null,"model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"60a4cbed-aa07-477a-93f0-5283361dc294","slug":"amazon-bedrock_deepseek-v3-1-reasoning","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"198b717f-42c8-4ab7-a699-ae9373d669d3","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek.v3-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_DeepSeek V3.1 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.58,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.855,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"47c0d31c-ccf8-42ec-a01c-45f6a8109dac","slug":"sambanova_deepseek-v3-1-reasoning","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"198b717f-42c8-4ab7-a699-ae9373d669d3","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-V3.1","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek V3.1 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":4.5,"price_1m_blended_3_to_1":3.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":0.3,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"83793a28-8eb1-4526-85b2-6b1ffe2764bc","slug":"gmi_deepseek-v3-1-reasoning_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"198b717f-42c8-4ab7-a699-ae9373d669d3","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.1","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_DeepSeek V3.1 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.27,"price_1m_output_tokens":1,"price_1m_blended_3_to_1":0.4525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"bb203010-6999-47cf-8eaf-5e92fc0258b7","slug":"novita_deepseek-v3-1-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"198b717f-42c8-4ab7-a699-ae9373d669d3","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.1","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.1 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.27,"price_1m_output_tokens":1,"price_1m_blended_3_to_1":0.4525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"df4ef99b-9b9c-4b77-ba36-150dfe741e42","slug":"google_deepseek-v3-1-reasoning_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"198b717f-42c8-4ab7-a699-ae9373d669d3","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-v3.1-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_DeepSeek V3.1 (Reasoning)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.6,"price_1m_output_tokens":1.7,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-1-reasoning","hosts_url":"/models/deepseek-v3-1-reasoning/providers","name_and_creator_label":"DeepSeek V3.1, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.537,"agentic_index":28.26,"coding_index":30.54,"commercial_allowed":true,"computed_performance_host_model_id":"95c16ef9-f0aa-4154-a126-911f8a6ebab2","context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":343,"estimated_intelligence_index":24.25044464046648,"model_family_slug":"deepseek-v3-1","frontier_model":false,"gdpval":975.4790474809863,"gpqa":0.751,"hle":0.084,"humaneval":null,"id":"dfb9292d-bc7c-4425-a260-4256217e709f","ifbench":0.412,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.96,"intelligence_index_token_counts":{"input_tokens":123280978,"answer_tokens":7885244,"output_tokens":7885244,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.433,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.529,"math_500":null,"math_index":53.67,"mmlu_pro":0.836,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus","multilingual_aa":null,"name":"DeepSeek V3.1 Terminus (Non-reasoning)","is_open_weights":true,"omniscience":-44.583,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-52.4,"attempt_rate":0.852,"num_incorrect":683,"total_questions":1000,"num_not_attempted":148,"hallucination_rate":0.812128418549346,"num_partial_answer":10}},"total":{"accuracy":0.22616666666666665,"num_correct":1357,"omniscience":-44.583333333333336,"attempt_rate":0.9218333333333333,"num_incorrect":4032,"total_questions":6000,"num_not_attempted":469,"hallucination_rate":0.8684040491061813,"num_partial_answer":142},"Health":{"total":{"accuracy":0.216,"num_correct":216,"omniscience":-49.9,"attempt_rate":0.973,"num_incorrect":715,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9119897959183674,"num_partial_answer":42}},"Business":{"total":{"accuracy":0.203,"num_correct":203,"omniscience":-42.6,"attempt_rate":0.854,"num_incorrect":629,"total_questions":1000,"num_not_attempted":146,"hallucination_rate":0.7892095357590966,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.45,"num_correct":45,"omniscience":-7,"attempt_rate":0.99,"num_incorrect":52,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9454545454545454,"num_partial_answer":2}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.92,"num_incorrect":36,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-26,"attempt_rate":0.92,"num_incorrect":29,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8529411764705882,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-40,"attempt_rate":0.92,"num_incorrect":32,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8421052631578947,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-50,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9736842105263158,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.96,"num_incorrect":33,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.26,"num_correct":26,"omniscience":-43,"attempt_rate":0.98,"num_incorrect":69,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9324324324324325,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-8,"attempt_rate":0.98,"num_incorrect":25,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8620689655172413,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-56,"attempt_rate":0.96,"num_incorrect":19,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.95,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-28,"attempt_rate":1,"num_incorrect":15,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8823529411764706,"num_partial_answer":2}},"total":{"accuracy":0.282,"num_correct":282,"omniscience":-36.8,"attempt_rate":0.956,"num_incorrect":650,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.9052924791086351,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.96,"num_incorrect":36,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.235,"num_correct":47,"omniscience":-45.5,"attempt_rate":0.93,"num_incorrect":138,"total_questions":200,"num_not_attempted":14,"hallucination_rate":0.9019607843137255,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2727272727272727,"num_correct":30,"omniscience":-38.18181818181818,"attempt_rate":0.9545454545454546,"num_incorrect":72,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.9,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.28888888888888886,"num_correct":26,"omniscience":-34.44444444444444,"attempt_rate":0.9555555555555556,"num_incorrect":57,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.890625,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.251,"num_correct":251,"omniscience":-41.6,"attempt_rate":0.933,"num_incorrect":667,"total_questions":1000,"num_not_attempted":67,"hallucination_rate":0.890520694259012,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.246,"num_correct":246,"omniscience":-44.2,"attempt_rate":0.963,"num_incorrect":688,"total_questions":1000,"num_not_attempted":37,"hallucination_rate":0.9124668435013262,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":685,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-22","representative_query_token_counts":null,"scicode":0.321,"short_name":"DeepSeek V3.1 Terminus","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-1-terminus","tau2":0.371,"terminalbench_hard":0.298,"tokenizer_id":null,"model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"78d3d5a5-3ca0-4669-9782-4c8d2e775ce2","slug":"fireworks_deepseek-v3-1-terminus","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"dfb9292d-bc7c-4425-a260-4256217e709f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/deepseek-v3p1-terminus","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_DeepSeek V3.1 Terminus (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.56,"price_1m_output_tokens":1.68,"price_1m_blended_3_to_1":0.84,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.19,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2ae15647-8046-4c42-8108-a498bf988879","slug":"sambanova_deepseek-v3-1-terminus","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"dfb9292d-bc7c-4425-a260-4256217e709f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-V3.1-Terminus","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek V3.1 Terminus (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":4.5,"price_1m_blended_3_to_1":3.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":0.3,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ea73f808-371e-4663-b016-0688b0d54167","slug":"novita_deepseek-v3-1-terminus_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"dfb9292d-bc7c-4425-a260-4256217e709f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.1-terminus","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.1 Terminus (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.27,"price_1m_output_tokens":1,"price_1m_blended_3_to_1":0.4525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"70cce850-617c-4d8d-b449-77705f5c9c56","slug":"eigenai_deepseek-v3-1-terminus","deleted":false,"host_id":"800900c0-481e-4a3d-986d-ac941aea56c3","gpqa_16x":null,"model_id":"dfb9292d-bc7c-4425-a260-4256217e709f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-v31-terminus","function_calling":true,"cache_write_price":null,"host_model_string":"Eigen AI_DeepSeek V3.1 Terminus (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.8,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"104ac2f1-24b8-45e3-9d0c-03e75f0a3ba1","slug":"deepinfra_deepseek-v3-1-terminus_fp4","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"dfb9292d-bc7c-4425-a260-4256217e709f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-V3.1-Terminus","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_DeepSeek V3.1 Terminus (Non-reasoning)_(FP4)","cache_pricing_notes":null,"model_name_appendage":"(FP4)","price_1m_input_tokens":0.21,"price_1m_output_tokens":0.79,"price_1m_blended_3_to_1":0.355,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":2.82,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-1-terminus","hosts_url":"/models/deepseek-v3-1-terminus/providers","name_and_creator_label":"DeepSeek V3.1 Terminus, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.897,"agentic_index":29.6,"coding_index":32.45,"commercial_allowed":true,"computed_performance_host_model_id":"c7b5c4b1-b5a6-433f-ac8e-46b0ca851785","context_window_tokens":128000,"critpt":0.017,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":341,"estimated_intelligence_index":33.32040436084859,"model_family_slug":"deepseek-v3-1","frontier_model":false,"gdpval":1018.5490476293132,"gpqa":0.792,"hle":0.152,"humaneval":null,"id":"0a7dda4d-cc9c-4a90-abc1-abb5772c901b","ifbench":0.57,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":33.43,"intelligence_index_token_counts":{"input_tokens":99811195,"answer_tokens":3908800,"output_tokens":50098117,"reasoning_tokens":46189317},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.65,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.798,"math_500":null,"math_index":89.67,"mmlu_pro":0.851,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus","multilingual_aa":{"ar":{"score":0.8408333333333333,"input_tokens":188556,"answer_tokens":212504,"output_tokens":212504,"reasoning_tokens":0,"total_input_tokens_api":213291,"total_answer_tokens_api":242393,"total_reasoning_tokens_api":0},"bn":{"score":0.8258333333333333,"input_tokens":225534,"answer_tokens":268875,"output_tokens":268875,"reasoning_tokens":0,"total_input_tokens_api":257652,"total_answer_tokens_api":310125,"total_reasoning_tokens_api":0},"de":{"score":0.8741666666666666,"input_tokens":191646,"answer_tokens":188993,"output_tokens":188993,"reasoning_tokens":0,"total_input_tokens_api":213600,"total_answer_tokens_api":212867,"total_reasoning_tokens_api":0},"en":{"score":0.91,"input_tokens":159654,"answer_tokens":158789,"output_tokens":158789,"reasoning_tokens":0,"total_input_tokens_api":160503,"total_answer_tokens_api":158696,"total_reasoning_tokens_api":0},"es":{"score":0.89,"input_tokens":182088,"answer_tokens":197644,"output_tokens":197644,"reasoning_tokens":0,"total_input_tokens_api":199287,"total_answer_tokens_api":216366,"total_reasoning_tokens_api":0},"fr":{"score":0.8700000000000001,"input_tokens":191346,"answer_tokens":206106,"output_tokens":206106,"reasoning_tokens":0,"total_input_tokens_api":210339,"total_answer_tokens_api":227871,"total_reasoning_tokens_api":0},"hi":{"score":0.8216666666666667,"input_tokens":209430,"answer_tokens":213031,"output_tokens":213031,"reasoning_tokens":0,"total_input_tokens_api":328056,"total_answer_tokens_api":348152,"total_reasoning_tokens_api":0},"id":{"score":0.8533333333333334,"input_tokens":181314,"answer_tokens":204557,"output_tokens":204557,"reasoning_tokens":0,"total_input_tokens_api":191544,"total_answer_tokens_api":216720,"total_reasoning_tokens_api":0},"it":{"score":0.88,"input_tokens":199032,"answer_tokens":233443,"output_tokens":233443,"reasoning_tokens":0,"total_input_tokens_api":208071,"total_answer_tokens_api":242754,"total_reasoning_tokens_api":0},"ja":{"score":0.8408333333333333,"input_tokens":228129,"answer_tokens":275924,"output_tokens":275924,"reasoning_tokens":0,"total_input_tokens_api":203637,"total_answer_tokens_api":238874,"total_reasoning_tokens_api":0},"ko":{"score":0.8258333333333333,"input_tokens":199401,"answer_tokens":222289,"output_tokens":222289,"reasoning_tokens":0,"total_input_tokens_api":216120,"total_answer_tokens_api":243092,"total_reasoning_tokens_api":0},"my":{"score":0.7233333333333333,"input_tokens":353547,"answer_tokens":362111,"output_tokens":362111,"reasoning_tokens":0,"total_input_tokens_api":555792,"total_answer_tokens_api":581818,"total_reasoning_tokens_api":0},"pt":{"score":0.8799999999999999,"input_tokens":178176,"answer_tokens":201537,"output_tokens":201537,"reasoning_tokens":0,"total_input_tokens_api":198012,"total_answer_tokens_api":225814,"total_reasoning_tokens_api":0},"sw":{"score":0.7475,"input_tokens":208677,"answer_tokens":247656,"output_tokens":247656,"reasoning_tokens":0,"total_input_tokens_api":253089,"total_answer_tokens_api":306079,"total_reasoning_tokens_api":0},"yo":{"score":0.5841666666666666,"input_tokens":307062,"answer_tokens":276150,"output_tokens":276150,"reasoning_tokens":0,"total_input_tokens_api":388761,"total_answer_tokens_api":300424,"total_reasoning_tokens_api":0},"zh":{"score":0.8625000000000002,"input_tokens":179793,"answer_tokens":233749,"output_tokens":233749,"reasoning_tokens":0,"total_input_tokens_api":154524,"total_answer_tokens_api":190581,"total_reasoning_tokens_api":0},"average":{"score":0.826875,"input_tokens":3383385,"answer_tokens":3703358,"output_tokens":3703358,"reasoning_tokens":0,"total_input_tokens_api":3952278,"total_answer_tokens_api":4262626,"total_reasoning_tokens_api":0}},"name":"DeepSeek V3.1 Terminus (Reasoning)","is_open_weights":true,"omniscience":-26.7,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.185,"num_correct":185,"omniscience":-32.9,"attempt_rate":0.712,"num_incorrect":514,"total_questions":1000,"num_not_attempted":288,"hallucination_rate":0.6306748466257669,"num_partial_answer":13}},"total":{"accuracy":0.27166666666666667,"num_correct":1630,"omniscience":-26.7,"attempt_rate":0.8293333333333334,"num_incorrect":3232,"total_questions":6000,"num_not_attempted":1024,"hallucination_rate":0.7395881006864988,"num_partial_answer":114},"Health":{"total":{"accuracy":0.281,"num_correct":281,"omniscience":-31.9,"attempt_rate":0.897,"num_incorrect":600,"total_questions":1000,"num_not_attempted":103,"hallucination_rate":0.8344923504867872,"num_partial_answer":16}},"Business":{"total":{"accuracy":0.223,"num_correct":223,"omniscience":-27.7,"attempt_rate":0.745,"num_incorrect":500,"total_questions":1000,"num_not_attempted":255,"hallucination_rate":0.6435006435006435,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.51,"num_correct":51,"omniscience":3,"attempt_rate":0.99,"num_incorrect":48,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9795918367346939,"num_partial_answer":0}},"R":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-54,"attempt_rate":0.9,"num_incorrect":36,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8780487804878049,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-24,"attempt_rate":0.78,"num_incorrect":25,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.6756756756756757,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-36,"attempt_rate":0.84,"num_incorrect":30,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7894736842105263,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-24,"attempt_rate":0.8,"num_incorrect":26,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7222222222222222,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-6,"attempt_rate":0.94,"num_incorrect":25,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8928571428571429,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-46,"attempt_rate":0.85,"num_incorrect":65,"total_questions":100,"num_not_attempted":15,"hallucination_rate":0.8024691358024691,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":22,"attempt_rate":0.92,"num_incorrect":16,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.6956521739130435,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":18,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-8,"attempt_rate":0.92,"num_incorrect":12,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8,"num_partial_answer":1}},"total":{"accuracy":0.309,"num_correct":309,"omniscience":-26.6,"attempt_rate":0.897,"num_incorrect":575,"total_questions":1000,"num_not_attempted":103,"hallucination_rate":0.8321273516642547,"num_partial_answer":13},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-34,"attempt_rate":0.84,"num_incorrect":29,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.7631578947368421,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.23,"num_correct":46,"omniscience":-44,"attempt_rate":0.91,"num_incorrect":134,"total_questions":200,"num_not_attempted":18,"hallucination_rate":0.8701298701298701,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.37272727272727274,"num_correct":41,"omniscience":-14.545454545454545,"attempt_rate":0.9090909090909091,"num_incorrect":57,"total_questions":110,"num_not_attempted":10,"hallucination_rate":0.8260869565217391,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.3,"num_correct":27,"omniscience":-30,"attempt_rate":0.9222222222222223,"num_incorrect":54,"total_questions":90,"num_not_attempted":7,"hallucination_rate":0.8571428571428571,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.294,"num_correct":294,"omniscience":-23.7,"attempt_rate":0.837,"num_incorrect":531,"total_questions":1000,"num_not_attempted":163,"hallucination_rate":0.7521246458923513,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.338,"num_correct":338,"omniscience":-17.4,"attempt_rate":0.888,"num_incorrect":512,"total_questions":1000,"num_not_attempted":112,"hallucination_rate":0.7734138972809668,"num_partial_answer":38}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":685,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-09-22","representative_query_token_counts":null,"scicode":0.406,"short_name":"DeepSeek V3.1 Terminus","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-v3-1-terminus-reasoning","tau2":0.371,"terminalbench_hard":0.284,"tokenizer_id":null,"model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"b08d474a-d2c1-42f4-aaaf-7e4d03517057","slug":"sambanova_deepseek-v3-1-terminus-reasoning","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"0a7dda4d-cc9c-4a90-abc1-abb5772c901b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-V3.1-Terminus","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek V3.1 Terminus (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":4.5,"price_1m_blended_3_to_1":3.375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.3,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e1083795-9649-4df8-82e2-6523a0ae12f3","slug":"novita_deepseek-v3-1-terminus-reasoning_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"0a7dda4d-cc9c-4a90-abc1-abb5772c901b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-v3.1-terminus","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek V3.1 Terminus (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.27,"price_1m_output_tokens":1,"price_1m_blended_3_to_1":0.4525,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.21,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7e13458c-568b-4139-adf2-7d90eea479ee","slug":"eigenai_deepseek-v3-1-terminus-reasoning","deleted":false,"host_id":"800900c0-481e-4a3d-986d-ac941aea56c3","gpqa_16x":null,"model_id":"0a7dda4d-cc9c-4a90-abc1-abb5772c901b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-v31-terminus","function_calling":true,"cache_write_price":null,"host_model_string":"Eigen AI_DeepSeek V3.1 Terminus (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.8,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.25,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-v3-1-terminus-reasoning","hosts_url":"/models/deepseek-v3-1-terminus-reasoning/providers","name_and_creator_label":"DeepSeek V3.1 Terminus, DeepSeek"},{"additional_text":null,"aime":null,"aime25":0.934,"agentic_index":37.46,"coding_index":27.62,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":131072,"critpt":0.011,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":2,"estimated_intelligence_index":35.87730607696023,"model_family_slug":"gpt-oss","frontier_model":false,"gdpval":964.7334542975957,"gpqa":0.782,"hle":0.185,"humaneval":null,"id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","ifbench":0.69,"inference_parameters_active_billions":5.1,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.9,"intelligence_index_token_counts":{"input_tokens":139438887,"answer_tokens":4575782,"output_tokens":77992172,"reasoning_tokens":73416390},"knowledge_cutoff_date":"2024-05-31","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.507,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.878,"math_500":null,"math_index":93.44,"mmlu_pro":0.808,"mmmu_pro":null,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":"https://huggingface.co/openai/gpt-oss-120b","multilingual_aa":{"ar":{"score":0.8333333333333334,"input_tokens":188556,"answer_tokens":33417,"output_tokens":1389858,"reasoning_tokens":1356441,"total_input_tokens_api":249756,"total_answer_tokens_api":1400711,"total_reasoning_tokens_api":0},"bn":{"score":0.8208333333333333,"input_tokens":225534,"answer_tokens":36343,"output_tokens":1630546,"reasoning_tokens":1594203,"total_input_tokens_api":286734,"total_answer_tokens_api":1641541,"total_reasoning_tokens_api":0},"de":{"score":0.8733333333333332,"input_tokens":191646,"answer_tokens":37197,"output_tokens":1243339,"reasoning_tokens":1206142,"total_input_tokens_api":252846,"total_answer_tokens_api":1254176,"total_reasoning_tokens_api":0},"en":{"score":0.89,"input_tokens":159654,"answer_tokens":36629,"output_tokens":1173141,"reasoning_tokens":1136512,"total_input_tokens_api":220854,"total_answer_tokens_api":1183943,"total_reasoning_tokens_api":0},"es":{"score":0.8716666666666667,"input_tokens":182088,"answer_tokens":41079,"output_tokens":1272107,"reasoning_tokens":1231028,"total_input_tokens_api":243288,"total_answer_tokens_api":1282913,"total_reasoning_tokens_api":0},"fr":{"score":0.8716666666666667,"input_tokens":191346,"answer_tokens":38461,"output_tokens":1386922,"reasoning_tokens":1348461,"total_input_tokens_api":252546,"total_answer_tokens_api":1397739,"total_reasoning_tokens_api":0},"hi":{"score":0.835,"input_tokens":209430,"answer_tokens":43087,"output_tokens":1420926,"reasoning_tokens":1377839,"total_input_tokens_api":270630,"total_answer_tokens_api":1431807,"total_reasoning_tokens_api":0},"id":{"score":0.8575,"input_tokens":181314,"answer_tokens":34857,"output_tokens":1332740,"reasoning_tokens":1297883,"total_input_tokens_api":242514,"total_answer_tokens_api":1343512,"total_reasoning_tokens_api":0},"it":{"score":0.8658333333333333,"input_tokens":199032,"answer_tokens":38804,"output_tokens":1283796,"reasoning_tokens":1244992,"total_input_tokens_api":260232,"total_answer_tokens_api":1294609,"total_reasoning_tokens_api":0},"ja":{"score":0.8391666666666667,"input_tokens":228129,"answer_tokens":46074,"output_tokens":1606934,"reasoning_tokens":1560860,"total_input_tokens_api":289329,"total_answer_tokens_api":1617731,"total_reasoning_tokens_api":0},"ko":{"score":0.8433333333333334,"input_tokens":199401,"answer_tokens":43579,"output_tokens":1527644,"reasoning_tokens":1484065,"total_input_tokens_api":260601,"total_answer_tokens_api":1538475,"total_reasoning_tokens_api":0},"my":{"score":0.765,"input_tokens":353547,"answer_tokens":24606,"output_tokens":2609311,"reasoning_tokens":2584705,"total_input_tokens_api":414594,"total_answer_tokens_api":2620370,"total_reasoning_tokens_api":0},"pt":{"score":0.8624999999999999,"input_tokens":178176,"answer_tokens":38784,"output_tokens":1387048,"reasoning_tokens":1348264,"total_input_tokens_api":239376,"total_answer_tokens_api":1397868,"total_reasoning_tokens_api":0},"sw":{"score":0.7491666666666666,"input_tokens":208677,"answer_tokens":24861,"output_tokens":1998005,"reasoning_tokens":1973144,"total_input_tokens_api":269877,"total_answer_tokens_api":2009183,"total_reasoning_tokens_api":0},"yo":{"score":0.6258333333333334,"input_tokens":307062,"answer_tokens":23008,"output_tokens":3929281,"reasoning_tokens":3906273,"total_input_tokens_api":368262,"total_answer_tokens_api":3942025,"total_reasoning_tokens_api":0},"zh":{"score":0.8408333333333333,"input_tokens":179793,"answer_tokens":40068,"output_tokens":1474154,"reasoning_tokens":1434086,"total_input_tokens_api":240993,"total_answer_tokens_api":1484969,"total_reasoning_tokens_api":0},"average":{"score":0.8278125000000001,"input_tokens":3383385,"answer_tokens":580854,"output_tokens":26665752,"reasoning_tokens":26084898,"total_input_tokens_api":4362432,"total_answer_tokens_api":26841572,"total_reasoning_tokens_api":0}},"name":"gpt-oss-120B (high)","is_open_weights":true,"omniscience":-51.933,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.086,"num_correct":86,"omniscience":-65.9,"attempt_rate":0.835,"num_incorrect":745,"total_questions":1000,"num_not_attempted":165,"hallucination_rate":0.8150984682713348,"num_partial_answer":4}},"total":{"accuracy":0.20016666666666666,"num_correct":1201,"omniscience":-51.93333333333333,"attempt_rate":0.9423333333333334,"num_incorrect":4317,"total_questions":6000,"num_not_attempted":346,"hallucination_rate":0.899562408835174,"num_partial_answer":136},"Health":{"total":{"accuracy":0.222,"num_correct":222,"omniscience":-50.6,"attempt_rate":0.986,"num_incorrect":728,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.9357326478149101,"num_partial_answer":36}},"Business":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-55.4,"attempt_rate":0.91,"num_incorrect":721,"total_questions":1000,"num_not_attempted":90,"hallucination_rate":0.865546218487395,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.4,"num_correct":40,"omniscience":-17,"attempt_rate":1,"num_incorrect":57,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.95,"num_partial_answer":3}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-86,"attempt_rate":0.98,"num_incorrect":46,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9787234042553191,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-62,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975609756097561,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-54,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-60,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9512195121951219,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-52,"attempt_rate":0.98,"num_incorrect":74,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9487179487179487,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":0,"attempt_rate":1,"num_incorrect":24,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-68,"attempt_rate":0.92,"num_incorrect":20,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9090909090909091,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"total":{"accuracy":0.267,"num_correct":267,"omniscience":-43.5,"attempt_rate":0.991,"num_incorrect":702,"total_questions":1000,"num_not_attempted":9,"hallucination_rate":0.9577080491132333,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.23,"num_correct":46,"omniscience":-52,"attempt_rate":0.985,"num_incorrect":150,"total_questions":200,"num_not_attempted":3,"hallucination_rate":0.974025974025974,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.41818181818181815,"num_correct":46,"omniscience":-13.636363636363637,"attempt_rate":0.990909090909091,"num_incorrect":61,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.953125,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.2222222222222222,"num_correct":20,"omniscience":-52.22222222222222,"attempt_rate":1,"num_incorrect":67,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9571428571428572,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.189,"num_correct":189,"omniscience":-56.1,"attempt_rate":0.949,"num_incorrect":750,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.9247842170160296,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.27,"num_correct":270,"omniscience":-40.1,"attempt_rate":0.983,"num_incorrect":671,"total_questions":1000,"num_not_attempted":17,"hallucination_rate":0.9191780821917809,"num_partial_answer":42}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":117,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-08-05","representative_query_token_counts":null,"scicode":0.389,"short_name":"gpt-oss-120B (high)","show_host_model_evals":true,"size_class":"Medium","slug":"gpt-oss-120b","tau2":0.658,"terminalbench_hard":0.22,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"6fcd78d9-8a58-407c-b302-031f52bcfe76","slug":"scaleway_gpt-oss-120b","deleted":false,"host_id":"a5b31cdb-30c6-4f3c-a92b-93b5af73a5f8","gpqa_16x":{"max":0.813,"min":0.742,"median":0.78,"quartile_25":0.771,"quartile_75":0.789},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":1,"min":0.833,"median":0.917,"quartile_25":0.9,"quartile_75":0.933},"ifbench_8x":{"max":0.714,"min":0.643,"median":0.687,"quartile_25":0.678,"quartile_75":0.699},"host_api_id":"gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Scaleway_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.17,"price_1m_output_tokens":0.7,"price_1m_blended_3_to_1":0.3025,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.31,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"88bf4430-136a-4563-b130-cf64ecb8dfdb","slug":"cerebras_gpt-oss-120b","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":{"max":0.793,"min":0.747,"median":0.768,"quartile_25":0.768,"quartile_75":0.779},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":false,"aime25_32x":{"max":0.967,"min":0.867,"median":0.933,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":{"max":0.687,"min":0.636,"median":0.667,"quartile_25":0.656,"quartile_75":0.676},"host_api_id":"gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.35,"price_1m_output_tokens":0.75,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"639bb8c8-50ff-4ed1-b04d-e2327447683f","slug":"parasail_gpt-oss-120b","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":{"max":0.808,"min":0.773,"median":0.788,"quartile_25":0.778,"quartile_75":0.803},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":1,"min":0.833,"median":0.9,"quartile_25":0.867,"quartile_75":0.933},"ifbench_8x":{"max":0.67,"min":0.626,"median":0.648,"quartile_25":0.641,"quartile_75":0.654},"host_api_id":"parasail-gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Parasail_gpt-oss-120B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b3913221-9fa7-42b2-89af-7149249877dc","slug":"databricks_gpt-oss-120b","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_gpt-oss-120B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"1fd40c99-0346-4450-8cc0-d2bae7d55a7c","slug":"vllm_gpt-oss-120b_0-10-1","deleted":false,"host_id":"27d8923d-51a2-4557-9c7f-bb87c8d1e34a","gpqa_16x":{"max":0.803,"min":0.753,"median":0.778,"quartile_25":0.766,"quartile_75":0.79},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":null,"aime25_32x":{"max":0.967,"min":0.867,"median":0.933,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":{"max":0.694,"min":0.673,"median":0.68,"quartile_25":0.676,"quartile_75":0.688},"host_api_id":"openai/gpt-oss-120b","function_calling":null,"cache_write_price":null,"host_model_string":"vLLM_gpt-oss-120B_ 0.10.1","cache_pricing_notes":null,"model_name_appendage":" 0.10.1","price_1m_input_tokens":0,"price_1m_output_tokens":0,"price_1m_blended_3_to_1":0,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":null,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ca2f318b-9856-4584-b694-d2d20f34db72","slug":"cloudflare_gpt-oss-120b","deleted":false,"host_id":"e5a35313-9994-4200-9775-daa4567948bb","gpqa_16x":{"max":0.798,"min":0.747,"median":0.773,"quartile_25":0.768,"quartile_75":0.783},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":false,"aime25_32x":{"max":0.933,"min":0.8,"median":0.867,"quartile_25":0.867,"quartile_75":0.9},"ifbench_8x":{"max":0.711,"min":0.67,"median":0.692,"quartile_25":0.684,"quartile_75":0.705},"host_api_id":"@cf/openai/gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Cloudflare_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.35,"price_1m_output_tokens":0.75,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e252e287-26d2-42ee-aa98-08e6ed082bd3","slug":"nebius_gpt-oss-120b_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":{"max":0.813,"min":0.753,"median":0.785,"quartile_25":0.778,"quartile_75":0.798},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.9,"median":0.933,"quartile_25":0.925,"quartile_75":0.967},"ifbench_8x":{"max":0.721,"min":0.656,"median":0.684,"quartile_25":0.67,"quartile_75":0.691},"host_api_id":"openai/gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Nebius_gpt-oss-120B_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"fc95b671-819e-4fa9-8e07-dd9d2a56833d","slug":"azure_gpt-oss-120b","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":{"max":0.803,"min":0.763,"median":0.78,"quartile_25":0.771,"quartile_75":0.79},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.9,"median":0.933,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":{"max":0.68,"min":0.646,"median":0.662,"quartile_25":0.655,"quartile_75":0.67},"host_api_id":"gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"122a6fd7-a584-4c67-8c1d-7c8ffbf6e8e4","slug":"baseten_gpt-oss-120b","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":{"max":0.798,"min":0.732,"median":0.765,"quartile_25":0.75,"quartile_75":0.77},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":false,"aime25_32x":{"max":1,"min":0.867,"median":0.933,"quartile_25":0.9,"quartile_75":0.967},"ifbench_8x":{"max":0.701,"min":0.667,"median":0.687,"quartile_25":0.68,"quartile_75":0.697},"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_gpt-oss-120B (high)_","cache_pricing_notes":null,"model_name_appendage":"","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128072,"price_m_tokens_blended_3_to_1_per_dollar":5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"133ddca3-382a-4d1e-afd2-5835a298a78b","slug":"sambanova_gpt-oss-120b","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":{"max":0.803,"min":0.763,"median":0.785,"quartile_25":0.771,"quartile_75":0.794},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":1,"min":0.9,"median":0.933,"quartile_25":0.933,"quartile_75":0.967},"ifbench_8x":null,"host_api_id":"gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.59,"price_1m_blended_3_to_1":0.3125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7df1b260-d8a5-4de4-8f16-01ff50ae239e","slug":"eigenai_gpt-oss-120b","deleted":false,"host_id":"800900c0-481e-4a3d-986d-ac941aea56c3","gpqa_16x":null,"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-oss","function_calling":true,"cache_write_price":null,"host_model_string":"Eigen AI_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"09c1246e-8ee9-4113-bad9-f8ede180cabf","slug":"hyperbolic_gpt-oss-120b","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e9d6a0ed-1e0e-453e-9978-c25a9cff1a7f","slug":"amazon-bedrock_gpt-oss-120b","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":{"max":0.798,"min":0.763,"median":0.788,"quartile_25":0.777,"quartile_75":0.789},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.833,"median":0.9,"quartile_25":0.9,"quartile_75":0.933},"ifbench_8x":{"max":0.738,"min":0.677,"median":0.696,"quartile_25":0.683,"quartile_75":0.707},"host_api_id":"openai.gpt-oss-120b-1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_gpt-oss-120B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"637ca4e1-69a2-4323-82f9-809dd10429f9","slug":"togetherai_gpt-oss-120b","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":{"max":0.813,"min":0.753,"median":0.785,"quartile_25":0.773,"quartile_75":0.799},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":1,"min":0.833,"median":0.933,"quartile_25":0.9,"quartile_75":0.967},"ifbench_8x":{"max":0.714,"min":0.67,"median":0.68,"quartile_25":0.673,"quartile_75":0.688},"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"91b876ae-076b-4d2f-8255-19304e39f137","slug":"lightningai_gpt-oss-120b","deleted":false,"host_id":"e4236e4f-1a6f-4c51-b91b-dd33ff9a5f97","gpqa_16x":{"max":0.808,"min":0.737,"median":0.765,"quartile_25":0.753,"quartile_75":0.779},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.767,"median":0.867,"quartile_25":0.825,"quartile_75":0.9},"ifbench_8x":{"max":0.67,"min":0.653,"median":0.665,"quartile_25":0.662,"quartile_75":0.667},"host_api_id":"lightning-ai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Lightning AI_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"79203eb1-d60d-4c5d-8fbc-869f55014ae8","slug":"deepinfra_gpt-oss-120b_turbo","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b-Turbo","function_calling":false,"cache_write_price":null,"host_model_string":"Deepinfra_gpt-oss-120B (high)_(Turbo)","cache_pricing_notes":null,"model_name_appendage":"(Turbo)","price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5cf28f96-4579-46c3-954b-e1134eb36b20","slug":"google_gpt-oss-120b_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":{"max":0.798,"min":0.722,"median":0.755,"quartile_25":0.747,"quartile_75":0.765},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.9,"min":0.733,"median":0.867,"quartile_25":0.825,"quartile_75":0.867},"ifbench_8x":{"max":0.69,"min":0.68,"median":0.682,"quartile_25":0.68,"quartile_75":0.684},"host_api_id":"openai/gpt-oss-120b-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_gpt-oss-120B (high)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.09,"price_1m_output_tokens":0.36,"price_1m_blended_3_to_1":0.1575,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":6.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4c532e3d-5f0d-455b-9a5b-883d8f6e9739","slug":"snowflake_gpt-oss-120b","deleted":false,"host_id":"59b2eb74-8e9c-430c-9291-86b40ed3df07","gpqa_16x":{"max":0.818,"min":0.737,"median":0.788,"quartile_25":0.774,"quartile_75":0.798},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":1,"min":0.867,"median":0.9,"quartile_25":0.9,"quartile_75":0.933},"ifbench_8x":{"max":0.714,"min":0.67,"median":0.692,"quartile_25":0.685,"quartile_75":0.695},"host_api_id":"openai-gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Snowflake_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.22,"price_1m_blended_3_to_1":0.22,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":4.55,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"a8e38398-7951-486e-8f25-68f58d3aa479","slug":"groq_gpt-oss-120b","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":{"max":0.793,"min":0.747,"median":0.775,"quartile_25":0.763,"quartile_75":0.789},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.833,"median":0.933,"quartile_25":0.9,"quartile_75":0.933},"ifbench_8x":{"max":0.721,"min":0.663,"median":0.685,"quartile_25":0.681,"quartile_75":0.69},"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8788d384-7130-424e-873a-142016cde9bd","slug":"clarifai_gpt-oss-120b","deleted":false,"host_id":"8906cd90-54cf-4365-86f0-4f2087162975","gpqa_16x":{"max":0.798,"min":0.662,"median":0.768,"quartile_25":0.739,"quartile_75":0.783},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.867,"median":0.933,"quartile_25":0.925,"quartile_75":0.967},"ifbench_8x":{"max":0.701,"min":0.667,"median":0.682,"quartile_25":0.673,"quartile_75":0.685},"host_api_id":"https://clarifai.com/openai/chat-completion/models/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Clarifai_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.09,"price_1m_output_tokens":0.36,"price_1m_blended_3_to_1":0.1575,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":6.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"06dfe690-aa4f-463c-87ae-7c9b6a35ee66","slug":"deepinfra_gpt-oss-120b","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":{"max":0.823,"min":0.732,"median":0.783,"quartile_25":0.77,"quartile_75":0.804},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":1,"min":0.833,"median":0.933,"quartile_25":0.925,"quartile_75":0.967},"ifbench_8x":{"max":0.721,"min":0.68,"median":0.697,"quartile_25":0.685,"quartile_75":0.698},"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.039,"price_1m_output_tokens":0.19,"price_1m_blended_3_to_1":0.07675,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":13.03,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"59165d9a-272b-4990-9dfe-ca5eb858a59b","slug":"novita_gpt-oss-120b","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":{"max":0.818,"min":0.758,"median":0.79,"quartile_25":0.777,"quartile_75":0.808},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":true,"aime25_32x":{"max":0.967,"min":0.867,"median":0.933,"quartile_25":0.9,"quartile_75":0.967},"ifbench_8x":{"max":0.741,"min":0.66,"median":0.689,"quartile_25":0.675,"quartile_75":0.704},"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.25,"price_1m_blended_3_to_1":0.1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":10,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"280d1aaf-b002-49cd-8192-7b1b7203b4be","slug":"fireworks_gpt-oss-120b","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":{"max":0.818,"min":0.737,"median":0.783,"quartile_25":0.766,"quartile_75":0.789},"model_id":"f0083258-8646-45b8-8082-7aaf6c2ea82a","footnotes":null,"json_mode":false,"aime25_32x":{"max":1,"min":0.867,"median":0.933,"quartile_25":0.9,"quartile_75":0.933},"ifbench_8x":{"max":0.718,"min":0.67,"median":0.69,"quartile_25":0.678,"quartile_75":0.696},"host_api_id":"accounts/fireworks/models/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_gpt-oss-120B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-oss-120b","hosts_url":"/models/gpt-oss-120b/providers","name_and_creator_label":"gpt-oss-120B (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.667,"agentic_index":27.98,"coding_index":15.31,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":131072,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":1,"estimated_intelligence_index":25.43522318369339,"model_family_slug":"gpt-oss","frontier_model":false,"gdpval":888.6282843181189,"gpqa":0.672,"hle":0.052,"humaneval":null,"id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","ifbench":0.583,"inference_parameters_active_billions":5.1,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":23.78,"intelligence_index_token_counts":{"input_tokens":75616142,"answer_tokens":3058558,"output_tokens":9840095,"reasoning_tokens":6781537},"knowledge_cutoff_date":"2025-05-31","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.437,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.707,"math_500":null,"math_index":66.67,"mmlu_pro":0.775,"mmmu_pro":null,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":"https://huggingface.co/openai/gpt-oss-120b","multilingual_aa":{"ar":{"score":0.8083333333333332,"input_tokens":188556,"answer_tokens":14358,"output_tokens":244082,"reasoning_tokens":229724,"total_input_tokens_api":238956,"total_answer_tokens_api":254900,"total_reasoning_tokens_api":0},"bn":{"score":0.7949999999999999,"input_tokens":225534,"answer_tokens":18938,"output_tokens":287817,"reasoning_tokens":268879,"total_input_tokens_api":275934,"total_answer_tokens_api":298634,"total_reasoning_tokens_api":0},"de":{"score":0.8333333333333334,"input_tokens":191646,"answer_tokens":15695,"output_tokens":209825,"reasoning_tokens":194130,"total_input_tokens_api":242046,"total_answer_tokens_api":220634,"total_reasoning_tokens_api":0},"en":{"score":0.8741666666666666,"input_tokens":159654,"answer_tokens":24421,"output_tokens":170911,"reasoning_tokens":146490,"total_input_tokens_api":210054,"total_answer_tokens_api":181712,"total_reasoning_tokens_api":0},"es":{"score":0.8466666666666667,"input_tokens":182088,"answer_tokens":18517,"output_tokens":211721,"reasoning_tokens":193204,"total_input_tokens_api":232488,"total_answer_tokens_api":222526,"total_reasoning_tokens_api":0},"fr":{"score":0.8466666666666667,"input_tokens":191346,"answer_tokens":17547,"output_tokens":211992,"reasoning_tokens":194445,"total_input_tokens_api":241746,"total_answer_tokens_api":222795,"total_reasoning_tokens_api":0},"hi":{"score":0.8108333333333334,"input_tokens":209430,"answer_tokens":24018,"output_tokens":270325,"reasoning_tokens":246307,"total_input_tokens_api":259830,"total_answer_tokens_api":281144,"total_reasoning_tokens_api":0},"id":{"score":0.8308333333333334,"input_tokens":181314,"answer_tokens":16358,"output_tokens":236233,"reasoning_tokens":219875,"total_input_tokens_api":231714,"total_answer_tokens_api":247036,"total_reasoning_tokens_api":0},"it":{"score":0.8533333333333334,"input_tokens":199032,"answer_tokens":18662,"output_tokens":225792,"reasoning_tokens":207130,"total_input_tokens_api":249432,"total_answer_tokens_api":236593,"total_reasoning_tokens_api":0},"ja":{"score":0.8083333333333332,"input_tokens":228129,"answer_tokens":22067,"output_tokens":248611,"reasoning_tokens":226544,"total_input_tokens_api":278529,"total_answer_tokens_api":259411,"total_reasoning_tokens_api":0},"ko":{"score":0.8250000000000001,"input_tokens":199401,"answer_tokens":17809,"output_tokens":255957,"reasoning_tokens":238148,"total_input_tokens_api":249801,"total_answer_tokens_api":266764,"total_reasoning_tokens_api":0},"my":{"score":0.6941666666666667,"input_tokens":353547,"answer_tokens":10962,"output_tokens":349364,"reasoning_tokens":338402,"total_input_tokens_api":403821,"total_answer_tokens_api":360174,"total_reasoning_tokens_api":0},"pt":{"score":0.8275,"input_tokens":178176,"answer_tokens":18032,"output_tokens":224911,"reasoning_tokens":206879,"total_input_tokens_api":228576,"total_answer_tokens_api":235715,"total_reasoning_tokens_api":0},"sw":{"score":0.715,"input_tokens":208677,"answer_tokens":12064,"output_tokens":319677,"reasoning_tokens":307613,"total_input_tokens_api":259077,"total_answer_tokens_api":330508,"total_reasoning_tokens_api":0},"yo":{"score":0.6183333333333333,"input_tokens":307062,"answer_tokens":9476,"output_tokens":435818,"reasoning_tokens":426342,"total_input_tokens_api":357462,"total_answer_tokens_api":446721,"total_reasoning_tokens_api":0},"zh":{"score":0.8316666666666667,"input_tokens":179793,"answer_tokens":23326,"output_tokens":236309,"reasoning_tokens":212983,"total_input_tokens_api":230193,"total_answer_tokens_api":247114,"total_reasoning_tokens_api":0},"average":{"score":0.8011979166666667,"input_tokens":3383385,"answer_tokens":282250,"output_tokens":4139345,"reasoning_tokens":3857095,"total_input_tokens_api":4189659,"total_answer_tokens_api":4312381,"total_reasoning_tokens_api":0}},"name":"gpt-oss-120B (low)","is_open_weights":true,"omniscience":-55.933,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.093,"num_correct":93,"omniscience":-69,"attempt_rate":0.881,"num_incorrect":783,"total_questions":1000,"num_not_attempted":119,"hallucination_rate":0.8632855567805954,"num_partial_answer":5}},"total":{"accuracy":0.1815,"num_correct":1089,"omniscience":-55.93333333333333,"attempt_rate":0.9446666666666667,"num_incorrect":4445,"total_questions":6000,"num_not_attempted":332,"hallucination_rate":0.9051109753614335,"num_partial_answer":134},"Health":{"total":{"accuracy":0.195,"num_correct":195,"omniscience":-55.2,"attempt_rate":0.968,"num_incorrect":747,"total_questions":1000,"num_not_attempted":32,"hallucination_rate":0.9279503105590062,"num_partial_answer":26}},"Business":{"total":{"accuracy":0.144,"num_correct":144,"omniscience":-59.3,"attempt_rate":0.903,"num_incorrect":737,"total_questions":1000,"num_not_attempted":97,"hallucination_rate":0.860981308411215,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.34,"num_correct":34,"omniscience":-30,"attempt_rate":1,"num_incorrect":64,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9696969696969697,"num_partial_answer":2}},"R":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-68,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9523809523809523,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-62,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9285714285714286,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-54,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-28,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8823529411764706,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-67,"attempt_rate":1,"num_incorrect":82,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9647058823529412,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":0,"attempt_rate":1,"num_incorrect":22,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7857142857142857,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-92,"attempt_rate":1,"num_incorrect":24,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.52,"num_correct":13,"omniscience":16,"attempt_rate":0.96,"num_incorrect":9,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.75,"num_partial_answer":2}},"total":{"accuracy":0.239,"num_correct":239,"omniscience":-48.5,"attempt_rate":0.998,"num_incorrect":724,"total_questions":1000,"num_not_attempted":2,"hallucination_rate":0.9513797634691196,"num_partial_answer":35},"Kotlin":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-52,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9487179487179487,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.18,"num_correct":36,"omniscience":-62.5,"attempt_rate":1,"num_incorrect":161,"total_questions":200,"num_not_attempted":0,"hallucination_rate":0.9817073170731707,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.33636363636363636,"num_correct":37,"omniscience":-29.09090909090909,"attempt_rate":0.990909090909091,"num_incorrect":69,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9452054794520548,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.2111111111111111,"num_correct":19,"omniscience":-53.333333333333336,"attempt_rate":1,"num_incorrect":67,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9436619718309859,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.17,"num_correct":170,"omniscience":-60,"attempt_rate":0.951,"num_incorrect":770,"total_questions":1000,"num_not_attempted":49,"hallucination_rate":0.927710843373494,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.248,"num_correct":248,"omniscience":-43.6,"attempt_rate":0.967,"num_incorrect":684,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.9095744680851063,"num_partial_answer":35}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":117,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-08-05","representative_query_token_counts":null,"scicode":0.36,"short_name":"gpt-oss-120B (low)","show_host_model_evals":false,"size_class":"Medium","slug":"gpt-oss-120b-low","tau2":0.45,"terminalbench_hard":0.05,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"81fd8b13-5f26-43bf-96aa-c4a6aa2000b8","slug":"novita_gpt-oss-120b-low","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0c594293-5fd2-432f-ac00-218d1f3357c5","slug":"baseten_gpt-oss-120b-low","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_gpt-oss-120B (low)_","cache_pricing_notes":null,"model_name_appendage":"","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128072,"price_m_tokens_blended_3_to_1_per_dollar":5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2af7e2df-e8e4-438a-97f6-45b3a36fb609","slug":"lightningai_gpt-oss-120b-low","deleted":false,"host_id":"e4236e4f-1a6f-4c51-b91b-dd33ff9a5f97","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"lightning-ai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Lightning AI_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"28279edc-0333-4e3c-8d78-1aca1efe137e","slug":"amazon-bedrock_gpt-oss-120b-low","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai.gpt-oss-120b-1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f02c0ef0-b26c-4711-8b93-45d22548b0eb","slug":"deepinfra_gpt-oss-120b-low","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":null,"cache_write_price":null,"host_model_string":"Deepinfra_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.09,"price_1m_output_tokens":0.45,"price_1m_blended_3_to_1":0.18,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5.56,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d3548bfd-9451-4a0b-8f38-715a8ea07561","slug":"parasail_gpt-oss-120b-low","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"parasail-gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Parasail_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"11adc8d6-6c33-4a30-a5b8-098a21601f25","slug":"databricks_gpt-oss-120b-low","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"809e3810-2310-43cc-b4f7-76ddd73d8188","slug":"togetherai_gpt-oss-120b-low","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"315a102e-22e4-43c8-80aa-8ebb433eb3bb","slug":"hyperbolic_gpt-oss-120b-low","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f464fbf5-7970-4497-bf5c-99cdfb4e9e75","slug":"eigenai_gpt-oss-120b-low","deleted":false,"host_id":"800900c0-481e-4a3d-986d-ac941aea56c3","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-oss","function_calling":true,"cache_write_price":null,"host_model_string":"Eigen AI_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"40aff54e-3679-4ff2-b016-8ef050500a10","slug":"fireworks_gpt-oss-120b-low","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e96498a0-ef80-435a-b5ee-8069c11f66f3","slug":"groq_gpt-oss-120b-low","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7972ff7f-857f-4ea6-b59a-3544f4cdbc89","slug":"cerebras_gpt-oss-120b-low","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.35,"price_1m_output_tokens":0.75,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"cba69ae9-a3ef-4a23-97d1-304c67117df3","slug":"clarifai_gpt-oss-120b-low","deleted":false,"host_id":"8906cd90-54cf-4365-86f0-4f2087162975","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"https://clarifai.com/openai/chat-completion/models/gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Clarifai_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.09,"price_1m_output_tokens":0.36,"price_1m_blended_3_to_1":0.1575,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":6.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"361468af-b7d1-49c8-a722-bf93cd1c2816","slug":"sambanova_gpt-oss-120b-low","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.59,"price_1m_blended_3_to_1":0.3125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"6ba48c3d-0f78-459f-badf-98c5f835a8d1","slug":"nebius_gpt-oss-120b-low_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Nebius_gpt-oss-120B (low)_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e61b26c1-e5d0-499a-812c-b158aa40fd9d","slug":"snowflake_gpt-oss-120b-low","deleted":false,"host_id":"59b2eb74-8e9c-430c-9291-86b40ed3df07","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai-gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Snowflake_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.22,"price_1m_blended_3_to_1":0.22,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":4.55,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5b82beda-a7d4-4843-9b5f-9ab2a3e5589b","slug":"google_gpt-oss-120b-low_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-120b-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_gpt-oss-120B (low)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.09,"price_1m_output_tokens":0.36,"price_1m_blended_3_to_1":0.1575,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":6.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"83a244de-d74d-4478-8aea-d947a3ac8afb","slug":"cloudflare_gpt-oss-120b-low","deleted":false,"host_id":"e5a35313-9994-4200-9775-daa4567948bb","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"@cf/openai/gpt-oss-120b","function_calling":false,"cache_write_price":null,"host_model_string":"Cloudflare_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.35,"price_1m_output_tokens":0.75,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"eb9d8627-05ce-4417-a694-c32b87230b9a","slug":"azure_gpt-oss-120b-low","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"c99f3bde-7c08-4de8-bd5c-8ee9123ebffa","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-oss-120b","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_gpt-oss-120B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-oss-120b-low","hosts_url":"/models/gpt-oss-120b-low/providers","name_and_creator_label":"gpt-oss-120B (low), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.893,"agentic_index":28.56,"coding_index":18.08,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":131072,"critpt":0.014,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":30,"estimated_intelligence_index":28.687025658518024,"model_family_slug":"gpt-oss","frontier_model":false,"gdpval":747.7654416938115,"gpqa":0.688,"hle":0.098,"humaneval":null,"id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","ifbench":0.651,"inference_parameters_active_billions":3.6,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":24.6,"intelligence_index_token_counts":{"input_tokens":140318252,"answer_tokens":3023621,"output_tokens":61344685,"reasoning_tokens":58321064},"knowledge_cutoff_date":"2024-05-31","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.307,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.777,"math_500":null,"math_index":89.33,"mmlu_pro":0.748,"mmmu_pro":null,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":"https://huggingface.co/openai/gpt-oss-20b","multilingual_aa":{"ar":{"score":0.7533333333333333,"input_tokens":188556,"answer_tokens":60180,"output_tokens":956089,"reasoning_tokens":895909,"total_input_tokens_api":238956,"total_answer_tokens_api":966996,"total_reasoning_tokens_api":0},"bn":{"score":0.7600000000000001,"input_tokens":225534,"answer_tokens":73070,"output_tokens":983226,"reasoning_tokens":910156,"total_input_tokens_api":275934,"total_answer_tokens_api":994095,"total_reasoning_tokens_api":0},"de":{"score":0.79,"input_tokens":191646,"answer_tokens":57880,"output_tokens":808113,"reasoning_tokens":750233,"total_input_tokens_api":242046,"total_answer_tokens_api":818947,"total_reasoning_tokens_api":0},"en":{"score":0.8433333333333333,"input_tokens":159654,"answer_tokens":45727,"output_tokens":677212,"reasoning_tokens":631485,"total_input_tokens_api":210054,"total_answer_tokens_api":688015,"total_reasoning_tokens_api":0},"es":{"score":0.8225000000000001,"input_tokens":182088,"answer_tokens":63831,"output_tokens":809995,"reasoning_tokens":746164,"total_input_tokens_api":232488,"total_answer_tokens_api":820810,"total_reasoning_tokens_api":0},"fr":{"score":0.8075,"input_tokens":191346,"answer_tokens":60286,"output_tokens":901460,"reasoning_tokens":841174,"total_input_tokens_api":241746,"total_answer_tokens_api":912257,"total_reasoning_tokens_api":0},"hi":{"score":0.7816666666666666,"input_tokens":209430,"answer_tokens":67920,"output_tokens":879413,"reasoning_tokens":811493,"total_input_tokens_api":259830,"total_answer_tokens_api":890255,"total_reasoning_tokens_api":0},"id":{"score":0.775,"input_tokens":181314,"answer_tokens":55380,"output_tokens":923875,"reasoning_tokens":868495,"total_input_tokens_api":231714,"total_answer_tokens_api":934685,"total_reasoning_tokens_api":0},"it":{"score":0.8000000000000002,"input_tokens":199032,"answer_tokens":63295,"output_tokens":847746,"reasoning_tokens":784451,"total_input_tokens_api":249432,"total_answer_tokens_api":858570,"total_reasoning_tokens_api":0},"ja":{"score":0.775,"input_tokens":228129,"answer_tokens":76859,"output_tokens":1061966,"reasoning_tokens":985107,"total_input_tokens_api":278529,"total_answer_tokens_api":1072791,"total_reasoning_tokens_api":0},"ko":{"score":0.7891666666666666,"input_tokens":199401,"answer_tokens":62805,"output_tokens":1058419,"reasoning_tokens":995614,"total_input_tokens_api":249801,"total_answer_tokens_api":1069283,"total_reasoning_tokens_api":0},"my":{"score":0.6541666666666667,"input_tokens":353547,"answer_tokens":52649,"output_tokens":1749103,"reasoning_tokens":1696454,"total_input_tokens_api":403821,"total_answer_tokens_api":1760063,"total_reasoning_tokens_api":0},"pt":{"score":0.7783333333333333,"input_tokens":178176,"answer_tokens":66257,"output_tokens":894290,"reasoning_tokens":828033,"total_input_tokens_api":228576,"total_answer_tokens_api":905115,"total_reasoning_tokens_api":0},"sw":{"score":0.6108333333333333,"input_tokens":208677,"answer_tokens":47510,"output_tokens":1338376,"reasoning_tokens":1290866,"total_input_tokens_api":259077,"total_answer_tokens_api":1349567,"total_reasoning_tokens_api":0},"yo":{"score":0.4916666666666667,"input_tokens":307062,"answer_tokens":37383,"output_tokens":3020907,"reasoning_tokens":2983524,"total_input_tokens_api":357462,"total_answer_tokens_api":3033007,"total_reasoning_tokens_api":0},"zh":{"score":0.7933333333333333,"input_tokens":179793,"answer_tokens":57566,"output_tokens":846249,"reasoning_tokens":788683,"total_input_tokens_api":230193,"total_answer_tokens_api":857153,"total_reasoning_tokens_api":0},"average":{"score":0.7516145833333333,"input_tokens":3383385,"answer_tokens":948598,"output_tokens":17756439,"reasoning_tokens":16807841,"total_input_tokens_api":4189659,"total_answer_tokens_api":17931609,"total_reasoning_tokens_api":0}},"name":"gpt-oss-20B (high)","is_open_weights":true,"omniscience":-64.9,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.079,"num_correct":79,"omniscience":-75.5,"attempt_rate":0.917,"num_incorrect":834,"total_questions":1000,"num_not_attempted":83,"hallucination_rate":0.9055374592833876,"num_partial_answer":4}},"total":{"accuracy":0.1465,"num_correct":879,"omniscience":-64.9,"attempt_rate":0.9643333333333334,"num_incorrect":4773,"total_questions":6000,"num_not_attempted":214,"hallucination_rate":0.9320445225541887,"num_partial_answer":134},"Health":{"total":{"accuracy":0.143,"num_correct":143,"omniscience":-65.9,"attempt_rate":0.986,"num_incorrect":802,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.9358226371061844,"num_partial_answer":41}},"Business":{"total":{"accuracy":0.118,"num_correct":118,"omniscience":-68.8,"attempt_rate":0.944,"num_incorrect":806,"total_questions":1000,"num_not_attempted":56,"hallucination_rate":0.9138321995464853,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.27,"num_correct":27,"omniscience":-45,"attempt_rate":1,"num_incorrect":72,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9863013698630136,"num_partial_answer":1}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-92,"attempt_rate":1,"num_incorrect":48,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-64,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-84,"attempt_rate":1,"num_incorrect":46,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.16,"num_correct":16,"omniscience":-67,"attempt_rate":1,"num_incorrect":83,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9880952380952381,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-14,"attempt_rate":1,"num_incorrect":27,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-36,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.184,"num_correct":184,"omniscience":-61,"attempt_rate":0.998,"num_incorrect":794,"total_questions":1000,"num_not_attempted":2,"hallucination_rate":0.9730392156862745,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9534883720930233,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.155,"num_correct":31,"omniscience":-67,"attempt_rate":0.995,"num_incorrect":165,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9763313609467456,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-40.90909090909091,"attempt_rate":1,"num_incorrect":76,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9620253164556962,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.13333333333333333,"num_correct":12,"omniscience":-71.11111111111111,"attempt_rate":1,"num_incorrect":76,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.128,"num_correct":128,"omniscience":-69.7,"attempt_rate":0.963,"num_incorrect":825,"total_questions":1000,"num_not_attempted":37,"hallucination_rate":0.9461009174311926,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.227,"num_correct":227,"omniscience":-48.5,"attempt_rate":0.978,"num_incorrect":712,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.9210866752910737,"num_partial_answer":39}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":21,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-08-05","representative_query_token_counts":null,"scicode":0.344,"short_name":"gpt-oss-20B (high)","show_host_model_evals":false,"size_class":"Small","slug":"gpt-oss-20b","tau2":0.602,"terminalbench_hard":0.099,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"fe2bd428-cb2e-4b75-a2d0-52df596b4609","slug":"novita_gpt-oss-20b","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_gpt-oss-20B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.04,"price_1m_output_tokens":0.15,"price_1m_blended_3_to_1":0.0675,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":14.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2caa1d98-ec0e-4033-8b83-6bd02b082138","slug":"google_gpt-oss-20b_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_gpt-oss-20B (high)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.07,"price_1m_output_tokens":0.25,"price_1m_blended_3_to_1":0.115,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":8.7,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"47cbc227-813b-4d48-9506-8b9989e27eab","slug":"amazon-bedrock_gpt-oss-20b","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai.gpt-oss-20b-1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_gpt-oss-20B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.07,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.1275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.84,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"62a871c9-b384-49e8-a644-836891e595ed","slug":"databricks_gpt-oss-20b","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_gpt-oss-20B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.07,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.1275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.84,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d764726e-3739-4d4b-8b90-373e6c7c131e","slug":"groq_gpt-oss-20b","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_gpt-oss-20B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.075,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.13125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":7.62,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c138004e-8fa7-47ee-aca9-7e4b52f06b99","slug":"nebius_gpt-oss-20b_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":false,"cache_write_price":null,"host_model_string":"Nebius_gpt-oss-20B_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.05,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.0875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":11.43,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2c397ff0-e9c8-4b8d-9364-f82357c6fdbf","slug":"deepinfra_gpt-oss-20b","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_gpt-oss-20B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.03,"price_1m_output_tokens":0.14,"price_1m_blended_3_to_1":0.0575,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":17.39,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"001dcc5d-05d4-4cb1-9c02-0fc7860d8121","slug":"togetherai_gpt-oss-20b","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_gpt-oss-20B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.0875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":11.43,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f340d653-5e91-4e02-be4a-ac1dcfcfa296","slug":"cloudflare_gpt-oss-20b","deleted":false,"host_id":"e5a35313-9994-4200-9775-daa4567948bb","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"@cf/openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Cloudflare_gpt-oss-20B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":4.44,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2a4abfc0-9507-4e55-9fa3-6ec7d5be657a","slug":"hyperbolic_gpt-oss-20b","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":false,"cache_write_price":null,"host_model_string":"Hyperbolic_gpt-oss-20B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.1,"price_1m_blended_3_to_1":0.1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":10,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"cc4ba073-0b4c-46bf-886b-a0a7806eb7cf","slug":"lightningai_gpt-oss-20b","deleted":false,"host_id":"e4236e4f-1a6f-4c51-b91b-dd33ff9a5f97","gpqa_16x":null,"model_id":"36f73aaf-d38a-4b56-a2b3-d04d17186910","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"lightning-ai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Lightning AI_gpt-oss-20B (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.0875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":11.43,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-oss-20b","hosts_url":"/models/gpt-oss-20b/providers","name_and_creator_label":"gpt-oss-20B (high), OpenAI"},{"additional_text":null,"aime":null,"aime25":0.623,"agentic_index":23.21,"coding_index":14.18,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":131072,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":13,"estimated_intelligence_index":23.3486683592154,"model_family_slug":"gpt-oss","frontier_model":false,"gdpval":690.8712569562605,"gpqa":0.611,"hle":0.051,"humaneval":null,"id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","ifbench":0.578,"inference_parameters_active_billions":3.6,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":21.08,"intelligence_index_token_counts":{"input_tokens":96270492,"answer_tokens":2608483,"output_tokens":11020242,"reasoning_tokens":8411759},"knowledge_cutoff_date":"2025-05-31","lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.31,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.652,"math_500":null,"math_index":62.33,"mmlu_pro":0.718,"mmmu_pro":null,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":"https://huggingface.co/openai/gpt-oss-20b","multilingual_aa":{"ar":{"score":0.7324999999999999,"input_tokens":188556,"answer_tokens":62426,"output_tokens":289441,"reasoning_tokens":227015,"total_input_tokens_api":238956,"total_answer_tokens_api":300278,"total_reasoning_tokens_api":0},"bn":{"score":0.7358333333333333,"input_tokens":225534,"answer_tokens":75233,"output_tokens":313768,"reasoning_tokens":238535,"total_input_tokens_api":275934,"total_answer_tokens_api":324593,"total_reasoning_tokens_api":0},"de":{"score":0.7699999999999999,"input_tokens":191646,"answer_tokens":61602,"output_tokens":251894,"reasoning_tokens":190292,"total_input_tokens_api":242046,"total_answer_tokens_api":262707,"total_reasoning_tokens_api":0},"en":{"score":0.84,"input_tokens":159654,"answer_tokens":54287,"output_tokens":184254,"reasoning_tokens":129967,"total_input_tokens_api":210054,"total_answer_tokens_api":195057,"total_reasoning_tokens_api":0},"es":{"score":0.7975,"input_tokens":182088,"answer_tokens":65054,"output_tokens":251255,"reasoning_tokens":186201,"total_input_tokens_api":232488,"total_answer_tokens_api":262068,"total_reasoning_tokens_api":0},"fr":{"score":0.7758333333333334,"input_tokens":191346,"answer_tokens":66279,"output_tokens":257641,"reasoning_tokens":191362,"total_input_tokens_api":241746,"total_answer_tokens_api":268453,"total_reasoning_tokens_api":0},"hi":{"score":0.765,"input_tokens":209430,"answer_tokens":71099,"output_tokens":298347,"reasoning_tokens":227248,"total_input_tokens_api":259830,"total_answer_tokens_api":309185,"total_reasoning_tokens_api":0},"id":{"score":0.7516666666666666,"input_tokens":181314,"answer_tokens":55351,"output_tokens":272563,"reasoning_tokens":217212,"total_input_tokens_api":231714,"total_answer_tokens_api":283375,"total_reasoning_tokens_api":0},"it":{"score":0.7725,"input_tokens":199032,"answer_tokens":67608,"output_tokens":260251,"reasoning_tokens":192643,"total_input_tokens_api":249432,"total_answer_tokens_api":271068,"total_reasoning_tokens_api":0},"ja":{"score":0.7516666666666666,"input_tokens":228129,"answer_tokens":76761,"output_tokens":306523,"reasoning_tokens":229762,"total_input_tokens_api":278529,"total_answer_tokens_api":317340,"total_reasoning_tokens_api":0},"ko":{"score":0.7425,"input_tokens":199401,"answer_tokens":66620,"output_tokens":326364,"reasoning_tokens":259744,"total_input_tokens_api":249801,"total_answer_tokens_api":337180,"total_reasoning_tokens_api":0},"my":{"score":0.6183333333333333,"input_tokens":353547,"answer_tokens":63961,"output_tokens":402655,"reasoning_tokens":338694,"total_input_tokens_api":403821,"total_answer_tokens_api":413563,"total_reasoning_tokens_api":0},"pt":{"score":0.7508333333333335,"input_tokens":178176,"answer_tokens":63783,"output_tokens":267485,"reasoning_tokens":203702,"total_input_tokens_api":228576,"total_answer_tokens_api":278302,"total_reasoning_tokens_api":0},"sw":{"score":0.6008333333333333,"input_tokens":208677,"answer_tokens":57140,"output_tokens":398809,"reasoning_tokens":341669,"total_input_tokens_api":259077,"total_answer_tokens_api":409712,"total_reasoning_tokens_api":0},"yo":{"score":0.4925,"input_tokens":307062,"answer_tokens":50922,"output_tokens":570054,"reasoning_tokens":519132,"total_input_tokens_api":357462,"total_answer_tokens_api":581048,"total_reasoning_tokens_api":0},"zh":{"score":0.7583333333333334,"input_tokens":179793,"answer_tokens":60993,"output_tokens":266110,"reasoning_tokens":205117,"total_input_tokens_api":230193,"total_answer_tokens_api":276920,"total_reasoning_tokens_api":0},"average":{"score":0.7284895833333334,"input_tokens":3383385,"answer_tokens":1019119,"output_tokens":4917414,"reasoning_tokens":3898295,"total_input_tokens_api":4189659,"total_answer_tokens_api":5090849,"total_reasoning_tokens_api":0}},"name":"gpt-oss-20B (low)","is_open_weights":true,"omniscience":-60.6,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.062,"num_correct":62,"omniscience":-65.9,"attempt_rate":0.788,"num_incorrect":721,"total_questions":1000,"num_not_attempted":212,"hallucination_rate":0.7686567164179104,"num_partial_answer":5}},"total":{"accuracy":0.13683333333333333,"num_correct":821,"omniscience":-60.6,"attempt_rate":0.8988333333333334,"num_incorrect":4457,"total_questions":6000,"num_not_attempted":607,"hallucination_rate":0.8605908476539873,"num_partial_answer":115},"Health":{"total":{"accuracy":0.137,"num_correct":137,"omniscience":-64.6,"attempt_rate":0.955,"num_incorrect":783,"total_questions":1000,"num_not_attempted":45,"hallucination_rate":0.9073001158748552,"num_partial_answer":35}},"Business":{"total":{"accuracy":0.105,"num_correct":105,"omniscience":-60.5,"attempt_rate":0.829,"num_incorrect":710,"total_questions":1000,"num_not_attempted":171,"hallucination_rate":0.7932960893854749,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.26,"num_correct":26,"omniscience":-46,"attempt_rate":0.99,"num_incorrect":72,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.972972972972973,"num_partial_answer":1}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-88,"attempt_rate":1,"num_incorrect":47,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-68,"attempt_rate":0.94,"num_incorrect":40,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9090909090909091,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-84,"attempt_rate":0.98,"num_incorrect":45,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9574468085106383,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-48,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8974358974358975,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-69,"attempt_rate":0.99,"num_incorrect":84,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9882352941176471,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-24,"attempt_rate":1,"num_incorrect":28,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8235294117647058,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-84,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-20,"attempt_rate":1,"num_incorrect":15,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.185,"num_correct":185,"omniscience":-60.1,"attempt_rate":0.993,"num_incorrect":786,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.9644171779141104,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-62,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9285714285714286,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.145,"num_correct":29,"omniscience":-70,"attempt_rate":0.995,"num_incorrect":169,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9883040935672515,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2727272727272727,"num_correct":30,"omniscience":-42.72727272727273,"attempt_rate":1,"num_incorrect":77,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9625,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.17777777777777778,"num_correct":16,"omniscience":-63.333333333333336,"attempt_rate":1,"num_incorrect":73,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9864864864864865,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.118,"num_correct":118,"omniscience":-64.3,"attempt_rate":0.888,"num_incorrect":761,"total_questions":1000,"num_not_attempted":112,"hallucination_rate":0.86281179138322,"num_partial_answer":9}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.214,"num_correct":214,"omniscience":-48.2,"attempt_rate":0.94,"num_incorrect":696,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.8854961832061069,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":21,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-08-05","representative_query_token_counts":null,"scicode":0.34,"short_name":"gpt-oss-20B (low)","show_host_model_evals":false,"size_class":"Small","slug":"gpt-oss-20b-low","tau2":0.503,"terminalbench_hard":0.043,"tokenizer_id":null,"model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"c0399b75-1263-4f3c-9867-6a3a7bc0cc42","slug":"google_gpt-oss-20b-low_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_gpt-oss-20B (low)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.07,"price_1m_output_tokens":0.25,"price_1m_blended_3_to_1":0.115,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":8.7,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"379fd87f-7052-476b-b908-4a1bf7701c4a","slug":"amazon-bedrock_gpt-oss-20b-low","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai.gpt-oss-20b-1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.07,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.1275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.84,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0eed5203-4777-4edf-b29d-d77ceca37943","slug":"novita_gpt-oss-20b-low","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.04,"price_1m_output_tokens":0.15,"price_1m_blended_3_to_1":0.0675,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":14.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"85c96ea4-f001-4870-b6aa-8156774308a8","slug":"togetherai_gpt-oss-20b-low","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.0875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":11.43,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"28c18455-952a-46c8-9084-c9ccb46813f6","slug":"databricks_gpt-oss-20b-low","deleted":false,"host_id":"d26aebe5-c578-4263-829a-40ac186238fe","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"databricks-gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Databricks_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.07,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.1275,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":7.84,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"40d45ed0-57bc-4a9b-9176-6b1bb2695247","slug":"groq_gpt-oss-20b-low","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.075,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.13125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":7.62,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"abbbca65-cb0f-4e88-8cac-3da3c9430bb7","slug":"nebius_gpt-oss-20b-low_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":false,"cache_write_price":null,"host_model_string":"Nebius_gpt-oss-20B (low)_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.05,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.0875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":11.43,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7f9ce8f3-0632-4733-8979-b0b828d0c479","slug":"cloudflare_gpt-oss-20b-low","deleted":false,"host_id":"e5a35313-9994-4200-9775-daa4567948bb","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"@cf/openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Cloudflare_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":4.44,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"27c71f6c-704c-4653-97b6-272a086c343b","slug":"deepinfra_gpt-oss-20b-low","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.04,"price_1m_output_tokens":0.16,"price_1m_blended_3_to_1":0.07,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":14.29,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"101beb26-4a9e-4577-98f0-e04fcb267821","slug":"lightningai_gpt-oss-20b-low","deleted":false,"host_id":"e4236e4f-1a6f-4c51-b91b-dd33ff9a5f97","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"lightning-ai/gpt-oss-20b","function_calling":true,"cache_write_price":null,"host_model_string":"Lightning AI_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.05,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.0875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":11.43,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"46c05fea-7138-407c-93d1-36cb56b15a0e","slug":"hyperbolic_gpt-oss-20b-low","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"16149b9c-a1e9-4669-a5cb-ff3c00d78f89","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"openai/gpt-oss-20b","function_calling":false,"cache_write_price":null,"host_model_string":"Hyperbolic_gpt-oss-20B (low)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.1,"price_1m_blended_3_to_1":0.1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":10,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/gpt-oss-20b-low","hosts_url":"/models/gpt-oss-20b-low/providers","name_and_creator_label":"gpt-oss-20B (low), OpenAI"},{"additional_text":null,"aime":0.94,"aime25":0.907,"agentic_index":36.06,"coding_index":24.97,"commercial_allowed":null,"computed_performance_host_model_id":"9f602d83-ac2b-4bf8-a98f-f1e1efd83237","context_window_tokens":200000,"critpt":0.006,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-mini","display_order":916,"estimated_intelligence_index":35.003916418638966,"model_family_slug":"o4","frontier_model":false,"gdpval":1024.6383949805797,"gpqa":0.784,"hle":0.175,"humaneval":0.99,"id":"84b49308-6b93-47aa-a4f6-776ee1a1e8cd","ifbench":0.687,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.89,"intelligence_index_token_counts":{"input_tokens":90322400,"answer_tokens":2961554,"output_tokens":112238570,"reasoning_tokens":109277015},"knowledge_cutoff_date":null,"lab_claimed_aime":0.934,"lab_claimed_gpqa":0.814,"lab_claimed_hle":0.1428,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.55,"license_name":null,"license_url":null,"livecodebench":0.859,"math_500":0.989,"math_index":90.67,"mmlu_pro":0.832,"mmmu_pro":0.692,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"o4-mini (high)","is_open_weights":false,"omniscience":-37.183,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.14,"num_correct":140,"omniscience":-42.8,"attempt_rate":0.719,"num_incorrect":568,"total_questions":1000,"num_not_attempted":281,"hallucination_rate":0.6604651162790698,"num_partial_answer":11}},"total":{"accuracy":0.2335,"num_correct":1401,"omniscience":-37.18333333333333,"attempt_rate":0.8628333333333333,"num_incorrect":3632,"total_questions":6000,"num_not_attempted":823,"hallucination_rate":0.7897368993259404,"num_partial_answer":144},"Health":{"total":{"accuracy":0.279,"num_correct":279,"omniscience":-35,"attempt_rate":0.933,"num_incorrect":629,"total_questions":1000,"num_not_attempted":67,"hallucination_rate":0.8723994452149791,"num_partial_answer":25}},"Business":{"total":{"accuracy":0.192,"num_correct":192,"omniscience":-40.9,"attempt_rate":0.815,"num_incorrect":601,"total_questions":1000,"num_not_attempted":185,"hallucination_rate":0.7438118811881188,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.36,"num_correct":36,"omniscience":-25,"attempt_rate":0.99,"num_incorrect":61,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.953125,"num_partial_answer":2}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-72,"attempt_rate":0.92,"num_incorrect":41,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9111111111111111,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-48,"attempt_rate":0.92,"num_incorrect":33,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8048780487804879,"num_partial_answer":4}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-42,"attempt_rate":0.96,"num_incorrect":33,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.868421052631579,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-18,"attempt_rate":0.94,"num_incorrect":27,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.84375,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-54,"attempt_rate":0.92,"num_incorrect":73,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.9012345679012346,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":16,"attempt_rate":0.98,"num_incorrect":19,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8260869565217391,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":0,"attempt_rate":1,"num_incorrect":12,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9230769230769231,"num_partial_answer":1}},"total":{"accuracy":0.274,"num_correct":274,"omniscience":-37,"attempt_rate":0.94,"num_incorrect":644,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.8870523415977961,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.96,"num_incorrect":37,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.925,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-43,"attempt_rate":0.885,"num_incorrect":130,"total_questions":200,"num_not_attempted":23,"hallucination_rate":0.8333333333333334,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.37272727272727274,"num_correct":41,"omniscience":-23.636363636363637,"attempt_rate":0.9818181818181818,"num_incorrect":67,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9710144927536232,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.3111111111111111,"num_correct":28,"omniscience":-27.77777777777778,"attempt_rate":0.9222222222222223,"num_incorrect":53,"total_questions":90,"num_not_attempted":7,"hallucination_rate":0.8548387096774194,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.213,"num_correct":213,"omniscience":-40.1,"attempt_rate":0.839,"num_incorrect":614,"total_questions":1000,"num_not_attempted":161,"hallucination_rate":0.7801778907242694,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.303,"num_correct":303,"omniscience":-27.3,"attempt_rate":0.931,"num_incorrect":576,"total_questions":1000,"num_not_attempted":69,"hallucination_rate":0.8263988522238164,"num_partial_answer":52}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"end_metadata"},"release_date":"2025-04-16","representative_query_token_counts":null,"scicode":0.465,"short_name":"o4-mini (high)","show_host_model_evals":false,"size_class":"Large","slug":"o4-mini","tau2":0.556,"terminalbench_hard":0.142,"tokenizer_id":"gpt-4o_tokenizer","model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"8947b163-98dc-4f8e-b348-7ecd8bfe041f","slug":"openai_o4-mini_private","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"84b49308-6b93-47aa-a4f6-776ee1a1e8cd","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"o4-mini-2025-04-16","function_calling":null,"cache_write_price":null,"host_model_string":"OpenAI_o4-mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.1,"price_1m_output_tokens":4.4,"price_1m_blended_3_to_1":1.925,"price_per_1k_1mp_images":1.9371,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.52,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"bf825cd0-96e4-42da-a4d8-8811ba7f6fc9","slug":"azure_o4-mini","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"84b49308-6b93-47aa-a4f6-776ee1a1e8cd","footnotes":"*Price based on OpenAI's o4-mini pricing","json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"o4-mini","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_o4-mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.1,"price_1m_output_tokens":4.4,"price_1m_blended_3_to_1":1.925,"price_per_1k_1mp_images":1.9371,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.52,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"9f602d83-ac2b-4bf8-a98f-f1e1efd83237","slug":"openai_o4-mini","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"84b49308-6b93-47aa-a4f6-776ee1a1e8cd","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"o4-mini-2025-04-16","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_o4-mini (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.1,"price_1m_output_tokens":4.4,"price_1m_blended_3_to_1":1.925,"price_per_1k_1mp_images":1.9371,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.52,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/o4-mini","hosts_url":"/models/o4-mini/providers","name_and_creator_label":"o4-mini (high), OpenAI"},{"additional_text":null,"aime":0.33,"aime25":0.58,"agentic_index":25.86,"coding_index":19.36,"commercial_allowed":null,"computed_performance_host_model_id":"5207fa45-a9c6-448a-8d5b-07ff41953ad5","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"grok-4","display_order":1514,"estimated_intelligence_index":23.962975529339655,"model_family_slug":"grok-3","frontier_model":false,"gdpval":782.5338073083677,"gpqa":0.693,"hle":0.051,"humaneval":0.909,"id":"2443ac9e-a3db-423d-accb-8963f6fb0a53","ifbench":0.469,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":25.19,"intelligence_index_token_counts":{"input_tokens":77903151,"answer_tokens":5123590,"output_tokens":5123590,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":0.52,"lab_claimed_gpqa":0.75,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.547,"license_name":null,"license_url":null,"livecodebench":0.425,"math_500":0.87,"math_index":58,"mmlu_pro":0.799,"mmmu_pro":null,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":null,"name":"Grok 3","is_open_weights":false,"omniscience":-35.267,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.241,"num_correct":241,"omniscience":-37.9,"attempt_rate":0.88,"num_incorrect":620,"total_questions":1000,"num_not_attempted":120,"hallucination_rate":0.8168642951251647,"num_partial_answer":19}},"total":{"accuracy":0.27366666666666667,"num_correct":1642,"omniscience":-35.266666666666666,"attempt_rate":0.9328333333333333,"num_incorrect":3758,"total_questions":6000,"num_not_attempted":403,"hallucination_rate":0.8623221661312529,"num_partial_answer":197},"Health":{"total":{"accuracy":0.289,"num_correct":289,"omniscience":-32.3,"attempt_rate":0.978,"num_incorrect":612,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.8607594936708861,"num_partial_answer":77}},"Business":{"total":{"accuracy":0.248,"num_correct":248,"omniscience":-32.6,"attempt_rate":0.836,"num_incorrect":574,"total_questions":1000,"num_not_attempted":164,"hallucination_rate":0.7632978723404256,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.43,"num_correct":43,"omniscience":-13,"attempt_rate":1,"num_incorrect":56,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9824561403508771,"num_partial_answer":1}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-68,"attempt_rate":0.92,"num_incorrect":40,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9090909090909091,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.96,"num_incorrect":37,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.925,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":-4,"attempt_rate":0.98,"num_incorrect":25,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9259259259259259,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-42,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9722222222222222,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-34,"attempt_rate":0.96,"num_incorrect":31,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8611111111111112,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-53,"attempt_rate":1,"num_incorrect":75,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9615384615384616,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":2,"attempt_rate":1,"num_incorrect":23,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8846153846153846,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":1,"num_incorrect":20,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9523809523809523,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":0.96,"num_incorrect":14,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":1}},"total":{"accuracy":0.305,"num_correct":305,"omniscience":-35,"attempt_rate":0.985,"num_incorrect":655,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9424460431654677,"num_partial_answer":25},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":0.96,"num_incorrect":34,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8947368421052632,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.305,"num_correct":61,"omniscience":-36.5,"attempt_rate":0.985,"num_incorrect":134,"total_questions":200,"num_not_attempted":3,"hallucination_rate":0.9640287769784173,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-31.818181818181817,"attempt_rate":1,"num_incorrect":71,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9594594594594594,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.3,"num_correct":27,"omniscience":-36.666666666666664,"attempt_rate":1,"num_incorrect":60,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9523809523809523,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.28,"num_correct":280,"omniscience":-38.1,"attempt_rate":0.96,"num_incorrect":661,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.9180555555555555,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.279,"num_correct":279,"omniscience":-35.7,"attempt_rate":0.958,"num_incorrect":636,"total_questions":1000,"num_not_attempted":42,"hallucination_rate":0.8821081830790569,"num_partial_answer":43}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-02-19","representative_query_token_counts":null,"scicode":0.368,"short_name":"Grok 3","show_host_model_evals":false,"size_class":"Large","slug":"grok-3","tau2":0.488,"terminalbench_hard":0.106,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[{"id":"5fff72e2-b10f-4018-8aad-a0a236910141","slug":"xai_grok-3_fast","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"2443ac9e-a3db-423d-accb-8963f6fb0a53","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-3-fast-beta","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 3_Fast","cache_pricing_notes":null,"model_name_appendage":"Fast","price_1m_input_tokens":5,"price_1m_output_tokens":25,"price_1m_blended_3_to_1":10,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5207fa45-a9c6-448a-8d5b-07ff41953ad5","slug":"xai_grok-3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"2443ac9e-a3db-423d-accb-8963f6fb0a53","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-3","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 3","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"684f6bc1-eedd-429e-b211-6428a602e9f3","slug":"azure_grok-3","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"2443ac9e-a3db-423d-accb-8963f6fb0a53","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-3","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_Grok 3","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":15,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":16000,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/grok-3","hosts_url":"/models/grok-3/providers","name_and_creator_label":"Grok 3, xAI"},{"additional_text":null,"aime":null,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":1000000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"grok-4","display_order":1515,"estimated_intelligence_index":21.647717992955027,"model_family_slug":"grok-3","frontier_model":null,"gdpval":null,"gpqa":null,"hle":null,"humaneval":null,"id":"ec3b22e6-48ac-416a-b4ae-55565a4f3046","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":0.839,"lab_claimed_gpqa":0.802,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":null,"math_500":null,"math_index":null,"mmlu_pro":null,"mmmu_pro":null,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":null,"name":"Grok 3 Reasoning Beta","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":null,"reasoning_model":true,"reasoning_properties":null,"release_date":"2025-02-19","representative_query_token_counts":null,"scicode":null,"short_name":"Grok 3 Reasoning Beta","show_host_model_evals":false,"size_class":"Large","slug":"grok-3-reasoning","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[],"model_url":"/models/grok-3-reasoning","hosts_url":"/models/grok-3-reasoning/providers","name_and_creator_label":"Grok 3 Reasoning Beta, xAI"},{"additional_text":null,"aime":0.933,"aime25":0.847,"agentic_index":33.51,"coding_index":24.42,"commercial_allowed":null,"computed_performance_host_model_id":"df88f002-a291-438d-b20a-01ea5a93833d","context_window_tokens":1000000,"critpt":0.006,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":408,"estimated_intelligence_index":32.76005549286182,"model_family_slug":"grok-3","frontier_model":false,"gdpval":583.1281227080292,"gpqa":0.791,"hle":0.111,"humaneval":0.978,"id":"ff9bc5e5-a02f-4270-983e-4b3f834f3363","ifbench":0.459,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.43,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":0.895,"lab_claimed_gpqa":0.803,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.503,"license_name":null,"license_url":null,"livecodebench":0.696,"math_500":0.992,"math_index":84.67,"mmlu_pro":0.828,"mmmu_pro":null,"model_creator_id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","model_weights_source_url":null,"multilingual_aa":null,"name":"Grok 3 mini Reasoning (high)","is_open_weights":false,"omniscience":-7.15,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.081,"num_correct":81,"omniscience":-10.5,"attempt_rate":0.279,"num_incorrect":186,"total_questions":1000,"num_not_attempted":721,"hallucination_rate":0.20239390642002175,"num_partial_answer":12}},"total":{"accuracy":0.145,"num_correct":870,"omniscience":-7.15,"attempt_rate":0.37616666666666665,"num_incorrect":1299,"total_questions":6000,"num_not_attempted":3743,"hallucination_rate":0.25321637426900584,"num_partial_answer":88},"Health":{"total":{"accuracy":0.132,"num_correct":132,"omniscience":-13.8,"attempt_rate":0.423,"num_incorrect":270,"total_questions":1000,"num_not_attempted":577,"hallucination_rate":0.31105990783410137,"num_partial_answer":21}},"Business":{"total":{"accuracy":0.12,"num_correct":120,"omniscience":-3.4,"attempt_rate":0.284,"num_incorrect":154,"total_questions":1000,"num_not_attempted":716,"hallucination_rate":0.175,"num_partial_answer":10}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-13,"attempt_rate":0.62,"num_incorrect":37,"total_questions":100,"num_not_attempted":38,"hallucination_rate":0.4868421052631579,"num_partial_answer":1}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-8,"attempt_rate":0.28,"num_incorrect":9,"total_questions":50,"num_not_attempted":36,"hallucination_rate":0.2,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-2,"attempt_rate":0.22,"num_incorrect":6,"total_questions":50,"num_not_attempted":39,"hallucination_rate":0.13333333333333333,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-6,"attempt_rate":0.22,"num_incorrect":7,"total_questions":50,"num_not_attempted":39,"hallucination_rate":0.15217391304347827,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":0,"attempt_rate":0.24,"num_incorrect":6,"total_questions":50,"num_not_attempted":38,"hallucination_rate":0.13636363636363635,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-4,"attempt_rate":0.4,"num_incorrect":10,"total_questions":50,"num_not_attempted":30,"hallucination_rate":0.23809523809523808,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.06,"num_correct":6,"omniscience":-10,"attempt_rate":0.23,"num_incorrect":16,"total_questions":100,"num_not_attempted":77,"hallucination_rate":0.1702127659574468,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":18,"attempt_rate":0.58,"num_incorrect":9,"total_questions":50,"num_not_attempted":21,"hallucination_rate":0.28125,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-16,"attempt_rate":0.24,"num_incorrect":5,"total_questions":25,"num_not_attempted":19,"hallucination_rate":0.20833333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":4,"attempt_rate":0.48,"num_incorrect":5,"total_questions":25,"num_not_attempted":13,"hallucination_rate":0.2631578947368421,"num_partial_answer":1}},"total":{"accuracy":0.144,"num_correct":144,"omniscience":-6.1,"attempt_rate":0.362,"num_incorrect":205,"total_questions":1000,"num_not_attempted":638,"hallucination_rate":0.23948598130841123,"num_partial_answer":13},"Kotlin":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-6,"attempt_rate":0.18,"num_incorrect":6,"total_questions":50,"num_not_attempted":41,"hallucination_rate":0.1276595744680851,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.12,"num_correct":24,"omniscience":-6.5,"attempt_rate":0.315,"num_incorrect":37,"total_questions":200,"num_not_attempted":137,"hallucination_rate":0.21022727272727273,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.20909090909090908,"num_correct":23,"omniscience":-6.363636363636363,"attempt_rate":0.4909090909090909,"num_incorrect":30,"total_questions":110,"num_not_attempted":56,"hallucination_rate":0.3448275862068966,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.12222222222222222,"num_correct":11,"omniscience":-12.222222222222221,"attempt_rate":0.4,"num_incorrect":22,"total_questions":90,"num_not_attempted":54,"hallucination_rate":0.27848101265822783,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.15,"num_correct":150,"omniscience":-5.5,"attempt_rate":0.365,"num_incorrect":205,"total_questions":1000,"num_not_attempted":635,"hallucination_rate":0.2411764705882353,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.243,"num_correct":243,"omniscience":-3.6,"attempt_rate":0.544,"num_incorrect":279,"total_questions":1000,"num_not_attempted":456,"hallucination_rate":0.36856010568031705,"num_partial_answer":22}}},"output_modality_image":true,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-02-19","representative_query_token_counts":null,"scicode":0.406,"short_name":"Grok 3 mini Reasoning (high)","show_host_model_evals":false,"size_class":"Medium","slug":"grok-3-mini-reasoning","tau2":0.904,"terminalbench_hard":0.163,"tokenizer_id":null,"model_creators":{"id":"a1e3ddcf-d3e4-44a5-9e8f-029a69850875","logo":"xai.svg","name":"xAI","slug":"xai","color":"#736cd3","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","created_at":"2024-03-17T22:29:58.592214+00:00","logo_small":"xai.svg","creator_url":"https://x.ai/","display_order":9,"logo_url":"/img/logos/xai.svg","logo_small_url":"/img/logos/xai.svg"},"host_models":[{"id":"fdb4599c-dd3c-4c18-a244-c2c265ff6b09","slug":"xai_grok-3-mini-reasoning-high_fast","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"ff9bc5e5-a02f-4270-983e-4b3f834f3363","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-3-mini-fast-beta","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 3 mini Reasoning (high)_Fast","cache_pricing_notes":null,"model_name_appendage":"Fast","price_1m_input_tokens":0.6,"price_1m_output_tokens":4,"price_1m_blended_3_to_1":1.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.69,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"df88f002-a291-438d-b20a-01ea5a93833d","slug":"xai_grok-3-mini-reasoning-high","deleted":false,"host_id":"80e7b7e3-e268-43db-a9b1-848693fbec85","gpqa_16x":null,"model_id":"ff9bc5e5-a02f-4270-983e-4b3f834f3363","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-3-mini-beta","function_calling":true,"cache_write_price":null,"host_model_string":"xAI_Grok 3 mini Reasoning (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"fd2812a7-5ab5-4b46-867c-fcf7bbfbbac5","slug":"azure_grok-3-mini-reasoning-high","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"ff9bc5e5-a02f-4270-983e-4b3f834f3363","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"grok-3-mini","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_Grok 3 mini Reasoning (high)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0,"price_1m_output_tokens":0,"price_1m_blended_3_to_1":0,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32000,"price_m_tokens_blended_3_to_1_per_dollar":null,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/grok-3-mini-reasoning","hosts_url":"/models/grok-3-mini-reasoning/providers","name_and_creator_label":"Grok 3 mini Reasoning (high), xAI"},{"additional_text":null,"aime":0.017,"aime25":0.103,"agentic_index":6.64,"coding_index":1.35,"commercial_allowed":true,"computed_performance_host_model_id":"c12f364e-a10e-4376-be3b-4c0b94d6f8d9","context_window_tokens":32000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":"qwen3-4b-2507-instruct","display_order":756,"estimated_intelligence_index":9.653252960548699,"model_family_slug":"qwen3","frontier_model":false,"gdpval":521.3563368160922,"gpqa":0.231,"hle":0.052,"humaneval":0.338,"id":"0e5f6140-1154-4583-a3e0-8c032a338892","ifbench":0.219,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":6.03,"intelligence_index_token_counts":{"input_tokens":183903865,"answer_tokens":2847783,"output_tokens":2847783,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.073,"math_500":0.521,"math_index":10.33,"mmlu_pro":0.231,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-0.6B","multilingual_aa":{"ar":0.33,"bn":0.32,"de":0.415,"en":0.4725,"es":0.41,"fr":0.4225,"hi":0.2975,"id":0.3975,"it":0.44,"ja":0.4275,"ko":0.3725,"pt":0.4525,"sw":0.2625,"yo":0.245,"zh":0.4925,"average":0.3838,"tokens_usage":{"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0}},"name":"Qwen3 0.6B (Non-reasoning)","is_open_weights":true,"omniscience":-86.85,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.027,"num_correct":27,"omniscience":-84.1,"attempt_rate":0.9,"num_incorrect":868,"total_questions":1000,"num_not_attempted":100,"hallucination_rate":0.8920863309352518,"num_partial_answer":5}},"total":{"accuracy":0.042,"num_correct":252,"omniscience":-86.85,"attempt_rate":0.9596666666666667,"num_incorrect":5463,"total_questions":6000,"num_not_attempted":242,"hallucination_rate":0.9504175365344467,"num_partial_answer":43},"Health":{"total":{"accuracy":0.037,"num_correct":37,"omniscience":-88.4,"attempt_rate":0.967,"num_incorrect":921,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.956386292834891,"num_partial_answer":9}},"Business":{"total":{"accuracy":0.037,"num_correct":37,"omniscience":-87.6,"attempt_rate":0.956,"num_incorrect":913,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.9480789200415368,"num_partial_answer":6}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-71,"attempt_rate":0.99,"num_incorrect":85,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9883720930232558,"num_partial_answer":0}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-94,"attempt_rate":0.98,"num_incorrect":48,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9795918367346939,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-86,"attempt_rate":0.98,"num_incorrect":46,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9787234042553191,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-80,"attempt_rate":0.96,"num_incorrect":44,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9565217391304348,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-94,"attempt_rate":1,"num_incorrect":48,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9795918367346939,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-80,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9565217391304348,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.08,"num_correct":8,"omniscience":-84,"attempt_rate":1,"num_incorrect":92,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-84,"attempt_rate":1,"num_incorrect":46,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-96,"attempt_rate":1,"num_incorrect":24,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.96,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-72,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"total":{"accuracy":0.066,"num_correct":66,"omniscience":-85,"attempt_rate":0.992,"num_incorrect":916,"total_questions":1000,"num_not_attempted":8,"hallucination_rate":0.9807280513918629,"num_partial_answer":10},"Kotlin":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-88,"attempt_rate":1,"num_incorrect":47,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.055,"num_correct":11,"omniscience":-86.5,"attempt_rate":0.99,"num_incorrect":184,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9735449735449735,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.05454545454545454,"num_correct":6,"omniscience":-87.27272727272727,"attempt_rate":1,"num_incorrect":102,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9807692307692307,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.044444444444444446,"num_correct":4,"omniscience":-90,"attempt_rate":0.9888888888888889,"num_incorrect":85,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9883720930232558,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.026,"num_correct":26,"omniscience":-91.9,"attempt_rate":0.974,"num_incorrect":945,"total_questions":1000,"num_not_attempted":26,"hallucination_rate":0.9702258726899384,"num_partial_answer":3}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.059,"num_correct":59,"omniscience":-84.1,"attempt_rate":0.969,"num_incorrect":900,"total_questions":1000,"num_not_attempted":31,"hallucination_rate":0.9564293304994687,"num_partial_answer":10}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":0.752,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.041,"short_name":"Qwen3 0.6B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-0.6b-instruct","tau2":0.146,"terminalbench_hard":0,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"c12f364e-a10e-4376-be3b-4c0b94d6f8d9","slug":"alibaba-cloud_qwen3-0-6b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"0e5f6140-1154-4583-a3e0-8c032a338892","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-0.6b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 0.6B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.1875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":5.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-0.6b-instruct","hosts_url":"/models/qwen3-0.6b-instruct/providers","name_and_creator_label":"Qwen3 0.6B, Alibaba"},{"additional_text":null,"aime":0.1,"aime25":0.18,"agentic_index":null,"coding_index":0.93,"commercial_allowed":true,"computed_performance_host_model_id":"76d476db-ef0f-4ab0-abd1-5a95c9e2f96e","context_window_tokens":32000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":"qwen3-4b-2507-instruct-reasoning","display_order":707,"estimated_intelligence_index":10.504775390875873,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.239,"hle":0.057,"humaneval":0.49,"id":"4ae6c88d-9e4a-4850-89fe-18a1c04a66cc","ifbench":0.233,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.121,"math_500":0.75,"math_index":18,"mmlu_pro":0.347,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-0.6B","multilingual_aa":null,"name":"Qwen3 0.6B (Reasoning)","is_open_weights":true,"omniscience":-82.45,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.036,"num_correct":36,"omniscience":-83.2,"attempt_rate":0.908,"num_incorrect":868,"total_questions":1000,"num_not_attempted":92,"hallucination_rate":0.9004149377593361,"num_partial_answer":4}},"total":{"accuracy":0.0555,"num_correct":333,"omniscience":-82.45,"attempt_rate":0.9448333333333333,"num_incorrect":5280,"total_questions":6000,"num_not_attempted":331,"hallucination_rate":0.9317098994176813,"num_partial_answer":56},"Health":{"total":{"accuracy":0.052,"num_correct":52,"omniscience":-85.1,"attempt_rate":0.969,"num_incorrect":903,"total_questions":1000,"num_not_attempted":31,"hallucination_rate":0.9525316455696202,"num_partial_answer":14}},"Business":{"total":{"accuracy":0.042,"num_correct":42,"omniscience":-77.5,"attempt_rate":0.871,"num_incorrect":817,"total_questions":1000,"num_not_attempted":129,"hallucination_rate":0.8528183716075156,"num_partial_answer":12}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-78,"attempt_rate":1,"num_incorrect":89,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-88,"attempt_rate":0.92,"num_incorrect":45,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9183673469387755,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-86,"attempt_rate":0.94,"num_incorrect":45,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9375,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":42,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-94,"attempt_rate":0.98,"num_incorrect":48,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9795918367346939,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-76,"attempt_rate":0.98,"num_incorrect":43,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9555555555555556,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.05,"num_correct":5,"omniscience":-88,"attempt_rate":0.98,"num_incorrect":93,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9789473684210527,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-60,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-76,"attempt_rate":0.96,"num_incorrect":21,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9130434782608695,"num_partial_answer":1}},"total":{"accuracy":0.069,"num_correct":69,"omniscience":-83.1,"attempt_rate":0.978,"num_incorrect":900,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.966702470461869,"num_partial_answer":9},"Kotlin":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-90,"attempt_rate":0.98,"num_incorrect":46,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9387755102040817,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.05,"num_correct":10,"omniscience":-86.5,"attempt_rate":0.98,"num_incorrect":183,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9631578947368421,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.07272727272727272,"num_correct":8,"omniscience":-81.81818181818181,"attempt_rate":0.9818181818181818,"num_incorrect":98,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9607843137254902,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.07777777777777778,"num_correct":7,"omniscience":-83.33333333333333,"attempt_rate":0.9888888888888889,"num_incorrect":82,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9879518072289156,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.043,"num_correct":43,"omniscience":-87.5,"attempt_rate":0.972,"num_incorrect":918,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.9592476489028213,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.091,"num_correct":91,"omniscience":-78.3,"attempt_rate":0.971,"num_incorrect":874,"total_questions":1000,"num_not_attempted":29,"hallucination_rate":0.9614961496149615,"num_partial_answer":6}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":0.752,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.028,"short_name":"Qwen3 0.6B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-0.6b-instruct-reasoning","tau2":0.211,"terminalbench_hard":0,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"76d476db-ef0f-4ab0-abd1-5a95c9e2f96e","slug":"alibaba-cloud_qwen3-0-6b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"4ae6c88d-9e4a-4850-89fe-18a1c04a66cc","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-0.6b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 0.6B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":1.26,"price_1m_blended_3_to_1":0.3975,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":2.52,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-0.6b-instruct-reasoning","hosts_url":"/models/qwen3-0.6b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 0.6B, Alibaba"},{"additional_text":null,"aime":0.097,"aime25":0.073,"agentic_index":null,"coding_index":2.31,"commercial_allowed":true,"computed_performance_host_model_id":"38d7d4fb-c2e0-4577-9d8c-9b34aa1ef64a","context_window_tokens":32000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":"qwen3-4b-2507-instruct","display_order":802,"estimated_intelligence_index":10.580206592118074,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.283,"hle":0.052,"humaneval":null,"id":"2bb84433-f38e-4edc-9b65-4d7b1f473db9","ifbench":0.211,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.126,"math_500":0.717,"math_index":7.33,"mmlu_pro":0.411,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-1.7B","multilingual_aa":{"average":0.487,"global_mmlu_lite":{"ar":0.4725,"bn":0.4025,"de":0.5325,"en":0.6225,"es":0.565,"fr":0.5675,"id":0.5325,"it":0.56,"ja":0.4975,"ko":0.445,"pt":0.48,"sw":0.28,"yo":0.29,"zh":0.57},"average_per_language":{"ar":0.4725,"bn":0.4025,"de":0.5325,"en":0.6225,"es":0.565,"fr":0.5675,"id":0.5325,"it":0.56,"ja":0.4975,"ko":0.445,"pt":0.48,"sw":0.28,"yo":0.29,"zh":0.57},"average_global_mmlu_lite":0.487},"name":"Qwen3 1.7B (Non-reasoning)","is_open_weights":true,"omniscience":-82.367,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.047,"num_correct":47,"omniscience":-88.1,"attempt_rate":0.98,"num_incorrect":928,"total_questions":1000,"num_not_attempted":20,"hallucination_rate":0.9737670514165793,"num_partial_answer":5}},"total":{"accuracy":0.07333333333333333,"num_correct":440,"omniscience":-82.36666666666666,"attempt_rate":0.9828333333333333,"num_incorrect":5382,"total_questions":6000,"num_not_attempted":103,"hallucination_rate":0.9679856115107913,"num_partial_answer":75},"Health":{"total":{"accuracy":0.062,"num_correct":62,"omniscience":-85.7,"attempt_rate":0.997,"num_incorrect":919,"total_questions":1000,"num_not_attempted":3,"hallucination_rate":0.9797441364605544,"num_partial_answer":16}},"Business":{"total":{"accuracy":0.053,"num_correct":53,"omniscience":-84.9,"attempt_rate":0.966,"num_incorrect":902,"total_questions":1000,"num_not_attempted":34,"hallucination_rate":0.9524815205913411,"num_partial_answer":11}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":83,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9325842696629213,"num_partial_answer":2}},"R":{"total":{"accuracy":0,"num_correct":0,"omniscience":-96,"attempt_rate":0.96,"num_incorrect":48,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.96,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-86,"attempt_rate":1,"num_incorrect":46,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9787234042553191,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-82,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9782608695652174,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-76,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":0.98,"num_incorrect":39,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.975,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.09,"num_correct":9,"omniscience":-80,"attempt_rate":1,"num_incorrect":89,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.978021978021978,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-66,"attempt_rate":0.96,"num_incorrect":40,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9302325581395349,"num_partial_answer":1}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-80,"attempt_rate":0.96,"num_incorrect":22,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9565217391304348,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":21,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"total":{"accuracy":0.101,"num_correct":101,"omniscience":-76.4,"attempt_rate":0.982,"num_incorrect":865,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.9621802002224694,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.085,"num_correct":17,"omniscience":-78,"attempt_rate":0.98,"num_incorrect":173,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9453551912568307,"num_partial_answer":6}},"JavaScript":{"total":{"accuracy":0.14545454545454545,"num_correct":16,"omniscience":-69.0909090909091,"attempt_rate":0.9818181818181818,"num_incorrect":92,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9787234042553191,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.07777777777777778,"num_correct":7,"omniscience":-82.22222222222223,"attempt_rate":1,"num_incorrect":81,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9759036144578314,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.069,"num_correct":69,"omniscience":-83.8,"attempt_rate":0.987,"num_incorrect":907,"total_questions":1000,"num_not_attempted":13,"hallucination_rate":0.9742212674543501,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.108,"num_correct":108,"omniscience":-75.3,"attempt_rate":0.985,"num_incorrect":861,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9652466367713004,"num_partial_answer":16}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":2.03,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.069,"short_name":"Qwen3 1.7B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-1.7b-instruct","tau2":0.216,"terminalbench_hard":0,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"38d7d4fb-c2e0-4577-9d8c-9b34aa1ef64a","slug":"alibaba-cloud_qwen3-1-7b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"2bb84433-f38e-4edc-9b65-4d7b1f473db9","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-1.7b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 1.7B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.1875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":5.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-1.7b-instruct","hosts_url":"/models/qwen3-1.7b-instruct/providers","name_and_creator_label":"Qwen3 1.7B, Alibaba"},{"additional_text":null,"aime":0.51,"aime25":0.387,"agentic_index":null,"coding_index":1.43,"commercial_allowed":true,"computed_performance_host_model_id":"15cc7757-653f-4818-a72c-11794bcbb4bd","context_window_tokens":32000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":"qwen3-4b-2507-instruct-reasoning","display_order":725,"estimated_intelligence_index":13.068306567976027,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.356,"hle":0.048,"humaneval":0.854,"id":"5962d643-0a6f-4630-bb08-ab5720d80056","ifbench":0.269,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.308,"math_500":0.894,"math_index":38.67,"mmlu_pro":0.57,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-1.7B","multilingual_aa":null,"name":"Qwen3 1.7B (Reasoning)","is_open_weights":true,"omniscience":-78.35,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.054,"num_correct":54,"omniscience":-83.6,"attempt_rate":0.946,"num_incorrect":890,"total_questions":1000,"num_not_attempted":54,"hallucination_rate":0.9408033826638478,"num_partial_answer":2}},"total":{"accuracy":0.08383333333333333,"num_correct":503,"omniscience":-78.35,"attempt_rate":0.962,"num_incorrect":5204,"total_questions":6000,"num_not_attempted":228,"hallucination_rate":0.946698199017646,"num_partial_answer":65},"Health":{"total":{"accuracy":0.071,"num_correct":71,"omniscience":-82.1,"attempt_rate":0.977,"num_incorrect":892,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.9601722282023681,"num_partial_answer":14}},"Business":{"total":{"accuracy":0.06,"num_correct":60,"omniscience":-76.9,"attempt_rate":0.9,"num_incorrect":829,"total_questions":1000,"num_not_attempted":100,"hallucination_rate":0.8819148936170212,"num_partial_answer":11}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-73,"attempt_rate":1,"num_incorrect":86,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9885057471264368,"num_partial_answer":1}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-96,"attempt_rate":1,"num_incorrect":49,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-82,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9782608695652174,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-86,"attempt_rate":1,"num_incorrect":46,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9787234042553191,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-78,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9777777777777777,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-54,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.08,"num_correct":8,"omniscience":-83,"attempt_rate":1,"num_incorrect":91,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9891304347826086,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.918918918918919,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.103,"num_correct":103,"omniscience":-77.4,"attempt_rate":0.996,"num_incorrect":877,"total_questions":1000,"num_not_attempted":4,"hallucination_rate":0.9777034559643255,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-88,"attempt_rate":0.98,"num_incorrect":46,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.095,"num_correct":19,"omniscience":-77.5,"attempt_rate":0.985,"num_incorrect":174,"total_questions":200,"num_not_attempted":3,"hallucination_rate":0.9613259668508287,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.12727272727272726,"num_correct":14,"omniscience":-72.72727272727273,"attempt_rate":1,"num_incorrect":94,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9791666666666666,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.07777777777777778,"num_correct":7,"omniscience":-84.44444444444444,"attempt_rate":1,"num_incorrect":83,"total_questions":90,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.082,"num_correct":82,"omniscience":-80.6,"attempt_rate":0.977,"num_incorrect":888,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.9673202614379085,"num_partial_answer":7}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.133,"num_correct":133,"omniscience":-69.5,"attempt_rate":0.976,"num_incorrect":828,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.9550173010380623,"num_partial_answer":15}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":2.03,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.043,"short_name":"Qwen3 1.7B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-1.7b-instruct-reasoning","tau2":0.26,"terminalbench_hard":0,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"15cc7757-653f-4818-a72c-11794bcbb4bd","slug":"alibaba-cloud_qwen3-1-7b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"5962d643-0a6f-4630-bb08-ab5720d80056","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-1.7b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 1.7B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":1.26,"price_1m_blended_3_to_1":0.3975,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":2.52,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-1.7b-instruct-reasoning","hosts_url":"/models/qwen3-1.7b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 1.7B, Alibaba"},{"additional_text":null,"aime":0.28,"aime25":0.58,"agentic_index":16.05,"coding_index":12.14,"commercial_allowed":true,"computed_performance_host_model_id":"5e6f4e6c-96d5-4437-889b-ad91c62b4dd1","context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-30b-a3b-2507","display_order":1741,"estimated_intelligence_index":15.665329414925122,"model_family_slug":"qwen3","frontier_model":false,"gdpval":646.1102158101,"gpqa":0.47,"hle":0.042,"humaneval":null,"id":"ecc6524a-d521-458a-8327-5009e8ce6549","ifbench":0.239,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":13.28,"intelligence_index_token_counts":{"input_tokens":65695743,"answer_tokens":4767504,"output_tokens":4767504,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.28,"math_500":0.871,"math_index":58,"mmlu_pro":0.675,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-14B","multilingual_aa":null,"name":"Qwen3 14B (Non-reasoning)","is_open_weights":true,"omniscience":-68.3,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.079,"num_correct":79,"omniscience":-72.1,"attempt_rate":0.887,"num_incorrect":800,"total_questions":1000,"num_not_attempted":113,"hallucination_rate":0.8686210640608035,"num_partial_answer":8}},"total":{"accuracy":0.12366666666666666,"num_correct":742,"omniscience":-68.3,"attempt_rate":0.9518333333333333,"num_incorrect":4840,"total_questions":6000,"num_not_attempted":289,"hallucination_rate":0.9205020920502092,"num_partial_answer":129},"Health":{"total":{"accuracy":0.103,"num_correct":103,"omniscience":-72.3,"attempt_rate":0.983,"num_incorrect":826,"total_questions":1000,"num_not_attempted":17,"hallucination_rate":0.9208472686733556,"num_partial_answer":54}},"Business":{"total":{"accuracy":0.121,"num_correct":121,"omniscience":-65.8,"attempt_rate":0.912,"num_incorrect":779,"total_questions":1000,"num_not_attempted":88,"hallucination_rate":0.8862343572241184,"num_partial_answer":12}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-50,"attempt_rate":0.99,"num_incorrect":74,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9736842105263158,"num_partial_answer":1}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-92,"attempt_rate":0.96,"num_incorrect":47,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9591836734693877,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-92,"attempt_rate":0.96,"num_incorrect":47,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9591836734693877,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":0.98,"num_incorrect":39,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.975,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-64,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.1,"num_correct":10,"omniscience":-78,"attempt_rate":1,"num_incorrect":88,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9777777777777777,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-26,"attempt_rate":1,"num_incorrect":29,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8529411764705882,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-96,"attempt_rate":1,"num_incorrect":24,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.96,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-44,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.148,"num_correct":148,"omniscience":-67.6,"attempt_rate":0.984,"num_incorrect":824,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.9671361502347418,"num_partial_answer":12},"Kotlin":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-74,"attempt_rate":0.96,"num_incorrect":42,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9333333333333333,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.145,"num_correct":29,"omniscience":-66.5,"attempt_rate":0.96,"num_incorrect":162,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.13636363636363635,"num_correct":15,"omniscience":-72.72727272727273,"attempt_rate":1,"num_incorrect":95,"total_questions":110,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"TypeScript":{"total":{"accuracy":0.15555555555555556,"num_correct":14,"omniscience":-68.88888888888889,"attempt_rate":1,"num_incorrect":76,"total_questions":90,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.123,"num_correct":123,"omniscience":-71.5,"attempt_rate":0.97,"num_incorrect":838,"total_questions":1000,"num_not_attempted":30,"hallucination_rate":0.9555302166476625,"num_partial_answer":9}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.168,"num_correct":168,"omniscience":-60.5,"attempt_rate":0.975,"num_incorrect":773,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.9290865384615384,"num_partial_answer":34}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":14.8,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.265,"short_name":"Qwen3 14B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-14b-instruct","tau2":0.322,"terminalbench_hard":0.05,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"5e6f4e6c-96d5-4437-889b-ad91c62b4dd1","slug":"alibaba-cloud_qwen3-14b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"ecc6524a-d521-458a-8327-5009e8ce6549","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-14b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 14B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.35,"price_1m_output_tokens":1.4,"price_1m_blended_3_to_1":0.6125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.63,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0aa4b47f-b67f-4773-8a53-34a36cdfe37c","slug":"deepinfra_qwen3-14b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"ecc6524a-d521-458a-8327-5009e8ce6549","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-14B","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 14B (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.08,"price_1m_output_tokens":0.24,"price_1m_blended_3_to_1":0.12,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":8.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-14b-instruct","hosts_url":"/models/qwen3-14b-instruct/providers","name_and_creator_label":"Qwen3 14B, Alibaba"},{"additional_text":null,"aime":0.763,"aime25":0.557,"agentic_index":16.67,"coding_index":12.9,"commercial_allowed":true,"computed_performance_host_model_id":"2990fdae-627b-405e-8b65-b91ec50ed4a0","context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-30b-a3b-2507-reasoning","display_order":1702,"estimated_intelligence_index":18.753585351905503,"model_family_slug":"qwen3","frontier_model":false,"gdpval":646.5568872503682,"gpqa":0.604,"hle":0.043,"humaneval":0.963,"id":"4559e9f0-8aad-4681-89fb-68cb915e0f16","ifbench":0.405,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":16.68,"intelligence_index_token_counts":{"input_tokens":59496803,"answer_tokens":2527892,"output_tokens":29929111,"reasoning_tokens":27401219},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.523,"math_500":0.961,"math_index":55.67,"mmlu_pro":0.774,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-14B","multilingual_aa":null,"name":"Qwen3 14B (Reasoning)","is_open_weights":true,"omniscience":-50.317,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.078,"num_correct":78,"omniscience":-47.2,"attempt_rate":0.634,"num_incorrect":550,"total_questions":1000,"num_not_attempted":366,"hallucination_rate":0.596529284164859,"num_partial_answer":6}},"total":{"accuracy":0.1415,"num_correct":849,"omniscience":-50.31666666666667,"attempt_rate":0.8063333333333333,"num_incorrect":3868,"total_questions":6000,"num_not_attempted":1162,"hallucination_rate":0.7509221510386332,"num_partial_answer":121},"Health":{"total":{"accuracy":0.138,"num_correct":138,"omniscience":-60.5,"attempt_rate":0.921,"num_incorrect":743,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.8619489559164734,"num_partial_answer":40}},"Business":{"total":{"accuracy":0.123,"num_correct":123,"omniscience":-44.1,"attempt_rate":0.697,"num_incorrect":564,"total_questions":1000,"num_not_attempted":303,"hallucination_rate":0.6431014823261118,"num_partial_answer":10}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-48,"attempt_rate":0.97,"num_incorrect":72,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-74,"attempt_rate":0.9,"num_incorrect":41,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8913043478260869,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-58,"attempt_rate":0.86,"num_incorrect":36,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8372093023255814,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-46,"attempt_rate":0.86,"num_incorrect":33,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.825,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-56,"attempt_rate":0.86,"num_incorrect":35,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.813953488372093,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8947368421052632,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-61,"attempt_rate":0.88,"num_incorrect":74,"total_questions":100,"num_not_attempted":12,"hallucination_rate":0.8505747126436781,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-4,"attempt_rate":0.94,"num_incorrect":23,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7931034482758621,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-72,"attempt_rate":0.88,"num_incorrect":20,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.8695652173913043,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-44,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.164,"num_correct":164,"omniscience":-56.3,"attempt_rate":0.912,"num_incorrect":727,"total_questions":1000,"num_not_attempted":88,"hallucination_rate":0.8696172248803827,"num_partial_answer":21},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-62,"attempt_rate":0.88,"num_incorrect":37,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8409090909090909,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.125,"num_correct":25,"omniscience":-61.5,"attempt_rate":0.88,"num_incorrect":148,"total_questions":200,"num_not_attempted":24,"hallucination_rate":0.8457142857142858,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.19090909090909092,"num_correct":21,"omniscience":-51.81818181818182,"attempt_rate":0.9454545454545454,"num_incorrect":78,"total_questions":110,"num_not_attempted":6,"hallucination_rate":0.8764044943820225,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.05555555555555555,"num_correct":5,"omniscience":-81.11111111111111,"attempt_rate":0.9555555555555556,"num_incorrect":78,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.9176470588235294,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.135,"num_correct":135,"omniscience":-52,"attempt_rate":0.802,"num_incorrect":655,"total_questions":1000,"num_not_attempted":198,"hallucination_rate":0.7572254335260116,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.211,"num_correct":211,"omniscience":-41.8,"attempt_rate":0.872,"num_incorrect":629,"total_questions":1000,"num_not_attempted":128,"hallucination_rate":0.7972116603295311,"num_partial_answer":32}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":14.8,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.316,"short_name":"Qwen3 14B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-14b-instruct-reasoning","tau2":0.345,"terminalbench_hard":0.035,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"2990fdae-627b-405e-8b65-b91ec50ed4a0","slug":"alibaba-cloud_qwen3-14b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"4559e9f0-8aad-4681-89fb-68cb915e0f16","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-14b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 14B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.35,"price_1m_output_tokens":4.2,"price_1m_blended_3_to_1":1.3125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.76,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"727e16ae-0f4b-46df-8de3-57040d1194c7","slug":"deepinfra_qwen3-14b-instruct-reasoning","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"4559e9f0-8aad-4681-89fb-68cb915e0f16","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-14B","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Qwen3 14B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.08,"price_1m_output_tokens":0.24,"price_1m_blended_3_to_1":0.12,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":8.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-14b-instruct-reasoning","hosts_url":"/models/qwen3-14b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 14B, Alibaba"},{"additional_text":null,"aime":0.327,"aime25":0.237,"agentic_index":20.55,"coding_index":13.74,"commercial_allowed":true,"computed_performance_host_model_id":"2ea823fc-93bb-4766-90b2-8de94a04d0a4","context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-235b-a22b-instruct-2507","display_order":1695,"estimated_intelligence_index":15.967093575630875,"model_family_slug":"qwen3","frontier_model":false,"gdpval":838.1528447718289,"gpqa":0.613,"hle":0.047,"humaneval":null,"id":"43573c57-2403-46fb-af4b-a93de9a0c3f5","ifbench":0.366,"inference_parameters_active_billions":22,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":17.2,"intelligence_index_token_counts":{"input_tokens":215077960,"answer_tokens":4149764,"output_tokens":4149764,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.343,"math_500":0.902,"math_index":23.67,"mmlu_pro":0.762,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-235B-A22B","multilingual_aa":null,"name":"Qwen3 235B A22B (Non-reasoning)","is_open_weights":true,"omniscience":-54.333,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.095,"num_correct":95,"omniscience":-63.7,"attempt_rate":0.837,"num_incorrect":732,"total_questions":1000,"num_not_attempted":163,"hallucination_rate":0.8088397790055248,"num_partial_answer":10}},"total":{"accuracy":0.173,"num_correct":1038,"omniscience":-54.333333333333336,"attempt_rate":0.9155,"num_incorrect":4298,"total_questions":6000,"num_not_attempted":507,"hallucination_rate":0.8661829907295445,"num_partial_answer":157},"Health":{"total":{"accuracy":0.166,"num_correct":166,"omniscience":-58.5,"attempt_rate":0.967,"num_incorrect":751,"total_questions":1000,"num_not_attempted":33,"hallucination_rate":0.9004796163069544,"num_partial_answer":50}},"Business":{"total":{"accuracy":0.15,"num_correct":150,"omniscience":-49.3,"attempt_rate":0.812,"num_incorrect":643,"total_questions":1000,"num_not_attempted":188,"hallucination_rate":0.7564705882352941,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.34,"num_correct":34,"omniscience":-28,"attempt_rate":0.98,"num_incorrect":62,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9393939393939394,"num_partial_answer":2}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":0.98,"num_incorrect":41,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9534883720930233,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-64,"attempt_rate":0.9,"num_incorrect":38,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8636363636363636,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9090909090909091,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-34,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9705882352941176,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":79,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9294117647058824,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":8,"attempt_rate":1,"num_incorrect":21,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.84,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":21,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"total":{"accuracy":0.242,"num_correct":242,"omniscience":-47,"attempt_rate":0.979,"num_incorrect":712,"total_questions":1000,"num_not_attempted":21,"hallucination_rate":0.9393139841688655,"num_partial_answer":25},"Kotlin":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-46,"attempt_rate":0.94,"num_incorrect":34,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8717948717948718,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.23,"num_correct":46,"omniscience":-51.5,"attempt_rate":0.985,"num_incorrect":149,"total_questions":200,"num_not_attempted":3,"hallucination_rate":0.9675324675324676,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.2545454545454545,"num_correct":28,"omniscience":-43.63636363636363,"attempt_rate":0.990909090909091,"num_incorrect":76,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.926829268292683,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.2111111111111111,"num_correct":19,"omniscience":-56.666666666666664,"attempt_rate":1,"num_incorrect":70,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9859154929577465,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.161,"num_correct":161,"omniscience":-59.2,"attempt_rate":0.932,"num_incorrect":753,"total_questions":1000,"num_not_attempted":68,"hallucination_rate":0.8974970202622169,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.224,"num_correct":224,"omniscience":-48.3,"attempt_rate":0.966,"num_incorrect":707,"total_questions":1000,"num_not_attempted":34,"hallucination_rate":0.9110824742268041,"num_partial_answer":35}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":235,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.299,"short_name":"Qwen3 235B","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-235b-a22b-instruct","tau2":0.272,"terminalbench_hard":0.057,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"bf00f674-3738-4b55-a5b4-b388a37fe632","slug":"novita_qwen3-235b-a22b-instruct_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"43573c57-2403-46fb-af4b-a93de9a0c3f5","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-235b-a22b-fp8","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_Qwen3 235B A22B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"cf1595f1-1825-435b-a338-8fcfb433051f","slug":"fireworks_qwen3-235b-a22b-instruct","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"43573c57-2403-46fb-af4b-a93de9a0c3f5","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-235b-a22b","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 235B A22B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"81fa7dbd-2cc7-4942-9662-0a61488c961b","slug":"deepinfra_qwen3-235b-a22b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"43573c57-2403-46fb-af4b-a93de9a0c3f5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Qwen3 235B A22B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.13,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2475,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":4.04,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2ea823fc-93bb-4766-90b2-8de94a04d0a4","slug":"alibaba-cloud_qwen3-235b-a22b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"43573c57-2403-46fb-af4b-a93de9a0c3f5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-235b-a22b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 235B A22B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.8,"price_1m_blended_3_to_1":1.225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.82,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7ed48131-a47f-434a-9e74-848d105b51b9","slug":"togetherai_qwen3-235b-a22b-instruct_fp8","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"43573c57-2403-46fb-af4b-a93de9a0c3f5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-fp8-tput","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Qwen3 235B A22B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-235b-a22b-instruct","hosts_url":"/models/qwen3-235b-a22b-instruct/providers","name_and_creator_label":"Qwen3 235B, Alibaba"},{"additional_text":null,"aime":0.84,"aime25":0.82,"agentic_index":19.36,"coding_index":17.09,"commercial_allowed":true,"computed_performance_host_model_id":"56a6c111-9346-484d-aca5-97bdf356ac24","context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-235b-a22b-instruct-2507-reasoning","display_order":1710,"estimated_intelligence_index":21.79989063206562,"model_family_slug":"qwen3","frontier_model":false,"gdpval":829.6821310984891,"gpqa":0.7,"hle":0.117,"humaneval":null,"id":"bbe6d782-e630-48d5-b11c-3ce37f373f1e","ifbench":0.387,"inference_parameters_active_billions":22,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":19.93,"intelligence_index_token_counts":{"input_tokens":201928713,"answer_tokens":3542477,"output_tokens":40818640,"reasoning_tokens":37276163},"knowledge_cutoff_date":null,"lab_claimed_aime":0.815,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.707,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.622,"math_500":0.93,"math_index":82,"mmlu_pro":0.828,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-235B-A22B","multilingual_aa":null,"name":"Qwen3 235B A22B (Reasoning)","is_open_weights":true,"omniscience":-45.55,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.09,"num_correct":90,"omniscience":-48.5,"attempt_rate":0.679,"num_incorrect":575,"total_questions":1000,"num_not_attempted":321,"hallucination_rate":0.6318681318681318,"num_partial_answer":14}},"total":{"accuracy":0.17666666666666667,"num_correct":1060,"omniscience":-45.55,"attempt_rate":0.8311666666666667,"num_incorrect":3793,"total_questions":6000,"num_not_attempted":1013,"hallucination_rate":0.7678137651821862,"num_partial_answer":134},"Health":{"total":{"accuracy":0.161,"num_correct":161,"omniscience":-55.5,"attempt_rate":0.916,"num_incorrect":716,"total_questions":1000,"num_not_attempted":84,"hallucination_rate":0.8533969010727056,"num_partial_answer":39}},"Business":{"total":{"accuracy":0.148,"num_correct":148,"omniscience":-42.6,"attempt_rate":0.739,"num_incorrect":574,"total_questions":1000,"num_not_attempted":261,"hallucination_rate":0.6737089201877934,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.39,"num_correct":39,"omniscience":-18,"attempt_rate":0.97,"num_incorrect":57,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9344262295081968,"num_partial_answer":1}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-48,"attempt_rate":0.88,"num_incorrect":34,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.85,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-68,"attempt_rate":0.8,"num_incorrect":37,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7872340425531915,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-30,"attempt_rate":0.96,"num_incorrect":30,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8571428571428571,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-46,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9210526315789473,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-57,"attempt_rate":0.93,"num_incorrect":75,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.9146341463414634,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":4,"attempt_rate":0.92,"num_incorrect":19,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.6551724137931034,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-60,"attempt_rate":0.92,"num_incorrect":19,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9047619047619048,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-32,"attempt_rate":0.92,"num_incorrect":15,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8333333333333334,"num_partial_answer":1}},"total":{"accuracy":0.253,"num_correct":253,"omniscience":-41.3,"attempt_rate":0.939,"num_incorrect":666,"total_questions":1000,"num_not_attempted":61,"hallucination_rate":0.891566265060241,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-48,"attempt_rate":0.88,"num_incorrect":33,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8048780487804879,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.235,"num_correct":47,"omniscience":-46.5,"attempt_rate":0.94,"num_incorrect":140,"total_questions":200,"num_not_attempted":12,"hallucination_rate":0.9150326797385621,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.3090909090909091,"num_correct":34,"omniscience":-33.63636363636363,"attempt_rate":0.9727272727272728,"num_incorrect":71,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9342105263157895,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.24444444444444444,"num_correct":22,"omniscience":-47.77777777777778,"attempt_rate":0.9777777777777777,"num_incorrect":65,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9558823529411765,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.177,"num_correct":177,"omniscience":-45.5,"attempt_rate":0.821,"num_incorrect":632,"total_questions":1000,"num_not_attempted":179,"hallucination_rate":0.7679222357229648,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.231,"num_correct":231,"omniscience":-39.9,"attempt_rate":0.893,"num_incorrect":630,"total_questions":1000,"num_not_attempted":107,"hallucination_rate":0.8192457737321196,"num_partial_answer":32}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":235,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.399,"short_name":"Qwen3 235B","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-235b-a22b-instruct-reasoning","tau2":0.24,"terminalbench_hard":0.057,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"6825a5de-a446-414d-b1bc-87924def99f7","slug":"fireworks_qwen3-235b-a22b-instruct-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":{"max":0.717,"min":0.652,"median":0.684,"quartile_25":0.662,"quartile_75":0.688},"model_id":"bbe6d782-e630-48d5-b11c-3ce37f373f1e","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-235b-a22b","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 235B A22B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"10ab8e59-1249-4958-8317-9e60aa385b56","slug":"togetherai_qwen3-235b-a22b-instruct-reasoning_fp8","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":{"max":0.722,"min":0.672,"median":0.697,"quartile_25":0.686,"quartile_75":0.713},"model_id":"bbe6d782-e630-48d5-b11c-3ce37f373f1e","footnotes":"FP8 Throughput","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-fp8-tput","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Qwen3 235B A22B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"56a6c111-9346-484d-aca5-97bdf356ac24","slug":"alibaba-cloud_qwen3-235b-a22b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":{"max":0.753,"min":0.682,"median":0.717,"quartile_25":0.706,"quartile_75":0.729},"model_id":"bbe6d782-e630-48d5-b11c-3ce37f373f1e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-235b-a22b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 235B A22B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":8.4,"price_1m_blended_3_to_1":2.625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.38,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3d1017f4-b486-47a1-9a39-cd5923a277c1","slug":"novita_qwen3-235b-a22b-instruct-reasoning_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":{"max":0.697,"min":0.429,"median":0.634,"quartile_25":0.566,"quartile_75":0.646},"model_id":"bbe6d782-e630-48d5-b11c-3ce37f373f1e","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-235b-a22b-fp8","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_Qwen3 235B A22B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-235b-a22b-instruct-reasoning","hosts_url":"/models/qwen3-235b-a22b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 235B, Alibaba"},{"additional_text":null,"aime":0.94,"aime25":0.91,"agentic_index":29.87,"coding_index":22.63,"commercial_allowed":true,"computed_performance_host_model_id":"c49eb854-e65b-4558-af74-ea2b059673b8","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":709,"estimated_intelligence_index":33.10915906123155,"model_family_slug":"qwen3","frontier_model":false,"gdpval":857.1214963589653,"gpqa":0.79,"hle":0.15,"humaneval":0.977,"id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","ifbench":0.512,"inference_parameters_active_billions":22,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":29.36,"intelligence_index_token_counts":{"input_tokens":54309060,"answer_tokens":2715609,"output_tokens":63423378,"reasoning_tokens":60707769},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.67,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.788,"math_500":0.984,"math_index":91,"mmlu_pro":0.843,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507","multilingual_aa":{"ar":{"score":0.8700000000000001,"input_tokens":188556,"answer_tokens":264458,"output_tokens":1658042,"reasoning_tokens":1393584,"total_input_tokens_api":221214,"total_answer_tokens_api":1739220,"total_reasoning_tokens_api":0},"bn":{"score":0.8583333333333333,"input_tokens":225534,"answer_tokens":272171,"output_tokens":1776931,"reasoning_tokens":1504760,"total_input_tokens_api":562761,"total_answer_tokens_api":2019339,"total_reasoning_tokens_api":0},"de":{"score":0.8908333333333333,"input_tokens":191646,"answer_tokens":270029,"output_tokens":1622064,"reasoning_tokens":1352035,"total_input_tokens_api":228054,"total_answer_tokens_api":1737737,"total_reasoning_tokens_api":0},"en":{"score":0.9216666666666667,"input_tokens":159654,"answer_tokens":297706,"output_tokens":1742812,"reasoning_tokens":1445106,"total_input_tokens_api":168357,"total_answer_tokens_api":1803748,"total_reasoning_tokens_api":0},"es":{"score":0.9125,"input_tokens":182088,"answer_tokens":278846,"output_tokens":1667859,"reasoning_tokens":1389013,"total_input_tokens_api":210627,"total_answer_tokens_api":1770091,"total_reasoning_tokens_api":0},"fr":{"score":0.9008333333333334,"input_tokens":191346,"answer_tokens":270273,"output_tokens":1633422,"reasoning_tokens":1363149,"total_input_tokens_api":222033,"total_answer_tokens_api":1732984,"total_reasoning_tokens_api":0},"hi":{"score":0.8666666666666666,"input_tokens":209430,"answer_tokens":271701,"output_tokens":1746339,"reasoning_tokens":1474638,"total_input_tokens_api":501261,"total_answer_tokens_api":1973068,"total_reasoning_tokens_api":0},"id":{"score":0.9,"input_tokens":181314,"answer_tokens":282865,"output_tokens":1715147,"reasoning_tokens":1432282,"total_input_tokens_api":220242,"total_answer_tokens_api":1825329,"total_reasoning_tokens_api":0},"it":{"score":0.8983333333333333,"input_tokens":199032,"answer_tokens":304049,"output_tokens":1689001,"reasoning_tokens":1384952,"total_input_tokens_api":224862,"total_answer_tokens_api":1787312,"total_reasoning_tokens_api":0},"ja":{"score":0.8866666666666667,"input_tokens":228129,"answer_tokens":300455,"output_tokens":1750784,"reasoning_tokens":1450329,"total_input_tokens_api":215220,"total_answer_tokens_api":1793197,"total_reasoning_tokens_api":0},"ko":{"score":0.8683333333333333,"input_tokens":199401,"answer_tokens":290007,"output_tokens":1795409,"reasoning_tokens":1505402,"total_input_tokens_api":224475,"total_answer_tokens_api":1883520,"total_reasoning_tokens_api":0},"my":{"score":0.8166666666666668,"input_tokens":353547,"answer_tokens":257126,"output_tokens":1783243,"reasoning_tokens":1526117,"total_input_tokens_api":904200,"total_answer_tokens_api":2070407,"total_reasoning_tokens_api":0},"pt":{"score":0.9016666666666667,"input_tokens":178176,"answer_tokens":265197,"output_tokens":1563915,"reasoning_tokens":1298718,"total_input_tokens_api":210231,"total_answer_tokens_api":1665611,"total_reasoning_tokens_api":0},"sw":{"score":0.7458333333333332,"input_tokens":208677,"answer_tokens":285804,"output_tokens":2084484,"reasoning_tokens":1798680,"total_input_tokens_api":262599,"total_answer_tokens_api":2209933,"total_reasoning_tokens_api":0},"yo":{"score":0.5158333333333333,"input_tokens":307062,"answer_tokens":305933,"output_tokens":2407776,"reasoning_tokens":2101843,"total_input_tokens_api":371910,"total_answer_tokens_api":2611878,"total_reasoning_tokens_api":0},"zh":{"score":0.8925,"input_tokens":179793,"answer_tokens":344206,"output_tokens":1861448,"reasoning_tokens":1517242,"total_input_tokens_api":172584,"total_answer_tokens_api":1764474,"total_reasoning_tokens_api":0},"average":{"score":0.8529166666666667,"input_tokens":3383385,"answer_tokens":4560826,"output_tokens":28498676,"reasoning_tokens":23937850,"total_input_tokens_api":4920630,"total_answer_tokens_api":30387848,"total_reasoning_tokens_api":0}},"name":"Qwen3 235B A22B 2507 (Reasoning)","is_open_weights":true,"omniscience":-47.7,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.108,"num_correct":108,"omniscience":-66.2,"attempt_rate":0.885,"num_incorrect":770,"total_questions":1000,"num_not_attempted":115,"hallucination_rate":0.8632286995515696,"num_partial_answer":7}},"total":{"accuracy":0.22116666666666668,"num_correct":1327,"omniscience":-47.7,"attempt_rate":0.9361666666666667,"num_incorrect":4189,"total_questions":6000,"num_not_attempted":383,"hallucination_rate":0.8964262786218703,"num_partial_answer":101},"Health":{"total":{"accuracy":0.221,"num_correct":221,"omniscience":-51,"attempt_rate":0.97,"num_incorrect":731,"total_questions":1000,"num_not_attempted":30,"hallucination_rate":0.938382541720154,"num_partial_answer":18}},"Business":{"total":{"accuracy":0.174,"num_correct":174,"omniscience":-52.4,"attempt_rate":0.892,"num_incorrect":698,"total_questions":1000,"num_not_attempted":108,"hallucination_rate":0.8450363196125908,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.51,"num_correct":51,"omniscience":3,"attempt_rate":0.99,"num_incorrect":48,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9795918367346939,"num_partial_answer":0}},"R":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-60,"attempt_rate":0.94,"num_incorrect":38,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9047619047619048,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.9,"num_incorrect":35,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.875,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.94,"num_incorrect":31,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8857142857142857,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-64,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-22,"attempt_rate":0.98,"num_incorrect":29,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.90625,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.16,"num_correct":16,"omniscience":-65,"attempt_rate":0.98,"num_incorrect":81,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9642857142857143,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":34,"attempt_rate":0.96,"num_incorrect":14,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.7368421052631579,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-28,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-12,"attempt_rate":0.92,"num_incorrect":13,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8666666666666667,"num_partial_answer":0}},"total":{"accuracy":0.317,"num_correct":317,"omniscience":-31.5,"attempt_rate":0.965,"num_incorrect":632,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.9253294289897511,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-30,"attempt_rate":0.92,"num_incorrect":30,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8571428571428571,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.275,"num_correct":55,"omniscience":-40.5,"attempt_rate":0.965,"num_incorrect":136,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9379310344827586,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.35454545454545455,"num_correct":39,"omniscience":-23.636363636363637,"attempt_rate":0.9636363636363636,"num_incorrect":65,"total_questions":110,"num_not_attempted":4,"hallucination_rate":0.9154929577464789,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.34444444444444444,"num_correct":31,"omniscience":-26.666666666666668,"attempt_rate":0.9888888888888889,"num_incorrect":55,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9322033898305084,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.19,"num_correct":190,"omniscience":-55,"attempt_rate":0.941,"num_incorrect":740,"total_questions":1000,"num_not_attempted":59,"hallucination_rate":0.9135802469135802,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.317,"num_correct":317,"omniscience":-30.1,"attempt_rate":0.964,"num_incorrect":618,"total_questions":1000,"num_not_attempted":36,"hallucination_rate":0.9048316251830161,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":235,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-07-25","representative_query_token_counts":null,"scicode":0.424,"short_name":"Qwen3 235B A22B 2507","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-235b-a22b-instruct-2507-reasoning","tau2":0.532,"terminalbench_hard":0.128,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"77f32918-176b-4311-ac1c-d74d967f0c05","slug":"novita_qwen3-235b-a22b-instruct-2507-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-235b-a22b-thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 235B A22B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":0.975,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.03,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c49eb854-e65b-4558-af74-ea2b059673b8","slug":"alibaba-cloud_qwen3-235b-a22b-instruct-2507-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-235b-a22b-thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 235B A22B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":8.4,"price_1m_blended_3_to_1":2.625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.38,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f6d986dd-a164-4354-8c26-f8c5a01fb1c2","slug":"fireworks_qwen3-235b-a22b-instruct-2507-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-235b-a22b-thinking-2507","function_calling":false,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 235B A22B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b9b3fb64-3204-4e89-a09b-f9434fa1b244","slug":"gmi_qwen3-235b-a22b-instruct-2507-reasoning_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Thinking-2507-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Qwen3 235B A22B 2507 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.6,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.83,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"047bd3ee-2443-41f7-b800-d014fce23da8","slug":"togetherai_qwen3-235b-a22b-instruct-2507-reasoning","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Qwen3 235B A22B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.65,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.2375,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"eb18bee4-e933-4a63-9a00-d18a4031615e","slug":"nebius_qwen3-235b-a22b-instruct-2507-reasoning","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 235B A22B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f4b06831-2f4d-441e-a9cb-76b746fb1f47","slug":"hyperbolic_qwen3-235b-a22b-instruct-2507-reasoning_fp8","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_Qwen3 235B A22B 2507 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.4,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":2.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"1184763c-f6e3-4b3c-82aa-0d6d8825850a","slug":"deepinfra_qwen3-235b-a22b-instruct-2507-reasoning_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"f6ccbe1d-bd7e-484b-9795-18cc9f91552d","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 235B A22B 2507 (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.23,"price_1m_output_tokens":2.39,"price_1m_blended_3_to_1":0.77,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.3,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-235b-a22b-instruct-2507-reasoning","hosts_url":"/models/qwen3-235b-a22b-instruct-2507-reasoning/providers","name_and_creator_label":"Qwen3 235B A22B 2507, Alibaba"},{"additional_text":null,"aime":0.717,"aime25":0.717,"agentic_index":23.03,"coding_index":21.45,"commercial_allowed":true,"computed_performance_host_model_id":"285210fd-18e3-4363-9af8-0a87e192f3c1","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":718,"estimated_intelligence_index":24.007468103050357,"model_family_slug":"qwen3","frontier_model":false,"gdpval":849.774498759366,"gpqa":0.753,"hle":0.106,"humaneval":0.957,"id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","ifbench":0.461,"inference_parameters_active_billions":22,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":24.55,"intelligence_index_token_counts":{"input_tokens":305611952,"answer_tokens":14261349,"output_tokens":14261349,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.312,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.524,"math_500":0.98,"math_index":71.67,"mmlu_pro":0.828,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507","multilingual_aa":null,"name":"Qwen3 235B A22B 2507 Instruct","is_open_weights":true,"omniscience":-45.383,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.094,"num_correct":94,"omniscience":-48.2,"attempt_rate":0.681,"num_incorrect":576,"total_questions":1000,"num_not_attempted":319,"hallucination_rate":0.6357615894039735,"num_partial_answer":11}},"total":{"accuracy":0.17583333333333334,"num_correct":1055,"omniscience":-45.38333333333333,"attempt_rate":0.8285,"num_incorrect":3778,"total_questions":6000,"num_not_attempted":1029,"hallucination_rate":0.7640040444893832,"num_partial_answer":138},"Health":{"total":{"accuracy":0.168,"num_correct":168,"omniscience":-53.3,"attempt_rate":0.906,"num_incorrect":701,"total_questions":1000,"num_not_attempted":94,"hallucination_rate":0.8425480769230769,"num_partial_answer":37}},"Business":{"total":{"accuracy":0.139,"num_correct":139,"omniscience":-42.7,"attempt_rate":0.725,"num_incorrect":566,"total_questions":1000,"num_not_attempted":275,"hallucination_rate":0.6573751451800233,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.37,"num_correct":37,"omniscience":-22,"attempt_rate":0.97,"num_incorrect":59,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9365079365079365,"num_partial_answer":1}},"R":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-54,"attempt_rate":0.86,"num_incorrect":35,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8333333333333334,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-66,"attempt_rate":0.82,"num_incorrect":37,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.8043478260869565,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-36,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8888888888888888,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-62,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975609756097561,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-36,"attempt_rate":0.96,"num_incorrect":32,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8888888888888888,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-63,"attempt_rate":0.92,"num_incorrect":76,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.8735632183908046,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-2,"attempt_rate":0.96,"num_incorrect":22,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.7586206896551724,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-60,"attempt_rate":0.92,"num_incorrect":19,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9047619047619048,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-36,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8888888888888888,"num_partial_answer":2}},"total":{"accuracy":0.24,"num_correct":240,"omniscience":-43.5,"attempt_rate":0.94,"num_incorrect":675,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.8881578947368421,"num_partial_answer":25},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-46,"attempt_rate":0.86,"num_incorrect":32,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7804878048780488,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.24,"num_correct":48,"omniscience":-45,"attempt_rate":0.935,"num_incorrect":138,"total_questions":200,"num_not_attempted":13,"hallucination_rate":0.9078947368421053,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-36.36363636363637,"attempt_rate":0.9545454545454546,"num_incorrect":71,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.8987341772151899,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.23333333333333334,"num_correct":21,"omniscience":-50,"attempt_rate":0.9888888888888889,"num_incorrect":66,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9565217391304348,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.183,"num_correct":183,"omniscience":-43.7,"attempt_rate":0.818,"num_incorrect":620,"total_questions":1000,"num_not_attempted":182,"hallucination_rate":0.758873929008568,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.231,"num_correct":231,"omniscience":-40.9,"attempt_rate":0.901,"num_incorrect":640,"total_questions":1000,"num_not_attempted":99,"hallucination_rate":0.8322496749024707,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":235,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-07-21","representative_query_token_counts":null,"scicode":0.36,"short_name":"Qwen3 235B 2507","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-235b-a22b-instruct-2507","tau2":0.333,"terminalbench_hard":0.142,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"214cb535-b8c6-40fd-a3ba-0a505b0495b6","slug":"parasail_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"parasail-qwen3-235b-a22b-instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_Qwen3 235B A22B 2507 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.85,"price_1m_blended_3_to_1":0.325,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":3.08,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8b4436f2-085f-44d0-9aed-149f0e65dc50","slug":"gmi_qwen3-235b-a22b-instruct-2507_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Instruct-2507-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Qwen3 235B A22B 2507 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.17,"price_1m_output_tokens":1.09,"price_1m_blended_3_to_1":0.4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b422ea91-93d4-49a1-80ca-836255cdb102","slug":"scaleway_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"a5b31cdb-30c6-4f3c-a92b-93b5af73a5f8","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-235b-a22b-instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Scaleway_Qwen3 235B A22B 2507 Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.87,"price_1m_output_tokens":2.62,"price_1m_blended_3_to_1":1.3075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":250000,"price_m_tokens_blended_3_to_1_per_dollar":0.76,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"81cc61e7-c166-4952-b0c5-189f45e66506","slug":"nebius_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 235B A22B 2507 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"285210fd-18e3-4363-9af8-0a87e192f3c1","slug":"alibaba-cloud_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-235b-a22b-instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 235B A22B 2507 Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.8,"price_1m_blended_3_to_1":1.225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.82,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5e498012-cdfc-4373-b726-3b4941fbf26d","slug":"togetherai_qwen3-235b-a22b-instruct-2507_fp8","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Instruct-2507-tput","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Qwen3 235B A22B 2507 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5828070d-1e38-4564-96c0-b3f60306a9fe","slug":"fireworks_qwen3-235b-a22b-instruct-2507_fp8","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-235b-a22b-instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 235B A22B 2507 (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f3824087-f6c0-406c-9d64-e6f33133b604","slug":"cerebras_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen-3-235b-a22b-instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_Qwen3 235B A22B 2507 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7ccb2c0f-0b3b-439e-bfc0-3c84279aa8dd","slug":"hyperbolic_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_Qwen3 235B A22B 2507 (Non-reasoning)_","cache_pricing_notes":null,"model_name_appendage":"","price_1m_input_tokens":2,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ad1b8f87-5b40-45c8-b94a-ae177ebc1039","slug":"baseten_qwen3-235b-a22b-instruct-2507_fp8","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_Qwen3 235B A22B 2507 Instruct_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.22,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.365,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.74,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f7d86dc0-dd06-47ea-9206-b38aa5dcb479","slug":"amazon-bedrock_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen.qwen3-235b-a22b-2507-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Qwen3 235B A22B 2507 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"14bb0c5e-9ed2-4806-907a-81c7863ce3e6","slug":"deepinfra_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-235B-A22B-Instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 235B A22B 2507 Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.071,"price_1m_output_tokens":0.463,"price_1m_blended_3_to_1":0.169,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":5.92,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4ac2e08c-4637-4186-8791-9f9cffc480a3","slug":"google_qwen3-235b-a22b-instruct-2507_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-235b-a22b-instruct-2507-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Qwen3 235B A22B 2507 Instruct_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"a36d89d9-9d34-4e0b-9d5b-8b8d6e82d000","slug":"novita_qwen3-235b-a22b-instruct-2507","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"3373245b-e6dc-4b66-a7b0-3f06f9b7bd46","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-235b-a22b-instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 235B A22B 2507 Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.09,"price_1m_output_tokens":0.58,"price_1m_blended_3_to_1":0.2125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":4.71,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-235b-a22b-instruct-2507","hosts_url":"/models/qwen3-235b-a22b-instruct-2507/providers","name_and_creator_label":"Qwen3 235B 2507, Alibaba"},{"additional_text":null,"aime":0.26,"aime25":0.217,"agentic_index":null,"coding_index":13.05,"commercial_allowed":true,"computed_performance_host_model_id":"5510aac1-1404-4c41-bd1f-e8c371abc9c6","context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-30b-a3b-2507","display_order":1683,"estimated_intelligence_index":14.56528895780426,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.515,"hle":0.046,"humaneval":null,"id":"f3169f25-8c6f-48e4-ae87-0cf872dc0ec1","ifbench":0.319,"inference_parameters_active_billions":3.3,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.322,"math_500":0.863,"math_index":21.67,"mmlu_pro":0.71,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-30B-A3B","multilingual_aa":null,"name":"Qwen3 30B A3B (Non-reasoning)","is_open_weights":true,"omniscience":-67.983,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.064,"num_correct":64,"omniscience":-76.5,"attempt_rate":0.899,"num_incorrect":829,"total_questions":1000,"num_not_attempted":101,"hallucination_rate":0.8856837606837606,"num_partial_answer":6}},"total":{"accuracy":0.11133333333333334,"num_correct":668,"omniscience":-67.98333333333333,"attempt_rate":0.9226666666666666,"num_incorrect":4747,"total_questions":6000,"num_not_attempted":464,"hallucination_rate":0.890285071267817,"num_partial_answer":121},"Health":{"total":{"accuracy":0.09,"num_correct":90,"omniscience":-75.1,"attempt_rate":0.975,"num_incorrect":841,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.9241758241758242,"num_partial_answer":44}},"Business":{"total":{"accuracy":0.098,"num_correct":98,"omniscience":-63,"attempt_rate":0.843,"num_incorrect":728,"total_questions":1000,"num_not_attempted":157,"hallucination_rate":0.8070953436807096,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-40,"attempt_rate":0.99,"num_incorrect":69,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.971830985915493,"num_partial_answer":1}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-68,"attempt_rate":0.88,"num_incorrect":39,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8666666666666667,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-72,"attempt_rate":0.84,"num_incorrect":39,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.8297872340425532,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-70,"attempt_rate":0.98,"num_incorrect":41,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9318181818181818,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":46,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.96,"num_incorrect":36,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9230769230769231,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.09,"num_correct":9,"omniscience":-64,"attempt_rate":0.83,"num_incorrect":73,"total_questions":100,"num_not_attempted":17,"hallucination_rate":0.8021978021978022,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-42,"attempt_rate":0.96,"num_incorrect":33,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.868421052631579,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9583333333333334,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":18,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"total":{"accuracy":0.143,"num_correct":143,"omniscience":-63.7,"attempt_rate":0.944,"num_incorrect":780,"total_questions":1000,"num_not_attempted":56,"hallucination_rate":0.9101516919486581,"num_partial_answer":21},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-70,"attempt_rate":0.9,"num_incorrect":39,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8478260869565217,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.105,"num_correct":21,"omniscience":-70.5,"attempt_rate":0.95,"num_incorrect":162,"total_questions":200,"num_not_attempted":10,"hallucination_rate":0.9050279329608939,"num_partial_answer":7}},"JavaScript":{"total":{"accuracy":0.22727272727272727,"num_correct":25,"omniscience":-52.72727272727273,"attempt_rate":1,"num_incorrect":83,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9764705882352941,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.1,"num_correct":9,"omniscience":-77.77777777777777,"attempt_rate":0.9888888888888889,"num_incorrect":79,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9753086419753086,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.108,"num_correct":108,"omniscience":-70.4,"attempt_rate":0.931,"num_incorrect":812,"total_questions":1000,"num_not_attempted":69,"hallucination_rate":0.9103139013452914,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.165,"num_correct":165,"omniscience":-59.2,"attempt_rate":0.944,"num_incorrect":757,"total_questions":1000,"num_not_attempted":56,"hallucination_rate":0.9065868263473054,"num_partial_answer":22}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":30.5,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.264,"short_name":"Qwen3 30B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-30b-a3b-instruct","tau2":0.222,"terminalbench_hard":0.064,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"5510aac1-1404-4c41-bd1f-e8c371abc9c6","slug":"alibaba-cloud_qwen3-30b-a3b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"f3169f25-8c6f-48e4-ae87-0cf872dc0ec1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-30b-a3b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 30B A3B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9d8bbc50-1dfc-41a1-8c69-c7b9fb51310e","slug":"deepinfra_qwen3-30b-a3b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"f3169f25-8c6f-48e4-ae87-0cf872dc0ec1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-30B-A3B","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Qwen3 30B A3B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.08,"price_1m_output_tokens":0.29,"price_1m_blended_3_to_1":0.1325,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":7.55,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-30b-a3b-instruct","hosts_url":"/models/qwen3-30b-a3b-instruct/providers","name_and_creator_label":"Qwen3 30B, Alibaba"},{"additional_text":null,"aime":0.753,"aime25":0.723,"agentic_index":14.18,"coding_index":10.91,"commercial_allowed":true,"computed_performance_host_model_id":"aaea5d11-73e7-461f-830f-95006e0f73b7","context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-30b-a3b-2507-reasoning","display_order":1734,"estimated_intelligence_index":19.089528772355642,"model_family_slug":"qwen3","frontier_model":false,"gdpval":652.7279625826698,"gpqa":0.616,"hle":0.066,"humaneval":null,"id":"3e6cf518-a1f4-42d3-8fcf-827c9bd8e6d5","ifbench":0.415,"inference_parameters_active_billions":3.3,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":15.75,"intelligence_index_token_counts":{"input_tokens":102484741,"answer_tokens":2906840,"output_tokens":37660327,"reasoning_tokens":34753486},"knowledge_cutoff_date":null,"lab_claimed_aime":0.804,"lab_claimed_gpqa":0.658,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.626,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.506,"math_500":0.959,"math_index":72.33,"mmlu_pro":0.777,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-30B-A3B","multilingual_aa":null,"name":"Qwen3 30B A3B (Reasoning)","is_open_weights":true,"omniscience":-52.333,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.085,"num_correct":85,"omniscience":-53.8,"attempt_rate":0.715,"num_incorrect":623,"total_questions":1000,"num_not_attempted":285,"hallucination_rate":0.6808743169398908,"num_partial_answer":7}},"total":{"accuracy":0.1535,"num_correct":921,"omniscience":-52.333333333333336,"attempt_rate":0.8496666666666667,"num_incorrect":4061,"total_questions":6000,"num_not_attempted":902,"hallucination_rate":0.7995668438669029,"num_partial_answer":116},"Health":{"total":{"accuracy":0.147,"num_correct":147,"omniscience":-61,"attempt_rate":0.936,"num_incorrect":757,"total_questions":1000,"num_not_attempted":64,"hallucination_rate":0.8874560375146542,"num_partial_answer":32}},"Business":{"total":{"accuracy":0.136,"num_correct":136,"omniscience":-45.7,"attempt_rate":0.745,"num_incorrect":593,"total_questions":1000,"num_not_attempted":255,"hallucination_rate":0.6863425925925926,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-47,"attempt_rate":0.96,"num_incorrect":71,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9342105263157895,"num_partial_answer":1}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.88,"num_incorrect":40,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8695652173913043,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-56,"attempt_rate":0.86,"num_incorrect":35,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.813953488372093,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-58,"attempt_rate":0.94,"num_incorrect":37,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8809523809523809,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-74,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9333333333333333,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9230769230769231,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.08,"num_correct":8,"omniscience":-70,"attempt_rate":0.89,"num_incorrect":78,"total_questions":100,"num_not_attempted":11,"hallucination_rate":0.8478260869565217,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-14,"attempt_rate":0.94,"num_incorrect":25,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.78125,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":23,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-44,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.158,"num_correct":158,"omniscience":-59,"attempt_rate":0.929,"num_incorrect":748,"total_questions":1000,"num_not_attempted":71,"hallucination_rate":0.8883610451306413,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-62,"attempt_rate":0.8,"num_incorrect":35,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7608695652173914,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.155,"num_correct":31,"omniscience":-59,"attempt_rate":0.915,"num_incorrect":149,"total_questions":200,"num_not_attempted":17,"hallucination_rate":0.8816568047337278,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.17272727272727273,"num_correct":19,"omniscience":-59.09090909090909,"attempt_rate":0.9636363636363636,"num_incorrect":84,"total_questions":110,"num_not_attempted":4,"hallucination_rate":0.9230769230769231,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.12222222222222222,"num_correct":11,"omniscience":-71.11111111111111,"attempt_rate":0.9666666666666667,"num_incorrect":75,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9493670886075949,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.161,"num_correct":161,"omniscience":-54.3,"attempt_rate":0.874,"num_incorrect":704,"total_questions":1000,"num_not_attempted":126,"hallucination_rate":0.8390941597139452,"num_partial_answer":9}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.234,"num_correct":234,"omniscience":-40.2,"attempt_rate":0.899,"num_incorrect":636,"total_questions":1000,"num_not_attempted":101,"hallucination_rate":0.8302872062663186,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":30.5,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.285,"short_name":"Qwen3 30B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-30b-a3b-instruct-reasoning","tau2":0.26,"terminalbench_hard":0.021,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"a3d633aa-0ec9-4f6f-8ad0-3d34b7fb4ec8","slug":"fireworks_qwen3-30b-a3b-instruct-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":{"max":0.631,"min":0.571,"median":0.611,"quartile_25":0.593,"quartile_75":0.621},"model_id":"3e6cf518-a1f4-42d3-8fcf-827c9bd8e6d5","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-30b-a3b","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 30B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e83a25aa-86c0-40d9-9d3e-ac5683678972","slug":"deepinfra_qwen3-30b-a3b-instruct-reasoning","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":{"max":0.672,"min":0.571,"median":0.611,"quartile_25":0.596,"quartile_75":0.63},"model_id":"3e6cf518-a1f4-42d3-8fcf-827c9bd8e6d5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-30B-A3B","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Qwen3 30B A3B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.08,"price_1m_output_tokens":0.29,"price_1m_blended_3_to_1":0.1325,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":7.55,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"aaea5d11-73e7-461f-830f-95006e0f73b7","slug":"alibaba-cloud_qwen3-30b-a3b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":{"max":0.662,"min":0.591,"median":0.629,"quartile_25":0.619,"quartile_75":0.634},"model_id":"3e6cf518-a1f4-42d3-8fcf-827c9bd8e6d5","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-30b-a3b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 30B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":2.4,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"27515963-8bfe-4829-ace4-dbcaf44789ec","slug":"novita_qwen3-30b-a3b-instruct-reasoning_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":{"max":0.652,"min":0.535,"median":0.596,"quartile_25":0.586,"quartile_75":0.611},"model_id":"3e6cf518-a1f4-42d3-8fcf-827c9bd8e6d5","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-30b-a3b-fp8","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_Qwen3 30B A3B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.09,"price_1m_output_tokens":0.45,"price_1m_blended_3_to_1":0.18,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":5.56,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-30b-a3b-instruct-reasoning","hosts_url":"/models/qwen3-30b-a3b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 30B, Alibaba"},{"additional_text":null,"aime":0.907,"aime25":0.563,"agentic_index":19.38,"coding_index":14.42,"commercial_allowed":true,"computed_performance_host_model_id":"4353105f-f747-45ca-98b6-2e0fd5d43a86","context_window_tokens":262144,"critpt":0.003,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":719,"estimated_intelligence_index":24.69794280466268,"model_family_slug":"qwen3","frontier_model":false,"gdpval":784.1211102210372,"gpqa":0.707,"hle":0.098,"humaneval":null,"id":"5e0164b3-d902-4bcb-a1b2-83b4f4cd6143","ifbench":0.507,"inference_parameters_active_billions":3.3,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":22.79,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.59,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.707,"math_500":0.976,"math_index":56.33,"mmlu_pro":0.805,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507","multilingual_aa":null,"name":"Qwen3 30B A3B 2507 (Reasoning)","is_open_weights":true,"omniscience":-57.433,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.074,"num_correct":74,"omniscience":-67.2,"attempt_rate":0.824,"num_incorrect":746,"total_questions":1000,"num_not_attempted":176,"hallucination_rate":0.8056155507559395,"num_partial_answer":4}},"total":{"accuracy":0.15466666666666667,"num_correct":928,"omniscience":-57.43333333333333,"attempt_rate":0.8986666666666666,"num_incorrect":4374,"total_questions":6000,"num_not_attempted":608,"hallucination_rate":0.8623817034700315,"num_partial_answer":90},"Health":{"total":{"accuracy":0.145,"num_correct":145,"omniscience":-63.5,"attempt_rate":0.947,"num_incorrect":780,"total_questions":1000,"num_not_attempted":53,"hallucination_rate":0.9122807017543859,"num_partial_answer":22}},"Business":{"total":{"accuracy":0.125,"num_correct":125,"omniscience":-55.8,"attempt_rate":0.823,"num_incorrect":683,"total_questions":1000,"num_not_attempted":177,"hallucination_rate":0.7805714285714286,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.27,"num_correct":27,"omniscience":-43,"attempt_rate":0.98,"num_incorrect":70,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.958904109589041,"num_partial_answer":1}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":42,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":33,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8461538461538461,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-38,"attempt_rate":0.94,"num_incorrect":32,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8648648648648649,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-74,"attempt_rate":0.98,"num_incorrect":43,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9772727272727273,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":37,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9736842105263158,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-67,"attempt_rate":0.94,"num_incorrect":80,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.9195402298850575,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-10,"attempt_rate":0.98,"num_incorrect":25,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8333333333333334,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":21,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":0.96,"num_incorrect":14,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":1}},"total":{"accuracy":0.189,"num_correct":189,"omniscience":-55.8,"attempt_rate":0.956,"num_incorrect":747,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.9210850801479655,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-64,"attempt_rate":0.9,"num_incorrect":38,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8636363636363636,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.16,"num_correct":32,"omniscience":-61,"attempt_rate":0.945,"num_incorrect":154,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.9166666666666666,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.17272727272727273,"num_correct":19,"omniscience":-60,"attempt_rate":0.9727272727272728,"num_incorrect":85,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9340659340659341,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.13333333333333333,"num_correct":12,"omniscience":-67.77777777777777,"attempt_rate":0.9666666666666667,"num_incorrect":73,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9358974358974359,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.158,"num_correct":158,"omniscience":-58.1,"attempt_rate":0.902,"num_incorrect":739,"total_questions":1000,"num_not_attempted":98,"hallucination_rate":0.8776722090261283,"num_partial_answer":5}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.237,"num_correct":237,"omniscience":-44.2,"attempt_rate":0.94,"num_incorrect":679,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.8899082568807339,"num_partial_answer":24}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":30.5,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-07-30","representative_query_token_counts":null,"scicode":0.333,"short_name":"Qwen3 30B A3B 2507","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-30b-a3b-2507-reasoning","tau2":0.281,"terminalbench_hard":0.05,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"965fb258-88c0-4f0e-950b-d80caff3bf1d","slug":"nebius_qwen3-30b-a3b-2507-reasoning","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"5e0164b3-d902-4bcb-a1b2-83b4f4cd6143","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-30B-A3B-Thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 30B A3B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"4353105f-f747-45ca-98b6-2e0fd5d43a86","slug":"alibaba-cloud_qwen3-30b-a3b-2507-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"5e0164b3-d902-4bcb-a1b2-83b4f4cd6143","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-30b-a3b-thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 30B A3B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":2.4,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"25e7b766-4f7c-46b7-a1c8-2c399b23b4ae","slug":"clarifai_qwen3-30b-a3b-2507-reasoning","deleted":false,"host_id":"8906cd90-54cf-4365-86f0-4f2087162975","gpqa_16x":null,"model_id":"5e0164b3-d902-4bcb-a1b2-83b4f4cd6143","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"https://clarifai.com/qwen/qwenLM/models/Qwen3-30B-A3B-Thinking-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Clarifai_Qwen3 30B A3B 2507 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.36,"price_1m_output_tokens":1.3,"price_1m_blended_3_to_1":0.595,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.68,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-30b-a3b-2507-reasoning","hosts_url":"/models/qwen3-30b-a3b-2507-reasoning/providers","name_and_creator_label":"Qwen3 30B A3B 2507, Alibaba"},{"additional_text":null,"aime":0.727,"aime25":0.663,"agentic_index":8.9,"coding_index":13.93,"commercial_allowed":true,"computed_performance_host_model_id":"d46ad479-ec6e-46d4-8ac3-88b1cdf97c60","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":715,"estimated_intelligence_index":19.262302603890806,"model_family_slug":"qwen3","frontier_model":false,"gdpval":660.6079379645196,"gpqa":0.659,"hle":0.068,"humaneval":0.943,"id":"7ec1065a-c90e-41e4-bd17-abb7042eed76","ifbench":0.331,"inference_parameters_active_billions":3.3,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":15.39,"intelligence_index_token_counts":{"input_tokens":320897686,"answer_tokens":14389744,"output_tokens":14389744,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.227,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.515,"math_500":0.975,"math_index":66.33,"mmlu_pro":0.777,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507","multilingual_aa":{"ar":{"score":0.7483333333333334,"input_tokens":188556,"answer_tokens":217830,"output_tokens":217830,"reasoning_tokens":0,"total_input_tokens_api":221214,"total_answer_tokens_api":257717,"total_reasoning_tokens_api":0},"bn":{"score":0.6691666666666668,"input_tokens":225534,"answer_tokens":267749,"output_tokens":267749,"reasoning_tokens":0,"total_input_tokens_api":562761,"total_answer_tokens_api":756690,"total_reasoning_tokens_api":0},"de":{"score":0.8166666666666665,"input_tokens":191268,"answer_tokens":210476,"output_tokens":210476,"reasoning_tokens":0,"total_input_tokens_api":227619,"total_answer_tokens_api":259542,"total_reasoning_tokens_api":0},"en":{"score":0.8483333333333333,"input_tokens":159654,"answer_tokens":191668,"output_tokens":191668,"reasoning_tokens":0,"total_input_tokens_api":168357,"total_answer_tokens_api":196744,"total_reasoning_tokens_api":0},"es":{"score":0.8391666666666667,"input_tokens":181740,"answer_tokens":218808,"output_tokens":218808,"reasoning_tokens":0,"total_input_tokens_api":210243,"total_answer_tokens_api":256383,"total_reasoning_tokens_api":0},"fr":{"score":0.8175,"input_tokens":191082,"answer_tokens":240338,"output_tokens":240338,"reasoning_tokens":0,"total_input_tokens_api":221747,"total_answer_tokens_api":282152,"total_reasoning_tokens_api":0},"hi":{"score":0.69,"input_tokens":69810,"answer_tokens":79712,"output_tokens":79712,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"id":{"score":0.7975,"input_tokens":60438,"answer_tokens":77805,"output_tokens":77805,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"it":{"score":0.8275,"input_tokens":66344,"answer_tokens":83849,"output_tokens":83849,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"ja":{"score":0.8,"input_tokens":76043,"answer_tokens":104186,"output_tokens":104186,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"ko":{"score":0.75,"input_tokens":66467,"answer_tokens":106989,"output_tokens":106989,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"my":{"score":0.6,"input_tokens":353547,"answer_tokens":300531,"output_tokens":300531,"reasoning_tokens":0,"total_input_tokens_api":904200,"total_answer_tokens_api":840619,"total_reasoning_tokens_api":0},"pt":{"score":0.8125,"input_tokens":59392,"answer_tokens":96946,"output_tokens":96946,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"sw":{"score":0.3925,"input_tokens":69559,"answer_tokens":1044390,"output_tokens":1044390,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"yo":{"score":0.2875,"input_tokens":102354,"answer_tokens":1686506,"output_tokens":1686506,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"zh":{"score":0.825,"input_tokens":59931,"answer_tokens":88232,"output_tokens":88232,"reasoning_tokens":0,"total_input_tokens_api":0,"total_answer_tokens_api":0,"total_reasoning_tokens_api":0},"average":{"score":0.7201041666666667,"input_tokens":2121719,"answer_tokens":5016015,"output_tokens":5016015,"reasoning_tokens":0,"total_input_tokens_api":2516141,"total_answer_tokens_api":2849847,"total_reasoning_tokens_api":0}},"name":"Qwen3 30B A3B 2507 Instruct","is_open_weights":true,"omniscience":-66.8,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.075,"num_correct":75,"omniscience":-80.2,"attempt_rate":0.96,"num_incorrect":877,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.9481081081081081,"num_partial_answer":8}},"total":{"accuracy":0.143,"num_correct":858,"omniscience":-66.8,"attempt_rate":0.974,"num_incorrect":4866,"total_questions":6000,"num_not_attempted":156,"hallucination_rate":0.9463243873978997,"num_partial_answer":120},"Health":{"total":{"accuracy":0.128,"num_correct":128,"omniscience":-70.7,"attempt_rate":0.996,"num_incorrect":835,"total_questions":1000,"num_not_attempted":4,"hallucination_rate":0.9575688073394495,"num_partial_answer":33}},"Business":{"total":{"accuracy":0.123,"num_correct":123,"omniscience":-67,"attempt_rate":0.932,"num_incorrect":793,"total_questions":1000,"num_not_attempted":68,"hallucination_rate":0.9042189281641961,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-40,"attempt_rate":1,"num_incorrect":68,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9444444444444444,"num_partial_answer":4}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-80,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9523809523809523,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-56,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-78,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9777777777777777,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-34,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9705882352941176,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-59,"attempt_rate":0.97,"num_incorrect":77,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9390243902439024,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-22,"attempt_rate":1,"num_incorrect":29,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.90625,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":0.96,"num_incorrect":14,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":1}},"total":{"accuracy":0.192,"num_correct":192,"omniscience":-58.5,"attempt_rate":0.993,"num_incorrect":777,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.9616336633663366,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-74,"attempt_rate":1,"num_incorrect":43,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9772727272727273,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.165,"num_correct":33,"omniscience":-64,"attempt_rate":0.99,"num_incorrect":161,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9640718562874252,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.23636363636363636,"num_correct":26,"omniscience":-49.09090909090909,"attempt_rate":0.990909090909091,"num_incorrect":80,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.06666666666666667,"num_correct":6,"omniscience":-84.44444444444444,"attempt_rate":1,"num_incorrect":82,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9761904761904762,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.14,"num_correct":140,"omniscience":-68.6,"attempt_rate":0.976,"num_incorrect":826,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.9604651162790697,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.2,"num_correct":200,"omniscience":-55.8,"attempt_rate":0.987,"num_incorrect":758,"total_questions":1000,"num_not_attempted":13,"hallucination_rate":0.9475,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":30.5,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-07-29","representative_query_token_counts":null,"scicode":0.304,"short_name":"Qwen3 30B A3B 2507","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-30b-a3b-2507","tau2":0.102,"terminalbench_hard":0.057,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"51ce0a10-25f7-4db1-919d-b5847b5fb370","slug":"nebius_qwen3-30b-a3b-2507","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"7ec1065a-c90e-41e4-bd17-abb7042eed76","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-30B-A3B-Instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 30B A3B 2507 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d46ad479-ec6e-46d4-8ac3-88b1cdf97c60","slug":"alibaba-cloud_qwen3-30b-a3b-2507","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"7ec1065a-c90e-41e4-bd17-abb7042eed76","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-30b-a3b-instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 30B A3B 2507 Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c8483859-d9c3-4d05-9646-b693e3335fc6","slug":"clarifai_qwen3-30b-a3b-2507","deleted":false,"host_id":"8906cd90-54cf-4365-86f0-4f2087162975","gpqa_16x":null,"model_id":"7ec1065a-c90e-41e4-bd17-abb7042eed76","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"https://clarifai.com/qwen/qwenLM/models/Qwen3-30B-A3B-Instruct-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Clarifai_Qwen3 30B A3B 2507 Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-30b-a3b-2507","hosts_url":"/models/qwen3-30b-a3b-2507/providers","name_and_creator_label":"Qwen3 30B A3B 2507, Alibaba"},{"additional_text":null,"aime":0.303,"aime25":0.197,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":"bab7f859-3cd8-4467-843c-3da8c0cfc1f4","context_window_tokens":32768,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-30b-a3b-2507","display_order":1686,"estimated_intelligence_index":14.532286886975053,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.535,"hle":0.043,"humaneval":0.896,"id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","ifbench":0.315,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.288,"math_500":0.869,"math_index":19.67,"mmlu_pro":0.727,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-32B","multilingual_aa":null,"name":"Qwen3 32B (Non-reasoning)","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":32.8,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.28,"short_name":"Qwen3 32B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-32b-instruct","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"9fd166ee-55ca-4106-89a1-47f1755ea125","slug":"sambanova_qwen3-32b-instruct","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen3-32B","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_Qwen3 32B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c6278b3f-e6da-4da7-8d5d-3dc7291ebba5","slug":"novita_qwen3-32b-instruct_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-32b-fp8","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_Qwen3 32B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.45,"price_1m_blended_3_to_1":0.1875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":5.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7841ad36-fb21-4e07-9e52-f0499c8a3ac9","slug":"cerebras_qwen3-32b-instruct","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen-3-32b","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_Qwen3 32B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"44288441-4e12-4ea5-9e18-3cbf2f2fcc89","slug":"nebius_qwen3-32b-instruct_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 32B_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"bab7f859-3cd8-4467-843c-3da8c0cfc1f4","slug":"alibaba-cloud_qwen3-32b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-32b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 32B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.8,"price_1m_blended_3_to_1":1.225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.82,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e642b3cc-4036-4c57-b619-0e95dfbea71d","slug":"nebius_qwen3-32b-instruct_fast","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B-fast","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 32B_Fast","cache_pricing_notes":null,"model_name_appendage":"Fast","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"45965a2d-b116-478a-bdb0-261d00cbf3bf","slug":"deepinfra_qwen3-32b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Qwen3 32B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b871a891-6c2c-4ae8-9f87-92db4b5d1e53","slug":"gmi_qwen3-32b-instruct_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Qwen3 32B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":4.44,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"45fa8a67-a250-4e39-b7ba-3c8363124cc8","slug":"groq_qwen3-32b-instruct","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-32b","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_Qwen3 32B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.29,"price_1m_output_tokens":0.59,"price_1m_blended_3_to_1":0.365,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.74,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2a2599ba-f732-45ea-b4cd-8991bccb3f59","slug":"amazon-bedrock_qwen3-32b-instruct","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"bf60740e-6aa5-422f-ba49-ef6e9d171205","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen.qwen3-32b-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Qwen3 32B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-32b-instruct","hosts_url":"/models/qwen3-32b-instruct/providers","name_and_creator_label":"Qwen3 32B, Alibaba"},{"additional_text":null,"aime":0.807,"aime25":0.73,"agentic_index":15.56,"coding_index":13.7,"commercial_allowed":true,"computed_performance_host_model_id":"870a61de-b07d-4f0e-b085-7a0600130892","context_window_tokens":32768,"critpt":0.003,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-30b-a3b-2507-reasoning","display_order":1696,"estimated_intelligence_index":20.128565048930692,"model_family_slug":"qwen3","frontier_model":false,"gdpval":654.6933276272514,"gpqa":0.668,"hle":0.083,"humaneval":null,"id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","ifbench":0.363,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":17.01,"intelligence_index_token_counts":{"input_tokens":101435268,"answer_tokens":2839593,"output_tokens":34602766,"reasoning_tokens":31763172},"knowledge_cutoff_date":null,"lab_claimed_aime":0.814,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.657,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.546,"math_500":0.961,"math_index":73,"mmlu_pro":0.798,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-32B","multilingual_aa":null,"name":"Qwen3 32B (Reasoning)","is_open_weights":true,"omniscience":-51.5,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.076,"num_correct":76,"omniscience":-56.7,"attempt_rate":0.726,"num_incorrect":643,"total_questions":1000,"num_not_attempted":274,"hallucination_rate":0.6958874458874459,"num_partial_answer":7}},"total":{"accuracy":0.165,"num_correct":990,"omniscience":-51.5,"attempt_rate":0.8681666666666666,"num_incorrect":4080,"total_questions":6000,"num_not_attempted":791,"hallucination_rate":0.8143712574850299,"num_partial_answer":139},"Health":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-58.4,"attempt_rate":0.943,"num_incorrect":743,"total_questions":1000,"num_not_attempted":57,"hallucination_rate":0.8834720570749108,"num_partial_answer":41}},"Business":{"total":{"accuracy":0.132,"num_correct":132,"omniscience":-50.2,"attempt_rate":0.782,"num_incorrect":634,"total_questions":1000,"num_not_attempted":218,"hallucination_rate":0.7304147465437788,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.35,"num_correct":35,"omniscience":-22,"attempt_rate":0.96,"num_incorrect":57,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.8769230769230769,"num_partial_answer":4}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-66,"attempt_rate":0.94,"num_incorrect":40,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9302325581395349,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.94,"num_incorrect":40,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8695652173913043,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-40,"attempt_rate":0.9,"num_incorrect":32,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8421052631578947,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":0.98,"num_incorrect":40,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-20,"attempt_rate":0.96,"num_incorrect":27,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8181818181818182,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-66,"attempt_rate":0.94,"num_incorrect":79,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.9080459770114943,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-10,"attempt_rate":0.98,"num_incorrect":26,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.896551724137931,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-28,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.217,"num_correct":217,"omniscience":-48.8,"attempt_rate":0.954,"num_incorrect":705,"total_questions":1000,"num_not_attempted":46,"hallucination_rate":0.9003831417624522,"num_partial_answer":32},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-62,"attempt_rate":0.94,"num_incorrect":38,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8837209302325582,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.195,"num_correct":39,"omniscience":-51.5,"attempt_rate":0.935,"num_incorrect":142,"total_questions":200,"num_not_attempted":13,"hallucination_rate":0.8819875776397516,"num_partial_answer":6}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-44.54545454545455,"attempt_rate":0.9727272727272728,"num_incorrect":76,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9156626506024096,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.15555555555555556,"num_correct":14,"omniscience":-64.44444444444444,"attempt_rate":0.9888888888888889,"num_incorrect":72,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.151,"num_correct":151,"omniscience":-57.1,"attempt_rate":0.888,"num_incorrect":722,"total_questions":1000,"num_not_attempted":112,"hallucination_rate":0.850412249705536,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.255,"num_correct":255,"omniscience":-37.8,"attempt_rate":0.916,"num_incorrect":633,"total_questions":1000,"num_not_attempted":84,"hallucination_rate":0.8496644295302014,"num_partial_answer":28}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":32.8,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.354,"short_name":"Qwen3 32B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-32b-instruct-reasoning","tau2":0.298,"terminalbench_hard":0.028,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"767ffd45-9a52-4d90-a11f-651d40eb2869","slug":"cerebras_qwen3-32b-instruct-reasoning","deleted":false,"host_id":"295d4e20-4fad-4c04-b76e-ab51b76a1355","gpqa_16x":{"max":0.672,"min":0.576,"median":0.609,"quartile_25":0.595,"quartile_75":0.631},"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen-3-32b","function_calling":true,"cache_write_price":null,"host_model_string":"Cerebras_Qwen3 32B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"870a61de-b07d-4f0e-b085-7a0600130892","slug":"alibaba-cloud_qwen3-32b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":{"max":0.702,"min":0.606,"median":0.662,"quartile_25":0.652,"quartile_75":0.679},"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-32b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 32B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":8.4,"price_1m_blended_3_to_1":2.625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.38,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"fb9d47f6-18d6-4d6c-9a74-0274f9deb781","slug":"sambanova_qwen3-32b-instruct-reasoning","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":{"max":0.667,"min":0.601,"median":0.634,"quartile_25":0.619,"quartile_75":0.646},"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen3-32B","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_Qwen3 32B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3b606ecc-11eb-4722-854f-cd4e7b1e5d1d","slug":"gmi_qwen3-32b-instruct-reasoning_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Qwen3 32B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":4.44,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c6bf6230-b614-4739-b38f-a78b1433ccb0","slug":"nebius_qwen3-32b-instruct-reasoning_fast","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B-fast","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 32B (Reasoning)_Fast","cache_pricing_notes":null,"model_name_appendage":"Fast","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3cee6052-90d1-42c9-ab77-f2ec84628197","slug":"groq_qwen3-32b-instruct-reasoning","deleted":false,"host_id":"c3a16cd3-5bbb-45e9-b694-df711974f37e","gpqa_16x":{"max":0.667,"min":0.616,"median":0.634,"quartile_25":0.626,"quartile_75":0.644},"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-32b","function_calling":true,"cache_write_price":null,"host_model_string":"Groq_Qwen3 32B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.29,"price_1m_output_tokens":0.59,"price_1m_blended_3_to_1":0.365,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.74,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9eb1a2f1-6dec-487f-ada0-577b98a9ce34","slug":"nebius_qwen3-32b-instruct-reasoning_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":{"max":0.687,"min":0.591,"median":0.624,"quartile_25":0.616,"quartile_75":0.641},"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 32B (Reasoning)_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c992649b-32f3-4f7e-a2d2-55b0078bc81e","slug":"novita_qwen3-32b-instruct-reasoning_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":{"max":0.556,"min":0.485,"median":0.53,"quartile_25":0.505,"quartile_75":0.543},"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-32b-fp8","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_Qwen3 32B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.1,"price_1m_output_tokens":0.45,"price_1m_blended_3_to_1":0.1875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":5.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0f033228-e4f8-41fe-99dc-935788826263","slug":"deepinfra_qwen3-32b-instruct-reasoning","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":{"max":0.662,"min":0.601,"median":0.646,"quartile_25":0.63,"quartile_75":0.652},"model_id":"b00ecd62-a53f-4aed-b833-3e9d6b0170ba","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-32B","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 32B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.08,"price_1m_output_tokens":0.28,"price_1m_blended_3_to_1":0.13,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":7.69,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-32b-instruct-reasoning","hosts_url":"/models/qwen3-32b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 32B, Alibaba"},{"additional_text":null,"aime":0.213,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":"3cd1687b-a4d9-4b05-b72a-eb54fd291939","context_window_tokens":32000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-4b-2507-instruct","display_order":1705,"estimated_intelligence_index":12.49184791077126,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.398,"hle":0.037,"humaneval":null,"id":"e46198a7-cd29-4afd-933d-cdf180f0f305","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.233,"math_500":0.843,"math_index":null,"mmlu_pro":0.586,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-4B","multilingual_aa":null,"name":"Qwen3 4B (Non-reasoning)","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":4.02,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.167,"short_name":"Qwen3 4B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-4b-instruct","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"3cd1687b-a4d9-4b05-b72a-eb54fd291939","slug":"alibaba-cloud_qwen3-4b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"e46198a7-cd29-4afd-933d-cdf180f0f305","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-4b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 4B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":0.42,"price_1m_blended_3_to_1":0.1875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":5.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-4b-instruct","hosts_url":"/models/qwen3-4b-instruct/providers","name_and_creator_label":"Qwen3 4B, Alibaba"},{"additional_text":null,"aime":0.657,"aime25":0.223,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":"8ec09f15-c23b-43ad-9669-2a5df5cc0109","context_window_tokens":32000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-4b-2507-instruct-reasoning","display_order":1701,"estimated_intelligence_index":14.220680621459485,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.522,"hle":0.051,"humaneval":0.909,"id":"191a2097-cce3-49cf-881e-0c790892059f","ifbench":0.325,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":0.738,"lab_claimed_gpqa":0.559,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":0.542,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.465,"math_500":0.933,"math_index":22.33,"mmlu_pro":0.696,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-4B","multilingual_aa":null,"name":"Qwen3 4B (Reasoning)","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":4.02,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.035,"short_name":"Qwen3 4B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-4b-instruct-reasoning","tau2":0.19,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"8ec09f15-c23b-43ad-9669-2a5df5cc0109","slug":"alibaba-cloud_qwen3-4b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"191a2097-cce3-49cf-881e-0c790892059f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-4b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 4B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.11,"price_1m_output_tokens":1.26,"price_1m_blended_3_to_1":0.3975,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.52,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-4b-instruct-reasoning","hosts_url":"/models/qwen3-4b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 4B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.827,"agentic_index":null,"coding_index":9.47,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":714,"estimated_intelligence_index":22.780273245134985,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.667,"hle":0.059,"humaneval":null,"id":"2aacdc07-5f4e-4ab9-8ea5-5f7ab93f9eeb","ifbench":0.498,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.377,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.641,"math_500":null,"math_index":82.67,"mmlu_pro":0.743,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507","multilingual_aa":null,"name":"Qwen3 4B 2507 (Reasoning)","is_open_weights":true,"omniscience":-54.667,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.065,"num_correct":65,"omniscience":-64,"attempt_rate":0.771,"num_incorrect":705,"total_questions":1000,"num_not_attempted":229,"hallucination_rate":0.7540106951871658,"num_partial_answer":1}},"total":{"accuracy":0.12883333333333333,"num_correct":773,"omniscience":-54.666666666666664,"attempt_rate":0.8136666666666666,"num_incorrect":4053,"total_questions":6000,"num_not_attempted":1118,"hallucination_rate":0.7753969772335948,"num_partial_answer":56},"Health":{"total":{"accuracy":0.127,"num_correct":127,"omniscience":-63.5,"attempt_rate":0.9,"num_incorrect":762,"total_questions":1000,"num_not_attempted":100,"hallucination_rate":0.872852233676976,"num_partial_answer":11}},"Business":{"total":{"accuracy":0.113,"num_correct":113,"omniscience":-52.4,"attempt_rate":0.761,"num_incorrect":637,"total_questions":1000,"num_not_attempted":239,"hallucination_rate":0.7181510710259301,"num_partial_answer":11}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.16,"num_correct":16,"omniscience":-53,"attempt_rate":0.85,"num_incorrect":69,"total_questions":100,"num_not_attempted":15,"hallucination_rate":0.8214285714285714,"num_partial_answer":0}},"R":{"total":{"accuracy":0,"num_correct":0,"omniscience":-82,"attempt_rate":0.82,"num_incorrect":41,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.82,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-52,"attempt_rate":0.78,"num_incorrect":32,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.7272727272727273,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-62,"attempt_rate":0.9,"num_incorrect":38,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8837209302325582,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-64,"attempt_rate":0.86,"num_incorrect":37,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8222222222222222,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-40,"attempt_rate":0.74,"num_incorrect":28,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.6666666666666666,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.09,"num_correct":9,"omniscience":-62,"attempt_rate":0.81,"num_incorrect":71,"total_questions":100,"num_not_attempted":19,"hallucination_rate":0.7802197802197802,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-18,"attempt_rate":0.96,"num_incorrect":28,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9032258064516129,"num_partial_answer":1}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-68,"attempt_rate":0.84,"num_incorrect":19,"total_questions":25,"num_not_attempted":4,"hallucination_rate":0.8260869565217391,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-16,"attempt_rate":0.8,"num_incorrect":12,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.7058823529411765,"num_partial_answer":0}},"total":{"accuracy":0.133,"num_correct":133,"omniscience":-52.2,"attempt_rate":0.797,"num_incorrect":655,"total_questions":1000,"num_not_attempted":203,"hallucination_rate":0.7554786620530565,"num_partial_answer":9},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-38,"attempt_rate":0.76,"num_incorrect":28,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6829268292682927,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.11,"num_correct":22,"omniscience":-56,"attempt_rate":0.78,"num_incorrect":134,"total_questions":200,"num_not_attempted":44,"hallucination_rate":0.7528089887640449,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.11818181818181818,"num_correct":13,"omniscience":-46.36363636363637,"attempt_rate":0.7272727272727273,"num_incorrect":64,"total_questions":110,"num_not_attempted":30,"hallucination_rate":0.6597938144329897,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.1,"num_correct":9,"omniscience":-50,"attempt_rate":0.7,"num_incorrect":54,"total_questions":90,"num_not_attempted":27,"hallucination_rate":0.6666666666666666,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.123,"num_correct":123,"omniscience":-52,"attempt_rate":0.776,"num_incorrect":643,"total_questions":1000,"num_not_attempted":224,"hallucination_rate":0.7331812998859749,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.212,"num_correct":212,"omniscience":-43.9,"attempt_rate":0.877,"num_incorrect":651,"total_questions":1000,"num_not_attempted":123,"hallucination_rate":0.8261421319796954,"num_partial_answer":14}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":4.02,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-08-06","representative_query_token_counts":null,"scicode":0.256,"short_name":"Qwen3 4B 2507","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-4b-2507-instruct-reasoning","tau2":0.254,"terminalbench_hard":0.014,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[],"model_url":"/models/qwen3-4b-2507-instruct-reasoning","hosts_url":"/models/qwen3-4b-2507-instruct-reasoning/providers","name_and_creator_label":"Qwen3 4B 2507, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.523,"agentic_index":null,"coding_index":8.86,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":800,"estimated_intelligence_index":16.137244976777335,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.517,"hle":0.047,"humaneval":null,"id":"b0249961-b8b2-479d-8325-a29ea17c7b89","ifbench":0.335,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.073,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.377,"math_500":null,"math_index":52.33,"mmlu_pro":0.672,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507","multilingual_aa":{"average":0.6794,"global_mmlu_lite":{"ar":0.6325,"bn":0.5275,"de":0.7275,"en":0.795,"es":0.7375,"fr":0.7025,"hi":0.5525,"id":0.6775,"it":0.73,"ja":0.6725,"ko":0.6475,"pt":0.695,"zh":0.735},"average_per_language":{"ar":0.6325,"bn":0.5275,"de":0.7275,"en":0.795,"es":0.7375,"fr":0.7025,"hi":0.5525,"id":0.6775,"it":0.73,"ja":0.6725,"ko":0.6475,"pt":0.695,"zh":0.735},"average_global_mmlu_lite":0.6794},"name":"Qwen3 4B 2507 Instruct","is_open_weights":true,"omniscience":-53.833,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.06,"num_correct":60,"omniscience":-56.5,"attempt_rate":0.691,"num_incorrect":625,"total_questions":1000,"num_not_attempted":309,"hallucination_rate":0.6648936170212766,"num_partial_answer":6}},"total":{"accuracy":0.11866666666666667,"num_correct":712,"omniscience":-53.833333333333336,"attempt_rate":0.7885,"num_incorrect":3942,"total_questions":6000,"num_not_attempted":1269,"hallucination_rate":0.7454614220877458,"num_partial_answer":77},"Health":{"total":{"accuracy":0.125,"num_correct":125,"omniscience":-65.9,"attempt_rate":0.929,"num_incorrect":784,"total_questions":1000,"num_not_attempted":71,"hallucination_rate":0.896,"num_partial_answer":20}},"Business":{"total":{"accuracy":0.107,"num_correct":107,"omniscience":-49.5,"attempt_rate":0.72,"num_incorrect":602,"total_questions":1000,"num_not_attempted":280,"hallucination_rate":0.6741321388577828,"num_partial_answer":11}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-39,"attempt_rate":0.9,"num_incorrect":64,"total_questions":100,"num_not_attempted":10,"hallucination_rate":0.8533333333333334,"num_partial_answer":1}},"R":{"total":{"accuracy":0,"num_correct":0,"omniscience":-70,"attempt_rate":0.7,"num_incorrect":35,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.7,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-58,"attempt_rate":0.72,"num_incorrect":32,"total_questions":50,"num_not_attempted":14,"hallucination_rate":0.6808510638297872,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-46,"attempt_rate":0.76,"num_incorrect":30,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6976744186046512,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-30,"attempt_rate":0.58,"num_incorrect":22,"total_questions":50,"num_not_attempted":21,"hallucination_rate":0.5116279069767442,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-44,"attempt_rate":0.8,"num_incorrect":31,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7560975609756098,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-63,"attempt_rate":0.85,"num_incorrect":74,"total_questions":100,"num_not_attempted":15,"hallucination_rate":0.8314606741573034,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-8,"attempt_rate":0.86,"num_incorrect":22,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.6875,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-52,"attempt_rate":0.8,"num_incorrect":16,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.7272727272727273,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-36,"attempt_rate":0.84,"num_incorrect":15,"total_questions":25,"num_not_attempted":4,"hallucination_rate":0.7894736842105263,"num_partial_answer":0}},"total":{"accuracy":0.142,"num_correct":142,"omniscience":-47.7,"attempt_rate":0.778,"num_incorrect":619,"total_questions":1000,"num_not_attempted":222,"hallucination_rate":0.7214452214452215,"num_partial_answer":17},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-34,"attempt_rate":0.7,"num_incorrect":25,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.5952380952380952,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.095,"num_correct":19,"omniscience":-53.5,"attempt_rate":0.73,"num_incorrect":126,"total_questions":200,"num_not_attempted":54,"hallucination_rate":0.6961325966850829,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.13636363636363635,"num_correct":15,"omniscience":-48.18181818181818,"attempt_rate":0.7818181818181819,"num_incorrect":68,"total_questions":110,"num_not_attempted":24,"hallucination_rate":0.7157894736842105,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.12222222222222222,"num_correct":11,"omniscience":-53.333333333333336,"attempt_rate":0.8222222222222222,"num_incorrect":59,"total_questions":90,"num_not_attempted":16,"hallucination_rate":0.7468354430379747,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.092,"num_correct":92,"omniscience":-52.8,"attempt_rate":0.723,"num_incorrect":620,"total_questions":1000,"num_not_attempted":277,"hallucination_rate":0.6828193832599119,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.186,"num_correct":186,"omniscience":-50.6,"attempt_rate":0.89,"num_incorrect":692,"total_questions":1000,"num_not_attempted":110,"hallucination_rate":0.8501228501228502,"num_partial_answer":12}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":4.02,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-08-06","representative_query_token_counts":null,"scicode":0.181,"short_name":"Qwen3 4B 2507","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-4b-2507-instruct","tau2":0.266,"terminalbench_hard":0.043,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[],"model_url":"/models/qwen3-4b-2507-instruct","hosts_url":"/models/qwen3-4b-2507-instruct/providers","name_and_creator_label":"Qwen3 4B 2507, Alibaba"},{"additional_text":null,"aime":0.243,"aime25":0.243,"agentic_index":null,"coding_index":7.01,"commercial_allowed":true,"computed_performance_host_model_id":"5c0ae27c-198a-44ef-af64-980e3fb5a038","context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-vl-8b-instruct","display_order":1719,"estimated_intelligence_index":13.249634311307114,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.452,"hle":0.028,"humaneval":null,"id":"b2dd592a-fbc5-458a-b26d-f3964cbab82f","ifbench":0.286,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.202,"math_500":0.828,"math_index":24.33,"mmlu_pro":0.643,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-8B","multilingual_aa":null,"name":"Qwen3 8B (Non-reasoning)","is_open_weights":true,"omniscience":-75.4,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.057,"num_correct":57,"omniscience":-83.8,"attempt_rate":0.959,"num_incorrect":895,"total_questions":1000,"num_not_attempted":41,"hallucination_rate":0.9490986214209968,"num_partial_answer":7}},"total":{"accuracy":0.10283333333333333,"num_correct":617,"omniscience":-75.4,"attempt_rate":0.9783333333333334,"num_incorrect":5141,"total_questions":6000,"num_not_attempted":130,"hallucination_rate":0.955043655953929,"num_partial_answer":112},"Health":{"total":{"accuracy":0.113,"num_correct":113,"omniscience":-73.2,"attempt_rate":0.993,"num_incorrect":845,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.9526493799323562,"num_partial_answer":35}},"Business":{"total":{"accuracy":0.096,"num_correct":96,"omniscience":-76,"attempt_rate":0.962,"num_incorrect":856,"total_questions":1000,"num_not_attempted":38,"hallucination_rate":0.9469026548672567,"num_partial_answer":10}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-62,"attempt_rate":1,"num_incorrect":80,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.975609756097561,"num_partial_answer":2}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-96,"attempt_rate":1,"num_incorrect":49,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-80,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-74,"attempt_rate":1,"num_incorrect":43,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9772727272727273,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9534883720930233,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-62,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9285714285714286,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.09,"num_correct":9,"omniscience":-79,"attempt_rate":0.99,"num_incorrect":88,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.967032967032967,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-34,"attempt_rate":1,"num_incorrect":32,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9142857142857143,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.12,"num_correct":120,"omniscience":-73.1,"attempt_rate":0.999,"num_incorrect":851,"total_questions":1000,"num_not_attempted":1,"hallucination_rate":0.9670454545454545,"num_partial_answer":28},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9545454545454546,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.075,"num_correct":15,"omniscience":-80.5,"attempt_rate":1,"num_incorrect":176,"total_questions":200,"num_not_attempted":0,"hallucination_rate":0.9513513513513514,"num_partial_answer":9}},"JavaScript":{"total":{"accuracy":0.19090909090909092,"num_correct":21,"omniscience":-60,"attempt_rate":1,"num_incorrect":87,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9775280898876404,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.05555555555555555,"num_correct":5,"omniscience":-86.66666666666667,"attempt_rate":1,"num_incorrect":83,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9764705882352941,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.097,"num_correct":97,"omniscience":-76.8,"attempt_rate":0.975,"num_incorrect":865,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.9579180509413068,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.134,"num_correct":134,"omniscience":-69.5,"attempt_rate":0.982,"num_incorrect":829,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.9572748267898383,"num_partial_answer":19}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":8.19,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.168,"short_name":"Qwen3 8B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-8b-instruct","tau2":0.249,"terminalbench_hard":0.021,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"7bb03598-07ad-4fb4-ad65-e179553d2ce5","slug":"fireworks_qwen3-8b-instruct","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"b2dd592a-fbc5-458a-b26d-f3964cbab82f","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-8b","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 8B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5c0ae27c-198a-44ef-af64-980e3fb5a038","slug":"alibaba-cloud_qwen3-8b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"b2dd592a-fbc5-458a-b26d-f3964cbab82f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-8b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 8B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.18,"price_1m_output_tokens":0.7,"price_1m_blended_3_to_1":0.31,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.23,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-8b-instruct","hosts_url":"/models/qwen3-8b-instruct/providers","name_and_creator_label":"Qwen3 8B, Alibaba"},{"additional_text":null,"aime":0.747,"aime25":0.19,"agentic_index":null,"coding_index":8.94,"commercial_allowed":true,"computed_performance_host_model_id":"32cca160-c4ed-4927-a6a1-12adf0f5608d","context_window_tokens":131072,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-vl-8b-reasoning","display_order":1694,"estimated_intelligence_index":15.279926185040281,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.589,"hle":0.042,"humaneval":null,"id":"9dba61f5-78ee-4190-8d1d-8e7063ffd386","ifbench":0.335,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.406,"math_500":0.904,"math_index":19,"mmlu_pro":0.743,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-8B","multilingual_aa":null,"name":"Qwen3 8B (Reasoning)","is_open_weights":true,"omniscience":-66.117,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.063,"num_correct":63,"omniscience":-75.6,"attempt_rate":0.889,"num_incorrect":819,"total_questions":1000,"num_not_attempted":111,"hallucination_rate":0.8740661686232657,"num_partial_answer":7}},"total":{"accuracy":0.12733333333333333,"num_correct":764,"omniscience":-66.11666666666666,"attempt_rate":0.9343333333333333,"num_incorrect":4731,"total_questions":6000,"num_not_attempted":394,"hallucination_rate":0.9035523300229182,"num_partial_answer":111},"Health":{"total":{"accuracy":0.13,"num_correct":130,"omniscience":-69.1,"attempt_rate":0.981,"num_incorrect":821,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.9436781609195403,"num_partial_answer":30}},"Business":{"total":{"accuracy":0.117,"num_correct":117,"omniscience":-63.5,"attempt_rate":0.88,"num_incorrect":752,"total_questions":1000,"num_not_attempted":120,"hallucination_rate":0.8516421291053228,"num_partial_answer":11}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-53,"attempt_rate":1,"num_incorrect":75,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9615384615384616,"num_partial_answer":3}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-90,"attempt_rate":0.98,"num_incorrect":47,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9791666666666666,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-76,"attempt_rate":0.96,"num_incorrect":43,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9555555555555556,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-52,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.09,"num_correct":9,"omniscience":-78,"attempt_rate":0.99,"num_incorrect":87,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9560439560439561,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-24,"attempt_rate":1,"num_incorrect":28,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8235294117647058,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9583333333333334,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":18,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"total":{"accuracy":0.147,"num_correct":147,"omniscience":-66.7,"attempt_rate":0.985,"num_incorrect":814,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.9542790152403282,"num_partial_answer":24},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-68,"attempt_rate":0.94,"num_incorrect":40,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9090909090909091,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.105,"num_correct":21,"omniscience":-75,"attempt_rate":0.98,"num_incorrect":171,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9553072625698324,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.2,"num_correct":22,"omniscience":-58.18181818181818,"attempt_rate":1,"num_incorrect":86,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9772727272727273,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.06666666666666667,"num_correct":6,"omniscience":-83.33333333333333,"attempt_rate":0.9777777777777777,"num_incorrect":81,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9642857142857143,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.124,"num_correct":124,"omniscience":-68.8,"attempt_rate":0.949,"num_incorrect":812,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.9269406392694064,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.183,"num_correct":183,"omniscience":-53,"attempt_rate":0.922,"num_incorrect":713,"total_questions":1000,"num_not_attempted":78,"hallucination_rate":0.8727050183598531,"num_partial_answer":26}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":38912,"parameters":8.19,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-04-28","representative_query_token_counts":null,"scicode":0.226,"short_name":"Qwen3 8B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-8b-instruct-reasoning","tau2":0.278,"terminalbench_hard":0.021,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"32cca160-c4ed-4927-a6a1-12adf0f5608d","slug":"alibaba-cloud_qwen3-8b-instruct-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"9dba61f5-78ee-4190-8d1d-8e7063ffd386","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-8b","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 8B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.18,"price_1m_output_tokens":2.1,"price_1m_blended_3_to_1":0.66,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":98304,"price_m_tokens_blended_3_to_1_per_dollar":1.52,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ca4fd46c-eb6c-44da-8317-789a6160a739","slug":"novita_qwen3-8b-instruct-reasoning_fp8","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"9dba61f5-78ee-4190-8d1d-8e7063ffd386","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-8b-fp8","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_Qwen3 8B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.035,"price_1m_output_tokens":0.138,"price_1m_blended_3_to_1":0.06075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":16.46,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-8b-instruct-reasoning","hosts_url":"/models/qwen3-8b-instruct-reasoning/providers","name_and_creator_label":"Qwen3 8B, Alibaba"},{"additional_text":null,"aime":0.297,"aime25":0.29,"agentic_index":22.08,"coding_index":18.72,"commercial_allowed":true,"computed_performance_host_model_id":"96adb159-ddbb-45d6-bfa8-c787a884a22c","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":716,"estimated_intelligence_index":17.48179323717596,"model_family_slug":"qwen3","frontier_model":false,"gdpval":812.4540678603032,"gpqa":0.516,"hle":0.04,"humaneval":0.915,"id":"da9fe224-8af3-46d7-a8c4-6220779c3f35","ifbench":0.327,"inference_parameters_active_billions":3.3,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":20.05,"intelligence_index_token_counts":{"input_tokens":97869028,"answer_tokens":17768497,"output_tokens":17768497,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.29,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.403,"math_500":0.893,"math_index":29,"mmlu_pro":0.706,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct","multilingual_aa":null,"name":"Qwen3 Coder 30B A3B Instruct","is_open_weights":true,"omniscience":-51.7,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.075,"num_correct":75,"omniscience":-56.4,"attempt_rate":0.721,"num_incorrect":639,"total_questions":1000,"num_not_attempted":279,"hallucination_rate":0.6908108108108109,"num_partial_answer":7}},"total":{"accuracy":0.15133333333333332,"num_correct":908,"omniscience":-51.7,"attempt_rate":0.8398333333333333,"num_incorrect":4010,"total_questions":6000,"num_not_attempted":961,"hallucination_rate":0.7875098193244304,"num_partial_answer":121},"Health":{"total":{"accuracy":0.147,"num_correct":147,"omniscience":-61,"attempt_rate":0.938,"num_incorrect":757,"total_questions":1000,"num_not_attempted":62,"hallucination_rate":0.8874560375146542,"num_partial_answer":34}},"Business":{"total":{"accuracy":0.139,"num_correct":139,"omniscience":-44,"attempt_rate":0.74,"num_incorrect":579,"total_questions":1000,"num_not_attempted":260,"hallucination_rate":0.6724738675958188,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.27,"num_correct":27,"omniscience":-42,"attempt_rate":0.98,"num_incorrect":69,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9452054794520548,"num_partial_answer":2}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-80,"attempt_rate":0.92,"num_incorrect":43,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9148936170212766,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.92,"num_incorrect":40,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8695652173913043,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-56,"attempt_rate":0.94,"num_incorrect":37,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9024390243902439,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-68,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9459459459459459,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.08,"num_correct":8,"omniscience":-74,"attempt_rate":0.91,"num_incorrect":82,"total_questions":100,"num_not_attempted":9,"hallucination_rate":0.8913043478260869,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-18,"attempt_rate":0.9,"num_incorrect":26,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7878787878787878,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-80,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9565217391304348,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":18,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"total":{"accuracy":0.169,"num_correct":169,"omniscience":-58.1,"attempt_rate":0.939,"num_incorrect":750,"total_questions":1000,"num_not_attempted":61,"hallucination_rate":0.9025270758122743,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-56,"attempt_rate":0.84,"num_incorrect":35,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.813953488372093,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.165,"num_correct":33,"omniscience":-59,"attempt_rate":0.935,"num_incorrect":151,"total_questions":200,"num_not_attempted":13,"hallucination_rate":0.9041916167664671,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.18181818181818182,"num_correct":20,"omniscience":-51.81818181818182,"attempt_rate":0.9181818181818182,"num_incorrect":77,"total_questions":110,"num_not_attempted":9,"hallucination_rate":0.8555555555555555,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.13333333333333333,"num_correct":12,"omniscience":-67.77777777777777,"attempt_rate":0.9777777777777777,"num_incorrect":73,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9358974358974359,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.162,"num_correct":162,"omniscience":-57.2,"attempt_rate":0.907,"num_incorrect":734,"total_questions":1000,"num_not_attempted":93,"hallucination_rate":0.8758949880668258,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.216,"num_correct":216,"omniscience":-33.5,"attempt_rate":0.794,"num_incorrect":551,"total_questions":1000,"num_not_attempted":206,"hallucination_rate":0.7028061224489796,"num_partial_answer":27}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":30.5,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-07-31","representative_query_token_counts":null,"scicode":0.278,"short_name":"Qwen3 Coder 30B A3B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-coder-30b-a3b-instruct","tau2":0.345,"terminalbench_hard":0.142,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"6a0fccec-535d-4300-8194-8f47d2bc89f9","slug":"nebius_qwen3-coder-30b-a3b-instruct","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"da9fe224-8af3-46d7-a8c4-6220779c3f35","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-30B-A3B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 Coder 30B A3B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"96adb159-ddbb-45d6-bfa8-c787a884a22c","slug":"alibaba-cloud_qwen3-coder-30b-a3b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"da9fe224-8af3-46d7-a8c4-6220779c3f35","footnotes":"Tiered pricing:\r\n- 0-32K: $0.45/$2.25 per M tokens\r\n- 32-131K: $0.75/$3.75 per M tokens\r\n- 131-205K: $1.2/$6 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-coder-30b-a3b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Coder 30B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.45,"price_1m_output_tokens":2.25,"price_1m_blended_3_to_1":0.9,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.11,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3efcc041-7545-48e2-b0b6-11c8daf6ce78","slug":"deepinfra_qwen3-coder-30b-a3b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"da9fe224-8af3-46d7-a8c4-6220779c3f35","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-30B-A3B-Instruct","function_calling":false,"cache_write_price":null,"host_model_string":"Deepinfra_Qwen3 Coder 30B A3B Instruct_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.07,"price_1m_output_tokens":0.26,"price_1m_blended_3_to_1":0.1175,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":8.51,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ed3ef6d4-a166-4582-a7a6-9b38def45fa5","slug":"scaleway_qwen3-coder-30b-a3b-instruct","deleted":false,"host_id":"a5b31cdb-30c6-4f3c-a92b-93b5af73a5f8","gpqa_16x":null,"model_id":"da9fe224-8af3-46d7-a8c4-6220779c3f35","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-coder-30b-a3b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Scaleway_Qwen3 Coder 30B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.23,"price_1m_output_tokens":0.93,"price_1m_blended_3_to_1":0.405,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":2.47,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"94ba5959-e9ea-4285-8ae8-70497fb5b1d2","slug":"amazon-bedrock_qwen3-coder-30b-a3b-instruct","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"da9fe224-8af3-46d7-a8c4-6220779c3f35","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen.qwen3-coder-30b-a3b-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Qwen3 Coder 30B A3B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-coder-30b-a3b-instruct","hosts_url":"/models/qwen3-coder-30b-a3b-instruct/providers","name_and_creator_label":"Qwen3 Coder 30B A3B, Alibaba"},{"additional_text":null,"aime":0.477,"aime25":0.393,"agentic_index":19.25,"coding_index":23.78,"commercial_allowed":true,"computed_performance_host_model_id":"51648dd1-f4c4-47b1-8c9b-c8a382b4884d","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":712,"estimated_intelligence_index":22.137543163646225,"model_family_slug":"qwen3","frontier_model":false,"gdpval":630.0674197987926,"gpqa":0.618,"hle":0.044,"humaneval":0.965,"id":"093883ed-f5fc-443b-8e18-afbfb166699e","ifbench":0.405,"inference_parameters_active_billions":35,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":24.69,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.423,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.585,"math_500":0.942,"math_index":39.33,"mmlu_pro":0.788,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct","multilingual_aa":null,"name":"Qwen3 Coder 480B A35B Instruct","is_open_weights":true,"omniscience":-23.967,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.06,"num_correct":60,"omniscience":-20.8,"attempt_rate":0.333,"num_incorrect":268,"total_questions":1000,"num_not_attempted":667,"hallucination_rate":0.2851063829787234,"num_partial_answer":5}},"total":{"accuracy":0.14433333333333334,"num_correct":866,"omniscience":-23.966666666666665,"attempt_rate":0.5516666666666666,"num_incorrect":2304,"total_questions":6000,"num_not_attempted":2690,"hallucination_rate":0.44877288663809894,"num_partial_answer":140},"Health":{"total":{"accuracy":0.119,"num_correct":119,"omniscience":-33.8,"attempt_rate":0.633,"num_incorrect":457,"total_questions":1000,"num_not_attempted":367,"hallucination_rate":0.5187287173666288,"num_partial_answer":57}},"Business":{"total":{"accuracy":0.124,"num_correct":124,"omniscience":-16.9,"attempt_rate":0.431,"num_incorrect":293,"total_questions":1000,"num_not_attempted":569,"hallucination_rate":0.3344748858447489,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.33,"num_correct":33,"omniscience":-21,"attempt_rate":0.89,"num_incorrect":54,"total_questions":100,"num_not_attempted":11,"hallucination_rate":0.8059701492537313,"num_partial_answer":2}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-36,"attempt_rate":0.54,"num_incorrect":22,"total_questions":50,"num_not_attempted":23,"hallucination_rate":0.4782608695652174,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-34,"attempt_rate":0.7,"num_incorrect":25,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.5952380952380952,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-16,"attempt_rate":0.74,"num_incorrect":22,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.6111111111111112,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-6,"attempt_rate":0.62,"num_incorrect":17,"total_questions":50,"num_not_attempted":19,"hallucination_rate":0.4722222222222222,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-34,"attempt_rate":0.9,"num_incorrect":30,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8108108108108109,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-32,"attempt_rate":0.67,"num_incorrect":49,"total_questions":100,"num_not_attempted":33,"hallucination_rate":0.5903614457831325,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.5,"num_correct":25,"omniscience":20,"attempt_rate":0.86,"num_incorrect":15,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.6,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-40,"attempt_rate":0.76,"num_incorrect":14,"total_questions":25,"num_not_attempted":6,"hallucination_rate":0.6666666666666666,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-48,"attempt_rate":0.92,"num_incorrect":17,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.85,"num_partial_answer":1}},"total":{"accuracy":0.25,"num_correct":250,"omniscience":-22.8,"attempt_rate":0.749,"num_incorrect":478,"total_questions":1000,"num_not_attempted":251,"hallucination_rate":0.6373333333333333,"num_partial_answer":21},"Kotlin":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-18,"attempt_rate":0.66,"num_incorrect":20,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.5128205128205128,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-23,"attempt_rate":0.675,"num_incorrect":90,"total_questions":200,"num_not_attempted":65,"hallucination_rate":0.5769230769230769,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.3181818181818182,"num_correct":35,"omniscience":-11.818181818181818,"attempt_rate":0.7727272727272727,"num_incorrect":48,"total_questions":110,"num_not_attempted":25,"hallucination_rate":0.64,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-35.55555555555556,"attempt_rate":0.8888888888888888,"num_incorrect":55,"total_questions":90,"num_not_attempted":10,"hallucination_rate":0.8208955223880597,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.122,"num_correct":122,"omniscience":-19.9,"attempt_rate":0.453,"num_incorrect":321,"total_questions":1000,"num_not_attempted":547,"hallucination_rate":0.36560364464692485,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.191,"num_correct":191,"omniscience":-29.6,"attempt_rate":0.711,"num_incorrect":487,"total_questions":1000,"num_not_attempted":289,"hallucination_rate":0.6019777503090235,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":262144,"parameters":480,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-07-22","representative_query_token_counts":null,"scicode":0.359,"short_name":"Qwen3 Coder 480B","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-coder-480b-a35b-instruct","tau2":0.436,"terminalbench_hard":0.177,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"9df3b896-5923-4b82-98b8-507f000be0d2","slug":"deepinfra_qwen3-coder-480b-a35b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-480B-A35B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Qwen3 Coder 480B A35B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.4,"price_1m_output_tokens":1.6,"price_1m_blended_3_to_1":0.7,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.43,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b66c148c-492d-4257-b27d-649674caf3c9","slug":"gmi_qwen3-coder-480b-a35b-instruct_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Qwen3 Coder 480B A35B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.29,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.5175,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.93,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"de12ecf0-78ed-4257-80f2-5b23241483ec","slug":"hyperbolic_qwen3-coder-480b-a35b-instruct_fp8","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-480B-A35B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_Qwen3 Coder 480B A35B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":2,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"692c9526-f5ba-4a44-b376-58aae8d894ea","slug":"baseten_qwen3-coder-480b-a35b-instruct_fp8","deleted":false,"host_id":"f2aa9c32-35de-4690-a7cd-98ec027fca9d","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-480B-A35B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Baseten_Qwen3 Coder 480B A35B Instruct_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.38,"price_1m_output_tokens":1.53,"price_1m_blended_3_to_1":0.6675,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"dd9c82c4-9098-4ddb-9bdd-52bde3f675b0","slug":"togetherai_qwen3-coder-480b-a35b-instruct_fp8","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Qwen3 Coder 480B A35B_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":2,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"51648dd1-f4c4-47b1-8c9b-c8a382b4884d","slug":"alibaba-cloud_qwen3-coder-480b-a35b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":"Tiered pricing:\n- 0-32K: $1.5/$7.5 per M tokens\n- 32-131K: $2.7/$13.5 per M tokens\n- 131-205K: $4.5/$22.5 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-coder-480b-a35b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Coder 480B A35B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.5,"price_1m_output_tokens":7.5,"price_1m_blended_3_to_1":3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"696c72fb-4da1-4c1c-9c6a-5bbe314c7bdb","slug":"nebius_qwen3-coder-480b-a35b-instruct","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-480B-A35B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 Coder 480B A35B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":1.8,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"de50e896-4a46-4eb3-9685-3fca9bbe12e5","slug":"amazon-bedrock_qwen3-coder-480b-a35b-instruct","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen.qwen3-coder-480b-a35b-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Qwen3 Coder 480B A35B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":1.8,"price_1m_blended_3_to_1":0.615,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.63,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"421c022e-8887-4dd0-a42e-c62a5392c089","slug":"google_qwen3-coder-480b-a35b-instruct_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-coder-480b-a35b-instruct-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Qwen3 Coder 480B A35B Instruct_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.22,"price_1m_output_tokens":1.8,"price_1m_blended_3_to_1":0.615,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.63,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b64f1605-6a4e-4eb9-953a-12e191d3c271","slug":"deepinfra_qwen3-coder-480b-a35b-instruct_turbo-fp4","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Coder-480B-A35B-Instruct-Turbo","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 Coder 480B A35B Instruct_(Turbo, FP4)","cache_pricing_notes":null,"model_name_appendage":"(Turbo, FP4)","price_1m_input_tokens":0.28,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.51,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.96,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"688dd800-0cfd-4cf5-bd37-d3f8c7d06df7","slug":"novita_qwen3-coder-480b-a35b-instruct","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"093883ed-f5fc-443b-8e18-afbfb166699e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-coder-480b-a35b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 Coder 480B A35B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.3,"price_1m_blended_3_to_1":0.55,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.82,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-coder-480b-a35b-instruct","hosts_url":"/models/qwen3-coder-480b-a35b-instruct/providers","name_and_creator_label":"Qwen3 Coder 480B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.807,"agentic_index":42.55,"coding_index":25.54,"commercial_allowed":null,"computed_performance_host_model_id":"963495d0-f1e1-4a10-8c43-b0185bc5e30c","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":806,"estimated_intelligence_index":31.134917946316374,"model_family_slug":"qwen3","frontier_model":false,"gdpval":1034.234396263306,"gpqa":0.764,"hle":0.111,"humaneval":null,"id":"7ae943a9-9310-4472-a834-c61f0ab68485","ifbench":0.441,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":31,"intelligence_index_token_counts":{"input_tokens":101686930,"answer_tokens":12144280,"output_tokens":12144280,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.467,"license_name":null,"license_url":null,"livecodebench":0.767,"math_500":null,"math_index":80.67,"mmlu_pro":0.841,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.835,"input_tokens":188556,"answer_tokens":224330,"output_tokens":224330,"reasoning_tokens":0,"total_input_tokens_api":221214,"total_answer_tokens_api":264206,"total_reasoning_tokens_api":0},"bn":{"score":0.8291666666666666,"input_tokens":225534,"answer_tokens":273859,"output_tokens":273859,"reasoning_tokens":0,"total_input_tokens_api":562761,"total_answer_tokens_api":688510,"total_reasoning_tokens_api":0},"de":{"score":0.8875000000000001,"input_tokens":191268,"answer_tokens":219390,"output_tokens":219390,"reasoning_tokens":0,"total_input_tokens_api":227619,"total_answer_tokens_api":269878,"total_reasoning_tokens_api":0},"en":{"score":0.915,"input_tokens":159654,"answer_tokens":181576,"output_tokens":181576,"reasoning_tokens":0,"total_input_tokens_api":168357,"total_answer_tokens_api":185660,"total_reasoning_tokens_api":0},"es":{"score":0.8975,"input_tokens":181856,"answer_tokens":220377,"output_tokens":220377,"reasoning_tokens":0,"total_input_tokens_api":210371,"total_answer_tokens_api":258540,"total_reasoning_tokens_api":0},"fr":{"score":0.8825,"input_tokens":191214,"answer_tokens":218601,"output_tokens":218601,"reasoning_tokens":0,"total_input_tokens_api":221890,"total_answer_tokens_api":257475,"total_reasoning_tokens_api":0},"hi":{"score":0.8366666666666668,"input_tokens":209430,"answer_tokens":255911,"output_tokens":255911,"reasoning_tokens":0,"total_input_tokens_api":501261,"total_answer_tokens_api":658446,"total_reasoning_tokens_api":0},"id":{"score":0.8733333333333334,"input_tokens":181314,"answer_tokens":236442,"output_tokens":236442,"reasoning_tokens":0,"total_input_tokens_api":220242,"total_answer_tokens_api":299938,"total_reasoning_tokens_api":0},"it":{"score":0.8799999999999999,"input_tokens":199032,"answer_tokens":252935,"output_tokens":252935,"reasoning_tokens":0,"total_input_tokens_api":224862,"total_answer_tokens_api":287348,"total_reasoning_tokens_api":0},"ja":{"score":0.8841666666666667,"input_tokens":228129,"answer_tokens":332903,"output_tokens":332903,"reasoning_tokens":0,"total_input_tokens_api":215220,"total_answer_tokens_api":302073,"total_reasoning_tokens_api":0},"ko":{"score":0.855,"input_tokens":198384,"answer_tokens":249120,"output_tokens":249120,"reasoning_tokens":0,"total_input_tokens_api":223389,"total_answer_tokens_api":280202,"total_reasoning_tokens_api":0},"my":{"score":0.7641666666666667,"input_tokens":353547,"answer_tokens":341756,"output_tokens":341756,"reasoning_tokens":0,"total_input_tokens_api":904200,"total_answer_tokens_api":816836,"total_reasoning_tokens_api":0},"pt":{"score":0.8925000000000001,"input_tokens":178176,"answer_tokens":214855,"output_tokens":214855,"reasoning_tokens":0,"total_input_tokens_api":210231,"total_answer_tokens_api":260882,"total_reasoning_tokens_api":0},"sw":{"score":0.6983333333333334,"input_tokens":208677,"answer_tokens":301351,"output_tokens":301351,"reasoning_tokens":0,"total_input_tokens_api":262599,"total_answer_tokens_api":401661,"total_reasoning_tokens_api":0},"yo":{"score":0.5183333333333333,"input_tokens":307062,"answer_tokens":354041,"output_tokens":354041,"reasoning_tokens":0,"total_input_tokens_api":371910,"total_answer_tokens_api":438322,"total_reasoning_tokens_api":0},"zh":{"score":0.8766666666666666,"input_tokens":179204,"answer_tokens":261223,"output_tokens":261223,"reasoning_tokens":0,"total_input_tokens_api":172072,"total_answer_tokens_api":225898,"total_reasoning_tokens_api":0},"average":{"score":0.8328645833333334,"input_tokens":3381037,"answer_tokens":4138670,"output_tokens":4138670,"reasoning_tokens":0,"total_input_tokens_api":4918198,"total_answer_tokens_api":5895875,"total_reasoning_tokens_api":0}},"name":"Qwen3 Max","is_open_weights":false,"omniscience":-44.9,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.173,"num_correct":173,"omniscience":-55.2,"attempt_rate":0.913,"num_incorrect":725,"total_questions":1000,"num_not_attempted":87,"hallucination_rate":0.8766626360338573,"num_partial_answer":15}},"total":{"accuracy":0.2335,"num_correct":1401,"omniscience":-44.9,"attempt_rate":0.9465,"num_incorrect":4095,"total_questions":6000,"num_not_attempted":321,"hallucination_rate":0.8904109589041096,"num_partial_answer":183},"Health":{"total":{"accuracy":0.21,"num_correct":210,"omniscience":-50.6,"attempt_rate":0.992,"num_incorrect":716,"total_questions":1000,"num_not_attempted":8,"hallucination_rate":0.9063291139240506,"num_partial_answer":66}},"Business":{"total":{"accuracy":0.18,"num_correct":180,"omniscience":-49.7,"attempt_rate":0.88,"num_incorrect":677,"total_questions":1000,"num_not_attempted":120,"hallucination_rate":0.8256097560975609,"num_partial_answer":23}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.46,"num_correct":46,"omniscience":-5,"attempt_rate":0.99,"num_incorrect":51,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":2}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-64,"attempt_rate":0.92,"num_incorrect":39,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9069767441860465,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-58,"attempt_rate":0.92,"num_incorrect":36,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8372093023255814,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-18,"attempt_rate":1,"num_incorrect":28,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9032258064516129,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-36,"attempt_rate":0.96,"num_incorrect":31,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8378378378378378,"num_partial_answer":4}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9090909090909091,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-48,"attempt_rate":0.99,"num_incorrect":73,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9733333333333334,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":30,"attempt_rate":0.96,"num_incorrect":15,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.75,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-56,"attempt_rate":0.96,"num_incorrect":19,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.95,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-12,"attempt_rate":0.96,"num_incorrect":13,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"total":{"accuracy":0.315,"num_correct":315,"omniscience":-30.8,"attempt_rate":0.964,"num_incorrect":623,"total_questions":1000,"num_not_attempted":36,"hallucination_rate":0.9094890510948905,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-48,"attempt_rate":0.9,"num_incorrect":34,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.85,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.315,"num_correct":63,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":127,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.927007299270073,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-30,"attempt_rate":0.9727272727272728,"num_incorrect":69,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9324324324324325,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.3,"num_correct":27,"omniscience":-34.44444444444444,"attempt_rate":0.9666666666666667,"num_incorrect":58,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9206349206349206,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.25,"num_correct":250,"omniscience":-45,"attempt_rate":0.966,"num_incorrect":700,"total_questions":1000,"num_not_attempted":34,"hallucination_rate":0.9333333333333333,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.273,"num_correct":273,"omniscience":-38.1,"attempt_rate":0.964,"num_incorrect":654,"total_questions":1000,"num_not_attempted":36,"hallucination_rate":0.8995873452544704,"num_partial_answer":37}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":65536,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-23","representative_query_token_counts":null,"scicode":0.383,"short_name":"Qwen3 Max","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-max","tau2":0.743,"terminalbench_hard":0.191,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"963495d0-f1e1-4a10-8c43-b0185bc5e30c","slug":"alibaba-cloud_qwen3-max","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"7ae943a9-9310-4472-a834-c61f0ab68485","footnotes":"Tiered pricing:\r\n\r\n- 0-32K: $1.2/$6 per M tokens\r\n- 32-128K: $2.4/$12 per M tokens\r\n- 128-252K: $3/$15 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-max-2025-09-23","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Max","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":2.4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":258048,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d6b70222-a850-4304-9c45-953162f3a545","slug":"novita_qwen3-max","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"7ae943a9-9310-4472-a834-c61f0ab68485","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-max","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 Max","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2.11,"price_1m_output_tokens":8.45,"price_1m_blended_3_to_1":3.695,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.27,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-max","hosts_url":"/models/qwen3-max/providers","name_and_creator_label":"Qwen3 Max, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.75,"agentic_index":null,"coding_index":24.64,"commercial_allowed":null,"computed_performance_host_model_id":"8ad3ca0d-32cf-4679-a718-14903cd5b8fb","context_window_tokens":262144,"critpt":0.009,"deleted":false,"deprecated":true,"deprecated_to":"qwen3-max","display_order":1717,"estimated_intelligence_index":26.139039234341066,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.764,"hle":0.093,"humaneval":null,"id":"5b2beb12-81a9-47a1-8a2a-d0a727185b50","ifbench":0.48,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.397,"license_name":null,"license_url":null,"livecodebench":0.651,"math_500":null,"math_index":75,"mmlu_pro":0.838,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":null,"multilingual_aa":null,"name":"Qwen3 Max (Preview)","is_open_weights":false,"omniscience":-43.567,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.17,"num_correct":170,"omniscience":-54.2,"attempt_rate":0.898,"num_incorrect":712,"total_questions":1000,"num_not_attempted":102,"hallucination_rate":0.8578313253012049,"num_partial_answer":16}},"total":{"accuracy":0.23516666666666666,"num_correct":1411,"omniscience":-43.56666666666667,"attempt_rate":0.9313333333333333,"num_incorrect":4025,"total_questions":6000,"num_not_attempted":412,"hallucination_rate":0.8770974068424493,"num_partial_answer":152},"Health":{"total":{"accuracy":0.203,"num_correct":203,"omniscience":-51.2,"attempt_rate":0.976,"num_incorrect":715,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.8971141781681304,"num_partial_answer":58}},"Business":{"total":{"accuracy":0.176,"num_correct":176,"omniscience":-49.8,"attempt_rate":0.867,"num_incorrect":674,"total_questions":1000,"num_not_attempted":133,"hallucination_rate":0.8179611650485437,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.49,"num_correct":49,"omniscience":0,"attempt_rate":1,"num_incorrect":49,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9607843137254902,"num_partial_answer":2}},"R":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-38,"attempt_rate":0.86,"num_incorrect":31,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8157894736842105,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-44,"attempt_rate":0.88,"num_incorrect":33,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8461538461538461,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-22,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.967741935483871,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.96,"num_incorrect":37,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.925,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-26,"attempt_rate":0.98,"num_incorrect":31,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.96875,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.23,"num_correct":23,"omniscience":-50,"attempt_rate":0.97,"num_incorrect":73,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.948051948051948,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":16,"attempt_rate":0.94,"num_incorrect":18,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.75,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-52,"attempt_rate":0.92,"num_incorrect":18,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":0,"attempt_rate":0.96,"num_incorrect":12,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9230769230769231,"num_partial_answer":0}},"total":{"accuracy":0.319,"num_correct":319,"omniscience":-30.4,"attempt_rate":0.954,"num_incorrect":623,"total_questions":1000,"num_not_attempted":46,"hallucination_rate":0.9148311306901615,"num_partial_answer":12},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-42,"attempt_rate":0.9,"num_incorrect":33,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.868421052631579,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.305,"num_correct":61,"omniscience":-33,"attempt_rate":0.945,"num_incorrect":127,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.9136690647482014,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.3181818181818182,"num_correct":35,"omniscience":-31.818181818181817,"attempt_rate":0.9727272727272728,"num_incorrect":70,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9333333333333333,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.28888888888888886,"num_correct":26,"omniscience":-38.888888888888886,"attempt_rate":0.9888888888888889,"num_incorrect":61,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.953125,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.268,"num_correct":268,"omniscience":-40.1,"attempt_rate":0.949,"num_incorrect":669,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.9139344262295082,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.275,"num_correct":275,"omniscience":-35.7,"attempt_rate":0.944,"num_incorrect":632,"total_questions":1000,"num_not_attempted":56,"hallucination_rate":0.8717241379310345,"num_partial_answer":37}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-05","representative_query_token_counts":null,"scicode":0.37,"short_name":"Qwen3 Max (Preview)","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-max-preview","tau2":0.327,"terminalbench_hard":0.184,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"8ad3ca0d-32cf-4679-a718-14903cd5b8fb","slug":"alibaba-cloud_qwen3-max-preview","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"5b2beb12-81a9-47a1-8a2a-d0a727185b50","footnotes":"Tiered pricing:\r\n\r\n- 0-32K: $1.2/$6 per M tokens\r\n- 32-128K: $2.4/$12 per M tokens\r\n- 128-252K: $3/$15 per M tokens","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-max-preview","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Max (Preview)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":2.4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-max-preview","hosts_url":"/models/qwen3-max-preview/providers","name_and_creator_label":"Qwen3 Max (Preview), Alibaba"},{"additional_text":null,"aime":null,"aime25":0.823,"agentic_index":43.49,"coding_index":23.76,"commercial_allowed":null,"computed_performance_host_model_id":"3d3e425f-f22a-44f5-bbda-4485d7f8cb2b","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":816,"estimated_intelligence_index":31.667469425964537,"model_family_slug":"qwen3","frontier_model":false,"gdpval":966.8798598894357,"gpqa":0.776,"hle":0.12,"humaneval":null,"id":"cbac8c35-e069-4c73-823e-0953e6ed0e85","ifbench":0.538,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":32.38,"intelligence_index_token_counts":{"input_tokens":92599670,"answer_tokens":7948400,"output_tokens":38454479,"reasoning_tokens":30506079},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.577,"license_name":null,"license_url":null,"livecodebench":0.535,"math_500":null,"math_index":82.33,"mmlu_pro":0.824,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8583333333333334,"input_tokens":188556,"answer_tokens":240363,"output_tokens":1692461,"reasoning_tokens":1452098,"total_input_tokens_api":223614,"total_answer_tokens_api":273014,"total_reasoning_tokens_api":1529002},"bn":{"score":0.8516666666666667,"input_tokens":225534,"answer_tokens":259762,"output_tokens":1813678,"reasoning_tokens":1553916,"total_input_tokens_api":565161,"total_answer_tokens_api":306691,"total_reasoning_tokens_api":1742593},"de":{"score":0.9008333333333334,"input_tokens":191268,"answer_tokens":218237,"output_tokens":1399505,"reasoning_tokens":1181268,"total_input_tokens_api":230013,"total_answer_tokens_api":251320,"total_reasoning_tokens_api":1247800},"en":{"score":0.9175,"input_tokens":159654,"answer_tokens":284962,"output_tokens":1744065,"reasoning_tokens":1459103,"total_input_tokens_api":170757,"total_answer_tokens_api":297543,"total_reasoning_tokens_api":1533463},"es":{"score":0.9049999999999999,"input_tokens":181740,"answer_tokens":246417,"output_tokens":1592614,"reasoning_tokens":1346197,"total_input_tokens_api":212637,"total_answer_tokens_api":278602,"total_reasoning_tokens_api":1422926},"fr":{"score":0.8933333333333334,"input_tokens":190950,"answer_tokens":194529,"output_tokens":1406309,"reasoning_tokens":1211780,"total_input_tokens_api":223998,"total_answer_tokens_api":221215,"total_reasoning_tokens_api":1272710},"hi":{"score":0.8591666666666667,"input_tokens":209430,"answer_tokens":263614,"output_tokens":1842081,"reasoning_tokens":1578467,"total_input_tokens_api":503661,"total_answer_tokens_api":323666,"total_reasoning_tokens_api":1772368},"id":{"score":0.8874999999999998,"input_tokens":181314,"answer_tokens":235863,"output_tokens":1460637,"reasoning_tokens":1224774,"total_input_tokens_api":222642,"total_answer_tokens_api":265898,"total_reasoning_tokens_api":1291749},"it":{"score":0.9016666666666667,"input_tokens":199032,"answer_tokens":222549,"output_tokens":1442758,"reasoning_tokens":1220209,"total_input_tokens_api":227262,"total_answer_tokens_api":247832,"total_reasoning_tokens_api":1278799},"ja":{"score":0.8724999999999999,"input_tokens":228129,"answer_tokens":280555,"output_tokens":1967450,"reasoning_tokens":1686895,"total_input_tokens_api":217620,"total_answer_tokens_api":289293,"total_reasoning_tokens_api":1723497},"ko":{"score":0.8691666666666666,"input_tokens":198384,"answer_tokens":237958,"output_tokens":1693080,"reasoning_tokens":1455122,"total_input_tokens_api":225777,"total_answer_tokens_api":253092,"total_reasoning_tokens_api":1519079},"my":{"score":0.8141666666666666,"input_tokens":353547,"answer_tokens":237108,"output_tokens":1538861,"reasoning_tokens":1301753,"total_input_tokens_api":906594,"total_answer_tokens_api":264682,"total_reasoning_tokens_api":1478944},"pt":{"score":0.9033333333333333,"input_tokens":178176,"answer_tokens":224533,"output_tokens":1453186,"reasoning_tokens":1228653,"total_input_tokens_api":212631,"total_answer_tokens_api":263522,"total_reasoning_tokens_api":1296474},"sw":{"score":0.7925000000000001,"input_tokens":208677,"answer_tokens":283157,"output_tokens":2151412,"reasoning_tokens":1868255,"total_input_tokens_api":264999,"total_answer_tokens_api":305452,"total_reasoning_tokens_api":2001818},"yo":{"score":0.5683333333333334,"input_tokens":307062,"answer_tokens":335425,"output_tokens":4053636,"reasoning_tokens":3718211,"total_input_tokens_api":374310,"total_answer_tokens_api":357178,"total_reasoning_tokens_api":4069115},"zh":{"score":0.8833333333333333,"input_tokens":176673,"answer_tokens":398999,"output_tokens":2164784,"reasoning_tokens":1765785,"total_input_tokens_api":172239,"total_answer_tokens_api":356995,"total_reasoning_tokens_api":1641483},"average":{"score":0.8548958333333334,"input_tokens":3378126,"answer_tokens":4164031,"output_tokens":29416517,"reasoning_tokens":25252486,"total_input_tokens_api":4953915,"total_answer_tokens_api":4555995,"total_reasoning_tokens_api":26821820}},"name":"Qwen3 Max Thinking","is_open_weights":false,"omniscience":-39.783,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.169,"num_correct":169,"omniscience":-54.4,"attempt_rate":0.902,"num_incorrect":713,"total_questions":1000,"num_not_attempted":98,"hallucination_rate":0.8580024067388689,"num_partial_answer":20}},"total":{"accuracy":0.26616666666666666,"num_correct":1597,"omniscience":-39.78333333333333,"attempt_rate":0.9498333333333333,"num_incorrect":3984,"total_questions":6000,"num_not_attempted":301,"hallucination_rate":0.9048376107199637,"num_partial_answer":118},"Health":{"total":{"accuracy":0.248,"num_correct":248,"omniscience":-45.4,"attempt_rate":0.977,"num_incorrect":702,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.9335106382978723,"num_partial_answer":27}},"Business":{"total":{"accuracy":0.215,"num_correct":215,"omniscience":-47.8,"attempt_rate":0.921,"num_incorrect":693,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.8828025477707007,"num_partial_answer":13}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.55,"num_correct":55,"omniscience":11,"attempt_rate":1,"num_incorrect":44,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9777777777777777,"num_partial_answer":1}},"R":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-34,"attempt_rate":0.94,"num_incorrect":32,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9142857142857143,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-46,"attempt_rate":0.94,"num_incorrect":34,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8717948717948718,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-14,"attempt_rate":0.96,"num_incorrect":27,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-40,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-24,"attempt_rate":0.98,"num_incorrect":30,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9375,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-49,"attempt_rate":0.99,"num_incorrect":74,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9866666666666667,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.54,"num_correct":27,"omniscience":20,"attempt_rate":0.94,"num_incorrect":17,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7391304347826086,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":0.96,"num_incorrect":17,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":-4,"attempt_rate":0.92,"num_incorrect":12,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8571428571428571,"num_partial_answer":0}},"total":{"accuracy":0.368,"num_correct":368,"omniscience":-21.9,"attempt_rate":0.972,"num_incorrect":587,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.9287974683544303,"num_partial_answer":17},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":31,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8857142857142857,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.335,"num_correct":67,"omniscience":-29,"attempt_rate":0.965,"num_incorrect":125,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9398496240601504,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.4090909090909091,"num_correct":45,"omniscience":-13.636363636363637,"attempt_rate":0.9818181818181818,"num_incorrect":60,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9230769230769231,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.4111111111111111,"num_correct":37,"omniscience":-13.333333333333334,"attempt_rate":0.9888888888888889,"num_incorrect":49,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9245283018867925,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.253,"num_correct":253,"omniscience":-43,"attempt_rate":0.952,"num_incorrect":683,"total_questions":1000,"num_not_attempted":48,"hallucination_rate":0.9143239625167336,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.344,"num_correct":344,"omniscience":-26.2,"attempt_rate":0.975,"num_incorrect":606,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.9237804878048781,"num_partial_answer":25}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-03","representative_query_token_counts":null,"scicode":0.387,"short_name":"Qwen3 Max Thinking","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-max-thinking","tau2":0.836,"terminalbench_hard":0.163,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"3d3e425f-f22a-44f5-bbda-4485d7f8cb2b","slug":"alibaba-cloud_qwen3-max-thinking","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"cbac8c35-e069-4c73-823e-0953e6ed0e85","footnotes":"Tiered pricing:\r\n\r\n- 0-32K: $1.2/$6 per M tokens\r\n- 32-128K: $2.4/$12 per M tokens\r\n- 128-252K: $3/$15 per M tokens","json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-max-preview","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Max Thinking","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":2.4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-max-thinking","hosts_url":"/models/qwen3-max-thinking/providers","name_and_creator_label":"Qwen3 Max Thinking, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.843,"agentic_index":24.19,"coding_index":19.07,"commercial_allowed":true,"computed_performance_host_model_id":"3fe61f25-7ac1-4342-8c79-4d0168dc5d30","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":713,"estimated_intelligence_index":30.457581737632633,"model_family_slug":"qwen3","frontier_model":false,"gdpval":809.5108286020896,"gpqa":0.759,"hle":0.117,"humaneval":null,"id":"c8a79180-7d16-4474-8701-9a77c0baa56a","ifbench":0.607,"inference_parameters_active_billions":3,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":26.54,"intelligence_index_token_counts":{"input_tokens":100167871,"answer_tokens":3073611,"output_tokens":58572076,"reasoning_tokens":55498465},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.603,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.784,"math_500":null,"math_index":84.33,"mmlu_pro":0.824,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking","multilingual_aa":{"ar":{"score":0.8574999999999999,"input_tokens":188556,"answer_tokens":290820,"output_tokens":2119744,"reasoning_tokens":1828924,"total_input_tokens_api":223614,"total_answer_tokens_api":2239041,"total_reasoning_tokens_api":0},"bn":{"score":0.8258333333333333,"input_tokens":225534,"answer_tokens":297001,"output_tokens":2446707,"reasoning_tokens":2149706,"total_input_tokens_api":565161,"total_answer_tokens_api":3111256,"total_reasoning_tokens_api":0},"de":{"score":0.8791666666666668,"input_tokens":191646,"answer_tokens":271137,"output_tokens":1990854,"reasoning_tokens":1719717,"total_input_tokens_api":230454,"total_answer_tokens_api":2130195,"total_reasoning_tokens_api":0},"en":{"score":0.8949999999999999,"input_tokens":159654,"answer_tokens":276722,"output_tokens":1906088,"reasoning_tokens":1629366,"total_input_tokens_api":170757,"total_answer_tokens_api":1970362,"total_reasoning_tokens_api":0},"es":{"score":0.89,"input_tokens":182088,"answer_tokens":272967,"output_tokens":2030223,"reasoning_tokens":1757256,"total_input_tokens_api":213027,"total_answer_tokens_api":2154033,"total_reasoning_tokens_api":0},"fr":{"score":0.8708333333333332,"input_tokens":191346,"answer_tokens":265287,"output_tokens":2015624,"reasoning_tokens":1750337,"total_input_tokens_api":224433,"total_answer_tokens_api":2136287,"total_reasoning_tokens_api":0},"hi":{"score":0.84,"input_tokens":209430,"answer_tokens":285878,"output_tokens":2241238,"reasoning_tokens":1955360,"total_input_tokens_api":503661,"total_answer_tokens_api":2868044,"total_reasoning_tokens_api":0},"id":{"score":0.8583333333333334,"input_tokens":181314,"answer_tokens":275605,"output_tokens":2165497,"reasoning_tokens":1889892,"total_input_tokens_api":222642,"total_answer_tokens_api":2318312,"total_reasoning_tokens_api":0},"it":{"score":0.8816666666666667,"input_tokens":199032,"answer_tokens":301534,"output_tokens":2069035,"reasoning_tokens":1767501,"total_input_tokens_api":227262,"total_answer_tokens_api":2182913,"total_reasoning_tokens_api":0},"ja":{"score":0.8574999999999999,"input_tokens":228129,"answer_tokens":339389,"output_tokens":2247624,"reasoning_tokens":1908235,"total_input_tokens_api":217620,"total_answer_tokens_api":2273084,"total_reasoning_tokens_api":0},"ko":{"score":0.8533333333333334,"input_tokens":199401,"answer_tokens":293648,"output_tokens":2196337,"reasoning_tokens":1902689,"total_input_tokens_api":226875,"total_answer_tokens_api":2305522,"total_reasoning_tokens_api":0},"my":{"score":0.7516666666666666,"input_tokens":353547,"answer_tokens":448671,"output_tokens":2799360,"reasoning_tokens":2350689,"total_input_tokens_api":906594,"total_answer_tokens_api":3895040,"total_reasoning_tokens_api":0},"pt":{"score":0.8775,"input_tokens":178176,"answer_tokens":272285,"output_tokens":2027153,"reasoning_tokens":1754868,"total_input_tokens_api":212631,"total_answer_tokens_api":2157313,"total_reasoning_tokens_api":0},"sw":{"score":0.7050000000000001,"input_tokens":208677,"answer_tokens":329063,"output_tokens":3020213,"reasoning_tokens":2691150,"total_input_tokens_api":264999,"total_answer_tokens_api":3245202,"total_reasoning_tokens_api":0},"yo":{"score":0.4041666666666666,"input_tokens":307062,"answer_tokens":457817,"output_tokens":4902333,"reasoning_tokens":4444516,"total_input_tokens_api":374310,"total_answer_tokens_api":5419998,"total_reasoning_tokens_api":0},"zh":{"score":0.8633333333333333,"input_tokens":179793,"answer_tokens":302618,"output_tokens":2188020,"reasoning_tokens":1885402,"total_input_tokens_api":174984,"total_answer_tokens_api":2183197,"total_reasoning_tokens_api":0},"average":{"score":0.8194270833333333,"input_tokens":3383385,"answer_tokens":4980442,"output_tokens":38366050,"reasoning_tokens":33385608,"total_input_tokens_api":4959024,"total_answer_tokens_api":42589799,"total_reasoning_tokens_api":0}},"name":"Qwen3 Next 80B A3B (Reasoning)","is_open_weights":true,"omniscience":-52.783,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.101,"num_correct":101,"omniscience":-62.3,"attempt_rate":0.833,"num_incorrect":724,"total_questions":1000,"num_not_attempted":167,"hallucination_rate":0.8053392658509455,"num_partial_answer":8}},"total":{"accuracy":0.18216666666666667,"num_correct":1093,"omniscience":-52.78333333333333,"attempt_rate":0.9083333333333333,"num_incorrect":4260,"total_questions":6000,"num_not_attempted":550,"hallucination_rate":0.8681475443244345,"num_partial_answer":97},"Health":{"total":{"accuracy":0.168,"num_correct":168,"omniscience":-59.2,"attempt_rate":0.954,"num_incorrect":760,"total_questions":1000,"num_not_attempted":46,"hallucination_rate":0.9134615384615384,"num_partial_answer":26}},"Business":{"total":{"accuracy":0.153,"num_correct":153,"omniscience":-53.4,"attempt_rate":0.854,"num_incorrect":687,"total_questions":1000,"num_not_attempted":146,"hallucination_rate":0.8110979929161747,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-41,"attempt_rate":0.99,"num_incorrect":70,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9859154929577465,"num_partial_answer":0}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-64,"attempt_rate":0.92,"num_incorrect":39,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9069767441860465,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-68,"attempt_rate":0.92,"num_incorrect":40,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9090909090909091,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-72,"attempt_rate":0.94,"num_incorrect":41,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9111111111111111,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-66,"attempt_rate":0.98,"num_incorrect":41,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9761904761904762,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8947368421052632,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-68,"attempt_rate":0.95,"num_incorrect":81,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.9310344827586207,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-8,"attempt_rate":0.98,"num_incorrect":24,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-84,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-28,"attempt_rate":0.92,"num_incorrect":15,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8823529411764706,"num_partial_answer":0}},"total":{"accuracy":0.207,"num_correct":207,"omniscience":-52.1,"attempt_rate":0.954,"num_incorrect":728,"total_questions":1000,"num_not_attempted":46,"hallucination_rate":0.9180327868852459,"num_partial_answer":19},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-64,"attempt_rate":0.9,"num_incorrect":38,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8636363636363636,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.205,"num_correct":41,"omniscience":-53.5,"attempt_rate":0.955,"num_incorrect":148,"total_questions":200,"num_not_attempted":9,"hallucination_rate":0.9308176100628931,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-40.90909090909091,"attempt_rate":0.9363636363636364,"num_incorrect":72,"total_questions":110,"num_not_attempted":7,"hallucination_rate":0.8674698795180723,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-43.333333333333336,"attempt_rate":0.9666666666666667,"num_incorrect":62,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9253731343283582,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.18,"num_correct":180,"omniscience":-54.8,"attempt_rate":0.917,"num_incorrect":728,"total_questions":1000,"num_not_attempted":83,"hallucination_rate":0.8878048780487805,"num_partial_answer":9}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.284,"num_correct":284,"omniscience":-34.9,"attempt_rate":0.938,"num_incorrect":633,"total_questions":1000,"num_not_attempted":62,"hallucination_rate":0.8840782122905028,"num_partial_answer":21}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":80,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-09-11","representative_query_token_counts":null,"scicode":0.388,"short_name":"Qwen3 Next 80B A3B","show_host_model_evals":false,"size_class":"Medium","slug":"qwen3-next-80b-a3b-reasoning","tau2":0.415,"terminalbench_hard":0.092,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"0d11facd-5ff2-4dad-8a7a-686551cc50f3","slug":"google_qwen3-next-80b-a3b-reasoning_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-next-80b-a3b-thinking-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Qwen3 Next 80B A3B (Reasoning)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.15,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.4125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.42,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"2247ac88-589c-485e-a034-a26ceb9171dd","slug":"novita_qwen3-next-80b-a3b-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-next-80b-a3b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 Next 80B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.4875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.05,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3fe61f25-7ac1-4342-8c79-4d0168dc5d30","slug":"alibaba-cloud_qwen3-next-80b-a3b-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-next-80b-a3b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Next 80B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":1.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.53,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5b2b1006-446c-430c-97c4-92de3e795317","slug":"hyperbolic_qwen3-next-80b-a3b-reasoning","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Next-80B-A3B-Thinking","function_calling":false,"cache_write_price":null,"host_model_string":"Hyperbolic_Qwen3 Next 80B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"30206e5a-b9eb-4f8c-a5a9-a2fa63106c47","slug":"gmi_qwen3-next-80b-a3b-reasoning","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Next-80B-A3B-Thinking","function_calling":false,"cache_write_price":null,"host_model_string":"GMI_Qwen3 Next 80B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.4875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.05,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"3a04ffc8-3633-4402-bfc6-880ad7757505","slug":"togetherai_qwen3-next-80b-a3b-reasoning","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Next-80B-A3B-Thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Qwen3 Next 80B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.4875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.05,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c0a6f949-2c03-44e0-9f5f-7f6ec394e894","slug":"clarifai_qwen3-next-80b-a3b-reasoning","deleted":false,"host_id":"8906cd90-54cf-4365-86f0-4f2087162975","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"https://clarifai.com/qwen/qwen3/models/qwen3-next-80B-A3B-Thinking","function_calling":false,"cache_write_price":null,"host_model_string":"Clarifai_Qwen3 Next 80B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.088,"price_1m_output_tokens":1.076,"price_1m_blended_3_to_1":1.085,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":0.92,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"49c4f0c1-c7fe-4947-b5ec-28f9cfa83d3a","slug":"nebius_qwen3-next-80b-a3b-reasoning_fp8","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"c8a79180-7d16-4474-8701-9a77c0baa56a","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Next-80B-A3B-Thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_Qwen3 Next 80B A3B (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.15,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.4125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262000,"price_m_tokens_blended_3_to_1_per_dollar":2.42,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-next-80b-a3b-reasoning","hosts_url":"/models/qwen3-next-80b-a3b-reasoning/providers","name_and_creator_label":"Qwen3 Next 80B A3B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.663,"agentic_index":null,"coding_index":14.95,"commercial_allowed":true,"computed_performance_host_model_id":"c2006757-28df-4610-9d3a-0f0bca978e76","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":749,"estimated_intelligence_index":23.672640047615896,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.738,"hle":0.073,"humaneval":null,"id":"2698f6c6-e436-47ce-a583-dbc25596c571","ifbench":0.397,"inference_parameters_active_billions":3,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.513,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.684,"math_500":null,"math_index":66.33,"mmlu_pro":0.819,"mmmu_pro":null,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct","multilingual_aa":null,"name":"Qwen3 Next 80B A3B Instruct","is_open_weights":true,"omniscience":-60.483,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.113,"num_correct":113,"omniscience":-68.8,"attempt_rate":0.922,"num_incorrect":801,"total_questions":1000,"num_not_attempted":78,"hallucination_rate":0.90304396843292,"num_partial_answer":8}},"total":{"accuracy":0.16716666666666666,"num_correct":1003,"omniscience":-60.483333333333334,"attempt_rate":0.9583333333333334,"num_incorrect":4632,"total_questions":6000,"num_not_attempted":250,"hallucination_rate":0.9269561737042226,"num_partial_answer":115},"Health":{"total":{"accuracy":0.148,"num_correct":148,"omniscience":-64.7,"attempt_rate":0.989,"num_incorrect":795,"total_questions":1000,"num_not_attempted":11,"hallucination_rate":0.9330985915492958,"num_partial_answer":46}},"Business":{"total":{"accuracy":0.144,"num_correct":144,"omniscience":-59.6,"attempt_rate":0.901,"num_incorrect":740,"total_questions":1000,"num_not_attempted":99,"hallucination_rate":0.8644859813084113,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.32,"num_correct":32,"omniscience":-35,"attempt_rate":1,"num_incorrect":67,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9852941176470589,"num_partial_answer":1}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-74,"attempt_rate":0.94,"num_incorrect":42,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9333333333333333,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":0.98,"num_incorrect":41,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9534883720930233,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-66,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9761904761904762,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-80,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9565217391304348,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.918918918918919,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-68,"attempt_rate":0.98,"num_incorrect":83,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9764705882352941,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-10,"attempt_rate":1,"num_incorrect":27,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9642857142857143,"num_partial_answer":1}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-92,"attempt_rate":1,"num_incorrect":24,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-36,"attempt_rate":0.96,"num_incorrect":16,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8888888888888888,"num_partial_answer":1}},"total":{"accuracy":0.21,"num_correct":210,"omniscience":-55.5,"attempt_rate":0.988,"num_incorrect":765,"total_questions":1000,"num_not_attempted":12,"hallucination_rate":0.9683544303797469,"num_partial_answer":13},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.96,"num_incorrect":37,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.925,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.205,"num_correct":41,"omniscience":-58.5,"attempt_rate":0.995,"num_incorrect":158,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9937106918238994,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.2727272727272727,"num_correct":30,"omniscience":-42.72727272727273,"attempt_rate":0.990909090909091,"num_incorrect":77,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9625,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.16666666666666666,"num_correct":15,"omniscience":-65.55555555555556,"attempt_rate":1,"num_incorrect":74,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9866666666666667,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-62.9,"attempt_rate":0.973,"num_incorrect":796,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9555822328931572,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.221,"num_correct":221,"omniscience":-51.4,"attempt_rate":0.977,"num_incorrect":735,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.9435173299101413,"num_partial_answer":21}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":80,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-11","representative_query_token_counts":null,"scicode":0.307,"short_name":"Qwen3 Next 80B A3B","show_host_model_evals":false,"size_class":"Medium","slug":"qwen3-next-80b-a3b-instruct","tau2":0.216,"terminalbench_hard":0.071,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"cddcf6b8-aa4c-4319-b5a1-4c0dc5b52898","slug":"hyperbolic_qwen3-next-80b-a3b-instruct","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"2698f6c6-e436-47ce-a583-dbc25596c571","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Next-80B-A3B-Instruct","function_calling":false,"cache_write_price":null,"host_model_string":"Hyperbolic_Qwen3 Next 80B A3B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"524144b0-28db-49d1-a78f-5db8d919868d","slug":"novita_qwen3-next-80b-a3b-instruct","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"2698f6c6-e436-47ce-a583-dbc25596c571","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-next-80b-a3b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 Next 80B A3B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.4875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.05,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5cd85f6e-eeed-4967-9029-81ad3774d7af","slug":"parasail_qwen3-next-80b-a3b-instruct","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"2698f6c6-e436-47ce-a583-dbc25596c571","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"parasail-qwen-3-next-80b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_Qwen3 Next 80B A3B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":1.1,"price_1m_blended_3_to_1":0.4625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.16,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c2006757-28df-4610-9d3a-0f0bca978e76","slug":"alibaba-cloud_qwen3-next-80b-a3b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"2698f6c6-e436-47ce-a583-dbc25596c571","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-next-80b-a3b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Next 80B A3B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ff4570c8-ad3a-403a-b5fe-22509de6f9c1","slug":"google_qwen3-next-80b-a3b-instruct_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"2698f6c6-e436-47ce-a583-dbc25596c571","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-next-80b-a3b-instruct-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_Qwen3 Next 80B A3B_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":0.15,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.4125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.42,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"84cd6e77-c810-48e9-8419-3ef0b0864539","slug":"deepinfra_qwen3-next-80b-a3b-instruct","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"2698f6c6-e436-47ce-a583-dbc25596c571","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Next-80B-A3B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 Next 80B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.09,"price_1m_output_tokens":1.1,"price_1m_blended_3_to_1":0.3425,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.92,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b216fdfb-2a7e-42db-b613-a8b1fdc017d0","slug":"gmi_qwen3-next-80b-a3b-instruct","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"2698f6c6-e436-47ce-a583-dbc25596c571","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-Next-80B-A3B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Qwen3 Next 80B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.06,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.195,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":5.13,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-next-80b-a3b-instruct","hosts_url":"/models/qwen3-next-80b-a3b-instruct/providers","name_and_creator_label":"Qwen3 Next 80B A3B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.74,"agentic_index":null,"coding_index":12.55,"commercial_allowed":true,"computed_performance_host_model_id":"43ea3c52-0c54-4d2a-8a4c-abe580698bde","context_window_tokens":65536,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":822,"estimated_intelligence_index":20.834076780566665,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.726,"hle":0.073,"humaneval":null,"id":"b97ef678-2d31-4375-9416-67ea97f87204","ifbench":0.434,"inference_parameters_active_billions":3,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.679,"math_500":null,"math_index":74,"mmlu_pro":0.792,"mmmu_pro":0.602,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking","multilingual_aa":null,"name":"Qwen3 Omni 30B A3B (Reasoning)","is_open_weights":true,"omniscience":-61.767,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.082,"num_correct":82,"omniscience":-74.4,"attempt_rate":0.915,"num_incorrect":826,"total_questions":1000,"num_not_attempted":85,"hallucination_rate":0.8997821350762527,"num_partial_answer":7}},"total":{"accuracy":0.14066666666666666,"num_correct":844,"omniscience":-61.766666666666666,"attempt_rate":0.9161666666666667,"num_incorrect":4550,"total_questions":6000,"num_not_attempted":503,"hallucination_rate":0.8824670287044221,"num_partial_answer":103},"Health":{"total":{"accuracy":0.107,"num_correct":107,"omniscience":-64.3,"attempt_rate":0.889,"num_incorrect":750,"total_questions":1000,"num_not_attempted":111,"hallucination_rate":0.8398656215005599,"num_partial_answer":32}},"Business":{"total":{"accuracy":0.133,"num_correct":133,"omniscience":-62.8,"attempt_rate":0.907,"num_incorrect":761,"total_questions":1000,"num_not_attempted":93,"hallucination_rate":0.8777393310265282,"num_partial_answer":13}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-53,"attempt_rate":0.98,"num_incorrect":75,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9615384615384616,"num_partial_answer":1}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-84,"attempt_rate":0.96,"num_incorrect":45,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9574468085106383,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":0.98,"num_incorrect":41,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9534883720930233,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-46,"attempt_rate":0.96,"num_incorrect":35,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9210526315789473,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-68,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-52,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9487179487179487,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-68,"attempt_rate":0.99,"num_incorrect":83,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9764705882352941,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-8,"attempt_rate":0.96,"num_incorrect":24,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":18,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"total":{"accuracy":0.174,"num_correct":174,"omniscience":-61.3,"attempt_rate":0.979,"num_incorrect":787,"total_questions":1000,"num_not_attempted":21,"hallucination_rate":0.9527845036319612,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-66,"attempt_rate":0.96,"num_incorrect":40,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9302325581395349,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.1,"num_correct":20,"omniscience":-74,"attempt_rate":0.965,"num_incorrect":168,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9333333333333333,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-48.18181818181818,"attempt_rate":0.990909090909091,"num_incorrect":80,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.963855421686747,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.14444444444444443,"num_correct":13,"omniscience":-71.11111111111111,"attempt_rate":1,"num_incorrect":77,"total_questions":90,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.138,"num_correct":138,"omniscience":-62.9,"attempt_rate":0.915,"num_incorrect":767,"total_questions":1000,"num_not_attempted":85,"hallucination_rate":0.8897911832946636,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.21,"num_correct":210,"omniscience":-44.9,"attempt_rate":0.892,"num_incorrect":659,"total_questions":1000,"num_not_attempted":108,"hallucination_rate":0.8341772151898734,"num_partial_answer":23}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":16384,"parameters":35.3,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-09-22","representative_query_token_counts":null,"scicode":0.306,"short_name":"Qwen3 Omni 30B A3B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-omni-30b-a3b-reasoning","tau2":0.213,"terminalbench_hard":0.035,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"43ea3c52-0c54-4d2a-8a4c-abe580698bde","slug":"alibaba-cloud_qwen3-omni-30b-a3b-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"b97ef678-2d31-4375-9416-67ea97f87204","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-omni-flash","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Omni 30B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":0.97,"price_1m_blended_3_to_1":0.43,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":2.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-omni-30b-a3b-reasoning","hosts_url":"/models/qwen3-omni-30b-a3b-reasoning/providers","name_and_creator_label":"Qwen3 Omni 30B A3B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.523,"agentic_index":null,"coding_index":7.16,"commercial_allowed":true,"computed_performance_host_model_id":"ea46c1ca-cdf7-4eda-bbb6-a839f26419b2","context_window_tokens":65536,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":778,"estimated_intelligence_index":16.06045361124703,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.62,"hle":0.051,"humaneval":null,"id":"0b226b82-1462-4860-bf1a-f8aed7024791","ifbench":0.312,"inference_parameters_active_billions":3,"input_modality_image":true,"input_modality_speech":true,"input_modality_text":true,"input_modality_video":true,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.422,"math_500":null,"math_index":52.33,"mmlu_pro":0.725,"mmmu_pro":0.555,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct","multilingual_aa":null,"name":"Qwen3 Omni 30B A3B Instruct","is_open_weights":true,"omniscience":-69.75,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.082,"num_correct":82,"omniscience":-81.3,"attempt_rate":0.984,"num_incorrect":895,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.9749455337690632,"num_partial_answer":7}},"total":{"accuracy":0.13833333333333334,"num_correct":830,"omniscience":-69.75,"attempt_rate":0.992,"num_incorrect":5015,"total_questions":6000,"num_not_attempted":48,"hallucination_rate":0.9700193423597679,"num_partial_answer":107},"Health":{"total":{"accuracy":0.129,"num_correct":129,"omniscience":-71.2,"attempt_rate":1,"num_incorrect":841,"total_questions":1000,"num_not_attempted":0,"hallucination_rate":0.965556831228473,"num_partial_answer":30}},"Business":{"total":{"accuracy":0.124,"num_correct":124,"omniscience":-72.6,"attempt_rate":0.986,"num_incorrect":850,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.9703196347031964,"num_partial_answer":12}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-42,"attempt_rate":1,"num_incorrect":71,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-84,"attempt_rate":1,"num_incorrect":46,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-86,"attempt_rate":1,"num_incorrect":46,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9787234042553191,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-74,"attempt_rate":1,"num_incorrect":43,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9772727272727273,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.918918918918919,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-63,"attempt_rate":1,"num_incorrect":80,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.963855421686747,"num_partial_answer":3}},"Rust":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":1,"num_incorrect":32,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-44,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.188,"num_correct":188,"omniscience":-60.1,"attempt_rate":0.997,"num_incorrect":789,"total_questions":1000,"num_not_attempted":3,"hallucination_rate":0.9716748768472906,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-74,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9333333333333333,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.145,"num_correct":29,"omniscience":-70,"attempt_rate":1,"num_incorrect":169,"total_questions":200,"num_not_attempted":0,"hallucination_rate":0.9883040935672515,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.2727272727272727,"num_correct":30,"omniscience":-41.81818181818182,"attempt_rate":0.990909090909091,"num_incorrect":76,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.95,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.13333333333333333,"num_correct":12,"omniscience":-71.11111111111111,"attempt_rate":1,"num_incorrect":76,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.131,"num_correct":131,"omniscience":-72,"attempt_rate":0.993,"num_incorrect":851,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.9792865362485615,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.176,"num_correct":176,"omniscience":-61.3,"attempt_rate":0.992,"num_incorrect":789,"total_questions":1000,"num_not_attempted":8,"hallucination_rate":0.9575242718446602,"num_partial_answer":27}}},"output_modality_image":false,"output_modality_speech":true,"output_modality_text":true,"output_modality_video":false,"output_tokens":16384,"parameters":35.3,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-22","representative_query_token_counts":null,"scicode":0.186,"short_name":"Qwen3 Omni 30B A3B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-omni-30b-a3b-instruct","tau2":0.164,"terminalbench_hard":0.014,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"ea46c1ca-cdf7-4eda-bbb6-a839f26419b2","slug":"alibaba-cloud_qwen3-omni-30b-a3b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"0b226b82-1462-4860-bf1a-f8aed7024791","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-omni-flash","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 Omni 30B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":0.97,"price_1m_blended_3_to_1":0.43,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":2.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-omni-30b-a3b-instruct","hosts_url":"/models/qwen3-omni-30b-a3b-instruct/providers","name_and_creator_label":"Qwen3 Omni 30B A3B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.883,"agentic_index":27.25,"coding_index":20.4,"commercial_allowed":true,"computed_performance_host_model_id":"a98f34a2-ad78-4d3f-8f8f-c5d956bede7a","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":771,"estimated_intelligence_index":30.48180514264173,"model_family_slug":"qwen3","frontier_model":false,"gdpval":776.2307888415316,"gpqa":0.772,"hle":0.101,"humaneval":null,"id":"a803d3d0-d22e-49a0-ac2c-b9c6f1141065","ifbench":0.565,"inference_parameters_active_billions":22,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.45,"intelligence_index_token_counts":{"input_tokens":98301976,"answer_tokens":2962553,"output_tokens":46537481,"reasoning_tokens":43574927},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.587,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.646,"math_500":null,"math_index":88.33,"mmlu_pro":0.836,"mmmu_pro":0.687,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct","multilingual_aa":null,"name":"Qwen3 VL 235B A22B (Reasoning)","is_open_weights":true,"omniscience":-46.567,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.089,"num_correct":89,"omniscience":-59.1,"attempt_rate":0.776,"num_incorrect":680,"total_questions":1000,"num_not_attempted":224,"hallucination_rate":0.7464324917672887,"num_partial_answer":7}},"total":{"accuracy":0.2045,"num_correct":1227,"omniscience":-46.56666666666667,"attempt_rate":0.8931666666666667,"num_incorrect":4021,"total_questions":6000,"num_not_attempted":641,"hallucination_rate":0.8424470982610518,"num_partial_answer":111},"Health":{"total":{"accuracy":0.201,"num_correct":201,"omniscience":-51.4,"attempt_rate":0.946,"num_incorrect":715,"total_questions":1000,"num_not_attempted":54,"hallucination_rate":0.8948685857321652,"num_partial_answer":30}},"Business":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-46.6,"attempt_rate":0.816,"num_incorrect":633,"total_questions":1000,"num_not_attempted":184,"hallucination_rate":0.7599039615846338,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.42,"num_correct":42,"omniscience":-14,"attempt_rate":0.99,"num_incorrect":56,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9655172413793104,"num_partial_answer":1}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-70,"attempt_rate":0.94,"num_incorrect":41,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9318181818181818,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-46,"attempt_rate":0.96,"num_incorrect":35,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9210526315789473,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-48,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.918918918918919,"num_partial_answer":3}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":0.96,"num_incorrect":33,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9166666666666666,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-68,"attempt_rate":0.98,"num_incorrect":83,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9764705882352941,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":30,"attempt_rate":0.96,"num_incorrect":15,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.75,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-60,"attempt_rate":1,"num_incorrect":20,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-20,"attempt_rate":1,"num_incorrect":15,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.272,"num_correct":272,"omniscience":-41.6,"attempt_rate":0.98,"num_incorrect":688,"total_questions":1000,"num_not_attempted":20,"hallucination_rate":0.945054945054945,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-48,"attempt_rate":0.94,"num_incorrect":35,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8974358974358975,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.25,"num_correct":50,"omniscience":-45.5,"attempt_rate":0.975,"num_incorrect":141,"total_questions":200,"num_not_attempted":5,"hallucination_rate":0.94,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.2636363636363636,"num_correct":29,"omniscience":-43.63636363636363,"attempt_rate":1,"num_incorrect":77,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9506172839506173,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.24444444444444444,"num_correct":22,"omniscience":-48.888888888888886,"attempt_rate":1,"num_incorrect":66,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9705882352941176,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.194,"num_correct":194,"omniscience":-49.6,"attempt_rate":0.892,"num_incorrect":690,"total_questions":1000,"num_not_attempted":108,"hallucination_rate":0.8560794044665012,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.304,"num_correct":304,"omniscience":-31.1,"attempt_rate":0.949,"num_incorrect":615,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.8836206896551724,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":235,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-09-23","representative_query_token_counts":null,"scicode":0.399,"short_name":"Qwen3 VL 235B A22B","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-vl-235b-a22b-reasoning","tau2":0.541,"terminalbench_hard":0.106,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"a98f34a2-ad78-4d3f-8f8f-c5d956bede7a","slug":"alibaba-cloud_qwen3-vl-235b-a22b-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"a803d3d0-d22e-49a0-ac2c-b9c6f1141065","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-235b-a22b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 235B A22B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":8.4,"price_1m_blended_3_to_1":2.625,"price_per_1k_1mp_images":0.716,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.38,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"842290b2-c948-4d3a-b024-606129d6a0e7","slug":"fireworks_qwen3-vl-235b-a22b-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"a803d3d0-d22e-49a0-ac2c-b9c6f1141065","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-vl-235b-a22b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 VL 235B A22B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"268f6278-c03f-42f9-b972-ddbe0edfb85a","slug":"novita_qwen3-vl-235b-a22b-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"a803d3d0-d22e-49a0-ac2c-b9c6f1141065","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-vl-235b-a22b-thinking","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_Qwen3 VL 235B A22B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.98,"price_1m_output_tokens":3.95,"price_1m_blended_3_to_1":1.7225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.58,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-235b-a22b-reasoning","hosts_url":"/models/qwen3-vl-235b-a22b-reasoning/providers","name_and_creator_label":"Qwen3 VL 235B A22B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.707,"agentic_index":19.91,"coding_index":16.22,"commercial_allowed":true,"computed_performance_host_model_id":"ed54618f-7450-4fe0-8d33-b74a5b1a22e6","context_window_tokens":262144,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":768,"estimated_intelligence_index":23.262205287774076,"model_family_slug":"qwen3","frontier_model":false,"gdpval":732.6777860302348,"gpqa":0.712,"hle":0.063,"humaneval":null,"id":"d58cf573-1bd3-4d1f-9182-5482a460f570","ifbench":0.427,"inference_parameters_active_billions":22,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":20.71,"intelligence_index_token_counts":{"input_tokens":343196508,"answer_tokens":10327101,"output_tokens":10327101,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.317,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.594,"math_500":null,"math_index":70.67,"mmlu_pro":0.823,"mmmu_pro":0.676,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct","multilingual_aa":null,"name":"Qwen3 VL 235B A22B Instruct","is_open_weights":true,"omniscience":-53.867,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.101,"num_correct":101,"omniscience":-68.4,"attempt_rate":0.899,"num_incorrect":785,"total_questions":1000,"num_not_attempted":101,"hallucination_rate":0.8731924360400445,"num_partial_answer":13}},"total":{"accuracy":0.19216666666666668,"num_correct":1153,"omniscience":-53.86666666666667,"attempt_rate":0.9483333333333334,"num_incorrect":4385,"total_questions":6000,"num_not_attempted":310,"hallucination_rate":0.904683309263462,"num_partial_answer":152},"Health":{"total":{"accuracy":0.162,"num_correct":162,"omniscience":-60.9,"attempt_rate":0.981,"num_incorrect":771,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.9200477326968973,"num_partial_answer":48}},"Business":{"total":{"accuracy":0.16,"num_correct":160,"omniscience":-56.2,"attempt_rate":0.904,"num_incorrect":722,"total_questions":1000,"num_not_attempted":96,"hallucination_rate":0.8595238095238096,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.44,"num_correct":44,"omniscience":-11,"attempt_rate":0.99,"num_incorrect":55,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9821428571428571,"num_partial_answer":0}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-76,"attempt_rate":0.94,"num_incorrect":42,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9130434782608695,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":33,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8461538461538461,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-38,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9714285714285714,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-54,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-30,"attempt_rate":1,"num_incorrect":32,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9696969696969697,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-57,"attempt_rate":0.99,"num_incorrect":78,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9873417721518988,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":6,"attempt_rate":0.98,"num_incorrect":21,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8076923076923077,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-28,"attempt_rate":1,"num_incorrect":15,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8823529411764706,"num_partial_answer":2}},"total":{"accuracy":0.272,"num_correct":272,"omniscience":-41,"attempt_rate":0.977,"num_incorrect":682,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.9368131868131868,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-48,"attempt_rate":0.92,"num_incorrect":34,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.85,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-51.5,"attempt_rate":0.965,"num_incorrect":147,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9423076923076923,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-29.09090909090909,"attempt_rate":0.990909090909091,"num_incorrect":68,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.918918918918919,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-46.666666666666664,"attempt_rate":1,"num_incorrect":65,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9701492537313433,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.208,"num_correct":208,"omniscience":-53.5,"attempt_rate":0.964,"num_incorrect":743,"total_questions":1000,"num_not_attempted":36,"hallucination_rate":0.9381313131313131,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.25,"num_correct":250,"omniscience":-43.2,"attempt_rate":0.965,"num_incorrect":682,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.9093333333333333,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":235,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-09-23","representative_query_token_counts":null,"scicode":0.359,"short_name":"Qwen3 VL 235B A22B","show_host_model_evals":false,"size_class":"Large","slug":"qwen3-vl-235b-a22b-instruct","tau2":0.351,"terminalbench_hard":0.064,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"977752a7-2cf4-4f2c-9b91-c57aa76f4f64","slug":"deepinfra_qwen3-vl-235b-a22b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"d58cf573-1bd3-4d1f-9182-5482a460f570","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-VL-235B-A22B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 VL 235B A22B Instruct_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f931b8bc-3f83-4a76-a549-7a6cd59b5a23","slug":"novita_qwen3-vl-235b-a22b-instruct","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"d58cf573-1bd3-4d1f-9182-5482a460f570","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-vl-235b-a22b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 VL 235B A22B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.6,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ed54618f-7450-4fe0-8d33-b74a5b1a22e6","slug":"alibaba-cloud_qwen3-vl-235b-a22b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"d58cf573-1bd3-4d1f-9182-5482a460f570","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-235b-a22b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 235B A22B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.8,"price_1m_blended_3_to_1":1.225,"price_per_1k_1mp_images":0.716,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.82,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b3697112-19ec-4985-a8ea-7a9a50fbec72","slug":"parasail_qwen3-vl-235b-a22b-instruct_fp8","deleted":false,"host_id":"2283372d-e673-401f-ae2c-d5d1c7b5656a","gpqa_16x":null,"model_id":"d58cf573-1bd3-4d1f-9182-5482a460f570","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-VL-235B-A22B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Parasail_Qwen3 VL 235B A22B Instruct_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.5,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"30b01c08-1c76-4639-88f7-dc8f26c4f025","slug":"eigenai_qwen3-vl-235b-a22b-instruct","deleted":false,"host_id":"800900c0-481e-4a3d-986d-ac941aea56c3","gpqa_16x":null,"model_id":"d58cf573-1bd3-4d1f-9182-5482a460f570","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-235b-vl","function_calling":true,"cache_write_price":null,"host_model_string":"Eigen AI_Qwen3 VL 235B A22B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"832d2b0d-2fad-481d-9550-2c4572591514","slug":"fireworks_qwen3-vl-235b-a22b-instruct","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"d58cf573-1bd3-4d1f-9182-5482a460f570","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-vl-235b-a22b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 VL 235B A22B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.22,"price_1m_output_tokens":0.88,"price_1m_blended_3_to_1":0.385,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2.6,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ca942842-c532-498b-9e1d-d81b980152d5","slug":"gmi_qwen3-vl-235b-a22b-instruct_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"d58cf573-1bd3-4d1f-9182-5482a460f570","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-VL-235B-A22B-Instruct-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_Qwen3 VL 235B A22B Instruct_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.12,"price_1m_output_tokens":0.56,"price_1m_blended_3_to_1":0.23,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":4.35,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-235b-a22b-instruct","hosts_url":"/models/qwen3-vl-235b-a22b-instruct/providers","name_and_creator_label":"Qwen3 VL 235B A22B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.823,"agentic_index":15.08,"coding_index":12.92,"commercial_allowed":true,"computed_performance_host_model_id":"ab004d1a-0dce-4d79-bce4-d2d3b07bd169","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":706,"estimated_intelligence_index":23.975679272564786,"model_family_slug":"qwen3","frontier_model":false,"gdpval":744.1082108825678,"gpqa":0.72,"hle":0.087,"humaneval":null,"id":"ce3d286e-093d-413d-a81a-0270309f039e","ifbench":0.451,"inference_parameters_active_billions":3,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":19.61,"intelligence_index_token_counts":{"input_tokens":282915245,"answer_tokens":5137786,"output_tokens":46455129,"reasoning_tokens":41317343},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.407,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.697,"math_500":null,"math_index":82.33,"mmlu_pro":0.807,"mmmu_pro":0.618,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Thinking","multilingual_aa":null,"name":"Qwen3 VL 30B A3B (Reasoning)","is_open_weights":true,"omniscience":-59.133,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.076,"num_correct":76,"omniscience":-71,"attempt_rate":0.866,"num_incorrect":786,"total_questions":1000,"num_not_attempted":134,"hallucination_rate":0.8506493506493507,"num_partial_answer":4}},"total":{"accuracy":0.15933333333333333,"num_correct":956,"omniscience":-59.13333333333333,"attempt_rate":0.928,"num_incorrect":4504,"total_questions":6000,"num_not_attempted":432,"hallucination_rate":0.8929421094369548,"num_partial_answer":108},"Health":{"total":{"accuracy":0.166,"num_correct":166,"omniscience":-60.6,"attempt_rate":0.973,"num_incorrect":772,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9256594724220624,"num_partial_answer":35}},"Business":{"total":{"accuracy":0.135,"num_correct":135,"omniscience":-58.3,"attempt_rate":0.866,"num_incorrect":718,"total_questions":1000,"num_not_attempted":134,"hallucination_rate":0.8300578034682081,"num_partial_answer":13}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-42,"attempt_rate":0.99,"num_incorrect":70,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9722222222222222,"num_partial_answer":1}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-78,"attempt_rate":0.94,"num_incorrect":43,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9347826086956522,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-56,"attempt_rate":0.96,"num_incorrect":38,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.95,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9230769230769231,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-76,"attempt_rate":0.98,"num_incorrect":43,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9555555555555556,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-36,"attempt_rate":0.98,"num_incorrect":33,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9428571428571428,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.15,"num_correct":15,"omniscience":-68,"attempt_rate":1,"num_incorrect":83,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9764705882352941,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-6,"attempt_rate":0.98,"num_incorrect":24,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8275862068965517,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-76,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-56,"attempt_rate":1,"num_incorrect":19,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.95,"num_partial_answer":1}},"total":{"accuracy":0.18,"num_correct":180,"omniscience":-58.4,"attempt_rate":0.964,"num_incorrect":764,"total_questions":1000,"num_not_attempted":36,"hallucination_rate":0.9317073170731708,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-60,"attempt_rate":0.86,"num_incorrect":36,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8181818181818182,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.115,"num_correct":23,"omniscience":-69,"attempt_rate":0.93,"num_incorrect":161,"total_questions":200,"num_not_attempted":14,"hallucination_rate":0.9096045197740112,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.19090909090909092,"num_correct":21,"omniscience":-54.54545454545455,"attempt_rate":0.9818181818181818,"num_incorrect":81,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9101123595505618,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.14444444444444443,"num_correct":13,"omniscience":-68.88888888888889,"attempt_rate":0.9888888888888889,"num_incorrect":75,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.974025974025974,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.157,"num_correct":157,"omniscience":-61.8,"attempt_rate":0.94,"num_incorrect":775,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.9193357058125742,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.242,"num_correct":242,"omniscience":-44.7,"attempt_rate":0.959,"num_incorrect":689,"total_questions":1000,"num_not_attempted":41,"hallucination_rate":0.9089709762532981,"num_partial_answer":28}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":30,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-10-03","representative_query_token_counts":null,"scicode":0.288,"short_name":"Qwen3 VL 30B A3B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-vl-30b-a3b-reasoning","tau2":0.199,"terminalbench_hard":0.05,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"ab004d1a-0dce-4d79-bce4-d2d3b07bd169","slug":"alibaba-cloud_qwen3-vl-30b-a3b-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"ce3d286e-093d-413d-a81a-0270309f039e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-30b-a3b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 30B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":2.4,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":0.204,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"869fa410-e3f5-43a4-877b-1f46d447fab2","slug":"fireworks_qwen3-vl-30b-a3b-reasoning","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"ce3d286e-093d-413d-a81a-0270309f039e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-vl-30b-a3b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 VL 30B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.5,"price_per_1k_1mp_images":0.51,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"362c192d-d62d-4021-978d-afd2e6c66ce8","slug":"novita_qwen3-vl-30b-a3b-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"ce3d286e-093d-413d-a81a-0270309f039e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-vl-30b-a3b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 VL 30B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":1,"price_1m_blended_3_to_1":0.4,"price_per_1k_1mp_images":0.204,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.5,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-30b-a3b-reasoning","hosts_url":"/models/qwen3-vl-30b-a3b-reasoning/providers","name_and_creator_label":"Qwen3 VL 30B A3B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.723,"agentic_index":null,"coding_index":14.04,"commercial_allowed":true,"computed_performance_host_model_id":"6f293602-3d10-4207-955e-5484dbcf3fe6","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":710,"estimated_intelligence_index":20.00625456480055,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.695,"hle":0.064,"humaneval":null,"id":"51d0b717-953d-4b44-af61-406c6b7dff39","ifbench":0.331,"inference_parameters_active_billions":3,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.237,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.476,"math_500":null,"math_index":72.33,"mmlu_pro":0.764,"mmmu_pro":0.621,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Instruct","multilingual_aa":null,"name":"Qwen3 VL 30B A3B Instruct","is_open_weights":true,"omniscience":-64.033,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.084,"num_correct":84,"omniscience":-75.6,"attempt_rate":0.936,"num_incorrect":840,"total_questions":1000,"num_not_attempted":64,"hallucination_rate":0.9170305676855895,"num_partial_answer":12}},"total":{"accuracy":0.1475,"num_correct":885,"omniscience":-64.03333333333333,"attempt_rate":0.9583333333333334,"num_incorrect":4727,"total_questions":6000,"num_not_attempted":250,"hallucination_rate":0.9241446725317694,"num_partial_answer":138},"Health":{"total":{"accuracy":0.136,"num_correct":136,"omniscience":-67.2,"attempt_rate":0.992,"num_incorrect":808,"total_questions":1000,"num_not_attempted":8,"hallucination_rate":0.9351851851851852,"num_partial_answer":48}},"Business":{"total":{"accuracy":0.127,"num_correct":127,"omniscience":-62.8,"attempt_rate":0.902,"num_incorrect":755,"total_questions":1000,"num_not_attempted":98,"hallucination_rate":0.8648339060710195,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.3,"num_correct":30,"omniscience":-39,"attempt_rate":1,"num_incorrect":69,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9857142857142858,"num_partial_answer":1}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-72,"attempt_rate":0.92,"num_incorrect":41,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9111111111111111,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":0.98,"num_incorrect":39,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.975,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-52,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9487179487179487,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-74,"attempt_rate":0.98,"num_incorrect":43,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9772727272727273,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.918918918918919,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-65,"attempt_rate":0.99,"num_incorrect":82,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9879518072289156,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":2,"attempt_rate":1,"num_incorrect":23,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8846153846153846,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":1,"num_incorrect":14,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.875,"num_partial_answer":2}},"total":{"accuracy":0.2,"num_correct":200,"omniscience":-56.7,"attempt_rate":0.985,"num_incorrect":767,"total_questions":1000,"num_not_attempted":15,"hallucination_rate":0.95875,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9534883720930233,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.13,"num_correct":26,"omniscience":-71,"attempt_rate":0.97,"num_incorrect":168,"total_questions":200,"num_not_attempted":6,"hallucination_rate":0.9655172413793104,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.21818181818181817,"num_correct":24,"omniscience":-53.63636363636363,"attempt_rate":1,"num_incorrect":83,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9651162790697675,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.15555555555555556,"num_correct":14,"omniscience":-64.44444444444444,"attempt_rate":0.9777777777777777,"num_incorrect":72,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9473684210526315,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.14,"num_correct":140,"omniscience":-68.5,"attempt_rate":0.975,"num_incorrect":825,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.9593023255813954,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.198,"num_correct":198,"omniscience":-53.4,"attempt_rate":0.96,"num_incorrect":732,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.912718204488778,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":30,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-10-03","representative_query_token_counts":null,"scicode":0.308,"short_name":"Qwen3 VL 30B A3B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-vl-30b-a3b-instruct","tau2":0.19,"terminalbench_hard":0.057,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"4a187632-b182-4a24-8979-67745dc84926","slug":"fireworks_qwen3-vl-30b-a3b-instruct","deleted":false,"host_id":"9b21df65-f08d-46d8-93fd-7f4654e12237","gpqa_16x":null,"model_id":"51d0b717-953d-4b44-af61-406c6b7dff39","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"accounts/fireworks/models/qwen3-vl-30b-a3b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Fireworks_Qwen3 VL 30B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":0.5,"price_1m_blended_3_to_1":0.5,"price_per_1k_1mp_images":0.51,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":2,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"15d0e063-e3f0-4ecf-b4af-48e2e887911d","slug":"novita_qwen3-vl-30b-a3b-instruct","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"51d0b717-953d-4b44-af61-406c6b7dff39","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen/qwen3-vl-30b-a3b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_Qwen3 VL 30B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.7,"price_1m_blended_3_to_1":0.325,"price_per_1k_1mp_images":0.204,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.08,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"65df488f-4c4c-4c03-a881-f01c18e88a19","slug":"deepinfra_qwen3-vl-30b-a3b-instruct_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"51d0b717-953d-4b44-af61-406c6b7dff39","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-VL-30B-A3B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_Qwen3 VL 30B A3B Instruct_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.15,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.2625,"price_per_1k_1mp_images":0.2958,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":3.81,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"6f293602-3d10-4207-955e-5484dbcf3fe6","slug":"alibaba-cloud_qwen3-vl-30b-a3b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"51d0b717-953d-4b44-af61-406c6b7dff39","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-30b-a3b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 30B A3B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.35,"price_per_1k_1mp_images":0.204,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.86,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-30b-a3b-instruct","hosts_url":"/models/qwen3-vl-30b-a3b-instruct/providers","name_and_creator_label":"Qwen3 VL 30B A3B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.847,"agentic_index":null,"coding_index":14.22,"commercial_allowed":true,"computed_performance_host_model_id":"3e8b4673-d6c4-4006-b89c-d211fac46264","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":742,"estimated_intelligence_index":28.573221067997675,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.733,"hle":0.096,"humaneval":null,"id":"d370fcbf-c4a1-41a2-abc4-d204fcc3fcbf","ifbench":0.594,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.553,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.738,"math_500":null,"math_index":84.67,"mmlu_pro":0.818,"mmmu_pro":0.634,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-32B-Thinking","multilingual_aa":null,"name":"Qwen3 VL 32B (Reasoning)","is_open_weights":true,"omniscience":-53.233,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.078,"num_correct":78,"omniscience":-61.3,"attempt_rate":0.776,"num_incorrect":691,"total_questions":1000,"num_not_attempted":224,"hallucination_rate":0.7494577006507592,"num_partial_answer":7}},"total":{"accuracy":0.16366666666666665,"num_correct":982,"omniscience":-53.233333333333334,"attempt_rate":0.8763333333333333,"num_incorrect":4176,"total_questions":6000,"num_not_attempted":742,"hallucination_rate":0.8322040653646872,"num_partial_answer":100},"Health":{"total":{"accuracy":0.166,"num_correct":166,"omniscience":-58,"attempt_rate":0.94,"num_incorrect":746,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.894484412470024,"num_partial_answer":28}},"Business":{"total":{"accuracy":0.147,"num_correct":147,"omniscience":-48.5,"attempt_rate":0.791,"num_incorrect":632,"total_questions":1000,"num_not_attempted":209,"hallucination_rate":0.7409144196951934,"num_partial_answer":12}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.21,"num_correct":21,"omniscience":-57,"attempt_rate":0.99,"num_incorrect":78,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9873417721518988,"num_partial_answer":0}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-80,"attempt_rate":0.88,"num_incorrect":42,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.875,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-60,"attempt_rate":0.94,"num_incorrect":38,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9047619047619048,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.94,"num_incorrect":36,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9230769230769231,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-62,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975609756097561,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-42,"attempt_rate":0.94,"num_incorrect":33,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.868421052631579,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-70,"attempt_rate":0.96,"num_incorrect":83,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9540229885057471,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-6,"attempt_rate":0.96,"num_incorrect":23,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.7666666666666667,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-92,"attempt_rate":0.92,"num_incorrect":23,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.92,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-24,"attempt_rate":0.92,"num_incorrect":14,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8235294117647058,"num_partial_answer":1}},"total":{"accuracy":0.182,"num_correct":182,"omniscience":-56.1,"attempt_rate":0.943,"num_incorrect":743,"total_questions":1000,"num_not_attempted":57,"hallucination_rate":0.9083129584352079,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-70,"attempt_rate":0.84,"num_incorrect":38,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.8085106382978723,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.17,"num_correct":34,"omniscience":-57,"attempt_rate":0.925,"num_incorrect":148,"total_questions":200,"num_not_attempted":15,"hallucination_rate":0.891566265060241,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.22727272727272727,"num_correct":25,"omniscience":-48.18181818181818,"attempt_rate":0.9545454545454546,"num_incorrect":78,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.9176470588235294,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.17777777777777778,"num_correct":16,"omniscience":-58.888888888888886,"attempt_rate":0.9666666666666667,"num_incorrect":69,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9324324324324325,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-55.4,"attempt_rate":0.879,"num_incorrect":713,"total_questions":1000,"num_not_attempted":121,"hallucination_rate":0.8478002378121284,"num_partial_answer":7}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.25,"num_correct":250,"omniscience":-40.1,"attempt_rate":0.929,"num_incorrect":651,"total_questions":1000,"num_not_attempted":71,"hallucination_rate":0.868,"num_partial_answer":28}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":33.4,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-10-21","representative_query_token_counts":null,"scicode":0.285,"short_name":"Qwen3 VL 32B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-vl-32b-reasoning","tau2":0.456,"terminalbench_hard":0.071,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"3e8b4673-d6c4-4006-b89c-d211fac46264","slug":"alibaba-cloud_qwen3-vl-32b-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"d370fcbf-c4a1-41a2-abc4-d204fcc3fcbf","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-32b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 32B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":8.4,"price_1m_blended_3_to_1":2.625,"price_per_1k_1mp_images":0.716,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.38,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-32b-reasoning","hosts_url":"/models/qwen3-vl-32b-reasoning/providers","name_and_creator_label":"Qwen3 VL 32B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.683,"agentic_index":null,"coding_index":15.23,"commercial_allowed":true,"computed_performance_host_model_id":"8894b74b-f7fe-4213-ab42-ce478e8210a8","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":708,"estimated_intelligence_index":21.387891687554983,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.671,"hle":0.063,"humaneval":null,"id":"6da314d3-a984-4734-8f31-47dd32fb4699","ifbench":0.392,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.313,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.514,"math_500":null,"math_index":68.33,"mmlu_pro":0.791,"mmmu_pro":0.643,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-32B-Instruct","multilingual_aa":null,"name":"Qwen3 VL 32B Instruct","is_open_weights":true,"omniscience":-63.9,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.077,"num_correct":77,"omniscience":-69.9,"attempt_rate":0.861,"num_incorrect":776,"total_questions":1000,"num_not_attempted":139,"hallucination_rate":0.8407367280606717,"num_partial_answer":8}},"total":{"accuracy":0.1405,"num_correct":843,"omniscience":-63.9,"attempt_rate":0.9413333333333334,"num_incorrect":4677,"total_questions":6000,"num_not_attempted":352,"hallucination_rate":0.9069226294357184,"num_partial_answer":128},"Health":{"total":{"accuracy":0.141,"num_correct":141,"omniscience":-66.6,"attempt_rate":0.986,"num_incorrect":807,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.9394644935972061,"num_partial_answer":38}},"Business":{"total":{"accuracy":0.122,"num_correct":122,"omniscience":-61.5,"attempt_rate":0.878,"num_incorrect":737,"total_questions":1000,"num_not_attempted":122,"hallucination_rate":0.8394077448747153,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-54,"attempt_rate":0.99,"num_incorrect":76,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9743589743589743,"num_partial_answer":1}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-86,"attempt_rate":0.9,"num_incorrect":44,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8979591836734694,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.925,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-56,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.95,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-38,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9166666666666666,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.12,"num_correct":12,"omniscience":-74,"attempt_rate":1,"num_incorrect":86,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9772727272727273,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-20,"attempt_rate":1,"num_incorrect":28,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.875,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-84,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"total":{"accuracy":0.169,"num_correct":169,"omniscience":-62.3,"attempt_rate":0.986,"num_incorrect":792,"total_questions":1000,"num_not_attempted":14,"hallucination_rate":0.9530685920577617,"num_partial_answer":25},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-78,"attempt_rate":0.98,"num_incorrect":43,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9347826086956522,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.135,"num_correct":27,"omniscience":-69,"attempt_rate":0.97,"num_incorrect":165,"total_questions":200,"num_not_attempted":6,"hallucination_rate":0.953757225433526,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.20909090909090908,"num_correct":23,"omniscience":-55.45454545454545,"attempt_rate":0.990909090909091,"num_incorrect":84,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9655172413793104,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.14444444444444443,"num_correct":13,"omniscience":-68.88888888888889,"attempt_rate":1,"num_incorrect":75,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.974025974025974,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.147,"num_correct":147,"omniscience":-65,"attempt_rate":0.957,"num_incorrect":797,"total_questions":1000,"num_not_attempted":43,"hallucination_rate":0.9343493552168816,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.187,"num_correct":187,"omniscience":-58.1,"attempt_rate":0.98,"num_incorrect":768,"total_questions":1000,"num_not_attempted":20,"hallucination_rate":0.9446494464944649,"num_partial_answer":25}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":33.4,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-10-21","representative_query_token_counts":null,"scicode":0.301,"short_name":"Qwen3 VL 32B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-vl-32b-instruct","tau2":0.292,"terminalbench_hard":0.078,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"8894b74b-f7fe-4213-ab42-ce478e8210a8","slug":"alibaba-cloud_qwen3-vl-32b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"6da314d3-a984-4734-8f31-47dd32fb4699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-32b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 32B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.8,"price_1m_blended_3_to_1":1.225,"price_per_1k_1mp_images":0.716,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.82,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"b60239bd-96f2-42a0-be4e-040b74eff08c","slug":"togetherai_qwen3-vl-32b-instruct","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"6da314d3-a984-4734-8f31-47dd32fb4699","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Qwen/Qwen3-VL-32B-Instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Qwen3 VL 32B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-32b-instruct","hosts_url":"/models/qwen3-vl-32b-instruct/providers","name_and_creator_label":"Qwen3 VL 32B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.257,"agentic_index":null,"coding_index":6.66,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":null,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":824,"estimated_intelligence_index":14.896107733773457,"model_family_slug":"qwen3","frontier_model":null,"gdpval":null,"gpqa":0.494,"hle":0.044,"humaneval":null,"id":"f93d0750-b659-4ceb-a123-7e657904ef2b","ifbench":0.366,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.213,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.32,"math_500":null,"math_index":25.67,"mmlu_pro":0.7,"mmmu_pro":0.52,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-4B-Thinking","multilingual_aa":null,"name":"Qwen3 VL 4B (Reasoning)","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":4.44,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-10-14","representative_query_token_counts":null,"scicode":0.171,"short_name":"Qwen3 VL 4B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-vl-4b-reasoning","tau2":0.155,"terminalbench_hard":0.014,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[],"model_url":"/models/qwen3-vl-4b-reasoning","hosts_url":"/models/qwen3-vl-4b-reasoning/providers","name_and_creator_label":"Qwen3 VL 4B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.37,"agentic_index":17.78,"coding_index":4.55,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":256000,"critpt":null,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":835,"estimated_intelligence_index":14.078586469580603,"model_family_slug":"qwen3","frontier_model":null,"gdpval":777.631436501124,"gpqa":0.371,"hle":0.037,"humaneval":null,"id":"f5d83128-047f-496d-ba49-8a428abe8345","ifbench":0.318,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.13,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.29,"math_500":null,"math_index":37,"mmlu_pro":0.634,"mmmu_pro":0.439,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct","multilingual_aa":null,"name":"Qwen3 VL 4B Instruct","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":4.44,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-10-14","representative_query_token_counts":null,"scicode":0.137,"short_name":"Qwen3 VL 4B","show_host_model_evals":false,"size_class":"Tiny","slug":"qwen3-vl-4b-instruct","tau2":0.234,"terminalbench_hard":0,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[],"model_url":"/models/qwen3-vl-4b-instruct","hosts_url":"/models/qwen3-vl-4b-instruct/providers","name_and_creator_label":"Qwen3 VL 4B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.307,"agentic_index":17.04,"coding_index":9.66,"commercial_allowed":true,"computed_performance_host_model_id":"d73196cd-9695-47c4-accd-fd3493dd69b1","context_window_tokens":256000,"critpt":0.003,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":774,"estimated_intelligence_index":16.89875503934753,"model_family_slug":"qwen3","frontier_model":false,"gdpval":769.3538875883849,"gpqa":0.579,"hle":0.033,"humaneval":null,"id":"dec8073c-57e2-41c0-b1aa-7a62960f103f","ifbench":0.399,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":16.94,"intelligence_index_token_counts":{"input_tokens":298335219,"answer_tokens":4256116,"output_tokens":43197924,"reasoning_tokens":38941808},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.31,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.353,"math_500":null,"math_index":30.67,"mmlu_pro":0.749,"mmmu_pro":0.566,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-8B-Thinking","multilingual_aa":null,"name":"Qwen3 VL 8B (Reasoning)","is_open_weights":true,"omniscience":-54.317,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.101,"num_correct":101,"omniscience":-69,"attempt_rate":0.901,"num_incorrect":791,"total_questions":1000,"num_not_attempted":99,"hallucination_rate":0.8798665183537263,"num_partial_answer":9}},"total":{"accuracy":0.18983333333333333,"num_correct":1139,"omniscience":-54.31666666666667,"attempt_rate":0.948,"num_incorrect":4398,"total_questions":6000,"num_not_attempted":312,"hallucination_rate":0.9047521086196256,"num_partial_answer":151},"Health":{"total":{"accuracy":0.16,"num_correct":160,"omniscience":-61.3,"attempt_rate":0.981,"num_incorrect":773,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.9202380952380952,"num_partial_answer":48}},"Business":{"total":{"accuracy":0.156,"num_correct":156,"omniscience":-57.2,"attempt_rate":0.905,"num_incorrect":728,"total_questions":1000,"num_not_attempted":95,"hallucination_rate":0.8625592417061612,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.41,"num_correct":41,"omniscience":-16,"attempt_rate":0.99,"num_incorrect":57,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9661016949152542,"num_partial_answer":1}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-70,"attempt_rate":0.92,"num_incorrect":40,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8888888888888888,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-42,"attempt_rate":0.92,"num_incorrect":32,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8205128205128205,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-38,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9714285714285714,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-68,"attempt_rate":0.98,"num_incorrect":41,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9534883720930233,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-30,"attempt_rate":0.96,"num_incorrect":31,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9117647058823529,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-63,"attempt_rate":0.99,"num_incorrect":81,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9878048780487805,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":6,"attempt_rate":1,"num_incorrect":21,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8076923076923077,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":21,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-12,"attempt_rate":0.96,"num_incorrect":13,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"total":{"accuracy":0.261,"num_correct":261,"omniscience":-43.2,"attempt_rate":0.976,"num_incorrect":693,"total_questions":1000,"num_not_attempted":24,"hallucination_rate":0.9377537212449256,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.96,"num_incorrect":36,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-51.5,"attempt_rate":0.97,"num_incorrect":147,"total_questions":200,"num_not_attempted":6,"hallucination_rate":0.9423076923076923,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.3181818181818182,"num_correct":35,"omniscience":-33.63636363636363,"attempt_rate":0.990909090909091,"num_incorrect":72,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.96,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.24444444444444444,"num_correct":22,"omniscience":-50,"attempt_rate":1,"num_incorrect":67,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9852941176470589,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.211,"num_correct":211,"omniscience":-52.5,"attempt_rate":0.965,"num_incorrect":736,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.9328263624841572,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.25,"num_correct":250,"omniscience":-42.7,"attempt_rate":0.96,"num_incorrect":677,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.9026666666666666,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":100000,"parameters":8.77,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-10-14","representative_query_token_counts":null,"scicode":0.219,"short_name":"Qwen3 VL 8B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-vl-8b-reasoning","tau2":0.225,"terminalbench_hard":0.035,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"d73196cd-9695-47c4-accd-fd3493dd69b1","slug":"alibaba-cloud_qwen3-vl-8b-reasoning","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"dec8073c-57e2-41c0-b1aa-7a62960f103f","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-8b-thinking","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 8B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.18,"price_1m_output_tokens":2.1,"price_1m_blended_3_to_1":0.66,"price_per_1k_1mp_images":0.184,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.52,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-8b-reasoning","hosts_url":"/models/qwen3-vl-8b-reasoning/providers","name_and_creator_label":"Qwen3 VL 8B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.273,"agentic_index":19.98,"coding_index":7.21,"commercial_allowed":true,"computed_performance_host_model_id":"9e1f7aae-63e3-4719-bfdc-73f7084ca775","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":758,"estimated_intelligence_index":14.809516085602741,"model_family_slug":"qwen3","frontier_model":false,"gdpval":793.8122473570074,"gpqa":0.427,"hle":0.029,"humaneval":null,"id":"3cf875b8-b6b5-42c0-ad70-617d5be59d00","ifbench":0.323,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":14.61,"intelligence_index_token_counts":{"input_tokens":310999022,"answer_tokens":25670885,"output_tokens":25670885,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.153,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.332,"math_500":null,"math_index":27.33,"mmlu_pro":0.686,"mmmu_pro":0.473,"model_creator_id":"d874d370-74d3-4fa0-ba00-5272f92f946b","model_weights_source_url":"https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct","multilingual_aa":null,"name":"Qwen3 VL 8B Instruct","is_open_weights":true,"omniscience":-53.8,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.105,"num_correct":105,"omniscience":-68.2,"attempt_rate":0.902,"num_incorrect":787,"total_questions":1000,"num_not_attempted":98,"hallucination_rate":0.8793296089385475,"num_partial_answer":10}},"total":{"accuracy":0.19166666666666668,"num_correct":1150,"omniscience":-53.8,"attempt_rate":0.9466666666666667,"num_incorrect":4378,"total_questions":6000,"num_not_attempted":320,"hallucination_rate":0.902680412371134,"num_partial_answer":152},"Health":{"total":{"accuracy":0.169,"num_correct":169,"omniscience":-60,"attempt_rate":0.981,"num_incorrect":769,"total_questions":1000,"num_not_attempted":19,"hallucination_rate":0.9253910950661853,"num_partial_answer":43}},"Business":{"total":{"accuracy":0.156,"num_correct":156,"omniscience":-57.4,"attempt_rate":0.905,"num_incorrect":730,"total_questions":1000,"num_not_attempted":95,"hallucination_rate":0.8649289099526066,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.45,"num_correct":45,"omniscience":-5,"attempt_rate":0.98,"num_incorrect":50,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9090909090909091,"num_partial_answer":3}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-74,"attempt_rate":0.92,"num_incorrect":41,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8913043478260869,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-36,"attempt_rate":0.92,"num_incorrect":30,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.7894736842105263,"num_partial_answer":4}},"PHP":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-38,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9714285714285714,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-64,"attempt_rate":0.98,"num_incorrect":40,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":32,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9411764705882353,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-62,"attempt_rate":0.99,"num_incorrect":80,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.975609756097561,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":4,"attempt_rate":0.98,"num_incorrect":21,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.7777777777777778,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-72,"attempt_rate":0.96,"num_incorrect":21,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":4,"attempt_rate":0.96,"num_incorrect":11,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8461538461538461,"num_partial_answer":1}},"total":{"accuracy":0.262,"num_correct":262,"omniscience":-42,"attempt_rate":0.972,"num_incorrect":682,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.924119241192412,"num_partial_answer":28},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-58,"attempt_rate":0.94,"num_incorrect":37,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8809523809523809,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.22,"num_correct":44,"omniscience":-51.5,"attempt_rate":0.965,"num_incorrect":147,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9423076923076923,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.2727272727272727,"num_correct":30,"omniscience":-39.09090909090909,"attempt_rate":0.990909090909091,"num_incorrect":73,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9125,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.26666666666666666,"num_correct":24,"omniscience":-45.55555555555556,"attempt_rate":1,"num_incorrect":65,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9848484848484849,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.205,"num_correct":205,"omniscience":-53,"attempt_rate":0.959,"num_incorrect":735,"total_questions":1000,"num_not_attempted":41,"hallucination_rate":0.9245283018867925,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.253,"num_correct":253,"omniscience":-42.2,"attempt_rate":0.961,"num_incorrect":675,"total_questions":1000,"num_not_attempted":39,"hallucination_rate":0.9036144578313253,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":8.77,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-10-14","representative_query_token_counts":null,"scicode":0.174,"short_name":"Qwen3 VL 8B","show_host_model_evals":false,"size_class":"Small","slug":"qwen3-vl-8b-instruct","tau2":0.292,"terminalbench_hard":0.021,"tokenizer_id":null,"model_creators":{"id":"d874d370-74d3-4fa0-ba00-5272f92f946b","logo":"alibaba.svg","name":"Alibaba","slug":"alibaba","color":"#ff7018","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","created_at":"2024-06-08T08:26:23.078019+00:00","logo_small":"alibaba_small.svg","creator_url":"https://www.alibabacloud.com/","display_order":123123123,"logo_url":"/img/logos/alibaba.svg","logo_small_url":"/img/logos/alibaba_small.svg"},"host_models":[{"id":"9e1f7aae-63e3-4719-bfdc-73f7084ca775","slug":"alibaba-cloud_qwen3-vl-8b-instruct","deleted":false,"host_id":"ffe8d463-5906-4fe9-8d9d-8b8cd93e4529","gpqa_16x":null,"model_id":"3cf875b8-b6b5-42c0-ad70-617d5be59d00","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"qwen3-vl-8b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Alibaba Cloud_Qwen3 VL 8B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.18,"price_1m_output_tokens":0.7,"price_1m_blended_3_to_1":0.31,"price_per_1k_1mp_images":0.184,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.23,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/qwen3-vl-8b-instruct","hosts_url":"/models/qwen3-vl-8b-instruct/providers","name_and_creator_label":"Qwen3 VL 8B, Alibaba"},{"additional_text":null,"aime":null,"aime25":0.85,"agentic_index":39.75,"coding_index":28.1,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0.014,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":606,"estimated_intelligence_index":29.598241562845224,"model_family_slug":"ernie-5","frontier_model":false,"gdpval":853.7633213166662,"gpqa":0.777,"hle":0.127,"humaneval":null,"id":"a518a64b-e337-48f3-85a1-ba7dc0e8f961","ifbench":0.414,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":true,"intelligence_index":28.86,"intelligence_index_token_counts":{"input_tokens":119961531,"answer_tokens":4247259,"output_tokens":44449289,"reasoning_tokens":40202029},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.067,"license_name":null,"license_url":null,"livecodebench":0.812,"math_500":null,"math_index":85,"mmlu_pro":0.83,"mmmu_pro":0.646,"model_creator_id":"bfb6e769-2456-4027-a6da-e9e05b627a21","model_weights_source_url":null,"multilingual_aa":null,"name":"ERNIE 5.0 Thinking Preview","is_open_weights":false,"omniscience":-42.367,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.143,"num_correct":143,"omniscience":-56.1,"attempt_rate":0.86,"num_incorrect":704,"total_questions":1000,"num_not_attempted":140,"hallucination_rate":0.8214702450408401,"num_partial_answer":13}},"total":{"accuracy":0.23183333333333334,"num_correct":1391,"omniscience":-42.36666666666667,"attempt_rate":0.9093333333333333,"num_incorrect":3933,"total_questions":6000,"num_not_attempted":544,"hallucination_rate":0.8533304404426123,"num_partial_answer":132},"Health":{"total":{"accuracy":0.226,"num_correct":226,"omniscience":-45.5,"attempt_rate":0.949,"num_incorrect":681,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.8798449612403101,"num_partial_answer":42}},"Business":{"total":{"accuracy":0.188,"num_correct":188,"omniscience":-45.9,"attempt_rate":0.858,"num_incorrect":647,"total_questions":1000,"num_not_attempted":142,"hallucination_rate":0.7967980295566502,"num_partial_answer":23}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.39,"num_correct":39,"omniscience":-20,"attempt_rate":0.99,"num_incorrect":59,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9672131147540983,"num_partial_answer":1}},"R":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":34,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8947368421052632,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-54,"attempt_rate":0.94,"num_incorrect":35,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8333333333333334,"num_partial_answer":4}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-46,"attempt_rate":1,"num_incorrect":36,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.972972972972973,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-52,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-64,"attempt_rate":0.98,"num_incorrect":81,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9759036144578314,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":20,"attempt_rate":0.94,"num_incorrect":18,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8181818181818182,"num_partial_answer":1}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-56,"attempt_rate":0.96,"num_incorrect":18,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8571428571428571,"num_partial_answer":2}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-20,"attempt_rate":1,"num_incorrect":15,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.284,"num_correct":284,"omniscience":-38.4,"attempt_rate":0.972,"num_incorrect":668,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.9329608938547486,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-48,"attempt_rate":0.96,"num_incorrect":36,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9473684210526315,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.28,"num_correct":56,"omniscience":-38,"attempt_rate":0.97,"num_incorrect":132,"total_questions":200,"num_not_attempted":6,"hallucination_rate":0.9166666666666666,"num_partial_answer":6}},"JavaScript":{"total":{"accuracy":0.3,"num_correct":33,"omniscience":-34.54545454545455,"attempt_rate":0.9545454545454546,"num_incorrect":71,"total_questions":110,"num_not_attempted":5,"hallucination_rate":0.922077922077922,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.26666666666666666,"num_correct":24,"omniscience":-43.333333333333336,"attempt_rate":1,"num_incorrect":63,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9545454545454546,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.221,"num_correct":221,"omniscience":-43.2,"attempt_rate":0.885,"num_incorrect":653,"total_questions":1000,"num_not_attempted":115,"hallucination_rate":0.8382541720154044,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.329,"num_correct":329,"omniscience":-25.1,"attempt_rate":0.932,"num_incorrect":580,"total_questions":1000,"num_not_attempted":68,"hallucination_rate":0.8643815201192251,"num_partial_answer":23}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-13","representative_query_token_counts":null,"scicode":0.375,"short_name":"ERNIE 5.0 Thinking Preview","show_host_model_evals":false,"size_class":"Large","slug":"ernie-5-0-thinking-preview","tau2":0.839,"terminalbench_hard":0.234,"tokenizer_id":null,"model_creators":{"id":"bfb6e769-2456-4027-a6da-e9e05b627a21","logo":"baidu.png","name":"Baidu","slug":"baidu","color":"#2436d8","deleted":false,"host_id":null,"created_at":"2025-05-13T02:01:45.404422+00:00","logo_small":"baidu_small.svg","creator_url":"https://www.baidu.com/","display_order":78,"logo_url":"/img/logos/baidu.png","logo_small_url":"/img/logos/baidu_small.svg"},"host_models":[{"id":"9085db3d-1e67-48fe-9a03-37f7aaff63e2","slug":"zenmux_ernie-5-0-thinking-preview","deleted":false,"host_id":"bf728967-8260-4723-84b4-2d0840523d6b","gpqa_16x":null,"model_id":"a518a64b-e337-48f3-85a1-ba7dc0e8f961","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"baidu/ernie-5.0-thinking-preview","function_calling":true,"cache_write_price":null,"host_model_string":"ZenMux_ERNIE 5.0 Thinking Preview","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.84,"price_1m_output_tokens":3.37,"price_1m_blended_3_to_1":1.4725,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":0.68,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/ernie-5-0-thinking-preview","hosts_url":"/models/ernie-5-0-thinking-preview/providers","name_and_creator_label":"ERNIE 5.0 Thinking Preview, Baidu"},{"additional_text":null,"aime":null,"aime25":0.875,"agentic_index":null,"coding_index":18.23,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0.011,"deleted":false,"deprecated":true,"deprecated_to":"apriel-v1-6-15b-thinker","display_order":1633,"estimated_intelligence_index":28.33194461137262,"model_family_slug":"apriel","frontier_model":null,"gdpval":null,"gpqa":0.713,"hle":0.12,"humaneval":null,"id":"ac1031bc-c53e-4af7-9c6e-2005e0ff44fa","ifbench":0.617,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.2,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.728,"math_500":null,"math_index":87.5,"mmlu_pro":0.773,"mmmu_pro":0.571,"model_creator_id":"7cc4f2b0-7e34-4459-82fd-667e93ca7f17","model_weights_source_url":"https://huggingface.co/ServiceNow-AI/Apriel-1.5-15b-Thinker","multilingual_aa":{"ar":{"score":0.7508333333333334,"input_tokens":188556,"answer_tokens":70224,"output_tokens":1778515,"reasoning_tokens":1708291,"total_input_tokens_api":295221,"total_answer_tokens_api":1852103,"total_reasoning_tokens_api":0},"bn":{"score":0.5633333333333334,"input_tokens":225534,"answer_tokens":62301,"output_tokens":4778582,"reasoning_tokens":4716281,"total_input_tokens_api":457023,"total_answer_tokens_api":5368182,"total_reasoning_tokens_api":0},"de":{"score":0.8116666666666665,"input_tokens":191646,"answer_tokens":138459,"output_tokens":1527329,"reasoning_tokens":1388870,"total_input_tokens_api":311235,"total_answer_tokens_api":1626647,"total_reasoning_tokens_api":0},"en":{"score":0.855,"input_tokens":159654,"answer_tokens":67234,"output_tokens":1146393,"reasoning_tokens":1079159,"total_input_tokens_api":277044,"total_answer_tokens_api":1221186,"total_reasoning_tokens_api":0},"es":{"score":0.8383333333333334,"input_tokens":182088,"answer_tokens":79658,"output_tokens":1299069,"reasoning_tokens":1219411,"total_input_tokens_api":301878,"total_answer_tokens_api":1391148,"total_reasoning_tokens_api":0},"fr":{"score":0.8166666666666668,"input_tokens":191346,"answer_tokens":72715,"output_tokens":1461986,"reasoning_tokens":1389271,"total_input_tokens_api":306657,"total_answer_tokens_api":1546861,"total_reasoning_tokens_api":0},"hi":{"score":0.6558333333333334,"input_tokens":209430,"answer_tokens":51978,"output_tokens":3198432,"reasoning_tokens":3146454,"total_input_tokens_api":448770,"total_answer_tokens_api":3508218,"total_reasoning_tokens_api":0},"id":{"score":0.7975,"input_tokens":181314,"answer_tokens":68551,"output_tokens":1486373,"reasoning_tokens":1417822,"total_input_tokens_api":307506,"total_answer_tokens_api":1593924,"total_reasoning_tokens_api":0},"it":{"score":0.8375,"input_tokens":199032,"answer_tokens":77729,"output_tokens":1399556,"reasoning_tokens":1321827,"total_input_tokens_api":312243,"total_answer_tokens_api":1477197,"total_reasoning_tokens_api":0},"ja":{"score":0.8141666666666666,"input_tokens":228129,"answer_tokens":75003,"output_tokens":1773398,"reasoning_tokens":1698395,"total_input_tokens_api":337692,"total_answer_tokens_api":1861318,"total_reasoning_tokens_api":0},"ko":{"score":0.7600000000000001,"input_tokens":199401,"answer_tokens":59431,"output_tokens":1861394,"reasoning_tokens":1801963,"total_input_tokens_api":301089,"total_answer_tokens_api":1935091,"total_reasoning_tokens_api":0},"my":{"score":0.3425,"input_tokens":353547,"answer_tokens":26437,"output_tokens":16299049,"reasoning_tokens":16272612,"total_input_tokens_api":633828,"total_answer_tokens_api":18852447,"total_reasoning_tokens_api":0},"pt":{"score":0.8158333333333333,"input_tokens":178176,"answer_tokens":78303,"output_tokens":1530981,"reasoning_tokens":1452678,"total_input_tokens_api":302058,"total_answer_tokens_api":1636458,"total_reasoning_tokens_api":0},"sw":{"score":0.47750000000000004,"input_tokens":208677,"answer_tokens":50058,"output_tokens":3811161,"reasoning_tokens":3761103,"total_input_tokens_api":360843,"total_answer_tokens_api":4128218,"total_reasoning_tokens_api":0},"yo":{"score":0.31916666666666665,"input_tokens":307062,"answer_tokens":40457,"output_tokens":8980247,"reasoning_tokens":8939790,"total_input_tokens_api":534843,"total_answer_tokens_api":10454387,"total_reasoning_tokens_api":0},"zh":{"score":0.8075,"input_tokens":179793,"answer_tokens":68431,"output_tokens":1629179,"reasoning_tokens":1560748,"total_input_tokens_api":315777,"total_answer_tokens_api":1766098,"total_reasoning_tokens_api":0},"average":{"score":0.7039583333333334,"input_tokens":3383385,"answer_tokens":1086969,"output_tokens":53961644,"reasoning_tokens":52874675,"total_input_tokens_api":5803707,"total_answer_tokens_api":60219483,"total_reasoning_tokens_api":0}},"name":"Apriel-v1.5-15B-Thinker","is_open_weights":true,"omniscience":-55.85,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.087,"num_correct":87,"omniscience":-60.2,"attempt_rate":0.78,"num_incorrect":689,"total_questions":1000,"num_not_attempted":220,"hallucination_rate":0.7546549835706462,"num_partial_answer":4}},"total":{"accuracy":0.153,"num_correct":918,"omniscience":-55.85,"attempt_rate":0.883,"num_incorrect":4269,"total_questions":6000,"num_not_attempted":702,"hallucination_rate":0.8400236127508854,"num_partial_answer":111},"Health":{"total":{"accuracy":0.164,"num_correct":164,"omniscience":-60.2,"attempt_rate":0.954,"num_incorrect":766,"total_questions":1000,"num_not_attempted":46,"hallucination_rate":0.916267942583732,"num_partial_answer":24}},"Business":{"total":{"accuracy":0.12,"num_correct":120,"omniscience":-54.8,"attempt_rate":0.807,"num_incorrect":668,"total_questions":1000,"num_not_attempted":193,"hallucination_rate":0.759090909090909,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-59,"attempt_rate":0.99,"num_incorrect":79,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9875,"num_partial_answer":0}},"R":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-92,"attempt_rate":0.96,"num_incorrect":47,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9591836734693877,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-76,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-78,"attempt_rate":0.98,"num_incorrect":44,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9777777777777777,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-80,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-60,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9512195121951219,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.07,"num_correct":7,"omniscience":-82,"attempt_rate":0.98,"num_incorrect":89,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.956989247311828,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":28,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8235294117647058,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-56,"attempt_rate":1,"num_incorrect":19,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.95,"num_partial_answer":1}},"total":{"accuracy":0.139,"num_correct":139,"omniscience":-67.8,"attempt_rate":0.974,"num_incorrect":817,"total_questions":1000,"num_not_attempted":26,"hallucination_rate":0.9488966318234611,"num_partial_answer":18},"Kotlin":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-70,"attempt_rate":0.9,"num_incorrect":40,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8888888888888888,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.12,"num_correct":24,"omniscience":-70,"attempt_rate":0.96,"num_incorrect":164,"total_questions":200,"num_not_attempted":8,"hallucination_rate":0.9318181818181818,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-43.63636363636363,"attempt_rate":0.9727272727272728,"num_incorrect":75,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.9036144578313253,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.1,"num_correct":9,"omniscience":-77.77777777777777,"attempt_rate":0.9777777777777777,"num_incorrect":79,"total_questions":90,"num_not_attempted":2,"hallucination_rate":0.9753086419753086,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.163,"num_correct":163,"omniscience":-51.3,"attempt_rate":0.852,"num_incorrect":676,"total_questions":1000,"num_not_attempted":148,"hallucination_rate":0.8076463560334528,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.245,"num_correct":245,"omniscience":-40.8,"attempt_rate":0.931,"num_incorrect":653,"total_questions":1000,"num_not_attempted":69,"hallucination_rate":0.8649006622516556,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":15,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-09-30","representative_query_token_counts":null,"scicode":0.348,"short_name":"Apriel-v1.5-15B-Thinker","show_host_model_evals":false,"size_class":"Small","slug":"apriel-v1-5-15b-thinker","tau2":0.684,"terminalbench_hard":0.099,"tokenizer_id":null,"model_creators":{"id":"7cc4f2b0-7e34-4459-82fd-667e93ca7f17","logo":"","name":"ServiceNow","slug":"servicenow","color":"#80B6A1","deleted":true,"host_id":null,"created_at":"2025-09-19T06:35:43.378211+00:00","logo_small":"servicenow_small.svg","creator_url":"","display_order":23323,"logo_url":"/img/logos/","logo_small_url":"/img/logos/servicenow_small.svg"},"host_models":[{"id":"0d1688af-6faf-4655-95b5-d9811203110d","slug":"togetherai_apriel-v1-5-15b-thinker","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"ac1031bc-c53e-4af7-9c6e-2005e0ff44fa","footnotes":"Currently free on Together","json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"ServiceNow-AI/Apriel-1.5-15b-Thinker","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Apriel-v1.5-15B-Thinker","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0,"price_1m_output_tokens":0,"price_1m_blended_3_to_1":0,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":null,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/apriel-v1-5-15b-thinker","hosts_url":"/models/apriel-v1-5-15b-thinker/providers","name_and_creator_label":"Apriel-v1.5-15B-Thinker, ServiceNow"},{"additional_text":null,"aime":null,"aime25":0.88,"agentic_index":30.17,"coding_index":21.41,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0.003,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":696,"estimated_intelligence_index":32.72534823213732,"model_family_slug":"apriel","frontier_model":false,"gdpval":704.1053330157943,"gpqa":0.733,"hle":0.098,"humaneval":null,"id":"a71c1a35-ccc8-43f0-a5a2-070a690b9a00","ifbench":0.691,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.74,"intelligence_index_token_counts":{"input_tokens":190378541,"answer_tokens":3170899,"output_tokens":74763263,"reasoning_tokens":71592364},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.503,"license_name":"MIT","license_url":null,"livecodebench":0.807,"math_500":null,"math_index":88,"mmlu_pro":0.79,"mmmu_pro":null,"model_creator_id":"7cc4f2b0-7e34-4459-82fd-667e93ca7f17","model_weights_source_url":"https://huggingface.co/ServiceNow-AI/Apriel-1.6-15b-Thinker","multilingual_aa":null,"name":"Apriel-v1.6-15B-Thinker","is_open_weights":true,"omniscience":-59.833,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.088,"num_correct":88,"omniscience":-69.1,"attempt_rate":0.87,"num_incorrect":779,"total_questions":1000,"num_not_attempted":130,"hallucination_rate":0.8541666666666666,"num_partial_answer":3}},"total":{"accuracy":0.166,"num_correct":996,"omniscience":-59.833333333333336,"attempt_rate":0.942,"num_incorrect":4586,"total_questions":6000,"num_not_attempted":348,"hallucination_rate":0.916466826538769,"num_partial_answer":70},"Health":{"total":{"accuracy":0.172,"num_correct":172,"omniscience":-62.4,"attempt_rate":0.978,"num_incorrect":796,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.961352657004831,"num_partial_answer":10}},"Business":{"total":{"accuracy":0.145,"num_correct":145,"omniscience":-59.6,"attempt_rate":0.897,"num_incorrect":741,"total_questions":1000,"num_not_attempted":103,"hallucination_rate":0.8666666666666667,"num_partial_answer":11}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-60,"attempt_rate":1,"num_incorrect":79,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9753086419753086,"num_partial_answer":2}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-88,"attempt_rate":1,"num_incorrect":47,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-76,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-64,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-80,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-46,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9210526315789473,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.12,"num_correct":12,"omniscience":-76,"attempt_rate":1,"num_incorrect":88,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":2,"attempt_rate":1,"num_incorrect":23,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8846153846153846,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-92,"attempt_rate":0.96,"num_incorrect":23,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.92,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9444444444444444,"num_partial_answer":1}},"total":{"accuracy":0.169,"num_correct":169,"omniscience":-64.3,"attempt_rate":0.997,"num_incorrect":812,"total_questions":1000,"num_not_attempted":3,"hallucination_rate":0.9771359807460891,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-74,"attempt_rate":1,"num_incorrect":43,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9772727272727273,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.115,"num_correct":23,"omniscience":-75.5,"attempt_rate":0.99,"num_incorrect":174,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9830508474576272,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2909090909090909,"num_correct":32,"omniscience":-40,"attempt_rate":1,"num_incorrect":76,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.12222222222222222,"num_correct":11,"omniscience":-73.33333333333333,"attempt_rate":1,"num_incorrect":77,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9746835443037974,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.173,"num_correct":173,"omniscience":-58,"attempt_rate":0.936,"num_incorrect":753,"total_questions":1000,"num_not_attempted":64,"hallucination_rate":0.9105199516324063,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.249,"num_correct":249,"omniscience":-45.6,"attempt_rate":0.974,"num_incorrect":705,"total_questions":1000,"num_not_attempted":26,"hallucination_rate":0.9387483355525965,"num_partial_answer":20}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":262000,"parameters":15,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-11-25","representative_query_token_counts":null,"scicode":0.373,"short_name":"Apriel-v1.6-15B-Thinker","show_host_model_evals":false,"size_class":"Small","slug":"apriel-v1-6-15b-thinker","tau2":0.693,"terminalbench_hard":0.135,"tokenizer_id":null,"model_creators":{"id":"7cc4f2b0-7e34-4459-82fd-667e93ca7f17","logo":"","name":"ServiceNow","slug":"servicenow","color":"#80B6A1","deleted":true,"host_id":null,"created_at":"2025-09-19T06:35:43.378211+00:00","logo_small":"servicenow_small.svg","creator_url":"","display_order":23323,"logo_url":"/img/logos/","logo_small_url":"/img/logos/servicenow_small.svg"},"host_models":[{"id":"ba5d976a-ffec-4740-a5da-c52c75360595","slug":"togetherai_apriel-v1-6-15b-thinker","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"a71c1a35-ccc8-43f0-a5a2-070a690b9a00","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"ServiceNow-AI/Apriel-1.6-15b-Thinker","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_Apriel-v1.6-15B-Thinker","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0,"price_1m_output_tokens":0,"price_1m_blended_3_to_1":0,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":null,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/apriel-v1-6-15b-thinker","hosts_url":"/models/apriel-v1-6-15b-thinker/providers","name_and_creator_label":"Apriel-v1.6-15B-Thinker, ServiceNow"},{"additional_text":null,"aime":null,"aime25":0.82,"agentic_index":26.16,"coding_index":21.59,"commercial_allowed":null,"computed_performance_host_model_id":"365fb672-97df-45f0-872d-94b5c6216b77","context_window_tokens":128000,"critpt":0.003,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":329,"estimated_intelligence_index":28.67942460390274,"model_family_slug":"magistral-medium","frontier_model":false,"gdpval":747.5647550722643,"gpqa":0.739,"hle":0.096,"humaneval":null,"id":"864da2a5-156c-45fd-873c-8923be91914f","ifbench":0.43,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.45,"intelligence_index_token_counts":{"input_tokens":88122370,"answer_tokens":3229047,"output_tokens":48365250,"reasoning_tokens":45136203},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.513,"license_name":null,"license_url":null,"livecodebench":0.75,"math_500":null,"math_index":82,"mmlu_pro":0.815,"mmmu_pro":0.597,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":null,"multilingual_aa":{"ar":{"score":0.8483333333333333,"input_tokens":188556,"answer_tokens":166339,"output_tokens":1272539,"reasoning_tokens":1106200,"total_input_tokens_api":184419,"total_answer_tokens_api":1314217,"total_reasoning_tokens_api":0},"bn":{"score":0.8341666666666666,"input_tokens":225534,"answer_tokens":168137,"output_tokens":1187675,"reasoning_tokens":1019538,"total_input_tokens_api":263686,"total_answer_tokens_api":1242539,"total_reasoning_tokens_api":0},"de":{"score":0.8641666666666667,"input_tokens":191646,"answer_tokens":174868,"output_tokens":1075306,"reasoning_tokens":900438,"total_input_tokens_api":201243,"total_answer_tokens_api":1135567,"total_reasoning_tokens_api":0},"en":{"score":0.9016666666666667,"input_tokens":159654,"answer_tokens":169060,"output_tokens":973597,"reasoning_tokens":804537,"total_input_tokens_api":167055,"total_answer_tokens_api":1014707,"total_reasoning_tokens_api":0},"es":{"score":0.8733333333333334,"input_tokens":182088,"answer_tokens":186452,"output_tokens":1312439,"reasoning_tokens":1125987,"total_input_tokens_api":190946,"total_answer_tokens_api":1227434,"total_reasoning_tokens_api":0},"fr":{"score":0.855,"input_tokens":191346,"answer_tokens":166843,"output_tokens":1088895,"reasoning_tokens":922052,"total_input_tokens_api":196418,"total_answer_tokens_api":1090782,"total_reasoning_tokens_api":0},"hi":{"score":0.8375,"input_tokens":209430,"answer_tokens":177679,"output_tokens":1359987,"reasoning_tokens":1182308,"total_input_tokens_api":241793,"total_answer_tokens_api":1360056,"total_reasoning_tokens_api":0},"id":{"score":0.8541666666666666,"input_tokens":181314,"answer_tokens":165541,"output_tokens":1091227,"reasoning_tokens":925686,"total_input_tokens_api":197423,"total_answer_tokens_api":1145325,"total_reasoning_tokens_api":0},"it":{"score":0.8799999999999999,"input_tokens":199032,"answer_tokens":167644,"output_tokens":1389602,"reasoning_tokens":1221958,"total_input_tokens_api":201959,"total_answer_tokens_api":1327504,"total_reasoning_tokens_api":0},"ja":{"score":0.8525,"input_tokens":228129,"answer_tokens":157916,"output_tokens":1302739,"reasoning_tokens":1144823,"total_input_tokens_api":227634,"total_answer_tokens_api":1363301,"total_reasoning_tokens_api":0},"ko":{"score":0.8366666666666666,"input_tokens":199401,"answer_tokens":161955,"output_tokens":1387151,"reasoning_tokens":1225196,"total_input_tokens_api":190486,"total_answer_tokens_api":1372102,"total_reasoning_tokens_api":0},"my":{"score":0.7433333333333335,"input_tokens":353547,"answer_tokens":174298,"output_tokens":1638611,"reasoning_tokens":1464313,"total_input_tokens_api":375386,"total_answer_tokens_api":1678694,"total_reasoning_tokens_api":0},"pt":{"score":0.8641666666666667,"input_tokens":178176,"answer_tokens":168600,"output_tokens":971186,"reasoning_tokens":802586,"total_input_tokens_api":191927,"total_answer_tokens_api":1005584,"total_reasoning_tokens_api":0},"sw":{"score":0.7191666666666667,"input_tokens":208677,"answer_tokens":135468,"output_tokens":1516323,"reasoning_tokens":1380855,"total_input_tokens_api":250659,"total_answer_tokens_api":1526821,"total_reasoning_tokens_api":0},"yo":{"score":0.4383333333333333,"input_tokens":307062,"answer_tokens":162310,"output_tokens":2135501,"reasoning_tokens":1973191,"total_input_tokens_api":422743,"total_answer_tokens_api":2328603,"total_reasoning_tokens_api":0},"zh":{"score":0.8483333333333333,"input_tokens":179793,"answer_tokens":119827,"output_tokens":1138568,"reasoning_tokens":1018741,"total_input_tokens_api":205275,"total_answer_tokens_api":1285463,"total_reasoning_tokens_api":0},"average":{"score":0.8156770833333333,"input_tokens":3383385,"answer_tokens":2622937,"output_tokens":20841346,"reasoning_tokens":18218409,"total_input_tokens_api":3709052,"total_answer_tokens_api":21418699,"total_reasoning_tokens_api":0}},"name":"Magistral Medium 1.2","is_open_weights":false,"omniscience":-27.633,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.099,"num_correct":99,"omniscience":-34.1,"attempt_rate":0.55,"num_incorrect":440,"total_questions":1000,"num_not_attempted":450,"hallucination_rate":0.48834628190899,"num_partial_answer":11}},"total":{"accuracy":0.20083333333333334,"num_correct":1205,"omniscience":-27.633333333333333,"attempt_rate":0.696,"num_incorrect":2863,"total_questions":6000,"num_not_attempted":1824,"hallucination_rate":0.5970802919708029,"num_partial_answer":108},"Health":{"total":{"accuracy":0.218,"num_correct":218,"omniscience":-32.9,"attempt_rate":0.791,"num_incorrect":547,"total_questions":1000,"num_not_attempted":209,"hallucination_rate":0.6994884910485933,"num_partial_answer":26}},"Business":{"total":{"accuracy":0.171,"num_correct":171,"omniscience":-21.6,"attempt_rate":0.573,"num_incorrect":387,"total_questions":1000,"num_not_attempted":427,"hallucination_rate":0.46682750301568154,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.32,"num_correct":32,"omniscience":-24,"attempt_rate":0.88,"num_incorrect":56,"total_questions":100,"num_not_attempted":12,"hallucination_rate":0.8235294117647058,"num_partial_answer":0}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-58,"attempt_rate":0.74,"num_incorrect":33,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.717391304347826,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-26,"attempt_rate":0.68,"num_incorrect":23,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.575,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-38,"attempt_rate":0.74,"num_incorrect":28,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.6829268292682927,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-40,"attempt_rate":0.72,"num_incorrect":28,"total_questions":50,"num_not_attempted":14,"hallucination_rate":0.6666666666666666,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-14,"attempt_rate":0.76,"num_incorrect":22,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6285714285714286,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.16,"num_correct":16,"omniscience":-37,"attempt_rate":0.7,"num_incorrect":53,"total_questions":100,"num_not_attempted":30,"hallucination_rate":0.6309523809523809,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":20,"attempt_rate":0.88,"num_incorrect":16,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.6666666666666666,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-36,"attempt_rate":0.68,"num_incorrect":13,"total_questions":25,"num_not_attempted":8,"hallucination_rate":0.6190476190476191,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-12,"attempt_rate":0.88,"num_incorrect":12,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.75,"num_partial_answer":1}},"total":{"accuracy":0.223,"num_correct":223,"omniscience":-30.2,"attempt_rate":0.758,"num_incorrect":525,"total_questions":1000,"num_not_attempted":242,"hallucination_rate":0.6756756756756757,"num_partial_answer":10},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-32,"attempt_rate":0.74,"num_incorrect":26,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.65,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.17,"num_correct":34,"omniscience":-31.5,"attempt_rate":0.665,"num_incorrect":97,"total_questions":200,"num_not_attempted":67,"hallucination_rate":0.5843373493975904,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.2636363636363636,"num_correct":29,"omniscience":-28.181818181818183,"attempt_rate":0.8181818181818182,"num_incorrect":60,"total_questions":110,"num_not_attempted":20,"hallucination_rate":0.7407407407407407,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.18888888888888888,"num_correct":17,"omniscience":-45.55555555555556,"attempt_rate":0.8333333333333334,"num_incorrect":58,"total_questions":90,"num_not_attempted":15,"hallucination_rate":0.7945205479452054,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.206,"num_correct":206,"omniscience":-26.5,"attempt_rate":0.692,"num_incorrect":471,"total_questions":1000,"num_not_attempted":308,"hallucination_rate":0.593198992443325,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.288,"num_correct":288,"omniscience":-20.5,"attempt_rate":0.812,"num_incorrect":493,"total_questions":1000,"num_not_attempted":188,"hallucination_rate":0.6924157303370787,"num_partial_answer":31}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":null,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk","varied_reasoning":true},"release_date":"2025-09-18","representative_query_token_counts":null,"scicode":0.392,"short_name":"Magistral Medium 1.2","show_host_model_evals":false,"size_class":"Large","slug":"magistral-medium-2509","tau2":0.52,"terminalbench_hard":0.128,"tokenizer_id":null,"model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"365fb672-97df-45f0-872d-94b5c6216b77","slug":"mistral_magistral-medium-2509","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"864da2a5-156c-45fd-873c-8923be91914f","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"magistral-medium-2509","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Magistral Medium 1.2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":5,"price_1m_blended_3_to_1":2.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.36,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/magistral-medium-2509","hosts_url":"/models/magistral-medium-2509/providers","name_and_creator_label":"Magistral Medium 1.2, Mistral"},{"additional_text":null,"aime":0.683,"aime25":0.68,"agentic_index":null,"coding_index":15.69,"commercial_allowed":true,"computed_performance_host_model_id":"6dd58adc-ffa1-438e-9b65-ef843a620ce9","context_window_tokens":128000,"critpt":0.006,"deleted":false,"deprecated":true,"deprecated_to":"deepseek-r1","display_order":1404,"estimated_intelligence_index":23.065775824964756,"model_family_slug":"deepseek-r1","frontier_model":null,"gdpval":null,"gpqa":0.708,"hle":0.093,"humaneval":0.977,"id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","ifbench":0.39,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.715,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.523,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.617,"math_500":0.966,"math_index":68,"mmlu_pro":0.844,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1","multilingual_aa":null,"name":"DeepSeek R1 (Jan '25)","is_open_weights":true,"omniscience":-33.633,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.188,"num_correct":188,"omniscience":-48.4,"attempt_rate":0.871,"num_incorrect":672,"total_questions":1000,"num_not_attempted":129,"hallucination_rate":0.8275862068965517,"num_partial_answer":11}},"total":{"accuracy":0.2921666666666667,"num_correct":1753,"omniscience":-33.63333333333333,"attempt_rate":0.9466666666666667,"num_incorrect":3771,"total_questions":6000,"num_not_attempted":320,"hallucination_rate":0.8879208853308218,"num_partial_answer":156},"Health":{"total":{"accuracy":0.286,"num_correct":286,"omniscience":-36.9,"attempt_rate":0.978,"num_incorrect":655,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.9173669467787114,"num_partial_answer":37}},"Business":{"total":{"accuracy":0.241,"num_correct":241,"omniscience":-41.3,"attempt_rate":0.92,"num_incorrect":654,"total_questions":1000,"num_not_attempted":80,"hallucination_rate":0.8616600790513834,"num_partial_answer":25}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.57,"num_correct":57,"omniscience":16,"attempt_rate":1,"num_incorrect":41,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9534883720930233,"num_partial_answer":2}},"R":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-40,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":-12,"attempt_rate":1,"num_incorrect":28,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-18,"attempt_rate":0.94,"num_incorrect":28,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9032258064516129,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-42,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9722222222222222,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-16,"attempt_rate":0.98,"num_incorrect":28,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9333333333333333,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-42,"attempt_rate":1,"num_incorrect":71,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":32,"attempt_rate":1,"num_incorrect":15,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7894736842105263,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-36,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":-4,"attempt_rate":0.96,"num_incorrect":12,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8571428571428571,"num_partial_answer":1}},"total":{"accuracy":0.405,"num_correct":405,"omniscience":-16.1,"attempt_rate":0.99,"num_incorrect":566,"total_questions":1000,"num_not_attempted":10,"hallucination_rate":0.9512605042016806,"num_partial_answer":19},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-44,"attempt_rate":1,"num_incorrect":34,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8947368421052632,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.385,"num_correct":77,"omniscience":-20.5,"attempt_rate":0.98,"num_incorrect":118,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.959349593495935,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.44545454545454544,"num_correct":49,"omniscience":-6.363636363636363,"attempt_rate":0.990909090909091,"num_incorrect":56,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9180327868852459,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.45555555555555555,"num_correct":41,"omniscience":-7.777777777777778,"attempt_rate":1,"num_incorrect":48,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9795918367346939,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.296,"num_correct":296,"omniscience":-33.4,"attempt_rate":0.953,"num_incorrect":630,"total_questions":1000,"num_not_attempted":47,"hallucination_rate":0.8948863636363636,"num_partial_answer":27}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.337,"num_correct":337,"omniscience":-25.7,"attempt_rate":0.968,"num_incorrect":594,"total_questions":1000,"num_not_attempted":32,"hallucination_rate":0.8959276018099548,"num_partial_answer":37}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32767,"parameters":685,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-01-20","representative_query_token_counts":{"n_queries":60,"updated_at":"2025-03-16T17:47:21.720929","input_tokens":1029,"answer_tokens":681,"output_tokens":3028,"reasoning_tokens":2347},"scicode":0.357,"short_name":"DeepSeek R1 (Jan)","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-r1-0120","tau2":0.114,"terminalbench_hard":0.057,"tokenizer_id":"deepseek_v3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"7f735a6b-aaec-4520-a20f-c0dadcf10797","slug":"amazon-bedrock_deepseek-r1","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"us.deepseek.r1-v1:0","function_calling":false,"cache_write_price":null,"host_model_string":"Amazon Bedrock_DeepSeek R1","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.35,"price_1m_output_tokens":5.4,"price_1m_blended_3_to_1":2.3625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e92a45bb-7c5f-4192-a14f-f32130e995f5","slug":"novita_deepseek-r1","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-r1","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek R1 (Jan '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":4,"price_1m_output_tokens":4,"price_1m_blended_3_to_1":4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":64000,"price_m_tokens_blended_3_to_1_per_dollar":0.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"296d8ac2-f1ca-4767-aa96-3a8e05851d60","slug":"hyperbolic_deepseek-r1","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_DeepSeek R1 (Jan '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"38b3824a-5bbd-48bb-8436-f93f64027323","slug":"novita_deepseek-r1_turbo","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-r1-turbo","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek R1 (Jan '25)_Turbo","cache_pricing_notes":null,"model_name_appendage":"Turbo","price_1m_input_tokens":0.7,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":64000,"price_m_tokens_blended_3_to_1_per_dollar":0.87,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d4757e44-a735-459d-9470-39165de16fdf","slug":"deepinfra_deepseek-r1_turbo-fp4","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-Turbo","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_DeepSeek R1 (Jan '25)_(Turbo, FP4)","cache_pricing_notes":null,"model_name_appendage":"(Turbo, FP4)","price_1m_input_tokens":1,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":1.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":40960,"price_m_tokens_blended_3_to_1_per_dollar":0.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d3045900-2410-457c-a7c1-ffe32f4ad05b","slug":"sambanova_deepseek-r1","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-R1","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek R1 (Jan '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":5,"price_1m_output_tokens":7,"price_1m_blended_3_to_1":5.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":0.18,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"dbe2793c-6585-4cdc-86ff-0626934d7e05","slug":"deepinfra_deepseek-r1","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_DeepSeek R1 (Jan '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.4,"price_1m_blended_3_to_1":1.125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.89,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"293bad2c-e94e-424e-ab5a-f3d3b1acf94e","slug":"azure_deepseek-r1","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-R1-eastus2-aa","function_calling":false,"cache_write_price":null,"host_model_string":"Microsoft Azure_DeepSeek R1 (Jan '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.35,"price_1m_output_tokens":5.4,"price_1m_blended_3_to_1":2.3625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"7704fc7c-c964-4b7d-bb08-95c8f51486ed","slug":"togetherai_deepseek-r1","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"0e34f05c-387e-4968-be15-ccec4a55d8c1","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_DeepSeek R1 (Jan '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":7,"price_1m_blended_3_to_1":4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.25,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-r1-0120","hosts_url":"/models/deepseek-r1-0120/providers","name_and_creator_label":"DeepSeek R1 (Jan), DeepSeek"},{"additional_text":null,"aime":0.893,"aime25":0.76,"agentic_index":21.55,"coding_index":23.36,"commercial_allowed":true,"computed_performance_host_model_id":"46274b1b-9c0c-45e1-84eb-dc4d050f9e35","context_window_tokens":128000,"critpt":0.014,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":342,"estimated_intelligence_index":28.649040520231907,"model_family_slug":"deepseek-r1","frontier_model":false,"gdpval":778.0287226165221,"gpqa":0.813,"hle":0.149,"humaneval":0.97,"id":"a83f84b3-473a-4276-9ae1-8909da723159","ifbench":0.396,"inference_parameters_active_billions":37,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":27.02,"intelligence_index_token_counts":{"input_tokens":54783977,"answer_tokens":4682437,"output_tokens":49193939,"reasoning_tokens":44511502},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.547,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.77,"math_500":0.983,"math_index":76,"mmlu_pro":0.849,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1-0528","multilingual_aa":{"ar":{"score":0.8700000000000001,"input_tokens":188556,"answer_tokens":342238,"output_tokens":1813298,"reasoning_tokens":1471060,"total_input_tokens_api":214491,"total_answer_tokens_api":1856272,"total_reasoning_tokens_api":0},"bn":{"score":0.8733333333333334,"input_tokens":225534,"answer_tokens":339919,"output_tokens":1911753,"reasoning_tokens":1571834,"total_input_tokens_api":258852,"total_answer_tokens_api":1949726,"total_reasoning_tokens_api":0},"de":{"score":0.8908333333333335,"input_tokens":191646,"answer_tokens":347802,"output_tokens":1664867,"reasoning_tokens":1317065,"total_input_tokens_api":214800,"total_answer_tokens_api":1787290,"total_reasoning_tokens_api":0},"en":{"score":0.915,"input_tokens":159654,"answer_tokens":310584,"output_tokens":1572723,"reasoning_tokens":1262139,"total_input_tokens_api":161703,"total_answer_tokens_api":1576178,"total_reasoning_tokens_api":0},"es":{"score":0.9049999999999999,"input_tokens":182088,"answer_tokens":342848,"output_tokens":1766771,"reasoning_tokens":1423923,"total_input_tokens_api":200487,"total_answer_tokens_api":1815187,"total_reasoning_tokens_api":0},"fr":{"score":0.8966666666666666,"input_tokens":191346,"answer_tokens":347110,"output_tokens":1861114,"reasoning_tokens":1514004,"total_input_tokens_api":211539,"total_answer_tokens_api":1925507,"total_reasoning_tokens_api":0},"hi":{"score":0.8633333333333333,"input_tokens":209430,"answer_tokens":330910,"output_tokens":1854594,"reasoning_tokens":1523684,"total_input_tokens_api":329256,"total_answer_tokens_api":1965280,"total_reasoning_tokens_api":0},"id":{"score":0.8925,"input_tokens":181314,"answer_tokens":359674,"output_tokens":1816960,"reasoning_tokens":1457286,"total_input_tokens_api":192744,"total_answer_tokens_api":1852445,"total_reasoning_tokens_api":0},"it":{"score":0.8958333333333334,"input_tokens":199032,"answer_tokens":354702,"output_tokens":1845820,"reasoning_tokens":1491118,"total_input_tokens_api":209271,"total_answer_tokens_api":1869319,"total_reasoning_tokens_api":0},"ja":{"score":0.8649999999999999,"input_tokens":228129,"answer_tokens":510420,"output_tokens":2249248,"reasoning_tokens":1738828,"total_input_tokens_api":204837,"total_answer_tokens_api":1940074,"total_reasoning_tokens_api":0},"ko":{"score":0.8658333333333333,"input_tokens":199401,"answer_tokens":378450,"output_tokens":1856640,"reasoning_tokens":1478190,"total_input_tokens_api":217320,"total_answer_tokens_api":1957434,"total_reasoning_tokens_api":0},"my":{"score":0.8225000000000001,"input_tokens":353547,"answer_tokens":337658,"output_tokens":2111429,"reasoning_tokens":1773771,"total_input_tokens_api":556989,"total_answer_tokens_api":2275986,"total_reasoning_tokens_api":0},"pt":{"score":0.895,"input_tokens":178176,"answer_tokens":341922,"output_tokens":1764916,"reasoning_tokens":1422994,"total_input_tokens_api":199212,"total_answer_tokens_api":1805385,"total_reasoning_tokens_api":0},"sw":{"score":0.7949999999999999,"input_tokens":208677,"answer_tokens":407457,"output_tokens":1724373,"reasoning_tokens":1316916,"total_input_tokens_api":254289,"total_answer_tokens_api":2079468,"total_reasoning_tokens_api":0},"yo":{"score":0.6216666666666667,"input_tokens":307062,"answer_tokens":331798,"output_tokens":2821253,"reasoning_tokens":2489455,"total_input_tokens_api":389961,"total_answer_tokens_api":2990500,"total_reasoning_tokens_api":0},"zh":{"score":0.8891666666666667,"input_tokens":179793,"answer_tokens":369774,"output_tokens":1787927,"reasoning_tokens":1418153,"total_input_tokens_api":155724,"total_answer_tokens_api":1495752,"total_reasoning_tokens_api":0},"average":{"score":0.8597916666666667,"input_tokens":3383385,"answer_tokens":5753266,"output_tokens":30423686,"reasoning_tokens":24670420,"total_input_tokens_api":3971475,"total_answer_tokens_api":31141803,"total_reasoning_tokens_api":0}},"name":"DeepSeek R1 0528 (May '25)","is_open_weights":true,"omniscience":-29.667,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.183,"num_correct":183,"omniscience":-41,"attempt_rate":0.791,"num_incorrect":593,"total_questions":1000,"num_not_attempted":209,"hallucination_rate":0.7258261933904528,"num_partial_answer":15}},"total":{"accuracy":0.29283333333333333,"num_correct":1757,"omniscience":-29.666666666666668,"attempt_rate":0.9036666666666666,"num_incorrect":3537,"total_questions":6000,"num_not_attempted":578,"hallucination_rate":0.8336082960169692,"num_partial_answer":128},"Health":{"total":{"accuracy":0.288,"num_correct":288,"omniscience":-34.8,"attempt_rate":0.96,"num_incorrect":636,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.8932584269662921,"num_partial_answer":36}},"Business":{"total":{"accuracy":0.233,"num_correct":233,"omniscience":-34.6,"attempt_rate":0.83,"num_incorrect":579,"total_questions":1000,"num_not_attempted":170,"hallucination_rate":0.7548891786179922,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.55,"num_correct":55,"omniscience":12,"attempt_rate":0.99,"num_incorrect":43,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9555555555555556,"num_partial_answer":1}},"R":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.96,"num_incorrect":36,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9230769230769231,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-26,"attempt_rate":1,"num_incorrect":31,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.96875,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":0.94,"num_incorrect":30,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9090909090909091,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":0.96,"num_incorrect":30,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9090909090909091,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":-2,"attempt_rate":0.98,"num_incorrect":25,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9615384615384616,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.32,"num_correct":32,"omniscience":-36,"attempt_rate":1,"num_incorrect":68,"total_questions":100,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.62,"num_correct":31,"omniscience":38,"attempt_rate":0.94,"num_incorrect":12,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.631578947368421,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-36,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":8,"attempt_rate":0.92,"num_incorrect":10,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7692307692307693,"num_partial_answer":1}},"total":{"accuracy":0.396,"num_correct":396,"omniscience":-16.4,"attempt_rate":0.972,"num_incorrect":560,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.9271523178807947,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-34,"attempt_rate":0.96,"num_incorrect":32,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9142857142857143,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.355,"num_correct":71,"omniscience":-23.5,"attempt_rate":0.955,"num_incorrect":118,"total_questions":200,"num_not_attempted":9,"hallucination_rate":0.9147286821705426,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.4636363636363636,"num_correct":51,"omniscience":-1.8181818181818181,"attempt_rate":0.9727272727272728,"num_incorrect":53,"total_questions":110,"num_not_attempted":3,"hallucination_rate":0.8983050847457628,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.37777777777777777,"num_correct":34,"omniscience":-23.333333333333332,"attempt_rate":1,"num_incorrect":55,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9821428571428571,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.318,"num_correct":318,"omniscience":-27.1,"attempt_rate":0.92,"num_incorrect":589,"total_questions":1000,"num_not_attempted":80,"hallucination_rate":0.8636363636363636,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.339,"num_correct":339,"omniscience":-24.1,"attempt_rate":0.949,"num_incorrect":580,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.8774583963691377,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":685,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-05-28","representative_query_token_counts":null,"scicode":0.403,"short_name":"DeepSeek R1 0528","show_host_model_evals":false,"size_class":"Large","slug":"deepseek-r1","tau2":0.365,"terminalbench_hard":0.149,"tokenizer_id":"deepseek_v3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"5790d7cb-af6b-425d-8978-96db9b186115","slug":"nebius_deepseek-r1-05-28","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":{"max":0.838,"min":0.758,"median":0.803,"quartile_25":0.792,"quartile_75":0.814},"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-0528","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.8,"price_1m_output_tokens":2.4,"price_1m_blended_3_to_1":1.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":164000,"price_m_tokens_blended_3_to_1_per_dollar":0.83,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0596b46c-019a-41e4-b1b5-ce83bf4a8c4b","slug":"hyperbolic_deepseek-r1-05-28","deleted":false,"host_id":"2e5c388c-e102-4c1e-83e1-260c79cdb949","gpqa_16x":null,"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-0528","function_calling":true,"cache_write_price":null,"host_model_string":"Hyperbolic_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":3,"price_1m_blended_3_to_1":3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"139965d3-2a95-4df0-a6f6-4108361cefcd","slug":"deepinfra_deepseek-r1-05-28","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":{"max":0.793,"min":0.717,"median":0.753,"quartile_25":0.737,"quartile_75":0.764},"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-0528","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2.15,"price_1m_blended_3_to_1":0.9125,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"45d3460a-36ba-40c7-979c-bae04cd9d517","slug":"sambanova_deepseek-r1-0528","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":{"max":0.788,"min":0.727,"median":0.755,"quartile_25":0.753,"quartile_75":0.783},"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-R1-0528","function_calling":true,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":5,"price_1m_output_tokens":7,"price_1m_blended_3_to_1":5.5,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.18,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f5dd8e6a-9ab3-402e-a62a-6ffca5548623","slug":"togetherai_deepseek-r1_throughput","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-0528-tput","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_DeepSeek R1 0528 (May '25)_(Throughput)","cache_pricing_notes":null,"model_name_appendage":"(Throughput)","price_1m_input_tokens":0.55,"price_1m_output_tokens":2.19,"price_1m_blended_3_to_1":0.96,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":1.04,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"cd028d4e-4109-478d-b25f-e8abcb425afb","slug":"google_deepseek-r1-05-28_vertex","deleted":false,"host_id":"50649676-6610-47a6-bb54-a2e213e6e414","gpqa_16x":null,"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/deepseek-r1-0528-maas","function_calling":true,"cache_write_price":null,"host_model_string":"Google_DeepSeek R1 0528 (May '25)_Vertex","cache_pricing_notes":null,"model_name_appendage":"Vertex","price_1m_input_tokens":1.35,"price_1m_output_tokens":5.4,"price_1m_blended_3_to_1":2.3625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"cd582dfe-613c-4fb8-bf3a-16328a13be9f","slug":"togetherai_deepseek-r1-0528","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":{"max":0.833,"min":0.773,"median":0.798,"quartile_25":0.783,"quartile_75":0.813},"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":3,"price_1m_output_tokens":7,"price_1m_blended_3_to_1":4,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c5c311f0-b401-426a-84a8-9542a6a89805","slug":"nebius_deepseek-r1-05-28_fast","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-0528-fast","function_calling":false,"cache_write_price":null,"host_model_string":"Nebius_DeepSeek R1 0528 (May '25)_Fast","cache_pricing_notes":null,"model_name_appendage":"Fast, FP4","price_1m_input_tokens":2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":164000,"price_m_tokens_blended_3_to_1_per_dollar":0.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c26594b0-d8d8-424c-a8fb-ab18e6d7e9af","slug":"novita_deepseek-r1-05-28","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":{"max":0.833,"min":0.768,"median":0.801,"quartile_25":0.787,"quartile_75":0.813},"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-r1-0528","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.5,"price_1m_blended_3_to_1":1.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":163840,"price_m_tokens_blended_3_to_1_per_dollar":0.87,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"830a5146-2239-49c1-8628-e8dab7e34f0f","slug":"azure_deepseek-r1-0528","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":{"max":0.753,"min":0.682,"median":0.705,"quartile_25":0.687,"quartile_75":0.72},"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-R1-0528","function_calling":false,"cache_write_price":null,"host_model_string":"Microsoft Azure_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.35,"price_1m_output_tokens":5.4,"price_1m_blended_3_to_1":2.3625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.42,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8d9ddf39-be71-4338-bf9f-6d1a8f1f5a05","slug":"gmi_deepseek-r1-0528","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":{"max":0.813,"min":0.763,"median":0.793,"quartile_25":0.775,"quartile_75":0.799},"model_id":"a83f84b3-473a-4276-9ae1-8909da723159","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-0528","function_calling":false,"cache_write_price":null,"host_model_string":"GMI_DeepSeek R1 0528 (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":2.3,"price_1m_blended_3_to_1":1.1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.91,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-r1","hosts_url":"/models/deepseek-r1/providers","name_and_creator_label":"DeepSeek R1 0528, DeepSeek"},{"additional_text":null,"aime":0.65,"aime25":0.637,"agentic_index":null,"coding_index":7.74,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":32768,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":347,"estimated_intelligence_index":16.43067398648048,"model_family_slug":"deepseek-r1","frontier_model":null,"gdpval":null,"gpqa":0.612,"hle":0.056,"humaneval":0.905,"id":"6000145b-0e3d-4fef-a55f-bcaac84803b2","ifbench":0.199,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.13,"license_name":"MIT","license_url":"https://opensource.org/license/mit","livecodebench":0.513,"math_500":0.932,"math_index":63.67,"mmlu_pro":0.739,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B","multilingual_aa":null,"name":"DeepSeek R1 0528 Qwen3 8B","is_open_weights":true,"omniscience":-65.317,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.069,"num_correct":69,"omniscience":-70.1,"attempt_rate":0.848,"num_incorrect":770,"total_questions":1000,"num_not_attempted":152,"hallucination_rate":0.8270676691729323,"num_partial_answer":9}},"total":{"accuracy":0.1125,"num_correct":675,"omniscience":-65.31666666666666,"attempt_rate":0.8941666666666667,"num_incorrect":4594,"total_questions":6000,"num_not_attempted":635,"hallucination_rate":0.8627230046948356,"num_partial_answer":96},"Health":{"total":{"accuracy":0.115,"num_correct":115,"omniscience":-68.5,"attempt_rate":0.935,"num_incorrect":800,"total_questions":1000,"num_not_attempted":65,"hallucination_rate":0.903954802259887,"num_partial_answer":20}},"Business":{"total":{"accuracy":0.083,"num_correct":83,"omniscience":-63.7,"attempt_rate":0.817,"num_incorrect":720,"total_questions":1000,"num_not_attempted":183,"hallucination_rate":0.7851690294438386,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.2,"num_correct":20,"omniscience":-55,"attempt_rate":0.98,"num_incorrect":75,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9375,"num_partial_answer":3}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-82,"attempt_rate":0.94,"num_incorrect":44,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9361702127659575,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.02,"num_correct":1,"omniscience":-82,"attempt_rate":0.9,"num_incorrect":42,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8571428571428571,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9767441860465116,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-58,"attempt_rate":0.92,"num_incorrect":37,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8809523809523809,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":28,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8235294117647058,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-76,"attempt_rate":0.98,"num_incorrect":87,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9775280898876404,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-16,"attempt_rate":0.98,"num_incorrect":25,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.7575757575757576,"num_partial_answer":7}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":23,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"total":{"accuracy":0.132,"num_correct":132,"omniscience":-66.2,"attempt_rate":0.949,"num_incorrect":794,"total_questions":1000,"num_not_attempted":51,"hallucination_rate":0.9147465437788018,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.92,"num_incorrect":40,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8695652173913043,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.08,"num_correct":16,"omniscience":-77.5,"attempt_rate":0.945,"num_incorrect":171,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.9293478260869565,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.14545454545454545,"num_correct":16,"omniscience":-64.54545454545455,"attempt_rate":0.9454545454545454,"num_incorrect":87,"total_questions":110,"num_not_attempted":6,"hallucination_rate":0.925531914893617,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.08888888888888889,"num_correct":8,"omniscience":-72.22222222222223,"attempt_rate":0.9111111111111111,"num_incorrect":73,"total_questions":90,"num_not_attempted":8,"hallucination_rate":0.8902439024390244,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.108,"num_correct":108,"omniscience":-68.7,"attempt_rate":0.91,"num_incorrect":795,"total_questions":1000,"num_not_attempted":90,"hallucination_rate":0.8912556053811659,"num_partial_answer":7}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.168,"num_correct":168,"omniscience":-54.7,"attempt_rate":0.906,"num_incorrect":715,"total_questions":1000,"num_not_attempted":94,"hallucination_rate":0.859375,"num_partial_answer":23}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":8.19,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-05-29","representative_query_token_counts":null,"scicode":0.204,"short_name":"DeepSeek R1 0528 Qwen3 8B","show_host_model_evals":false,"size_class":"Small","slug":"deepseek-r1-qwen3-8b","tau2":0,"terminalbench_hard":0.014,"tokenizer_id":"qwen2_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"34622bc6-0017-4b68-b9ba-a3b358b76b6f","slug":"novita_deepseek-r1-qwen3-8b","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"6000145b-0e3d-4fef-a55f-bcaac84803b2","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-r1-0528-qwen3-8b","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_DeepSeek R1 0528 Qwen3 8B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.06,"price_1m_output_tokens":0.09,"price_1m_blended_3_to_1":0.0675,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":14.81,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-r1-qwen3-8b","hosts_url":"/models/deepseek-r1-qwen3-8b/providers","name_and_creator_label":"DeepSeek R1 0528 Qwen3 8B, DeepSeek"},{"additional_text":null,"aime":0.67,"aime25":0.537,"agentic_index":null,"coding_index":11.36,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":330,"estimated_intelligence_index":15.950177423585206,"model_family_slug":"deepseek-r1","frontier_model":null,"gdpval":null,"gpqa":0.402,"hle":0.061,"humaneval":0.972,"id":"4a845d7b-a52d-43bb-80b7-b58c7a0c155e","ifbench":0.276,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.652,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.11,"license_name":"LLAMA 3.3 COMMUNITY LICENSE AGREEMENT","license_url":"https://github.com/meta-llama/llama-models/blob/main/models/llama3_3/LICENSE","livecodebench":0.266,"math_500":0.935,"math_index":53.67,"mmlu_pro":0.795,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B","multilingual_aa":null,"name":"DeepSeek R1 Distill Llama 70B","is_open_weights":true,"omniscience":-47.433,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":-53.8,"attempt_rate":0.767,"num_incorrect":648,"total_questions":1000,"num_not_attempted":233,"hallucination_rate":0.7280898876404495,"num_partial_answer":9}},"total":{"accuracy":0.185,"num_correct":1110,"omniscience":-47.43333333333333,"attempt_rate":0.87,"num_incorrect":3956,"total_questions":6000,"num_not_attempted":780,"hallucination_rate":0.808997955010225,"num_partial_answer":154},"Health":{"total":{"accuracy":0.198,"num_correct":198,"omniscience":-46.6,"attempt_rate":0.908,"num_incorrect":664,"total_questions":1000,"num_not_attempted":92,"hallucination_rate":0.827930174563591,"num_partial_answer":46}},"Business":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-44.8,"attempt_rate":0.78,"num_incorrect":607,"total_questions":1000,"num_not_attempted":220,"hallucination_rate":0.7217598097502973,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.29,"num_correct":29,"omniscience":-40,"attempt_rate":0.99,"num_incorrect":69,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.971830985915493,"num_partial_answer":1}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-80,"attempt_rate":0.96,"num_incorrect":44,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9565217391304348,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-60,"attempt_rate":0.98,"num_incorrect":39,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9512195121951219,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":39,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9069767441860465,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-18,"attempt_rate":0.92,"num_incorrect":27,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.84375,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-75,"attempt_rate":0.98,"num_incorrect":86,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9662921348314607,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-20,"attempt_rate":1,"num_incorrect":27,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8181818181818182,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":1,"num_incorrect":23,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9583333333333334,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-44,"attempt_rate":1,"num_incorrect":17,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.8947368421052632,"num_partial_answer":2}},"total":{"accuracy":0.189,"num_correct":189,"omniscience":-56.7,"attempt_rate":0.973,"num_incorrect":756,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9321824907521579,"num_partial_answer":28},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-58,"attempt_rate":0.94,"num_incorrect":37,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8809523809523809,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.17,"num_correct":34,"omniscience":-58,"attempt_rate":0.945,"num_incorrect":150,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.9036144578313253,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.21818181818181817,"num_correct":24,"omniscience":-52.72727272727273,"attempt_rate":1,"num_incorrect":82,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9534883720930233,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.12222222222222222,"num_correct":11,"omniscience":-73.33333333333333,"attempt_rate":0.9888888888888889,"num_incorrect":77,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9746835443037974,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.2,"num_correct":200,"omniscience":-46.5,"attempt_rate":0.884,"num_incorrect":665,"total_questions":1000,"num_not_attempted":116,"hallucination_rate":0.83125,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.254,"num_correct":254,"omniscience":-36.2,"attempt_rate":0.908,"num_incorrect":616,"total_questions":1000,"num_not_attempted":92,"hallucination_rate":0.8257372654155496,"num_partial_answer":38}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":70,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-01-20","representative_query_token_counts":null,"scicode":0.312,"short_name":"DeepSeek R1 Distill Llama 70B","show_host_model_evals":false,"size_class":"Medium","slug":"deepseek-r1-distill-llama-70b","tau2":0.219,"terminalbench_hard":0.014,"tokenizer_id":"llama3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"886a3bbe-6088-4d70-8274-f87427472fef","slug":"novita_deepseek-r1-distill-llama-70b","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"4a845d7b-a52d-43bb-80b7-b58c7a0c155e","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-r1-distill-llama-70b","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_DeepSeek R1 Distill Llama 70B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.8,"price_1m_output_tokens":0.8,"price_1m_blended_3_to_1":0.8,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":8192,"price_m_tokens_blended_3_to_1_per_dollar":1.25,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8c719ab9-348a-4cbf-a587-3b5b631bacff","slug":"sambanova_deepseek-r1-distill-llama-70b","deleted":false,"host_id":"cba46a55-85b6-4d0a-b228-eede55b263fe","gpqa_16x":null,"model_id":"4a845d7b-a52d-43bb-80b7-b58c7a0c155e","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"DeepSeek-R1-Distill-Llama-70B","function_calling":false,"cache_write_price":null,"host_model_string":"SambaNova_DeepSeek R1 Distill Llama 70B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.7,"price_1m_output_tokens":1.4,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d9f7ea68-b197-4ac8-b89a-e36a4dc601e9","slug":"togetherai_deepseek-r1-distill-llama-70b","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"4a845d7b-a52d-43bb-80b7-b58c7a0c155e","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-Distill-Llama-70B","function_calling":false,"cache_write_price":null,"host_model_string":"Together.ai_DeepSeek R1 Distill Llama 70B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"12a2abe5-dcca-4f96-af94-0b22e9cf668c","slug":"deepinfra_deepseek-r1-distill-llama-70b","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"4a845d7b-a52d-43bb-80b7-b58c7a0c155e","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-Distill-Llama-70B","function_calling":false,"cache_write_price":null,"host_model_string":"DeepInfra_DeepSeek R1 Distill Llama 70B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"bc56d9bd-7c17-44de-95d0-514da491669a","slug":"scaleway_deepseek-r1-distill-llama-70b","deleted":false,"host_id":"a5b31cdb-30c6-4f3c-a92b-93b5af73a5f8","gpqa_16x":null,"model_id":"4a845d7b-a52d-43bb-80b7-b58c7a0c155e","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-r1-distill-llama-70b","function_calling":true,"cache_write_price":null,"host_model_string":"Scaleway_DeepSeek R1 Distill Llama 70B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":1.05,"price_1m_output_tokens":1.05,"price_1m_blended_3_to_1":1.05,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32000,"price_m_tokens_blended_3_to_1_per_dollar":0.95,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-r1-distill-llama-70b","hosts_url":"/models/deepseek-r1-distill-llama-70b/providers","name_and_creator_label":"DeepSeek R1 Distill Llama 70B, DeepSeek"},{"additional_text":null,"aime":0.333,"aime25":0.413,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":null,"display_order":1400,"estimated_intelligence_index":12.10028639307147,"model_family_slug":"deepseek-r1","frontier_model":null,"gdpval":null,"gpqa":0.302,"hle":0.042,"humaneval":0.835,"id":"0e49fe2d-dd3c-4ae5-b56f-a1c89e14b89e","ifbench":0.176,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.49,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"LLAMA 3.1 COMMUNITY LICENSE AGREEMENT","license_url":"https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/LICENSE","livecodebench":0.233,"math_500":0.853,"math_index":41.33,"mmlu_pro":0.543,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B","multilingual_aa":null,"name":"DeepSeek R1 Distill Llama 8B","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":8,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-01-20","representative_query_token_counts":null,"scicode":0.119,"short_name":"DeepSeek R1 Distill Llama 8B","show_host_model_evals":false,"size_class":"Small","slug":"deepseek-r1-distill-llama-8b","tau2":null,"terminalbench_hard":null,"tokenizer_id":"llama3_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[],"model_url":"/models/deepseek-r1-distill-llama-8b","hosts_url":"/models/deepseek-r1-distill-llama-8b/providers","name_and_creator_label":"DeepSeek R1 Distill Llama 8B, DeepSeek"},{"additional_text":null,"aime":0.177,"aime25":0.22,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":null,"display_order":1402,"estimated_intelligence_index":9.075326286181491,"model_family_slug":"deepseek-r1","frontier_model":null,"gdpval":null,"gpqa":0.098,"hle":0.033,"humaneval":0.454,"id":"444cdb1e-bab8-42cd-938c-b2d7a93e2da1","ifbench":0.132,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.338,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.003,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.07,"math_500":0.687,"math_index":22,"mmlu_pro":0.269,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B","multilingual_aa":null,"name":"DeepSeek R1 Distill Qwen 1.5B","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":1.5,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-01-20","representative_query_token_counts":null,"scicode":0.066,"short_name":"DeepSeek R1 Distill Qwen 1.5B","show_host_model_evals":false,"size_class":"Tiny","slug":"deepseek-r1-distill-qwen-1-5b","tau2":null,"terminalbench_hard":null,"tokenizer_id":"qwen2_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[],"model_url":"/models/deepseek-r1-distill-qwen-1-5b","hosts_url":"/models/deepseek-r1-distill-qwen-1-5b/providers","name_and_creator_label":"DeepSeek R1 Distill Qwen 1.5B, DeepSeek"},{"additional_text":null,"aime":0.667,"aime25":0.557,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":null,"display_order":1395,"estimated_intelligence_index":15.844510353679771,"model_family_slug":"deepseek-r1","frontier_model":null,"gdpval":null,"gpqa":0.484,"hle":0.044,"humaneval":0.934,"id":"b26ff709-1773-4595-ae44-78e0a5bac29c","ifbench":0.221,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.591,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.07,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.376,"math_500":0.949,"math_index":55.67,"mmlu_pro":0.74,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B","multilingual_aa":null,"name":"DeepSeek R1 Distill Qwen 14B","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":14,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-01-20","representative_query_token_counts":null,"scicode":0.239,"short_name":"DeepSeek R1 Distill Qwen 14B","show_host_model_evals":false,"size_class":"Small","slug":"deepseek-r1-distill-qwen-14b","tau2":null,"terminalbench_hard":null,"tokenizer_id":"qwen2_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"e67d50bc-feee-4449-bbd5-1ae2621d3b83","slug":"novita_deepseek-r1-distill-qwen-14b","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"b26ff709-1773-4595-ae44-78e0a5bac29c","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-r1-distill-qwen-14b","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_DeepSeek R1 Distill Qwen 14B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.15,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-r1-distill-qwen-14b","hosts_url":"/models/deepseek-r1-distill-qwen-14b/providers","name_and_creator_label":"DeepSeek R1 Distill Qwen 14B, DeepSeek"},{"additional_text":null,"aime":0.687,"aime25":0.63,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":null,"display_order":1381,"estimated_intelligence_index":17.166714190986596,"model_family_slug":"deepseek-r1","frontier_model":null,"gdpval":null,"gpqa":0.615,"hle":0.055,"humaneval":0.948,"id":"df95f83f-5ebb-466a-9d2d-b95efc8c012c","ifbench":0.229,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.621,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.097,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.27,"math_500":0.941,"math_index":63,"mmlu_pro":0.739,"mmmu_pro":null,"model_creator_id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","model_weights_source_url":"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B","multilingual_aa":null,"name":"DeepSeek R1 Distill Qwen 32B","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":32,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-01-20","representative_query_token_counts":null,"scicode":0.376,"short_name":"DeepSeek R1 Distill Qwen 32B","show_host_model_evals":false,"size_class":"Small","slug":"deepseek-r1-distill-qwen-32b","tau2":null,"terminalbench_hard":null,"tokenizer_id":"qwen2_tokenizer","model_creators":{"id":"58b835bf-4c87-4f87-a846-df4b692c6e7d","logo":"deepseek.png","name":"DeepSeek","slug":"deepseek","color":"#2243e6","deleted":false,"host_id":"104abc36-9e4e-46c1-8146-b03161804f91","created_at":"2024-05-07T12:14:23.594294+00:00","logo_small":"deepseek_small.svg","creator_url":"https://www.deepseek.com/","display_order":6,"logo_url":"/img/logos/deepseek.png","logo_small_url":"/img/logos/deepseek_small.svg"},"host_models":[{"id":"cd17e196-bd28-42e3-8a38-67db51ec7b09","slug":"novita_deepseek-r1-distill-qwen-32b","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"df95f83f-5ebb-466a-9d2d-b95efc8c012c","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek/deepseek-r1-distill-qwen-32b","function_calling":false,"cache_write_price":null,"host_model_string":"Novita_DeepSeek R1 Distill Qwen 32B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.3,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":64000,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8fffb960-bdaa-462d-8ef3-e6f7f6f90af3","slug":"deepinfra_deepseek-r1-distill-qwen-32b","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"df95f83f-5ebb-466a-9d2d-b95efc8c012c","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"deepseek-ai/DeepSeek-R1-Distill-Qwen-32B","function_calling":false,"cache_write_price":null,"host_model_string":"Deepinfra_DeepSeek R1 Distill Qwen 32B","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.27,"price_1m_output_tokens":0.27,"price_1m_blended_3_to_1":0.27,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.7,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/deepseek-r1-distill-qwen-32b","hosts_url":"/models/deepseek-r1-distill-qwen-32b/providers","name_and_creator_label":"DeepSeek R1 Distill Qwen 32B, DeepSeek"},{"additional_text":null,"aime":0.873,"aime25":0.737,"agentic_index":18.59,"coding_index":25.8,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"glm-4-6-reasoning","display_order":1593,"estimated_intelligence_index":28.107598608674042,"model_family_slug":"glm-4-5","frontier_model":false,"gdpval":601.3491026413685,"gpqa":0.782,"hle":0.122,"humaneval":0.982,"id":"1cf439b8-0cfd-47b2-9de2-9a2157e6762b","ifbench":0.441,"inference_parameters_active_billions":32,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":26.69,"intelligence_index_token_counts":{"input_tokens":464326307,"answer_tokens":9509135,"output_tokens":63500593,"reasoning_tokens":53991458},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.483,"license_name":"MIT","license_url":"https://huggingface.co/zai-org/GLM-4.5","livecodebench":0.738,"math_500":0.979,"math_index":73.67,"mmlu_pro":0.835,"mmmu_pro":null,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://huggingface.co/zai-org/GLM-4.5","multilingual_aa":null,"name":"GLM-4.5 (Reasoning)","is_open_weights":true,"omniscience":-29.017,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":-39,"attempt_rate":0.624,"num_incorrect":500,"total_questions":1000,"num_not_attempted":376,"hallucination_rate":0.5617977528089888,"num_partial_answer":14}},"total":{"accuracy":0.23866666666666667,"num_correct":1432,"omniscience":-29.016666666666666,"attempt_rate":0.7908333333333334,"num_incorrect":3173,"total_questions":6000,"num_not_attempted":1255,"hallucination_rate":0.694614711033275,"num_partial_answer":140},"Health":{"total":{"accuracy":0.251,"num_correct":251,"omniscience":-31.4,"attempt_rate":0.861,"num_incorrect":565,"total_questions":1000,"num_not_attempted":139,"hallucination_rate":0.7543391188251002,"num_partial_answer":45}},"Business":{"total":{"accuracy":0.191,"num_correct":191,"omniscience":-24.7,"attempt_rate":0.646,"num_incorrect":438,"total_questions":1000,"num_not_attempted":354,"hallucination_rate":0.5414091470951793,"num_partial_answer":17}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.46,"num_correct":46,"omniscience":-1,"attempt_rate":0.96,"num_incorrect":47,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.8703703703703703,"num_partial_answer":3}},"R":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-42,"attempt_rate":0.82,"num_incorrect":31,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.775,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-24,"attempt_rate":0.88,"num_incorrect":28,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8235294117647058,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-28,"attempt_rate":0.96,"num_incorrect":30,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8823529411764706,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.94,"num_incorrect":35,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.875,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-6,"attempt_rate":0.96,"num_incorrect":24,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8275862068965517,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-54,"attempt_rate":0.93,"num_incorrect":73,"total_questions":100,"num_not_attempted":7,"hallucination_rate":0.9012345679012346,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":28,"attempt_rate":0.98,"num_incorrect":16,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.8,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-52,"attempt_rate":1,"num_incorrect":19,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-24,"attempt_rate":0.96,"num_incorrect":15,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9375,"num_partial_answer":0}},"total":{"accuracy":0.318,"num_correct":318,"omniscience":-27.4,"attempt_rate":0.933,"num_incorrect":592,"total_questions":1000,"num_not_attempted":67,"hallucination_rate":0.8680351906158358,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-40,"attempt_rate":0.9,"num_incorrect":31,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7948717948717948,"num_partial_answer":3}},"Python":{"total":{"accuracy":0.27,"num_correct":54,"omniscience":-33.5,"attempt_rate":0.89,"num_incorrect":121,"total_questions":200,"num_not_attempted":22,"hallucination_rate":0.8287671232876712,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.37272727272727274,"num_correct":41,"omniscience":-21.818181818181817,"attempt_rate":0.9818181818181818,"num_incorrect":65,"total_questions":110,"num_not_attempted":2,"hallucination_rate":0.9420289855072463,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.32222222222222224,"num_correct":29,"omniscience":-31.11111111111111,"attempt_rate":0.9666666666666667,"num_incorrect":57,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9344262295081968,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.253,"num_correct":253,"omniscience":-26.6,"attempt_rate":0.786,"num_incorrect":519,"total_questions":1000,"num_not_attempted":214,"hallucination_rate":0.6947791164658634,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.309,"num_correct":309,"omniscience":-25,"attempt_rate":0.895,"num_incorrect":559,"total_questions":1000,"num_not_attempted":105,"hallucination_rate":0.808972503617945,"num_partial_answer":27}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":81920,"parameters":355,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-07-28","representative_query_token_counts":null,"scicode":0.348,"short_name":"GLM-4.5","show_host_model_evals":false,"size_class":"Large","slug":"glm-4.5","tau2":0.43,"terminalbench_hard":0.213,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"277c9621-fdeb-4257-be27-9950dc7b29a4","slug":"novita_glm-4-5","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"1cf439b8-0cfd-47b2-9de2-9a2157e6762b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.5","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.5 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0d23a733-3836-4e85-9183-b645b5b8f0e2","slug":"gmi_glm-4-5_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"1cf439b8-0cfd-47b2-9de2-9a2157e6762b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"GMI_GLM-4.5_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"22806ca5-9ded-47b2-8d64-68fd0a60eeec","slug":"nebius_glm-4-5_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"1cf439b8-0cfd-47b2-9de2-9a2157e6762b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_GLM-4.5_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.6,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":1,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":1,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"5bd6a826-a6ff-4c41-9320-67896062cf5c","slug":"deepinfra_glm-4-5","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"1cf439b8-0cfd-47b2-9de2-9a2157e6762b","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_GLM-4.5","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.38,"price_1m_output_tokens":1.6,"price_1m_blended_3_to_1":0.685,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.46,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0e8eacc4-d3fb-46a8-93bf-29c400a0c20a","slug":"siliconflow_glm-4-5","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"1cf439b8-0cfd-47b2-9de2-9a2157e6762b","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5","function_calling":false,"cache_write_price":null,"host_model_string":"SiliconFlow_GLM-4.5 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.14,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4.5","hosts_url":"/models/glm-4.5/providers","name_and_creator_label":"GLM-4.5, Z AI"},{"additional_text":null,"aime":0.673,"aime25":0.807,"agentic_index":23.14,"coding_index":22.95,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":654,"estimated_intelligence_index":26.31975907960396,"model_family_slug":"glm-4-5","frontier_model":false,"gdpval":709.4746222062578,"gpqa":0.733,"hle":0.068,"humaneval":0.932,"id":"5d303dc9-c027-401f-9803-4e9aa3331007","ifbench":0.376,"inference_parameters_active_billions":12,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":23.47,"intelligence_index_token_counts":{"input_tokens":158064690,"answer_tokens":3678829,"output_tokens":77175360,"reasoning_tokens":73496530},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.437,"license_name":"MIT","license_url":"https://huggingface.co/zai-org/GLM-4.5-Air","livecodebench":0.684,"math_500":0.965,"math_index":80.67,"mmlu_pro":0.815,"mmmu_pro":null,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://huggingface.co/zai-org/GLM-4.5-Air","multilingual_aa":null,"name":"GLM-4.5-Air","is_open_weights":true,"omniscience":-63.15,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.065,"num_correct":65,"omniscience":-75.3,"attempt_rate":0.887,"num_incorrect":818,"total_questions":1000,"num_not_attempted":113,"hallucination_rate":0.8748663101604278,"num_partial_answer":4}},"total":{"accuracy":0.1505,"num_correct":903,"omniscience":-63.15,"attempt_rate":0.9548333333333333,"num_incorrect":4692,"total_questions":6000,"num_not_attempted":271,"hallucination_rate":0.9205414949970571,"num_partial_answer":134},"Health":{"total":{"accuracy":0.148,"num_correct":148,"omniscience":-64.6,"attempt_rate":0.978,"num_incorrect":794,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.931924882629108,"num_partial_answer":36}},"Business":{"total":{"accuracy":0.13,"num_correct":130,"omniscience":-65.9,"attempt_rate":0.94,"num_incorrect":789,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.906896551724138,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.27,"num_correct":27,"omniscience":-44,"attempt_rate":1,"num_incorrect":71,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9726027397260274,"num_partial_answer":2}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-92,"attempt_rate":1,"num_incorrect":48,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-64,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-66,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9761904761904762,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.08,"num_correct":8,"omniscience":-82,"attempt_rate":1,"num_incorrect":90,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9782608695652174,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-16,"attempt_rate":1,"num_incorrect":26,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8125,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"total":{"accuracy":0.19,"num_correct":190,"omniscience":-59.1,"attempt_rate":0.999,"num_incorrect":781,"total_questions":1000,"num_not_attempted":1,"hallucination_rate":0.9641975308641976,"num_partial_answer":28},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-56,"attempt_rate":1,"num_incorrect":38,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.95,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.17,"num_correct":34,"omniscience":-63.5,"attempt_rate":0.995,"num_incorrect":161,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9698795180722891,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-31.818181818181817,"attempt_rate":1,"num_incorrect":71,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9594594594594594,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.08888888888888889,"num_correct":8,"omniscience":-77.77777777777777,"attempt_rate":1,"num_incorrect":78,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9512195121951219,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.128,"num_correct":128,"omniscience":-68,"attempt_rate":0.947,"num_incorrect":808,"total_questions":1000,"num_not_attempted":53,"hallucination_rate":0.926605504587156,"num_partial_answer":11}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.242,"num_correct":242,"omniscience":-46,"attempt_rate":0.978,"num_incorrect":702,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.9261213720316622,"num_partial_answer":34}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":81920,"parameters":106,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-07-28","representative_query_token_counts":null,"scicode":0.306,"short_name":"GLM-4.5-Air","show_host_model_evals":false,"size_class":"Medium","slug":"glm-4-5-air","tau2":0.465,"terminalbench_hard":0.191,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"9d1b819e-19d6-4ee6-9181-7bfaef7f62dc","slug":"deepinfra_glm-4-5-air","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"5d303dc9-c027-401f-9803-4e9aa3331007","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5-Air","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_GLM-4.5-Air","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":1.1,"price_1m_blended_3_to_1":0.425,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"40e53f3e-bc09-4ee5-857b-29681db8fc3c","slug":"togetherai_glm-4-5-air_fp8","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"5d303dc9-c027-401f-9803-4e9aa3331007","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5-Air-FP8","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_GLM-4.5-Air_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":1.1,"price_1m_blended_3_to_1":0.425,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":2.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"52b26114-bd84-4427-9837-167cb50bf299","slug":"gmi_glm-4-5-air_fp8","deleted":false,"host_id":"b0eae0b8-cf77-450a-8499-f267182e0a00","gpqa_16x":null,"model_id":"5d303dc9-c027-401f-9803-4e9aa3331007","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5-Air-FP8","function_calling":false,"cache_write_price":null,"host_model_string":"GMI_GLM-4.5-Air_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":1.1,"price_1m_blended_3_to_1":0.425,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131076,"price_m_tokens_blended_3_to_1_per_dollar":2.35,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"83c394a4-ffee-44bc-8d37-954bef9a7094","slug":"nebius_glm-4-5-air_base","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"5d303dc9-c027-401f-9803-4e9aa3331007","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5-Air","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_GLM-4.5-Air_Base","cache_pricing_notes":null,"model_name_appendage":"Base","price_1m_input_tokens":0.2,"price_1m_output_tokens":1.2,"price_1m_blended_3_to_1":0.45,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":2.22,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"8669bd0b-1422-4bdb-971f-65935d981e23","slug":"siliconflow_glm-4-5-air","deleted":false,"host_id":"1d44e70f-716c-41ac-bb7a-fca1a432a9b3","gpqa_16x":null,"model_id":"5d303dc9-c027-401f-9803-4e9aa3331007","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/GLM-4.5-Air","function_calling":false,"cache_write_price":null,"host_model_string":"SiliconFlow_GLM-4.5-Air","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.14,"price_1m_output_tokens":0.86,"price_1m_blended_3_to_1":0.32,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.13,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-5-air","hosts_url":"/models/glm-4-5-air/providers","name_and_creator_label":"GLM-4.5-Air, Z AI"},{"additional_text":null,"aime":null,"aime25":0.153,"agentic_index":11.68,"coding_index":10.51,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":64000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"glm-4-6v","display_order":1590,"estimated_intelligence_index":14.376428460400666,"model_family_slug":"glm-4-5","frontier_model":false,"gdpval":626.604424681279,"gpqa":0.573,"hle":0.036,"humaneval":null,"id":"0081ab31-d10a-44a0-a10d-eee5533fec65","ifbench":0.286,"inference_parameters_active_billions":12,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":13.09,"intelligence_index_token_counts":{"input_tokens":332298693,"answer_tokens":7463340,"output_tokens":7463340,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"MIT","license_url":"https://huggingface.co/zai-org/GLM-4.5","livecodebench":0.352,"math_500":null,"math_index":15.33,"mmlu_pro":0.751,"mmmu_pro":0.428,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://huggingface.co/zai-org/GLM-4.5V","multilingual_aa":null,"name":"GLM-4.5V (Non-reasoning)","is_open_weights":true,"omniscience":-56.867,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.099,"num_correct":99,"omniscience":-63.3,"attempt_rate":0.836,"num_incorrect":732,"total_questions":1000,"num_not_attempted":164,"hallucination_rate":0.8124306326304107,"num_partial_answer":5}},"total":{"accuracy":0.173,"num_correct":1038,"omniscience":-56.86666666666667,"attempt_rate":0.9376666666666666,"num_incorrect":4450,"total_questions":6000,"num_not_attempted":374,"hallucination_rate":0.8968158000806127,"num_partial_answer":138},"Health":{"total":{"accuracy":0.185,"num_correct":185,"omniscience":-55.6,"attempt_rate":0.975,"num_incorrect":741,"total_questions":1000,"num_not_attempted":25,"hallucination_rate":0.90920245398773,"num_partial_answer":49}},"Business":{"total":{"accuracy":0.136,"num_correct":136,"omniscience":-62.3,"attempt_rate":0.916,"num_incorrect":759,"total_questions":1000,"num_not_attempted":84,"hallucination_rate":0.8784722222222222,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.32,"num_correct":32,"omniscience":-33,"attempt_rate":0.98,"num_incorrect":65,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9558823529411765,"num_partial_answer":1}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-82,"attempt_rate":0.98,"num_incorrect":45,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9782608695652174,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-58,"attempt_rate":0.98,"num_incorrect":38,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.926829268292683,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":0.98,"num_incorrect":35,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9459459459459459,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-72,"attempt_rate":1,"num_incorrect":43,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":1,"num_incorrect":32,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.14,"num_correct":14,"omniscience":-69,"attempt_rate":0.99,"num_incorrect":83,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9651162790697675,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.46,"num_correct":23,"omniscience":-2,"attempt_rate":1,"num_incorrect":24,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8888888888888888,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":23,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-60,"attempt_rate":0.96,"num_incorrect":19,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9047619047619048,"num_partial_answer":1}},"total":{"accuracy":0.226,"num_correct":226,"omniscience":-51.1,"attempt_rate":0.98,"num_incorrect":737,"total_questions":1000,"num_not_attempted":20,"hallucination_rate":0.9521963824289406,"num_partial_answer":17},"Kotlin":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-64,"attempt_rate":0.9,"num_incorrect":38,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8636363636363636,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.19,"num_correct":38,"omniscience":-57.5,"attempt_rate":0.965,"num_incorrect":153,"total_questions":200,"num_not_attempted":7,"hallucination_rate":0.9444444444444444,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.36363636363636365,"num_correct":40,"omniscience":-25.454545454545453,"attempt_rate":1,"num_incorrect":68,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9714285714285714,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.2111111111111111,"num_correct":19,"omniscience":-57.77777777777778,"attempt_rate":1,"num_incorrect":71,"total_questions":90,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.178,"num_correct":178,"omniscience":-55.8,"attempt_rate":0.932,"num_incorrect":736,"total_questions":1000,"num_not_attempted":68,"hallucination_rate":0.8953771289537713,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.214,"num_correct":214,"omniscience":-53.1,"attempt_rate":0.987,"num_incorrect":745,"total_questions":1000,"num_not_attempted":13,"hallucination_rate":0.9478371501272265,"num_partial_answer":28}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":108,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-08-11","representative_query_token_counts":null,"scicode":0.188,"short_name":"GLM-4.5V","show_host_model_evals":false,"size_class":"Medium","slug":"glm-4-5v","tau2":0.196,"terminalbench_hard":0.064,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"c9cbf21c-31b5-4147-a69f-a8a1d617b258","slug":"novita_glm-4-5v","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"0081ab31-d10a-44a0-a10d-eee5533fec65","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.5v","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.5V","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":1.8,"price_1m_blended_3_to_1":0.9,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":65536,"price_m_tokens_blended_3_to_1_per_dollar":1.11,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-5v","hosts_url":"/models/glm-4-5v/providers","name_and_creator_label":"GLM-4.5V, Z AI"},{"additional_text":null,"aime":null,"aime25":0.73,"agentic_index":null,"coding_index":10.68,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":64000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"glm-4-6v-reasoning","display_order":1614,"estimated_intelligence_index":19.267407790488182,"model_family_slug":"glm-4-5","frontier_model":null,"gdpval":null,"gpqa":0.684,"hle":0.059,"humaneval":null,"id":"3068def4-7270-4c06-a320-6f6a5623d564","ifbench":0.342,"inference_parameters_active_billions":12,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0,"license_name":"MIT","license_url":"https://huggingface.co/zai-org/GLM-4.5","livecodebench":0.604,"math_500":null,"math_index":73,"mmlu_pro":0.788,"mmmu_pro":0.505,"model_creator_id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","model_weights_source_url":"https://huggingface.co/zai-org/GLM-4.5V","multilingual_aa":null,"name":"GLM-4.5V (Reasoning)","is_open_weights":true,"omniscience":-46.417,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.105,"num_correct":105,"omniscience":-57.2,"attempt_rate":0.794,"num_incorrect":677,"total_questions":1000,"num_not_attempted":206,"hallucination_rate":0.7564245810055866,"num_partial_answer":12}},"total":{"accuracy":0.20133333333333334,"num_correct":1208,"omniscience":-46.416666666666664,"attempt_rate":0.8915,"num_incorrect":3993,"total_questions":6000,"num_not_attempted":651,"hallucination_rate":0.8332637729549248,"num_partial_answer":148},"Health":{"total":{"accuracy":0.203,"num_correct":203,"omniscience":-50,"attempt_rate":0.947,"num_incorrect":703,"total_questions":1000,"num_not_attempted":53,"hallucination_rate":0.8820577164366374,"num_partial_answer":41}},"Business":{"total":{"accuracy":0.163,"num_correct":163,"omniscience":-48.7,"attempt_rate":0.835,"num_incorrect":650,"total_questions":1000,"num_not_attempted":165,"hallucination_rate":0.7765830346475507,"num_partial_answer":22}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.28,"num_correct":28,"omniscience":-41,"attempt_rate":1,"num_incorrect":69,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9583333333333334,"num_partial_answer":3}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-58,"attempt_rate":0.82,"num_incorrect":35,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7954545454545454,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-52,"attempt_rate":0.92,"num_incorrect":35,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8536585365853658,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-40,"attempt_rate":0.96,"num_incorrect":34,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9444444444444444,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-48,"attempt_rate":0.94,"num_incorrect":35,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8974358974358975,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-16,"attempt_rate":0.94,"num_incorrect":26,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8125,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-64,"attempt_rate":0.92,"num_incorrect":77,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.8850574712643678,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":6,"attempt_rate":0.96,"num_incorrect":19,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.6785714285714286,"num_partial_answer":7}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-56,"attempt_rate":0.88,"num_incorrect":18,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.8571428571428571,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":16,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":0}},"total":{"accuracy":0.246,"num_correct":246,"omniscience":-41.5,"attempt_rate":0.933,"num_incorrect":661,"total_questions":1000,"num_not_attempted":67,"hallucination_rate":0.876657824933687,"num_partial_answer":26},"Kotlin":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-40,"attempt_rate":0.88,"num_incorrect":32,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8421052631578947,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.225,"num_correct":45,"omniscience":-46,"attempt_rate":0.92,"num_incorrect":137,"total_questions":200,"num_not_attempted":16,"hallucination_rate":0.8838709677419355,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-24.545454545454547,"attempt_rate":0.9363636363636364,"num_incorrect":63,"total_questions":110,"num_not_attempted":7,"hallucination_rate":0.8513513513513513,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.2222222222222222,"num_correct":20,"omniscience":-50,"attempt_rate":0.9666666666666667,"num_incorrect":65,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9285714285714286,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.204,"num_correct":204,"omniscience":-47.2,"attempt_rate":0.894,"num_incorrect":676,"total_questions":1000,"num_not_attempted":106,"hallucination_rate":0.8492462311557789,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.287,"num_correct":287,"omniscience":-33.9,"attempt_rate":0.946,"num_incorrect":626,"total_questions":1000,"num_not_attempted":54,"hallucination_rate":0.8779803646563815,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":64000,"parameters":108,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":""},"release_date":"2025-08-11","representative_query_token_counts":null,"scicode":0.221,"short_name":"GLM-4.5V","show_host_model_evals":false,"size_class":"Medium","slug":"glm-4-5v-reasoning","tau2":0.225,"terminalbench_hard":0.05,"tokenizer_id":null,"model_creators":{"id":"67437eb6-7dc1-4e93-befd-22c8b8ec2065","logo":"zai_small.svg","name":"Z AI","slug":"zai","color":"#1c7ff8","deleted":false,"host_id":null,"created_at":"2024-10-09T15:52:27.805438+00:00","logo_small":"zai_small.svg","creator_url":"https://z.ai/","display_order":202,"logo_url":"/img/logos/zai_small.svg","logo_small_url":"/img/logos/zai_small.svg"},"host_models":[{"id":"175c3e78-562e-4c51-8ddc-648e1c71b4b7","slug":"novita_glm-4-5v-reasoning","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"3068def4-7270-4c06-a320-6f6a5623d564","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"zai-org/glm-4.5v","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_GLM-4.5V (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.6,"price_1m_output_tokens":1.8,"price_1m_blended_3_to_1":0.9,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":65536,"price_m_tokens_blended_3_to_1_per_dollar":1.11,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/glm-4-5v-reasoning","hosts_url":"/models/glm-4-5v-reasoning/providers","name_and_creator_label":"GLM-4.5V, Z AI"},{"additional_text":null,"aime":0.437,"aime25":0.347,"agentic_index":28.56,"coding_index":21.2,"commercial_allowed":null,"computed_performance_host_model_id":"3e8c63cf-b4f3-4e2d-8974-100992724d01","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-medium","display_order":915,"estimated_intelligence_index":22.804433137255483,"model_family_slug":"gpt-4-1","frontier_model":false,"gdpval":878.5891926044417,"gpqa":0.666,"hle":0.046,"humaneval":0.956,"id":"3b608b70-6434-4baa-99ad-45d499703c67","ifbench":0.43,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":25.78,"intelligence_index_token_counts":{"input_tokens":122387704,"answer_tokens":4394684,"output_tokens":4394684,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-05-31","lab_claimed_aime":0.481,"lab_claimed_gpqa":0.663,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.61,"license_name":null,"license_url":null,"livecodebench":0.457,"math_500":0.913,"math_index":34.67,"mmlu_pro":0.806,"mmmu_pro":0.612,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-4.1","is_open_weights":false,"omniscience":-42.133,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.219,"num_correct":219,"omniscience":-51.3,"attempt_rate":0.965,"num_incorrect":732,"total_questions":1000,"num_not_attempted":35,"hallucination_rate":0.9372599231754162,"num_partial_answer":14}},"total":{"accuracy":0.2608333333333333,"num_correct":1565,"omniscience":-42.13333333333333,"attempt_rate":0.977,"num_incorrect":4093,"total_questions":6000,"num_not_attempted":138,"hallucination_rate":0.9228861330326945,"num_partial_answer":204},"Health":{"total":{"accuracy":0.249,"num_correct":249,"omniscience":-43,"attempt_rate":0.994,"num_incorrect":679,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.9041278295605859,"num_partial_answer":66}},"Business":{"total":{"accuracy":0.247,"num_correct":247,"omniscience":-42.8,"attempt_rate":0.943,"num_incorrect":675,"total_questions":1000,"num_not_attempted":57,"hallucination_rate":0.896414342629482,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.41,"num_correct":41,"omniscience":-15,"attempt_rate":1,"num_incorrect":56,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9491525423728814,"num_partial_answer":3}},"R":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-40,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-48,"attempt_rate":0.94,"num_incorrect":35,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8974358974358975,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-26,"attempt_rate":1,"num_incorrect":31,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.96875,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-34,"attempt_rate":1,"num_incorrect":31,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8611111111111112,"num_partial_answer":5}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-42,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.918918918918919,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-54,"attempt_rate":1,"num_incorrect":76,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9743589743589743,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.56,"num_correct":28,"omniscience":22,"attempt_rate":1,"num_incorrect":17,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7727272727272727,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-60,"attempt_rate":1,"num_incorrect":20,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.48,"num_correct":12,"omniscience":8,"attempt_rate":0.96,"num_incorrect":10,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.7692307692307693,"num_partial_answer":2}},"total":{"accuracy":0.313,"num_correct":313,"omniscience":-33.3,"attempt_rate":0.99,"num_incorrect":646,"total_questions":1000,"num_not_attempted":10,"hallucination_rate":0.9403202328966521,"num_partial_answer":31},"Kotlin":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-40,"attempt_rate":0.98,"num_incorrect":34,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.275,"num_correct":55,"omniscience":-43.5,"attempt_rate":0.985,"num_incorrect":142,"total_questions":200,"num_not_attempted":3,"hallucination_rate":0.9793103448275862,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.35,"num_correct":7,"omniscience":-20,"attempt_rate":1,"num_incorrect":11,"total_questions":20,"num_not_attempted":0,"hallucination_rate":0.8461538461538461,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.3277777777777778,"num_correct":59,"omniscience":-31.11111111111111,"attempt_rate":1,"num_incorrect":115,"total_questions":180,"num_not_attempted":0,"hallucination_rate":0.9504132231404959,"num_partial_answer":6}}},"Humanities & Social Sciences":{"total":{"accuracy":0.273,"num_correct":273,"omniscience":-41.9,"attempt_rate":0.987,"num_incorrect":692,"total_questions":1000,"num_not_attempted":13,"hallucination_rate":0.951856946354883,"num_partial_answer":22}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.264,"num_correct":264,"omniscience":-40.5,"attempt_rate":0.983,"num_incorrect":669,"total_questions":1000,"num_not_attempted":17,"hallucination_rate":0.9089673913043478,"num_partial_answer":50}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-14","representative_query_token_counts":null,"scicode":0.381,"short_name":"GPT-4.1","show_host_model_evals":false,"size_class":"Large","slug":"gpt-4-1","tau2":0.471,"terminalbench_hard":0.128,"tokenizer_id":"gpt-4o_tokenizer","model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"6a484244-fbe2-4f3f-b71c-e54f89595fe4","slug":"azure_gpt-4-1","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"3b608b70-6434-4baa-99ad-45d499703c67","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-4.1","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-4.1","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":8,"price_1m_blended_3_to_1":3.5,"price_per_1k_1mp_images":1.53,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"3e8c63cf-b4f3-4e2d-8974-100992724d01","slug":"openai_gpt-4-1","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"3b608b70-6434-4baa-99ad-45d499703c67","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-4.1-2025-04-14","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-4.1","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":8,"price_1m_blended_3_to_1":3.5,"price_per_1k_1mp_images":1.53,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.29,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-4-1","hosts_url":"/models/gpt-4-1/providers","name_and_creator_label":"GPT-4.1, OpenAI"},{"additional_text":null,"aime":0.43,"aime25":0.463,"agentic_index":27.52,"coding_index":18.19,"commercial_allowed":null,"computed_performance_host_model_id":"8dd66a96-68d9-486f-9584-618ef2b69bc2","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-mini-medium","display_order":941,"estimated_intelligence_index":22.24928677193938,"model_family_slug":"gpt-4-1","frontier_model":false,"gdpval":779.510818665538,"gpqa":0.664,"hle":0.046,"humaneval":0.95,"id":"9f7c7566-a704-49a2-a383-cb3181da33a4","ifbench":0.383,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":22.89,"intelligence_index_token_counts":{"input_tokens":117667588,"answer_tokens":4512423,"output_tokens":4512423,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-05-31","lab_claimed_aime":0.496,"lab_claimed_gpqa":0.65,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.423,"license_name":null,"license_url":null,"livecodebench":0.483,"math_500":0.925,"math_index":46.33,"mmlu_pro":0.781,"mmmu_pro":0.587,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-4.1 mini","is_open_weights":false,"omniscience":-55.7,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.096,"num_correct":96,"omniscience":-69.3,"attempt_rate":0.897,"num_incorrect":789,"total_questions":1000,"num_not_attempted":103,"hallucination_rate":0.8727876106194691,"num_partial_answer":12}},"total":{"accuracy":0.18733333333333332,"num_correct":1124,"omniscience":-55.7,"attempt_rate":0.96,"num_incorrect":4466,"total_questions":6000,"num_not_attempted":240,"hallucination_rate":0.9159146841673503,"num_partial_answer":170},"Health":{"total":{"accuracy":0.227,"num_correct":227,"omniscience":-48.9,"attempt_rate":0.994,"num_incorrect":716,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.926261319534282,"num_partial_answer":51}},"Business":{"total":{"accuracy":0.157,"num_correct":157,"omniscience":-57.2,"attempt_rate":0.91,"num_incorrect":729,"total_questions":1000,"num_not_attempted":90,"hallucination_rate":0.8647686832740213,"num_partial_answer":24}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.33,"num_correct":33,"omniscience":-30,"attempt_rate":1,"num_incorrect":63,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9402985074626866,"num_partial_answer":4}},"R":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-72,"attempt_rate":1,"num_incorrect":43,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-70,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9767441860465116,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":1,"num_incorrect":35,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9459459459459459,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-60,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9512195121951219,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-64,"attempt_rate":1,"num_incorrect":81,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9759036144578314,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.52,"num_correct":26,"omniscience":16,"attempt_rate":1,"num_incorrect":18,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.75,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-96,"attempt_rate":0.96,"num_incorrect":24,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.96,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":0.96,"num_incorrect":14,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.875,"num_partial_answer":1}},"total":{"accuracy":0.233,"num_correct":233,"omniscience":-49.5,"attempt_rate":0.994,"num_incorrect":728,"total_questions":1000,"num_not_attempted":6,"hallucination_rate":0.9491525423728814,"num_partial_answer":33},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-66,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9761904761904762,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.185,"num_correct":37,"omniscience":-59,"attempt_rate":0.98,"num_incorrect":155,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.950920245398773,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.3090909090909091,"num_correct":34,"omniscience":-33.63636363636363,"attempt_rate":1,"num_incorrect":71,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9342105263157895,"num_partial_answer":5}},"TypeScript":{"total":{"accuracy":0.2222222222222222,"num_correct":20,"omniscience":-52.22222222222222,"attempt_rate":1,"num_incorrect":67,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9571428571428572,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.181,"num_correct":181,"omniscience":-60.2,"attempt_rate":0.982,"num_incorrect":783,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.9560439560439561,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.23,"num_correct":230,"omniscience":-49.1,"attempt_rate":0.983,"num_incorrect":721,"total_questions":1000,"num_not_attempted":17,"hallucination_rate":0.9363636363636364,"num_partial_answer":32}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-14","representative_query_token_counts":null,"scicode":0.404,"short_name":"GPT-4.1 mini","show_host_model_evals":false,"size_class":"Medium","slug":"gpt-4-1-mini","tau2":0.529,"terminalbench_hard":0.071,"tokenizer_id":"gpt-4o_tokenizer","model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"8dd66a96-68d9-486f-9584-618ef2b69bc2","slug":"openai_gpt-4-1-mini","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"9f7c7566-a704-49a2-a383-cb3181da33a4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-4.1-mini-2025-04-14","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-4.1 mini","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":1.6,"price_1m_blended_3_to_1":0.7,"price_per_1k_1mp_images":0.6636,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.43,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"53461f80-363b-42f8-8eb1-bdfb13b19548","slug":"azure_gpt-4-1-mini","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"9f7c7566-a704-49a2-a383-cb3181da33a4","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-4.1-mini","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-4.1 mini","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":1.6,"price_1m_blended_3_to_1":0.7,"price_per_1k_1mp_images":0.6636,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.43,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-4-1-mini","hosts_url":"/models/gpt-4-1-mini/providers","name_and_creator_label":"GPT-4.1 mini, OpenAI"},{"additional_text":null,"aime":0.237,"aime25":0.24,"agentic_index":7.22,"coding_index":11.01,"commercial_allowed":null,"computed_performance_host_model_id":"256316f2-e4ef-45ef-bfa8-bd9ecffc2b53","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"gpt-5-nano-medium","display_order":919,"estimated_intelligence_index":14.89216078821739,"model_family_slug":"gpt-4-1","frontier_model":false,"gdpval":523.4717792540641,"gpqa":0.512,"hle":0.039,"humaneval":0.877,"id":"72c358fd-7d45-4d68-89aa-699743710924","ifbench":0.32,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":13.22,"intelligence_index_token_counts":{"input_tokens":290330135,"answer_tokens":5153328,"output_tokens":5153328,"reasoning_tokens":0},"knowledge_cutoff_date":"2024-05-31","lab_claimed_aime":0.294,"lab_claimed_gpqa":0.503,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.17,"license_name":null,"license_url":null,"livecodebench":0.326,"math_500":0.848,"math_index":24,"mmlu_pro":0.657,"mmmu_pro":0.401,"model_creator_id":"e67e56e3-15cd-43db-b679-da4660a69f41","model_weights_source_url":null,"multilingual_aa":null,"name":"GPT-4.1 nano","is_open_weights":false,"omniscience":-58.95,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.07,"num_correct":70,"omniscience":-66.6,"attempt_rate":0.817,"num_incorrect":736,"total_questions":1000,"num_not_attempted":183,"hallucination_rate":0.7913978494623656,"num_partial_answer":11}},"total":{"accuracy":0.12783333333333333,"num_correct":767,"omniscience":-58.95,"attempt_rate":0.867,"num_incorrect":4304,"total_questions":6000,"num_not_attempted":798,"hallucination_rate":0.8224727689661762,"num_partial_answer":131},"Health":{"total":{"accuracy":0.134,"num_correct":134,"omniscience":-59.7,"attempt_rate":0.905,"num_incorrect":731,"total_questions":1000,"num_not_attempted":95,"hallucination_rate":0.8441108545034642,"num_partial_answer":40}},"Business":{"total":{"accuracy":0.109,"num_correct":109,"omniscience":-52.6,"attempt_rate":0.765,"num_incorrect":635,"total_questions":1000,"num_not_attempted":235,"hallucination_rate":0.712682379349046,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-45,"attempt_rate":0.96,"num_incorrect":70,"total_questions":100,"num_not_attempted":4,"hallucination_rate":0.9333333333333333,"num_partial_answer":1}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-82,"attempt_rate":0.9,"num_incorrect":43,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8958333333333334,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-58,"attempt_rate":0.86,"num_incorrect":35,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.7954545454545454,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-50,"attempt_rate":0.92,"num_incorrect":34,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8292682926829268,"num_partial_answer":3}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-52,"attempt_rate":0.82,"num_incorrect":33,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7674418604651163,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-54,"attempt_rate":0.96,"num_incorrect":36,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8780487804878049,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-68,"attempt_rate":0.94,"num_incorrect":81,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.9310344827586207,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-14,"attempt_rate":0.98,"num_incorrect":25,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.78125,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-80,"attempt_rate":0.96,"num_incorrect":22,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9565217391304348,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-52,"attempt_rate":0.92,"num_incorrect":18,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.9,"num_partial_answer":0}},"total":{"accuracy":0.155,"num_correct":155,"omniscience":-58.9,"attempt_rate":0.921,"num_incorrect":744,"total_questions":1000,"num_not_attempted":79,"hallucination_rate":0.8804733727810651,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-72,"attempt_rate":0.9,"num_incorrect":40,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8695652173913043,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.105,"num_correct":21,"omniscience":-66.5,"attempt_rate":0.895,"num_incorrect":154,"total_questions":200,"num_not_attempted":21,"hallucination_rate":0.8603351955307262,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.24545454545454545,"num_correct":27,"omniscience":-42.72727272727273,"attempt_rate":0.9272727272727272,"num_incorrect":74,"total_questions":110,"num_not_attempted":8,"hallucination_rate":0.891566265060241,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.07777777777777778,"num_correct":7,"omniscience":-80,"attempt_rate":0.9555555555555556,"num_incorrect":79,"total_questions":90,"num_not_attempted":4,"hallucination_rate":0.9518072289156626,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.136,"num_correct":136,"omniscience":-62.8,"attempt_rate":0.908,"num_incorrect":764,"total_questions":1000,"num_not_attempted":92,"hallucination_rate":0.8842592592592593,"num_partial_answer":8}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.163,"num_correct":163,"omniscience":-53.1,"attempt_rate":0.886,"num_incorrect":694,"total_questions":1000,"num_not_attempted":114,"hallucination_rate":0.8291517323775388,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":32768,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-04-14","representative_query_token_counts":null,"scicode":0.259,"short_name":"GPT-4.1 nano","show_host_model_evals":false,"size_class":"Medium","slug":"gpt-4-1-nano","tau2":0.173,"terminalbench_hard":0.035,"tokenizer_id":"gpt-4o_tokenizer","model_creators":{"id":"e67e56e3-15cd-43db-b679-da4660a69f41","logo":"openai.svg","name":"OpenAI","slug":"openai","color":"#1f1f1f","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","created_at":"2023-12-06T05:43:21.916285+00:00","logo_small":"openai_small.svg","creator_url":"https://openai.com/","display_order":1,"logo_url":"/img/logos/openai.svg","logo_small_url":"/img/logos/openai_small.svg"},"host_models":[{"id":"256316f2-e4ef-45ef-bfa8-bd9ecffc2b53","slug":"openai_gpt-4-1-nano","deleted":false,"host_id":"6047c38a-af71-4b47-9d66-d361753f71b4","gpqa_16x":null,"model_id":"72c358fd-7d45-4d68-89aa-699743710924","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-4.1-nano-2025-04-14","function_calling":true,"cache_write_price":0,"host_model_string":"OpenAI_GPT-4.1 nano","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":0.2519,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":0},{"id":"f7090d59-3547-4188-bae8-bb02df0e3781","slug":"azure_gpt-4-1-nano","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"72c358fd-7d45-4d68-89aa-699743710924","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"gpt-4.1-nano","function_calling":true,"cache_write_price":0,"host_model_string":"Microsoft Azure_GPT-4.1 nano","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.4,"price_1m_blended_3_to_1":0.175,"price_per_1k_1mp_images":0.2519,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":5.71,"cache_storage_price_per_hour_per_1m_tokens":0}],"model_url":"/models/gpt-4-1-nano","hosts_url":"/models/gpt-4-1-nano/providers","name_and_creator_label":"GPT-4.1 nano, OpenAI"},{"additional_text":null,"aime":null,"aime25":0.133,"agentic_index":10.52,"coding_index":15.24,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":491,"estimated_intelligence_index":14.217305970920366,"model_family_slug":"nemotron-nano-v2","frontier_model":false,"gdpval":541.274869932709,"gpqa":0.399,"hle":0.046,"humaneval":null,"id":"23b379f7-18df-492a-9fc1-a56c5a5b9cfc","ifbench":0.375,"inference_parameters_active_billions":3.6,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":13.72,"intelligence_index_token_counts":{"input_tokens":224233586,"answer_tokens":12716062,"output_tokens":12716062,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.067,"license_name":null,"license_url":null,"livecodebench":0.36,"math_500":null,"math_index":13.33,"mmlu_pro":0.579,"mmmu_pro":null,"model_creator_id":"0c303112-430d-4367-a484-51defaa2e166","model_weights_source_url":"https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16","multilingual_aa":{"ar":{"score":0.6725,"input_tokens":188556,"answer_tokens":45945,"output_tokens":45945,"reasoning_tokens":0,"total_input_tokens_api":200019,"total_answer_tokens_api":47642,"total_reasoning_tokens_api":0},"bn":{"score":0.5041666666666665,"input_tokens":225534,"answer_tokens":21266,"output_tokens":21266,"reasoning_tokens":0,"total_input_tokens_api":279453,"total_answer_tokens_api":23040,"total_reasoning_tokens_api":0},"de":{"score":0.7216666666666667,"input_tokens":191646,"answer_tokens":28497,"output_tokens":28497,"reasoning_tokens":0,"total_input_tokens_api":216843,"total_answer_tokens_api":31507,"total_reasoning_tokens_api":0},"en":{"score":0.7775,"input_tokens":159654,"answer_tokens":30039,"output_tokens":30039,"reasoning_tokens":0,"total_input_tokens_api":182655,"total_answer_tokens_api":32158,"total_reasoning_tokens_api":0},"es":{"score":0.7375000000000002,"input_tokens":182088,"answer_tokens":25451,"output_tokens":25451,"reasoning_tokens":0,"total_input_tokens_api":207690,"total_answer_tokens_api":28648,"total_reasoning_tokens_api":0},"fr":{"score":0.7291666666666666,"input_tokens":191346,"answer_tokens":36490,"output_tokens":36490,"reasoning_tokens":0,"total_input_tokens_api":212295,"total_answer_tokens_api":38133,"total_reasoning_tokens_api":0},"hi":{"score":0.6258333333333334,"input_tokens":209430,"answer_tokens":23221,"output_tokens":23221,"reasoning_tokens":0,"total_input_tokens_api":257739,"total_answer_tokens_api":25606,"total_reasoning_tokens_api":0},"id":{"score":0.6349999999999999,"input_tokens":181314,"answer_tokens":271936,"output_tokens":271936,"reasoning_tokens":0,"total_input_tokens_api":213120,"total_answer_tokens_api":271576,"total_reasoning_tokens_api":0},"it":{"score":0.7075,"input_tokens":199032,"answer_tokens":21369,"output_tokens":21369,"reasoning_tokens":0,"total_input_tokens_api":217872,"total_answer_tokens_api":23760,"total_reasoning_tokens_api":0},"ja":{"score":0.5608333333333334,"input_tokens":228129,"answer_tokens":524895,"output_tokens":524895,"reasoning_tokens":0,"total_input_tokens_api":243234,"total_answer_tokens_api":494307,"total_reasoning_tokens_api":0},"ko":{"score":0.66,"input_tokens":199401,"answer_tokens":39964,"output_tokens":39964,"reasoning_tokens":0,"total_input_tokens_api":206646,"total_answer_tokens_api":41345,"total_reasoning_tokens_api":0},"my":{"score":0.3316666666666667,"input_tokens":353547,"answer_tokens":243189,"output_tokens":243189,"reasoning_tokens":0,"total_input_tokens_api":391539,"total_answer_tokens_api":244982,"total_reasoning_tokens_api":0},"pt":{"score":0.7325,"input_tokens":178176,"answer_tokens":31945,"output_tokens":31945,"reasoning_tokens":0,"total_input_tokens_api":207672,"total_answer_tokens_api":35571,"total_reasoning_tokens_api":0},"sw":{"score":0.3658333333333333,"input_tokens":208677,"answer_tokens":978727,"output_tokens":978727,"reasoning_tokens":0,"total_input_tokens_api":266463,"total_answer_tokens_api":1167036,"total_reasoning_tokens_api":0},"yo":{"score":0.32666666666666666,"input_tokens":307062,"answer_tokens":11978,"output_tokens":11978,"reasoning_tokens":0,"total_input_tokens_api":440403,"total_answer_tokens_api":13456,"total_reasoning_tokens_api":0},"zh":{"score":0.7066666666666667,"input_tokens":179793,"answer_tokens":28496,"output_tokens":28496,"reasoning_tokens":0,"total_input_tokens_api":221400,"total_answer_tokens_api":31170,"total_reasoning_tokens_api":0},"average":{"score":0.6121875,"input_tokens":3383385,"answer_tokens":2363408,"output_tokens":2363408,"reasoning_tokens":0,"total_input_tokens_api":3965043,"total_answer_tokens_api":2549937,"total_reasoning_tokens_api":0}},"name":"NVIDIA Nemotron 3 Nano 30B A3B (Non-reasoning)","is_open_weights":true,"omniscience":-65.2,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.085,"num_correct":85,"omniscience":-67.3,"attempt_rate":0.852,"num_incorrect":758,"total_questions":1000,"num_not_attempted":148,"hallucination_rate":0.8284153005464481,"num_partial_answer":9}},"total":{"accuracy":0.12966666666666668,"num_correct":778,"omniscience":-65.2,"attempt_rate":0.9325,"num_incorrect":4690,"total_questions":6000,"num_not_attempted":405,"hallucination_rate":0.8981233243967829,"num_partial_answer":127},"Health":{"total":{"accuracy":0.119,"num_correct":119,"omniscience":-70.7,"attempt_rate":0.978,"num_incorrect":826,"total_questions":1000,"num_not_attempted":22,"hallucination_rate":0.9375709421112373,"num_partial_answer":33}},"Business":{"total":{"accuracy":0.1,"num_correct":100,"omniscience":-68,"attempt_rate":0.9,"num_incorrect":780,"total_questions":1000,"num_not_attempted":100,"hallucination_rate":0.8666666666666667,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-57,"attempt_rate":0.99,"num_incorrect":76,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9382716049382716,"num_partial_answer":4}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-86,"attempt_rate":0.94,"num_incorrect":45,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9375,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-66,"attempt_rate":0.92,"num_incorrect":39,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.8863636363636364,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-62,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975609756097561,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-66,"attempt_rate":0.98,"num_incorrect":40,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9302325581395349,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-46,"attempt_rate":0.96,"num_incorrect":35,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9210526315789473,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-77,"attempt_rate":0.99,"num_incorrect":88,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9887640449438202,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-28,"attempt_rate":1,"num_incorrect":32,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-84,"attempt_rate":1,"num_incorrect":22,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9166666666666666,"num_partial_answer":2}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-48,"attempt_rate":1,"num_incorrect":18,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9473684210526315,"num_partial_answer":1}},"total":{"accuracy":0.16,"num_correct":160,"omniscience":-64.1,"attempt_rate":0.984,"num_incorrect":801,"total_questions":1000,"num_not_attempted":16,"hallucination_rate":0.9535714285714286,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-74,"attempt_rate":0.96,"num_incorrect":42,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9333333333333333,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.14,"num_correct":28,"omniscience":-68.5,"attempt_rate":0.99,"num_incorrect":165,"total_questions":200,"num_not_attempted":2,"hallucination_rate":0.9593023255813954,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.23636363636363636,"num_correct":26,"omniscience":-50,"attempt_rate":1,"num_incorrect":81,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9642857142857143,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.1111111111111111,"num_correct":10,"omniscience":-75.55555555555556,"attempt_rate":1,"num_incorrect":78,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.975,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.13,"num_correct":130,"omniscience":-65,"attempt_rate":0.925,"num_incorrect":780,"total_questions":1000,"num_not_attempted":75,"hallucination_rate":0.896551724137931,"num_partial_answer":15}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.184,"num_correct":184,"omniscience":-56.1,"attempt_rate":0.956,"num_incorrect":745,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.9129901960784313,"num_partial_answer":27}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":262144,"parameters":31.6,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-15","representative_query_token_counts":null,"scicode":0.23,"short_name":"NVIDIA Nemotron 3 Nano","show_host_model_evals":false,"size_class":"Small","slug":"nvidia-nemotron-3-nano-30b-a3b","tau2":0.254,"terminalbench_hard":0.113,"tokenizer_id":null,"model_creators":{"id":"0c303112-430d-4367-a484-51defaa2e166","logo":"nvidia.svg","name":"NVIDIA","slug":"nvidia","color":"#86b737","deleted":false,"host_id":null,"created_at":"2024-10-19T02:40:00.98765+00:00","logo_small":"nvidia_small.svg","creator_url":"https://www.nvidia.com/","display_order":31,"logo_url":"/img/logos/nvidia.svg","logo_small_url":"/img/logos/nvidia_small.svg"},"host_models":[{"id":"a2342e84-7478-4443-adfa-58f35f1b3ce1","slug":"deepinfra_nvidia-nemotron-3-nano-30b-a3b","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"23b379f7-18df-492a-9fc1-a56c5a5b9cfc","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/Nemotron-3-Nano-30B-A3B","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_NVIDIA Nemotron 3 Nano 30B A3B (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.06,"price_1m_output_tokens":0.24,"price_1m_blended_3_to_1":0.105,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":9.52,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nvidia-nemotron-3-nano-30b-a3b","hosts_url":"/models/nvidia-nemotron-3-nano-30b-a3b/providers","name_and_creator_label":"NVIDIA Nemotron 3 Nano, NVIDIA"},{"additional_text":null,"aime":null,"aime25":0.91,"agentic_index":21.37,"coding_index":18.39,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":1000000,"critpt":0.009,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":498,"estimated_intelligence_index":28.520266873117016,"model_family_slug":"nemotron-nano-v2","frontier_model":false,"gdpval":710.8404327637761,"gpqa":0.757,"hle":0.102,"humaneval":null,"id":"76dcf6ef-39ea-4be0-b693-b88da25b4caf","ifbench":0.711,"inference_parameters_active_billions":3.6,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":24.67,"intelligence_index_token_counts":{"input_tokens":190553656,"answer_tokens":2499585,"output_tokens":142808350,"reasoning_tokens":140308765},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.337,"license_name":null,"license_url":null,"livecodebench":0.741,"math_500":null,"math_index":91,"mmlu_pro":0.794,"mmmu_pro":null,"model_creator_id":"0c303112-430d-4367-a484-51defaa2e166","model_weights_source_url":"https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16","multilingual_aa":null,"name":"NVIDIA Nemotron 3 Nano 30B A3B (Reasoning)","is_open_weights":true,"omniscience":-52.383,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.088,"num_correct":88,"omniscience":-54.4,"attempt_rate":0.727,"num_incorrect":632,"total_questions":1000,"num_not_attempted":273,"hallucination_rate":0.6929824561403509,"num_partial_answer":7}},"total":{"accuracy":0.16516666666666666,"num_correct":991,"omniscience":-52.38333333333333,"attempt_rate":0.8715,"num_incorrect":4134,"total_questions":6000,"num_not_attempted":771,"hallucination_rate":0.8253144340187663,"num_partial_answer":104},"Health":{"total":{"accuracy":0.155,"num_correct":155,"omniscience":-61.7,"attempt_rate":0.942,"num_incorrect":772,"total_questions":1000,"num_not_attempted":58,"hallucination_rate":0.9136094674556213,"num_partial_answer":15}},"Business":{"total":{"accuracy":0.148,"num_correct":148,"omniscience":-49.7,"attempt_rate":0.814,"num_incorrect":645,"total_questions":1000,"num_not_attempted":186,"hallucination_rate":0.7570422535211268,"num_partial_answer":21}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-47,"attempt_rate":0.98,"num_incorrect":72,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.96,"num_partial_answer":1}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-82,"attempt_rate":0.98,"num_incorrect":45,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9782608695652174,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-64,"attempt_rate":0.84,"num_incorrect":36,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.782608695652174,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-60,"attempt_rate":0.96,"num_incorrect":38,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9047619047619048,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-64,"attempt_rate":1,"num_incorrect":41,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-38,"attempt_rate":0.96,"num_incorrect":31,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8157894736842105,"num_partial_answer":5}},"Java":{"total":{"accuracy":0.12,"num_correct":12,"omniscience":-71,"attempt_rate":0.95,"num_incorrect":83,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.9431818181818182,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":4,"attempt_rate":0.96,"num_incorrect":22,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8461538461538461,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-92,"attempt_rate":1,"num_incorrect":24,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.4,"num_correct":10,"omniscience":-8,"attempt_rate":0.96,"num_incorrect":12,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8,"num_partial_answer":2}},"total":{"accuracy":0.182,"num_correct":182,"omniscience":-57.3,"attempt_rate":0.956,"num_incorrect":755,"total_questions":1000,"num_not_attempted":44,"hallucination_rate":0.9229828850855746,"num_partial_answer":19},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-56,"attempt_rate":0.98,"num_incorrect":38,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.95,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.135,"num_correct":27,"omniscience":-64.5,"attempt_rate":0.92,"num_incorrect":156,"total_questions":200,"num_not_attempted":16,"hallucination_rate":0.9017341040462428,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.21818181818181817,"num_correct":24,"omniscience":-53.63636363636363,"attempt_rate":0.990909090909091,"num_incorrect":83,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9651162790697675,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.13333333333333333,"num_correct":12,"omniscience":-68.88888888888889,"attempt_rate":0.9666666666666667,"num_incorrect":74,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9487179487179487,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.154,"num_correct":154,"omniscience":-52.9,"attempt_rate":0.85,"num_incorrect":683,"total_questions":1000,"num_not_attempted":150,"hallucination_rate":0.8073286052009456,"num_partial_answer":13}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.264,"num_correct":264,"omniscience":-38.3,"attempt_rate":0.94,"num_incorrect":647,"total_questions":1000,"num_not_attempted":60,"hallucination_rate":0.8790760869565217,"num_partial_answer":29}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":262144,"parameters":31.6,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-12-15","representative_query_token_counts":null,"scicode":0.296,"short_name":"NVIDIA Nemotron 3 Nano","show_host_model_evals":false,"size_class":"Small","slug":"nvidia-nemotron-3-nano-30b-a3b-reasoning","tau2":0.409,"terminalbench_hard":0.128,"tokenizer_id":null,"model_creators":{"id":"0c303112-430d-4367-a484-51defaa2e166","logo":"nvidia.svg","name":"NVIDIA","slug":"nvidia","color":"#86b737","deleted":false,"host_id":null,"created_at":"2024-10-19T02:40:00.98765+00:00","logo_small":"nvidia_small.svg","creator_url":"https://www.nvidia.com/","display_order":31,"logo_url":"/img/logos/nvidia.svg","logo_small_url":"/img/logos/nvidia_small.svg"},"host_models":[{"id":"fa419fe8-07b3-4a7d-acd9-1ee215d93af7","slug":"deepinfra_nvidia-nemotron-3-nano-30b-a3b-reasoning","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"76dcf6ef-39ea-4be0-b693-b88da25b4caf","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/Nemotron-3-Nano-30B-A3B","function_calling":true,"cache_write_price":null,"host_model_string":"DeepInfra_NVIDIA Nemotron 3 Nano 30B A3B (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.06,"price_1m_output_tokens":0.24,"price_1m_blended_3_to_1":0.105,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":262144,"price_m_tokens_blended_3_to_1_per_dollar":9.52,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nvidia-nemotron-3-nano-30b-a3b-reasoning","hosts_url":"/models/nvidia-nemotron-3-nano-30b-a3b-reasoning/providers","name_and_creator_label":"NVIDIA Nemotron 3 Nano, NVIDIA"},{"additional_text":null,"aime":null,"aime25":0.267,"agentic_index":6.82,"coding_index":5.86,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":501,"estimated_intelligence_index":14.16465748909028,"model_family_slug":"nemotron-nano-v2","frontier_model":false,"gdpval":503.84429527390296,"gpqa":0.439,"hle":0.045,"humaneval":null,"id":"ab7f016c-a29b-4710-bdf6-6a5cd96aacca","ifbench":0.259,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":10.21,"intelligence_index_token_counts":{"input_tokens":369948793,"answer_tokens":8183956,"output_tokens":8183956,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.17,"license_name":"Nvidia Open Model License","license_url":"https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/","livecodebench":0.345,"math_500":null,"math_index":26.67,"mmlu_pro":0.649,"mmmu_pro":0.445,"model_creator_id":"0c303112-430d-4367-a484-51defaa2e166","model_weights_source_url":"https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL-BF16","multilingual_aa":null,"name":"NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)","is_open_weights":true,"omniscience":-73.167,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.075,"num_correct":75,"omniscience":-79.6,"attempt_rate":0.96,"num_incorrect":871,"total_questions":1000,"num_not_attempted":40,"hallucination_rate":0.9416216216216217,"num_partial_answer":14}},"total":{"accuracy":0.107,"num_correct":642,"omniscience":-73.16666666666667,"attempt_rate":0.9745,"num_incorrect":5032,"total_questions":6000,"num_not_attempted":153,"hallucination_rate":0.9391564016424039,"num_partial_answer":173},"Health":{"total":{"accuracy":0.099,"num_correct":99,"omniscience":-75,"attempt_rate":0.993,"num_incorrect":849,"total_questions":1000,"num_not_attempted":7,"hallucination_rate":0.9422863485016648,"num_partial_answer":45}},"Business":{"total":{"accuracy":0.088,"num_correct":88,"omniscience":-75.7,"attempt_rate":0.952,"num_incorrect":845,"total_questions":1000,"num_not_attempted":48,"hallucination_rate":0.9265350877192983,"num_partial_answer":19}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-60,"attempt_rate":1,"num_incorrect":78,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9512195121951219,"num_partial_answer":4}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-84,"attempt_rate":0.98,"num_incorrect":45,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9574468085106383,"num_partial_answer":1}},"Go":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-92,"attempt_rate":1,"num_incorrect":48,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-60,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9512195121951219,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-90,"attempt_rate":1,"num_incorrect":47,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9791666666666666,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-58,"attempt_rate":1,"num_incorrect":39,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.975,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.09,"num_correct":9,"omniscience":-79,"attempt_rate":0.99,"num_incorrect":88,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.967032967032967,"num_partial_answer":2}},"Rust":{"total":{"accuracy":0.34,"num_correct":17,"omniscience":-26,"attempt_rate":1,"num_incorrect":30,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9090909090909091,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-100,"attempt_rate":1,"num_incorrect":25,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.2,"num_correct":5,"omniscience":-60,"attempt_rate":1,"num_incorrect":20,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"total":{"accuracy":0.128,"num_correct":128,"omniscience":-70.4,"attempt_rate":0.996,"num_incorrect":832,"total_questions":1000,"num_not_attempted":4,"hallucination_rate":0.9541284403669725,"num_partial_answer":36},"Kotlin":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-82,"attempt_rate":1,"num_incorrect":45,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9782608695652174,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.115,"num_correct":23,"omniscience":-75,"attempt_rate":0.995,"num_incorrect":173,"total_questions":200,"num_not_attempted":1,"hallucination_rate":0.9774011299435028,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.14545454545454545,"num_correct":16,"omniscience":-56.36363636363637,"attempt_rate":0.990909090909091,"num_incorrect":78,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.8297872340425532,"num_partial_answer":15}},"TypeScript":{"total":{"accuracy":0.1111111111111111,"num_correct":10,"omniscience":-74.44444444444444,"attempt_rate":1,"num_incorrect":77,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9625,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.107,"num_correct":107,"omniscience":-73.2,"attempt_rate":0.964,"num_incorrect":839,"total_questions":1000,"num_not_attempted":36,"hallucination_rate":0.9395296752519597,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.145,"num_correct":145,"omniscience":-65.1,"attempt_rate":0.982,"num_incorrect":796,"total_questions":1000,"num_not_attempted":18,"hallucination_rate":0.9309941520467836,"num_partial_answer":41}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":13.2,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-10-28","representative_query_token_counts":null,"scicode":0.176,"short_name":"NVIDIA Nemotron Nano 12B v2 VL","show_host_model_evals":false,"size_class":"Small","slug":"nvidia-nemotron-nano-12b-v2-vl","tau2":0.193,"terminalbench_hard":0,"tokenizer_id":null,"model_creators":{"id":"0c303112-430d-4367-a484-51defaa2e166","logo":"nvidia.svg","name":"NVIDIA","slug":"nvidia","color":"#86b737","deleted":false,"host_id":null,"created_at":"2024-10-19T02:40:00.98765+00:00","logo_small":"nvidia_small.svg","creator_url":"https://www.nvidia.com/","display_order":31,"logo_url":"/img/logos/nvidia.svg","logo_small_url":"/img/logos/nvidia_small.svg"},"host_models":[{"id":"388a9319-ad02-4ab9-909d-c1ada0d7db64","slug":"amazon-bedrock_nvidia-nemotron-nano-12b-v2-vl","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"ab7f016c-a29b-4710-bdf6-6a5cd96aacca","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia.nemotron-nano-12b-v2","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"69774ea6-3559-41e9-afa5-475b0d93c06a","slug":"nebius_nvidia-nemotron-nano-12b-v2-vl","deleted":false,"host_id":"41a856c4-5c43-42e4-bdec-f0e14629a0f2","gpqa_16x":null,"model_id":"ab7f016c-a29b-4710-bdf6-6a5cd96aacca","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/Nemotron-Nano-V2-12b","function_calling":true,"cache_write_price":null,"host_model_string":"Nebius_NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.07,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.1025,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":9.76,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0f743da3-1429-481a-ad94-7fc15c1fe1a0","slug":"deepinfra_nvidia-nemotron-nano-12b-v2-vl_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"ab7f016c-a29b-4710-bdf6-6a5cd96aacca","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nvidia-nemotron-nano-12b-v2-vl","hosts_url":"/models/nvidia-nemotron-nano-12b-v2-vl/providers","name_and_creator_label":"NVIDIA Nemotron Nano 12B v2 VL, NVIDIA"},{"additional_text":null,"aime":null,"aime25":0.75,"agentic_index":8.35,"coding_index":11.56,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":503,"estimated_intelligence_index":21.201670015781215,"model_family_slug":"nemotron-nano-v2","frontier_model":false,"gdpval":512.2183019133402,"gpqa":0.572,"hle":0.053,"humaneval":null,"id":"6e6e02fd-9cbd-417f-9bfc-673df89c313d","ifbench":0.319,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":15.04,"intelligence_index_token_counts":{"input_tokens":410283436,"answer_tokens":9943887,"output_tokens":77646928,"reasoning_tokens":67703041},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.4,"license_name":"Nvidia Open Model License","license_url":"https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/","livecodebench":0.694,"math_500":null,"math_index":75,"mmlu_pro":0.759,"mmmu_pro":0.529,"model_creator_id":"0c303112-430d-4367-a484-51defaa2e166","model_weights_source_url":"https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL-BF16","multilingual_aa":null,"name":"NVIDIA Nemotron Nano 12B v2 VL (Reasoning)","is_open_weights":true,"omniscience":-66.35,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.071,"num_correct":71,"omniscience":-75.2,"attempt_rate":0.896,"num_incorrect":823,"total_questions":1000,"num_not_attempted":104,"hallucination_rate":0.8858988159311088,"num_partial_answer":2}},"total":{"accuracy":0.1335,"num_correct":801,"omniscience":-66.35,"attempt_rate":0.9478333333333333,"num_incorrect":4782,"total_questions":6000,"num_not_attempted":313,"hallucination_rate":0.9197922677437969,"num_partial_answer":104},"Health":{"total":{"accuracy":0.127,"num_correct":127,"omniscience":-68.9,"attempt_rate":0.977,"num_incorrect":816,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.9347079037800687,"num_partial_answer":34}},"Business":{"total":{"accuracy":0.115,"num_correct":115,"omniscience":-66.4,"attempt_rate":0.903,"num_incorrect":779,"total_questions":1000,"num_not_attempted":97,"hallucination_rate":0.880225988700565,"num_partial_answer":9}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.23,"num_correct":23,"omniscience":-53,"attempt_rate":1,"num_incorrect":76,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.987012987012987,"num_partial_answer":1}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":46,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-72,"attempt_rate":0.98,"num_incorrect":42,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9545454545454546,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-80,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9565217391304348,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-68,"attempt_rate":1,"num_incorrect":42,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-40,"attempt_rate":1,"num_incorrect":33,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.8918918918918919,"num_partial_answer":4}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-77,"attempt_rate":0.99,"num_incorrect":88,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9887640449438202,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-18,"attempt_rate":1,"num_incorrect":27,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.84375,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-92,"attempt_rate":1,"num_incorrect":24,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-36,"attempt_rate":0.96,"num_incorrect":16,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.8888888888888888,"num_partial_answer":1}},"total":{"accuracy":0.149,"num_correct":149,"omniscience":-66.8,"attempt_rate":0.989,"num_incorrect":817,"total_questions":1000,"num_not_attempted":11,"hallucination_rate":0.9600470035252644,"num_partial_answer":23},"Kotlin":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-82,"attempt_rate":0.96,"num_incorrect":44,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9361702127659575,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.13,"num_correct":26,"omniscience":-71,"attempt_rate":0.98,"num_incorrect":168,"total_questions":200,"num_not_attempted":4,"hallucination_rate":0.9655172413793104,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.18181818181818182,"num_correct":20,"omniscience":-60.90909090909091,"attempt_rate":1,"num_incorrect":87,"total_questions":110,"num_not_attempted":0,"hallucination_rate":0.9666666666666667,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.07777777777777778,"num_correct":7,"omniscience":-81.11111111111111,"attempt_rate":1,"num_incorrect":80,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.963855421686747,"num_partial_answer":3}}},"Humanities & Social Sciences":{"total":{"accuracy":0.135,"num_correct":135,"omniscience":-66.8,"attempt_rate":0.95,"num_incorrect":803,"total_questions":1000,"num_not_attempted":50,"hallucination_rate":0.9283236994219654,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.204,"num_correct":204,"omniscience":-54,"attempt_rate":0.972,"num_incorrect":744,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.9346733668341709,"num_partial_answer":24}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":13.2,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-10-28","representative_query_token_counts":null,"scicode":0.262,"short_name":"NVIDIA Nemotron Nano 12B v2 VL","show_host_model_evals":false,"size_class":"Small","slug":"nvidia-nemotron-nano-12b-v2-vl-reasoning","tau2":0.213,"terminalbench_hard":0.043,"tokenizer_id":null,"model_creators":{"id":"0c303112-430d-4367-a484-51defaa2e166","logo":"nvidia.svg","name":"NVIDIA","slug":"nvidia","color":"#86b737","deleted":false,"host_id":null,"created_at":"2024-10-19T02:40:00.98765+00:00","logo_small":"nvidia_small.svg","creator_url":"https://www.nvidia.com/","display_order":31,"logo_url":"/img/logos/nvidia.svg","logo_small_url":"/img/logos/nvidia_small.svg"},"host_models":[{"id":"1934497c-9928-4292-90ca-c58e92ecce8e","slug":"deepinfra_nvidia-nemotron-nano-12b-v2-vl-reasoning_fp8","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"6e6e02fd-9cbd-417f-9bfc-673df89c313d","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_NVIDIA Nemotron Nano 12B v2 VL (Reasoning)_(FP8)","cache_pricing_notes":null,"model_name_appendage":"(FP8)","price_1m_input_tokens":0.2,"price_1m_output_tokens":0.6,"price_1m_blended_3_to_1":0.3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":3.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nvidia-nemotron-nano-12b-v2-vl-reasoning","hosts_url":"/models/nvidia-nemotron-nano-12b-v2-vl-reasoning/providers","name_and_creator_label":"NVIDIA Nemotron Nano 12B v2 VL, NVIDIA"},{"additional_text":null,"aime":null,"aime25":0.623,"agentic_index":10.08,"coding_index":7.46,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":131072,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":495,"estimated_intelligence_index":18.788405538471565,"model_family_slug":"nemotron-nano-v2","frontier_model":false,"gdpval":539.9731066669083,"gpqa":0.557,"hle":0.04,"humaneval":null,"id":"2e8694f9-7782-47a6-a6ba-fdce89d939c8","ifbench":0.271,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":13.66,"intelligence_index_token_counts":{"input_tokens":213958882,"answer_tokens":22407202,"output_tokens":22407202,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.227,"license_name":"NVIDIA Open Model License Agreement","license_url":"https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/","livecodebench":0.701,"math_500":null,"math_index":62.33,"mmlu_pro":0.739,"mmmu_pro":null,"model_creator_id":"0c303112-430d-4367-a484-51defaa2e166","model_weights_source_url":"https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2","multilingual_aa":null,"name":"NVIDIA Nemotron Nano 9B V2 (Non-reasoning)","is_open_weights":true,"omniscience":-58.383,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.06,"num_correct":60,"omniscience":-56.9,"attempt_rate":0.695,"num_incorrect":629,"total_questions":1000,"num_not_attempted":305,"hallucination_rate":0.6691489361702128,"num_partial_answer":6}},"total":{"accuracy":0.09033333333333333,"num_correct":542,"omniscience":-58.38333333333333,"attempt_rate":0.7908333333333334,"num_incorrect":4045,"total_questions":6000,"num_not_attempted":1255,"hallucination_rate":0.7411139611579333,"num_partial_answer":158},"Health":{"total":{"accuracy":0.086,"num_correct":86,"omniscience":-67.1,"attempt_rate":0.899,"num_incorrect":757,"total_questions":1000,"num_not_attempted":101,"hallucination_rate":0.8282275711159738,"num_partial_answer":56}},"Business":{"total":{"accuracy":0.067,"num_correct":67,"omniscience":-50.5,"attempt_rate":0.664,"num_incorrect":572,"total_questions":1000,"num_not_attempted":336,"hallucination_rate":0.6130760986066452,"num_partial_answer":25}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-51,"attempt_rate":0.95,"num_incorrect":73,"total_questions":100,"num_not_attempted":5,"hallucination_rate":0.9358974358974359,"num_partial_answer":0}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-62,"attempt_rate":0.7,"num_incorrect":33,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.6875,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-68,"attempt_rate":0.78,"num_incorrect":36,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.75,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-54,"attempt_rate":0.8,"num_incorrect":33,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.75,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-58,"attempt_rate":0.68,"num_incorrect":31,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.6458333333333334,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-56,"attempt_rate":0.98,"num_incorrect":38,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.95,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.07,"num_correct":7,"omniscience":-65,"attempt_rate":0.8,"num_incorrect":72,"total_questions":100,"num_not_attempted":20,"hallucination_rate":0.7741935483870968,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-22,"attempt_rate":0.94,"num_incorrect":26,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7428571428571429,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0,"num_correct":0,"omniscience":-84,"attempt_rate":0.84,"num_incorrect":21,"total_questions":25,"num_not_attempted":4,"hallucination_rate":0.84,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-48,"attempt_rate":0.92,"num_incorrect":16,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.7619047619047619,"num_partial_answer":3}},"total":{"accuracy":0.106,"num_correct":106,"omniscience":-59,"attempt_rate":0.822,"num_incorrect":696,"total_questions":1000,"num_not_attempted":178,"hallucination_rate":0.7785234899328859,"num_partial_answer":20},"Kotlin":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-68,"attempt_rate":0.78,"num_incorrect":36,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.75,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.075,"num_correct":15,"omniscience":-55.5,"attempt_rate":0.705,"num_incorrect":126,"total_questions":200,"num_not_attempted":59,"hallucination_rate":0.6810810810810811,"num_partial_answer":0}},"JavaScript":{"total":{"accuracy":0.13636363636363635,"num_correct":15,"omniscience":-60,"attempt_rate":0.9,"num_incorrect":81,"total_questions":110,"num_not_attempted":11,"hallucination_rate":0.8526315789473684,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.044444444444444446,"num_correct":4,"omniscience":-77.77777777777777,"attempt_rate":0.8888888888888888,"num_incorrect":74,"total_questions":90,"num_not_attempted":10,"hallucination_rate":0.8604651162790697,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.093,"num_correct":93,"omniscience":-59.2,"attempt_rate":0.796,"num_incorrect":685,"total_questions":1000,"num_not_attempted":204,"hallucination_rate":0.7552370452039692,"num_partial_answer":18}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.13,"num_correct":130,"omniscience":-57.6,"attempt_rate":0.869,"num_incorrect":706,"total_questions":1000,"num_not_attempted":131,"hallucination_rate":0.8114942528735632,"num_partial_answer":33}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":131072,"parameters":9,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-08-18","representative_query_token_counts":null,"scicode":0.209,"short_name":"NVIDIA Nemotron Nano 9B V2","show_host_model_evals":false,"size_class":"Small","slug":"nvidia-nemotron-nano-9b-v2","tau2":0.234,"terminalbench_hard":0.007,"tokenizer_id":"llama3_tokenizer","model_creators":{"id":"0c303112-430d-4367-a484-51defaa2e166","logo":"nvidia.svg","name":"NVIDIA","slug":"nvidia","color":"#86b737","deleted":false,"host_id":null,"created_at":"2024-10-19T02:40:00.98765+00:00","logo_small":"nvidia_small.svg","creator_url":"https://www.nvidia.com/","display_order":31,"logo_url":"/img/logos/nvidia.svg","logo_small_url":"/img/logos/nvidia_small.svg"},"host_models":[{"id":"336c6560-2c35-473c-87b6-879d708a3013","slug":"togetherai_nvidia-nemotron-nano-9b-v2","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"2e8694f9-7782-47a6-a6ba-fdce89d939c8","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/NVIDIA-Nemotron-Nano-9B-v2","function_calling":true,"cache_write_price":null,"host_model_string":"Together.ai_NVIDIA Nemotron Nano 9B V2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.06,"price_1m_output_tokens":0.25,"price_1m_blended_3_to_1":0.1075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":9.3,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0e861adc-1b20-4664-bdd4-57bf5a4eef79","slug":"deepinfra_nvidia-nemotron-nano-9b-v2","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"2e8694f9-7782-47a6-a6ba-fdce89d939c8","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/NVIDIA-Nemotron-Nano-9B-v2","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_NVIDIA Nemotron Nano 9B V2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.04,"price_1m_output_tokens":0.16,"price_1m_blended_3_to_1":0.07,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":14.29,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"9623edd2-68fc-4982-9698-fcc4c3808ca4","slug":"amazon-bedrock_nvidia-nemotron-nano-9b-v2","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"2e8694f9-7782-47a6-a6ba-fdce89d939c8","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia.nemotron-nano-9b-v2","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_NVIDIA Nemotron Nano 9B V2 (Non-reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.06,"price_1m_output_tokens":0.23,"price_1m_blended_3_to_1":0.1025,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":9.76,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nvidia-nemotron-nano-9b-v2","hosts_url":"/models/nvidia-nemotron-nano-9b-v2/providers","name_and_creator_label":"NVIDIA Nemotron Nano 9B V2, NVIDIA"},{"additional_text":null,"aime":null,"aime25":0.697,"agentic_index":11.74,"coding_index":8.28,"commercial_allowed":true,"computed_performance_host_model_id":null,"context_window_tokens":131072,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":510,"estimated_intelligence_index":19.339022636787973,"model_family_slug":"nemotron-nano-v2","frontier_model":false,"gdpval":629.5500263140132,"gpqa":0.57,"hle":0.046,"humaneval":null,"id":"f1d52583-9d20-4099-99ac-b5df9430c3b6","ifbench":0.276,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":15.32,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.21,"license_name":"NVIDIA Open Model License Agreement","license_url":"https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/","livecodebench":0.724,"math_500":null,"math_index":69.67,"mmlu_pro":0.742,"mmmu_pro":null,"model_creator_id":"0c303112-430d-4367-a484-51defaa2e166","model_weights_source_url":"https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2","multilingual_aa":null,"name":"NVIDIA Nemotron Nano 9B V2 (Reasoning)","is_open_weights":true,"omniscience":-43.217,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.062,"num_correct":62,"omniscience":-36.4,"attempt_rate":0.493,"num_incorrect":426,"total_questions":1000,"num_not_attempted":507,"hallucination_rate":0.4541577825159915,"num_partial_answer":5}},"total":{"accuracy":0.10733333333333334,"num_correct":644,"omniscience":-43.21666666666667,"attempt_rate":0.6633333333333333,"num_incorrect":3237,"total_questions":6000,"num_not_attempted":2020,"hallucination_rate":0.6043689320388349,"num_partial_answer":99},"Health":{"total":{"accuracy":0.096,"num_correct":96,"omniscience":-54.5,"attempt_rate":0.769,"num_incorrect":641,"total_questions":1000,"num_not_attempted":231,"hallucination_rate":0.709070796460177,"num_partial_answer":32}},"Business":{"total":{"accuracy":0.09,"num_correct":90,"omniscience":-34.9,"attempt_rate":0.545,"num_incorrect":439,"total_questions":1000,"num_not_attempted":455,"hallucination_rate":0.4824175824175824,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-50,"attempt_rate":0.89,"num_incorrect":69,"total_questions":100,"num_not_attempted":11,"hallucination_rate":0.8518518518518519,"num_partial_answer":1}},"R":{"total":{"accuracy":0,"num_correct":0,"omniscience":-66,"attempt_rate":0.66,"num_incorrect":33,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.66,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-60,"attempt_rate":0.82,"num_incorrect":35,"total_questions":50,"num_not_attempted":9,"hallucination_rate":0.7777777777777778,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-56,"attempt_rate":0.78,"num_incorrect":33,"total_questions":50,"num_not_attempted":11,"hallucination_rate":0.7333333333333333,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-60,"attempt_rate":0.76,"num_incorrect":34,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.7391304347826086,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-40,"attempt_rate":0.86,"num_incorrect":30,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.75,"num_partial_answer":3}},"Java":{"total":{"accuracy":0.06,"num_correct":6,"omniscience":-78,"attempt_rate":0.91,"num_incorrect":84,"total_questions":100,"num_not_attempted":9,"hallucination_rate":0.8936170212765957,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-6,"attempt_rate":0.9,"num_incorrect":22,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7096774193548387,"num_partial_answer":4}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-72,"attempt_rate":0.8,"num_incorrect":19,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.7916666666666666,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":17,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8947368421052632,"num_partial_answer":0}},"total":{"accuracy":0.117,"num_correct":117,"omniscience":-56.5,"attempt_rate":0.815,"num_incorrect":682,"total_questions":1000,"num_not_attempted":185,"hallucination_rate":0.7723669309173273,"num_partial_answer":16},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-40,"attempt_rate":0.72,"num_incorrect":28,"total_questions":50,"num_not_attempted":14,"hallucination_rate":0.6666666666666666,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.055,"num_correct":11,"omniscience":-62,"attempt_rate":0.735,"num_incorrect":135,"total_questions":200,"num_not_attempted":53,"hallucination_rate":0.7142857142857143,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.14545454545454545,"num_correct":16,"omniscience":-50.90909090909091,"attempt_rate":0.8272727272727273,"num_incorrect":72,"total_questions":110,"num_not_attempted":19,"hallucination_rate":0.7659574468085106,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.07777777777777778,"num_correct":7,"omniscience":-71.11111111111111,"attempt_rate":0.8777777777777778,"num_incorrect":71,"total_questions":90,"num_not_attempted":11,"hallucination_rate":0.8554216867469879,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.108,"num_correct":108,"omniscience":-38.7,"attempt_rate":0.613,"num_incorrect":495,"total_questions":1000,"num_not_attempted":387,"hallucination_rate":0.554932735426009,"num_partial_answer":10}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.171,"num_correct":171,"omniscience":-38.3,"attempt_rate":0.745,"num_incorrect":554,"total_questions":1000,"num_not_attempted":255,"hallucination_rate":0.6682750301568154,"num_partial_answer":20}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":9,"reasoning_model":true,"reasoning_properties":{"style":"in_text","closing_tag":"","opening_tag":"","varied_reasoning":true},"release_date":"2025-08-18","representative_query_token_counts":null,"scicode":0.22,"short_name":"NVIDIA Nemotron Nano 9B V2","show_host_model_evals":false,"size_class":"Small","slug":"nvidia-nemotron-nano-9b-v2-reasoning","tau2":0.219,"terminalbench_hard":0.014,"tokenizer_id":"llama3_tokenizer","model_creators":{"id":"0c303112-430d-4367-a484-51defaa2e166","logo":"nvidia.svg","name":"NVIDIA","slug":"nvidia","color":"#86b737","deleted":false,"host_id":null,"created_at":"2024-10-19T02:40:00.98765+00:00","logo_small":"nvidia_small.svg","creator_url":"https://www.nvidia.com/","display_order":31,"logo_url":"/img/logos/nvidia.svg","logo_small_url":"/img/logos/nvidia_small.svg"},"host_models":[{"id":"64cdf048-8ff7-476f-b824-299bd656ef6d","slug":"deepinfra_nvidia-nemotron-nano-9b-v2-reasoning","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"f1d52583-9d20-4099-99ac-b5df9430c3b6","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"nvidia/NVIDIA-Nemotron-Nano-9B-v2","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_NVIDIA Nemotron Nano 9B V2 (Reasoning)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.04,"price_1m_output_tokens":0.16,"price_1m_blended_3_to_1":0.07,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":14.29,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/nvidia-nemotron-nano-9b-v2-reasoning","hosts_url":"/models/nvidia-nemotron-nano-9b-v2-reasoning/providers","name_and_creator_label":"NVIDIA Nemotron Nano 9B V2, NVIDIA"},{"additional_text":null,"aime":0.813,"aime25":0.137,"agentic_index":null,"coding_index":14.03,"commercial_allowed":true,"computed_performance_host_model_id":"49d29ab9-06b6-4077-b220-932754fdcedc","context_window_tokens":1000000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"minimax-m2","display_order":1543,"estimated_intelligence_index":20.856172610675117,"model_family_slug":"minimax-m1","frontier_model":null,"gdpval":null,"gpqa":0.682,"hle":0.075,"humaneval":null,"id":"385376b1-9815-47dd-83cc-85aac34f247d","ifbench":0.412,"inference_parameters_active_billions":45.9,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.517,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.657,"math_500":0.972,"math_index":13.67,"mmlu_pro":0.808,"mmmu_pro":null,"model_creator_id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","model_weights_source_url":"https://huggingface.co/MiniMaxAI/MiniMax-M1-40k","multilingual_aa":null,"name":"MiniMax M1 40k","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":40000,"parameters":456,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-06-17","representative_query_token_counts":null,"scicode":0.378,"short_name":"MiniMax M1 40k","show_host_model_evals":false,"size_class":"Large","slug":"minimax-m1-40k","tau2":0.316,"terminalbench_hard":0.021,"tokenizer_id":null,"model_creators":{"id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","logo":"minimax.webp","name":"MiniMax","slug":"minimax","color":"#EB3568","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","created_at":"2024-10-09T18:26:15.518615+00:00","logo_small":"minimax_small.svg","creator_url":"https://minimaxi.com/","display_order":25,"logo_url":"/img/logos/minimax.webp","logo_small_url":"/img/logos/minimax_small.svg"},"host_models":[{"id":"49d29ab9-06b6-4077-b220-932754fdcedc","slug":"minimax_minimax-m1-40k","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","gpqa_16x":null,"model_id":"385376b1-9815-47dd-83cc-85aac34f247d","footnotes":"Tiered pricing:\r\n- ≤200K: $0.4/$2.1 per M tokens\r\n- >200K: $1.2/$2.1 per M tokens","json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"MiniMax-M1","function_calling":true,"cache_write_price":null,"host_model_string":"MiniMax_MiniMax M1 40k","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":2.1,"price_1m_blended_3_to_1":0.825,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.21,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/minimax-m1-40k","hosts_url":"/models/minimax-m1-40k/providers","name_and_creator_label":"MiniMax M1 40k, MiniMax"},{"additional_text":null,"aime":0.847,"aime25":0.61,"agentic_index":29.37,"coding_index":14.35,"commercial_allowed":true,"computed_performance_host_model_id":"d42272b6-1530-4a97-bc2b-d5afd8048799","context_window_tokens":1000000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"minimax-m2","display_order":1544,"estimated_intelligence_index":24.573901199432814,"model_family_slug":"minimax-m1","frontier_model":false,"gdpval":1047.8396308876916,"gpqa":0.697,"hle":0.082,"humaneval":null,"id":"9ca246a7-cf13-42c9-9182-5b5ad6b79026","ifbench":0.418,"inference_parameters_active_billions":45.9,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":24.29,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.543,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.711,"math_500":0.98,"math_index":61,"mmlu_pro":0.816,"mmmu_pro":null,"model_creator_id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","model_weights_source_url":"https://huggingface.co/MiniMaxAI/MiniMax-M1-80k","multilingual_aa":null,"name":"MiniMax M1 80k","is_open_weights":true,"omniscience":-50.167,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":-65.5,"attempt_rate":0.899,"num_incorrect":765,"total_questions":1000,"num_not_attempted":101,"hallucination_rate":0.8595505617977528,"num_partial_answer":24}},"total":{"accuracy":0.20566666666666666,"num_correct":1234,"omniscience":-50.166666666666664,"attempt_rate":0.9496666666666667,"num_incorrect":4244,"total_questions":6000,"num_not_attempted":302,"hallucination_rate":0.8904741921947126,"num_partial_answer":220},"Health":{"total":{"accuracy":0.207,"num_correct":207,"omniscience":-50.4,"attempt_rate":0.971,"num_incorrect":711,"total_questions":1000,"num_not_attempted":29,"hallucination_rate":0.8965952080706179,"num_partial_answer":53}},"Business":{"total":{"accuracy":0.169,"num_correct":169,"omniscience":-54,"attempt_rate":0.913,"num_incorrect":709,"total_questions":1000,"num_not_attempted":87,"hallucination_rate":0.8531889290012034,"num_partial_answer":35}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.38,"num_correct":38,"omniscience":-21,"attempt_rate":1,"num_incorrect":59,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9516129032258065,"num_partial_answer":3}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-76,"attempt_rate":1,"num_incorrect":44,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.96,"num_incorrect":37,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.925,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-50,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9736842105263158,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-52,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9487179487179487,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":0.98,"num_incorrect":32,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-59,"attempt_rate":0.98,"num_incorrect":78,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9629629629629629,"num_partial_answer":1}},"Rust":{"total":{"accuracy":0.6,"num_correct":30,"omniscience":30,"attempt_rate":1,"num_incorrect":15,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.75,"num_partial_answer":5}},"Julia":{"total":{"accuracy":0.28,"num_correct":7,"omniscience":-40,"attempt_rate":0.96,"num_incorrect":17,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9444444444444444,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"total":{"accuracy":0.272,"num_correct":272,"omniscience":-41.4,"attempt_rate":0.988,"num_incorrect":686,"total_questions":1000,"num_not_attempted":12,"hallucination_rate":0.9423076923076923,"num_partial_answer":30},"Kotlin":{"total":{"accuracy":0.26,"num_correct":13,"omniscience":-44,"attempt_rate":0.96,"num_incorrect":35,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9459459459459459,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.24,"num_correct":48,"omniscience":-48,"attempt_rate":0.985,"num_incorrect":144,"total_questions":200,"num_not_attempted":3,"hallucination_rate":0.9473684210526315,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.2818181818181818,"num_correct":31,"omniscience":-37.27272727272727,"attempt_rate":0.990909090909091,"num_incorrect":72,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9113924050632911,"num_partial_answer":6}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-44.44444444444444,"attempt_rate":1,"num_incorrect":63,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9402985074626866,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.193,"num_correct":193,"omniscience":-53.5,"attempt_rate":0.95,"num_incorrect":728,"total_questions":1000,"num_not_attempted":50,"hallucination_rate":0.9021065675340768,"num_partial_answer":29}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.283,"num_correct":283,"omniscience":-36.2,"attempt_rate":0.977,"num_incorrect":645,"total_questions":1000,"num_not_attempted":23,"hallucination_rate":0.899581589958159,"num_partial_answer":49}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":80000,"parameters":456,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-06-17","representative_query_token_counts":null,"scicode":0.374,"short_name":"MiniMax M1 80k","show_host_model_evals":false,"size_class":"Large","slug":"minimax-m1-80k","tau2":0.342,"terminalbench_hard":0.028,"tokenizer_id":null,"model_creators":{"id":"a31a9071-6144-4dbb-92dc-2e02d653ecea","logo":"minimax.webp","name":"MiniMax","slug":"minimax","color":"#EB3568","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","created_at":"2024-10-09T18:26:15.518615+00:00","logo_small":"minimax_small.svg","creator_url":"https://minimaxi.com/","display_order":25,"logo_url":"/img/logos/minimax.webp","logo_small_url":"/img/logos/minimax_small.svg"},"host_models":[{"id":"b70839c8-e7e5-46a4-bf4f-7849b5c7f075","slug":"novita_minimax-m1-80k","deleted":false,"host_id":"b08f179e-4a69-4f35-b350-8f7144a8b7c8","gpqa_16x":null,"model_id":"9ca246a7-cf13-42c9-9182-5b5ad6b79026","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"minimaxai/minimax-m1-80k","function_calling":true,"cache_write_price":null,"host_model_string":"Novita_MiniMax M1 80k","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.55,"price_1m_output_tokens":2.2,"price_1m_blended_3_to_1":0.9625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":1000000,"price_m_tokens_blended_3_to_1_per_dollar":1.04,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"d42272b6-1530-4a97-bc2b-d5afd8048799","slug":"minimax_minimax-m1-80k","deleted":false,"host_id":"e86de411-165c-4ec7-a259-e211bd5bf204","gpqa_16x":null,"model_id":"9ca246a7-cf13-42c9-9182-5b5ad6b79026","footnotes":"Tiered pricing:\r\n- ≤200K: $0.4/$2.1 per M tokens\r\n- >200K: $1.2/$2.1 per M tokens","json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"MiniMax-M1","function_calling":true,"cache_write_price":null,"host_model_string":"MiniMax_MiniMax M1 80k","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":2.1,"price_1m_blended_3_to_1":0.825,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.21,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/minimax-m1-80k","hosts_url":"/models/minimax-m1-80k/providers","name_and_creator_label":"MiniMax M1 80k, MiniMax"},{"additional_text":null,"aime":null,"aime25":0.59,"agentic_index":39.6,"coding_index":17.02,"commercial_allowed":null,"computed_performance_host_model_id":null,"context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":653,"estimated_intelligence_index":null,"model_family_slug":"hyperclova","frontier_model":false,"gdpval":801.0996316775063,"gpqa":0.615,"hle":0.055,"humaneval":null,"id":"339a92c1-8a42-417f-8d1f-cdbc605acd9e","ifbench":0.379,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":true,"intelligence_index":24,"intelligence_index_token_counts":{"input_tokens":185543092,"answer_tokens":3383737,"output_tokens":27435378,"reasoning_tokens":24051640},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.117,"license_name":null,"license_url":null,"livecodebench":0.629,"math_500":null,"math_index":59,"mmlu_pro":0.785,"mmmu_pro":null,"model_creator_id":"6da63157-6fed-41df-8761-62c519ebd6ab","model_weights_source_url":"https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Think-32B","multilingual_aa":{"ar":{"score":0.7341666666666667,"input_tokens":188556,"answer_tokens":7991,"output_tokens":694386,"reasoning_tokens":686395,"total_input_tokens_api":350952,"total_answer_tokens_api":741099,"total_reasoning_tokens_api":0},"bn":{"score":0.6183333333333333,"input_tokens":225534,"answer_tokens":6982,"output_tokens":805234,"reasoning_tokens":798252,"total_input_tokens_api":633237,"total_answer_tokens_api":889469,"total_reasoning_tokens_api":0},"de":{"score":0.8258333333333333,"input_tokens":191646,"answer_tokens":13337,"output_tokens":660915,"reasoning_tokens":647578,"total_input_tokens_api":234060,"total_answer_tokens_api":697595,"total_reasoning_tokens_api":0},"en":{"score":0.8808333333333334,"input_tokens":159654,"answer_tokens":15565,"output_tokens":640649,"reasoning_tokens":625084,"total_input_tokens_api":171294,"total_answer_tokens_api":673916,"total_reasoning_tokens_api":0},"es":{"score":0.8391666666666667,"input_tokens":182088,"answer_tokens":9860,"output_tokens":656575,"reasoning_tokens":646715,"total_input_tokens_api":216267,"total_answer_tokens_api":693062,"total_reasoning_tokens_api":0},"fr":{"score":0.8083333333333332,"input_tokens":191346,"answer_tokens":14196,"output_tokens":681985,"reasoning_tokens":667789,"total_input_tokens_api":229578,"total_answer_tokens_api":719950,"total_reasoning_tokens_api":0},"hi":{"score":0.7325,"input_tokens":209430,"answer_tokens":10284,"output_tokens":718761,"reasoning_tokens":708477,"total_input_tokens_api":510213,"total_answer_tokens_api":784665,"total_reasoning_tokens_api":0},"id":{"score":0.8058333333333333,"input_tokens":181314,"answer_tokens":9587,"output_tokens":645423,"reasoning_tokens":635836,"total_input_tokens_api":224646,"total_answer_tokens_api":679903,"total_reasoning_tokens_api":0},"it":{"score":0.8291666666666666,"input_tokens":199032,"answer_tokens":13683,"output_tokens":673176,"reasoning_tokens":659493,"total_input_tokens_api":230376,"total_answer_tokens_api":711539,"total_reasoning_tokens_api":0},"ja":{"score":0.8208333333333333,"input_tokens":228129,"answer_tokens":14324,"output_tokens":714682,"reasoning_tokens":700358,"total_input_tokens_api":255159,"total_answer_tokens_api":752568,"total_reasoning_tokens_api":0},"ko":{"score":0.8208333333333333,"input_tokens":199401,"answer_tokens":17289,"output_tokens":667046,"reasoning_tokens":649757,"total_input_tokens_api":181935,"total_answer_tokens_api":657328,"total_reasoning_tokens_api":0},"my":{"score":0.3641666666666666,"input_tokens":353547,"answer_tokens":5490,"output_tokens":1038108,"reasoning_tokens":1032618,"total_input_tokens_api":1022646,"total_answer_tokens_api":1194796,"total_reasoning_tokens_api":0},"pt":{"score":0.8183333333333334,"input_tokens":178176,"answer_tokens":9141,"output_tokens":622481,"reasoning_tokens":613340,"total_input_tokens_api":217071,"total_answer_tokens_api":656165,"total_reasoning_tokens_api":0},"sw":{"score":0.6058333333333333,"input_tokens":208677,"answer_tokens":9571,"output_tokens":809207,"reasoning_tokens":799636,"total_input_tokens_api":266196,"total_answer_tokens_api":857510,"total_reasoning_tokens_api":0},"yo":{"score":0.3625,"input_tokens":307062,"answer_tokens":5761,"output_tokens":1106637,"reasoning_tokens":1100876,"total_input_tokens_api":397590,"total_answer_tokens_api":1206922,"total_reasoning_tokens_api":0},"zh":{"score":0.81,"input_tokens":179793,"answer_tokens":14939,"output_tokens":643647,"reasoning_tokens":628708,"total_input_tokens_api":234309,"total_answer_tokens_api":681749,"total_reasoning_tokens_api":0},"average":{"score":0.7297916666666666,"input_tokens":3383385,"answer_tokens":178000,"output_tokens":11778912,"reasoning_tokens":11600912,"total_input_tokens_api":5375529,"total_answer_tokens_api":12598236,"total_reasoning_tokens_api":0}},"name":"HyperCLOVA X SEED Think (32B)","is_open_weights":true,"omniscience":-51.983,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.075,"num_correct":75,"omniscience":-61.9,"attempt_rate":0.772,"num_incorrect":694,"total_questions":1000,"num_not_attempted":228,"hallucination_rate":0.7502702702702703,"num_partial_answer":3}},"total":{"accuracy":0.15616666666666668,"num_correct":937,"omniscience":-51.983333333333334,"attempt_rate":0.8436666666666667,"num_incorrect":4056,"total_questions":6000,"num_not_attempted":938,"hallucination_rate":0.8011060635986569,"num_partial_answer":69},"Health":{"total":{"accuracy":0.135,"num_correct":135,"omniscience":-57.6,"attempt_rate":0.868,"num_incorrect":711,"total_questions":1000,"num_not_attempted":132,"hallucination_rate":0.8219653179190751,"num_partial_answer":22}},"Business":{"total":{"accuracy":0.125,"num_correct":125,"omniscience":-45.1,"attempt_rate":0.715,"num_incorrect":576,"total_questions":1000,"num_not_attempted":285,"hallucination_rate":0.6582857142857143,"num_partial_answer":14}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.22,"num_correct":22,"omniscience":-50,"attempt_rate":0.94,"num_incorrect":72,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.9230769230769231,"num_partial_answer":0}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-76,"attempt_rate":0.96,"num_incorrect":43,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9555555555555556,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-58,"attempt_rate":0.88,"num_incorrect":36,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8372093023255814,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-60,"attempt_rate":0.92,"num_incorrect":38,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9047619047619048,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-80,"attempt_rate":0.96,"num_incorrect":44,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9565217391304348,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-20,"attempt_rate":0.92,"num_incorrect":28,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.875,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-60,"attempt_rate":0.94,"num_incorrect":77,"total_questions":100,"num_not_attempted":6,"hallucination_rate":0.927710843373494,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.42,"num_correct":21,"omniscience":-14,"attempt_rate":0.98,"num_incorrect":28,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9655172413793104,"num_partial_answer":0}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-68,"attempt_rate":0.8,"num_incorrect":18,"total_questions":25,"num_not_attempted":5,"hallucination_rate":0.75,"num_partial_answer":1}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-16,"attempt_rate":0.84,"num_incorrect":12,"total_questions":25,"num_not_attempted":4,"hallucination_rate":0.7058823529411765,"num_partial_answer":1}},"total":{"accuracy":0.182,"num_correct":182,"omniscience":-55.6,"attempt_rate":0.929,"num_incorrect":738,"total_questions":1000,"num_not_attempted":71,"hallucination_rate":0.902200488997555,"num_partial_answer":9},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-54,"attempt_rate":0.96,"num_incorrect":37,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.925,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.095,"num_correct":19,"omniscience":-73,"attempt_rate":0.935,"num_incorrect":165,"total_questions":200,"num_not_attempted":13,"hallucination_rate":0.9116022099447514,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.2545454545454545,"num_correct":28,"omniscience":-41.81818181818182,"attempt_rate":0.9363636363636364,"num_incorrect":74,"total_questions":110,"num_not_attempted":7,"hallucination_rate":0.9024390243902439,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.15555555555555556,"num_correct":14,"omniscience":-57.77777777777778,"attempt_rate":0.9,"num_incorrect":66,"total_questions":90,"num_not_attempted":9,"hallucination_rate":0.868421052631579,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.165,"num_correct":165,"omniscience":-50.9,"attempt_rate":0.844,"num_incorrect":674,"total_questions":1000,"num_not_attempted":156,"hallucination_rate":0.807185628742515,"num_partial_answer":5}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.255,"num_correct":255,"omniscience":-40.8,"attempt_rate":0.934,"num_incorrect":663,"total_questions":1000,"num_not_attempted":66,"hallucination_rate":0.8899328859060402,"num_partial_answer":16}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":32,"reasoning_model":true,"reasoning_properties":{"style":"in_chunk"},"release_date":"2025-12-26","representative_query_token_counts":null,"scicode":0.284,"short_name":"HyperCLOVA X SEED Think (32B)","show_host_model_evals":false,"size_class":"Small","slug":"hyperclova-x-seed-think-32b","tau2":0.874,"terminalbench_hard":0.113,"tokenizer_id":null,"model_creators":{"id":"6da63157-6fed-41df-8761-62c519ebd6ab","logo":"naver.png","name":"Naver","slug":"naver","color":"#03c75b","deleted":true,"host_id":null,"created_at":"2025-12-24T00:30:55.671849+00:00","logo_small":"naver_small.webp","creator_url":"https://www.naver.com/","display_order":124,"logo_url":"/img/logos/naver.png","logo_small_url":"/img/logos/naver_small.webp"},"host_models":[],"model_url":"/models/hyperclova-x-seed-think-32b","hosts_url":"/models/hyperclova-x-seed-think-32b/providers","name_and_creator_label":"HyperCLOVA X SEED Think (32B), Naver"},{"additional_text":null,"aime":null,"aime25":0.38,"agentic_index":21.53,"coding_index":22,"commercial_allowed":true,"computed_performance_host_model_id":"6a8c3e2a-73c1-4e22-b695-cfb15e212181","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":307,"estimated_intelligence_index":19.958596502493613,"model_family_slug":"mistral-large","frontier_model":false,"gdpval":897.3391628329794,"gpqa":0.68,"hle":0.041,"humaneval":null,"id":"4928e950-7f37-4475-b0dc-c5bad781a321","ifbench":0.362,"inference_parameters_active_billions":41,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":22.51,"intelligence_index_token_counts":{"input_tokens":61757253,"answer_tokens":5196739,"output_tokens":5196739,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.347,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.465,"math_500":null,"math_index":38,"mmlu_pro":0.807,"mmmu_pro":0.557,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Mistral-Large-3-675B-Instruct-2512","multilingual_aa":{"ar":{"score":0.8300000000000001,"input_tokens":188556,"answer_tokens":300015,"output_tokens":300015,"reasoning_tokens":0,"total_input_tokens_api":184419,"total_answer_tokens_api":281642,"total_reasoning_tokens_api":0},"bn":{"score":0.8175,"input_tokens":225534,"answer_tokens":351505,"output_tokens":351505,"reasoning_tokens":0,"total_input_tokens_api":263853,"total_answer_tokens_api":408157,"total_reasoning_tokens_api":0},"de":{"score":0.8716666666666667,"input_tokens":191646,"answer_tokens":299831,"output_tokens":299831,"reasoning_tokens":0,"total_input_tokens_api":201243,"total_answer_tokens_api":310969,"total_reasoning_tokens_api":0},"en":{"score":0.8916666666666666,"input_tokens":159654,"answer_tokens":255554,"output_tokens":255554,"reasoning_tokens":0,"total_input_tokens_api":167055,"total_answer_tokens_api":261516,"total_reasoning_tokens_api":0},"es":{"score":0.8741666666666666,"input_tokens":182088,"answer_tokens":285286,"output_tokens":285286,"reasoning_tokens":0,"total_input_tokens_api":192090,"total_answer_tokens_api":295800,"total_reasoning_tokens_api":0},"fr":{"score":0.8574999999999999,"input_tokens":191346,"answer_tokens":322359,"output_tokens":322359,"reasoning_tokens":0,"total_input_tokens_api":196695,"total_answer_tokens_api":326018,"total_reasoning_tokens_api":0},"hi":{"score":0.8116666666666666,"input_tokens":209430,"answer_tokens":341945,"output_tokens":341945,"reasoning_tokens":0,"total_input_tokens_api":242139,"total_answer_tokens_api":401776,"total_reasoning_tokens_api":0},"id":{"score":0.8458333333333332,"input_tokens":181314,"answer_tokens":308770,"output_tokens":308770,"reasoning_tokens":0,"total_input_tokens_api":197520,"total_answer_tokens_api":334993,"total_reasoning_tokens_api":0},"it":{"score":0.8691666666666666,"input_tokens":199032,"answer_tokens":337237,"output_tokens":337237,"reasoning_tokens":0,"total_input_tokens_api":202272,"total_answer_tokens_api":336094,"total_reasoning_tokens_api":0},"ja":{"score":0.8649999999999999,"input_tokens":228129,"answer_tokens":402980,"output_tokens":402980,"reasoning_tokens":0,"total_input_tokens_api":227634,"total_answer_tokens_api":405073,"total_reasoning_tokens_api":0},"ko":{"score":0.8383333333333334,"input_tokens":199401,"answer_tokens":360820,"output_tokens":360820,"reasoning_tokens":0,"total_input_tokens_api":191046,"total_answer_tokens_api":338952,"total_reasoning_tokens_api":0},"my":{"score":0.7108333333333333,"input_tokens":353547,"answer_tokens":507795,"output_tokens":507795,"reasoning_tokens":0,"total_input_tokens_api":375978,"total_answer_tokens_api":536353,"total_reasoning_tokens_api":0},"pt":{"score":0.8566666666666666,"input_tokens":178176,"answer_tokens":305764,"output_tokens":305764,"reasoning_tokens":0,"total_input_tokens_api":192072,"total_answer_tokens_api":326915,"total_reasoning_tokens_api":0},"sw":{"score":0.66,"input_tokens":208677,"answer_tokens":319352,"output_tokens":319352,"reasoning_tokens":0,"total_input_tokens_api":250863,"total_answer_tokens_api":396092,"total_reasoning_tokens_api":0},"yo":{"score":0.4058333333333333,"input_tokens":307062,"answer_tokens":470451,"output_tokens":470451,"reasoning_tokens":0,"total_input_tokens_api":424803,"total_answer_tokens_api":639224,"total_reasoning_tokens_api":0},"zh":{"score":0.8475000000000001,"input_tokens":179793,"answer_tokens":297872,"output_tokens":297872,"reasoning_tokens":0,"total_input_tokens_api":205800,"total_answer_tokens_api":352468,"total_reasoning_tokens_api":0},"average":{"score":0.8033333333333332,"input_tokens":3383385,"answer_tokens":5467536,"output_tokens":5467536,"reasoning_tokens":0,"total_input_tokens_api":3715482,"total_answer_tokens_api":5952042,"total_reasoning_tokens_api":0}},"name":"Mistral Large 3","is_open_weights":true,"omniscience":-40.983,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.186,"num_correct":186,"omniscience":-48.9,"attempt_rate":0.877,"num_incorrect":675,"total_questions":1000,"num_not_attempted":123,"hallucination_rate":0.8292383292383292,"num_partial_answer":16}},"total":{"accuracy":0.23683333333333334,"num_correct":1421,"omniscience":-40.983333333333334,"attempt_rate":0.9225,"num_incorrect":3880,"total_questions":6000,"num_not_attempted":465,"hallucination_rate":0.8473465822231928,"num_partial_answer":234},"Health":{"total":{"accuracy":0.245,"num_correct":245,"omniscience":-38.4,"attempt_rate":0.962,"num_incorrect":629,"total_questions":1000,"num_not_attempted":38,"hallucination_rate":0.833112582781457,"num_partial_answer":88}},"Business":{"total":{"accuracy":0.191,"num_correct":191,"omniscience":-46.1,"attempt_rate":0.868,"num_incorrect":652,"total_questions":1000,"num_not_attempted":132,"hallucination_rate":0.8059332509270705,"num_partial_answer":25}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.39,"num_correct":39,"omniscience":-17,"attempt_rate":0.99,"num_incorrect":56,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9180327868852459,"num_partial_answer":4}},"R":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-62,"attempt_rate":0.94,"num_incorrect":39,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.9285714285714286,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-52,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-20,"attempt_rate":0.96,"num_incorrect":28,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.875,"num_partial_answer":2}},"Dart":{"total":{"accuracy":0.24,"num_correct":12,"omniscience":-50,"attempt_rate":1,"num_incorrect":37,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.9736842105263158,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":32,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9411764705882353,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.27,"num_correct":27,"omniscience":-42,"attempt_rate":1,"num_incorrect":69,"total_questions":100,"num_not_attempted":0,"hallucination_rate":0.9452054794520548,"num_partial_answer":4}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":6,"attempt_rate":0.96,"num_incorrect":19,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.6785714285714286,"num_partial_answer":7}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-64,"attempt_rate":0.96,"num_incorrect":20,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9523809523809523,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.44,"num_correct":11,"omniscience":4,"attempt_rate":0.96,"num_incorrect":10,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.7142857142857143,"num_partial_answer":3}},"total":{"accuracy":0.301,"num_correct":301,"omniscience":-33.3,"attempt_rate":0.973,"num_incorrect":634,"total_questions":1000,"num_not_attempted":27,"hallucination_rate":0.9070100143061517,"num_partial_answer":38},"Kotlin":{"total":{"accuracy":0.36,"num_correct":18,"omniscience":-18,"attempt_rate":0.98,"num_incorrect":27,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.84375,"num_partial_answer":4}},"Python":{"total":{"accuracy":0.265,"num_correct":53,"omniscience":-39,"attempt_rate":0.945,"num_incorrect":131,"total_questions":200,"num_not_attempted":11,"hallucination_rate":0.891156462585034,"num_partial_answer":5}},"JavaScript":{"total":{"accuracy":0.36363636363636365,"num_correct":40,"omniscience":-25.454545454545453,"attempt_rate":0.990909090909091,"num_incorrect":68,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9714285714285714,"num_partial_answer":1}},"TypeScript":{"total":{"accuracy":0.25555555555555554,"num_correct":23,"omniscience":-43.333333333333336,"attempt_rate":0.9888888888888889,"num_incorrect":62,"total_questions":90,"num_not_attempted":1,"hallucination_rate":0.9253731343283582,"num_partial_answer":4}}},"Humanities & Social Sciences":{"total":{"accuracy":0.241,"num_correct":241,"omniscience":-42.5,"attempt_rate":0.923,"num_incorrect":666,"total_questions":1000,"num_not_attempted":77,"hallucination_rate":0.8774703557312253,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.257,"num_correct":257,"omniscience":-36.7,"attempt_rate":0.932,"num_incorrect":624,"total_questions":1000,"num_not_attempted":68,"hallucination_rate":0.8398384925975774,"num_partial_answer":51}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":128000,"parameters":675,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-02","representative_query_token_counts":null,"scicode":0.362,"short_name":"Mistral Large 3","show_host_model_evals":false,"size_class":"Large","slug":"mistral-large-3","tau2":0.246,"terminalbench_hard":0.149,"tokenizer_id":null,"model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"5d6347e7-c035-4534-b248-f2dff8c533b1","slug":"amazon-bedrock_mistral-large-3","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"4928e950-7f37-4475-b0dc-c5bad781a321","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistral.mistral-large-3-675b-instruct","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Mistral Large 3","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"6a8c3e2a-73c1-4e22-b695-cfb15e212181","slug":"mistral_mistral-large-3","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"4928e950-7f37-4475-b0dc-c5bad781a321","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistral-large-2512","function_calling":null,"cache_write_price":null,"host_model_string":"Mistral_Mistral Large 3","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.5,"price_1m_output_tokens":1.5,"price_1m_blended_3_to_1":0.75,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":1.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mistral-large-3","hosts_url":"/models/mistral-large-3/providers","name_and_creator_label":"Mistral Large 3, Mistral"},{"additional_text":null,"aime":null,"aime25":0.367,"agentic_index":21.69,"coding_index":22.85,"commercial_allowed":false,"computed_performance_host_model_id":"937e7637-1697-418d-995d-008ffbd10b14","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":309,"estimated_intelligence_index":18.958453990270915,"model_family_slug":"devstral","frontier_model":false,"gdpval":898.2164320223308,"gpqa":0.594,"hle":0.036,"humaneval":null,"id":"09f43999-b67b-4c1b-b050-44df41ed7e62","ifbench":0.381,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":21.76,"intelligence_index_token_counts":{"input_tokens":164289457,"answer_tokens":7494612,"output_tokens":7494612,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.3,"license_name":"Modified MIT License","license_url":"http://huggingface.co/mistralai/Devstral-2-123B-Instruct-2512/blob/main/LICENSE","livecodebench":0.448,"math_500":null,"math_index":36.67,"mmlu_pro":0.762,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Devstral-2-123B-Instruct-2512","multilingual_aa":{"ar":{"score":0.8033333333333333,"input_tokens":188556,"answer_tokens":75320,"output_tokens":75320,"reasoning_tokens":0,"total_input_tokens_api":184419,"total_answer_tokens_api":74179,"total_reasoning_tokens_api":0},"bn":{"score":0.7616666666666667,"input_tokens":225534,"answer_tokens":81228,"output_tokens":81228,"reasoning_tokens":0,"total_input_tokens_api":263853,"total_answer_tokens_api":92284,"total_reasoning_tokens_api":0},"de":{"score":0.8366666666666666,"input_tokens":191646,"answer_tokens":110756,"output_tokens":110756,"reasoning_tokens":0,"total_input_tokens_api":201243,"total_answer_tokens_api":116308,"total_reasoning_tokens_api":0},"en":{"score":0.8891666666666667,"input_tokens":159654,"answer_tokens":77572,"output_tokens":77572,"reasoning_tokens":0,"total_input_tokens_api":167055,"total_answer_tokens_api":80367,"total_reasoning_tokens_api":0},"es":{"score":0.8741666666666666,"input_tokens":182088,"answer_tokens":115819,"output_tokens":115819,"reasoning_tokens":0,"total_input_tokens_api":192090,"total_answer_tokens_api":120872,"total_reasoning_tokens_api":0},"fr":{"score":0.85,"input_tokens":191346,"answer_tokens":149861,"output_tokens":149861,"reasoning_tokens":0,"total_input_tokens_api":196695,"total_answer_tokens_api":152001,"total_reasoning_tokens_api":0},"hi":{"score":0.7949999999999999,"input_tokens":209430,"answer_tokens":66690,"output_tokens":66690,"reasoning_tokens":0,"total_input_tokens_api":242139,"total_answer_tokens_api":73498,"total_reasoning_tokens_api":0},"id":{"score":0.8258333333333333,"input_tokens":181314,"answer_tokens":91776,"output_tokens":91776,"reasoning_tokens":0,"total_input_tokens_api":197340,"total_answer_tokens_api":101083,"total_reasoning_tokens_api":0},"it":{"score":0.85,"input_tokens":199032,"answer_tokens":162359,"output_tokens":162359,"reasoning_tokens":0,"total_input_tokens_api":202272,"total_answer_tokens_api":162156,"total_reasoning_tokens_api":0},"ja":{"score":0.7991666666666667,"input_tokens":228129,"answer_tokens":121971,"output_tokens":121971,"reasoning_tokens":0,"total_input_tokens_api":223145,"total_answer_tokens_api":119954,"total_reasoning_tokens_api":0},"ko":{"score":0.81,"input_tokens":199401,"answer_tokens":113218,"output_tokens":113218,"reasoning_tokens":0,"total_input_tokens_api":191046,"total_answer_tokens_api":111659,"total_reasoning_tokens_api":0},"my":{"score":0.6283333333333333,"input_tokens":353547,"answer_tokens":266372,"output_tokens":266372,"reasoning_tokens":0,"total_input_tokens_api":375978,"total_answer_tokens_api":320431,"total_reasoning_tokens_api":0},"pt":{"score":0.8591666666666667,"input_tokens":178176,"answer_tokens":125824,"output_tokens":125824,"reasoning_tokens":0,"total_input_tokens_api":191533,"total_answer_tokens_api":135959,"total_reasoning_tokens_api":0},"sw":{"score":0.5991666666666667,"input_tokens":208677,"answer_tokens":52713,"output_tokens":52713,"reasoning_tokens":0,"total_input_tokens_api":250863,"total_answer_tokens_api":61485,"total_reasoning_tokens_api":0},"yo":{"score":0.3875,"input_tokens":307062,"answer_tokens":51277,"output_tokens":51277,"reasoning_tokens":0,"total_input_tokens_api":424803,"total_answer_tokens_api":55647,"total_reasoning_tokens_api":0},"zh":{"score":0.8291666666666666,"input_tokens":179793,"answer_tokens":108022,"output_tokens":108022,"reasoning_tokens":0,"total_input_tokens_api":205800,"total_answer_tokens_api":122068,"total_reasoning_tokens_api":0},"average":{"score":0.7748958333333333,"input_tokens":3383385,"answer_tokens":1770778,"output_tokens":1770778,"reasoning_tokens":0,"total_input_tokens_api":3710274,"total_answer_tokens_api":1899951,"total_reasoning_tokens_api":0}},"name":"Devstral 2","is_open_weights":true,"omniscience":-47.917,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.122,"num_correct":122,"omniscience":-54.8,"attempt_rate":0.807,"num_incorrect":670,"total_questions":1000,"num_not_attempted":193,"hallucination_rate":0.7630979498861048,"num_partial_answer":15}},"total":{"accuracy":0.198,"num_correct":1188,"omniscience":-47.916666666666664,"attempt_rate":0.9,"num_incorrect":4063,"total_questions":6000,"num_not_attempted":600,"hallucination_rate":0.8443474646716542,"num_partial_answer":149},"Health":{"total":{"accuracy":0.199,"num_correct":199,"omniscience":-52.2,"attempt_rate":0.971,"num_incorrect":721,"total_questions":1000,"num_not_attempted":29,"hallucination_rate":0.9001248439450686,"num_partial_answer":51}},"Business":{"total":{"accuracy":0.159,"num_correct":159,"omniscience":-46.2,"attempt_rate":0.796,"num_incorrect":621,"total_questions":1000,"num_not_attempted":204,"hallucination_rate":0.7384066587395958,"num_partial_answer":16}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.42,"num_correct":42,"omniscience":-13,"attempt_rate":0.99,"num_incorrect":55,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9482758620689655,"num_partial_answer":2}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-66,"attempt_rate":0.9,"num_incorrect":39,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8863636363636364,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-60,"attempt_rate":1,"num_incorrect":40,"total_questions":50,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-32,"attempt_rate":0.96,"num_incorrect":32,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9411764705882353,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-50,"attempt_rate":0.98,"num_incorrect":36,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9230769230769231,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.4,"num_correct":20,"omniscience":-16,"attempt_rate":0.96,"num_incorrect":28,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.9333333333333333,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.19,"num_correct":19,"omniscience":-55,"attempt_rate":0.97,"num_incorrect":74,"total_questions":100,"num_not_attempted":3,"hallucination_rate":0.9135802469135802,"num_partial_answer":4}},"Rust":{"total":{"accuracy":0.48,"num_correct":24,"omniscience":8,"attempt_rate":1,"num_incorrect":20,"total_questions":50,"num_not_attempted":0,"hallucination_rate":0.7692307692307693,"num_partial_answer":6}},"Julia":{"total":{"accuracy":0.16,"num_correct":4,"omniscience":-68,"attempt_rate":1,"num_incorrect":21,"total_questions":25,"num_not_attempted":0,"hallucination_rate":1,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"total":{"accuracy":0.273,"num_correct":273,"omniscience":-40.5,"attempt_rate":0.972,"num_incorrect":678,"total_questions":1000,"num_not_attempted":28,"hallucination_rate":0.9325997248968363,"num_partial_answer":21},"Kotlin":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-36,"attempt_rate":0.94,"num_incorrect":32,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.8888888888888888,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.225,"num_correct":45,"omniscience":-49.5,"attempt_rate":0.95,"num_incorrect":144,"total_questions":200,"num_not_attempted":10,"hallucination_rate":0.9290322580645162,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.32727272727272727,"num_correct":36,"omniscience":-30.90909090909091,"attempt_rate":0.990909090909091,"num_incorrect":70,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9459459459459459,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.2,"num_correct":18,"omniscience":-58.888888888888886,"attempt_rate":1,"num_incorrect":71,"total_questions":90,"num_not_attempted":0,"hallucination_rate":0.9861111111111112,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.209,"num_correct":209,"omniscience":-49.7,"attempt_rate":0.931,"num_incorrect":706,"total_questions":1000,"num_not_attempted":69,"hallucination_rate":0.8925410872313527,"num_partial_answer":16}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.226,"num_correct":226,"omniscience":-44.1,"attempt_rate":0.923,"num_incorrect":667,"total_questions":1000,"num_not_attempted":77,"hallucination_rate":0.8617571059431525,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":125,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-09","representative_query_token_counts":null,"scicode":0.331,"short_name":"Devstral 2","show_host_model_evals":false,"size_class":"Medium","slug":"devstral-2","tau2":0.249,"terminalbench_hard":0.177,"tokenizer_id":"devstral_tokenizer","model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"937e7637-1697-418d-995d-008ffbd10b14","slug":"mistral_devstral-2","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"09f43999-b67b-4c1b-b050-44df41ed7e62","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"devstral-2512","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Devstral 2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0,"price_1m_output_tokens":0,"price_1m_blended_3_to_1":0,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":256000,"price_m_tokens_blended_3_to_1_per_dollar":null,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/devstral-2","hosts_url":"/models/devstral-2/providers","name_and_creator_label":"Devstral 2, Mistral"},{"additional_text":null,"aime":0.067,"aime25":0.047,"agentic_index":16.61,"coding_index":15.47,"commercial_allowed":null,"computed_performance_host_model_id":"44c7d26f-52ac-43bb-9212-f47386353169","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":320,"estimated_intelligence_index":15.102796916165374,"model_family_slug":"devstral","frontier_model":false,"gdpval":795.6633672481968,"gpqa":0.492,"hle":0.038,"humaneval":0.935,"id":"aba82268-2bb7-4a0f-80be-9b7722e2145b","ifbench":0.299,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":18.72,"intelligence_index_token_counts":{"input_tokens":165078659,"answer_tokens":3606419,"output_tokens":3606419,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.287,"license_name":null,"license_url":null,"livecodebench":0.337,"math_500":0.707,"math_index":4.67,"mmlu_pro":0.708,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":null,"multilingual_aa":null,"name":"Devstral Medium","is_open_weights":false,"omniscience":-32.8,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":-40.5,"attempt_rate":0.631,"num_incorrect":515,"total_questions":1000,"num_not_attempted":369,"hallucination_rate":0.5786516853932584,"num_partial_answer":6}},"total":{"accuracy":0.18166666666666667,"num_correct":1090,"omniscience":-32.8,"attempt_rate":0.7106666666666667,"num_incorrect":3058,"total_questions":6000,"num_not_attempted":1736,"hallucination_rate":0.6228105906313646,"num_partial_answer":116},"Health":{"total":{"accuracy":0.197,"num_correct":197,"omniscience":-39.1,"attempt_rate":0.829,"num_incorrect":588,"total_questions":1000,"num_not_attempted":171,"hallucination_rate":0.7322540473225405,"num_partial_answer":44}},"Business":{"total":{"accuracy":0.145,"num_correct":145,"omniscience":-33.7,"attempt_rate":0.639,"num_incorrect":482,"total_questions":1000,"num_not_attempted":361,"hallucination_rate":0.5637426900584795,"num_partial_answer":12}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.33,"num_correct":33,"omniscience":-13,"attempt_rate":0.8,"num_incorrect":46,"total_questions":100,"num_not_attempted":20,"hallucination_rate":0.6865671641791045,"num_partial_answer":1}},"R":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-34,"attempt_rate":0.58,"num_incorrect":23,"total_questions":50,"num_not_attempted":21,"hallucination_rate":0.5227272727272727,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-26,"attempt_rate":0.5,"num_incorrect":19,"total_questions":50,"num_not_attempted":25,"hallucination_rate":0.4318181818181818,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-18,"attempt_rate":0.58,"num_incorrect":19,"total_questions":50,"num_not_attempted":21,"hallucination_rate":0.475,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-30,"attempt_rate":0.66,"num_incorrect":23,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.5476190476190477,"num_partial_answer":2}},"HTML":{"total":{"accuracy":0.3,"num_correct":15,"omniscience":-16,"attempt_rate":0.8,"num_incorrect":23,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.6571428571428571,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.17,"num_correct":17,"omniscience":-25,"attempt_rate":0.59,"num_incorrect":42,"total_questions":100,"num_not_attempted":41,"hallucination_rate":0.5060240963855421,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":4,"attempt_rate":0.9,"num_incorrect":20,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.7142857142857143,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.12,"num_correct":3,"omniscience":-48,"attempt_rate":0.72,"num_incorrect":15,"total_questions":25,"num_not_attempted":7,"hallucination_rate":0.6818181818181818,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-28,"attempt_rate":0.92,"num_incorrect":15,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8823529411764706,"num_partial_answer":0}},"total":{"accuracy":0.212,"num_correct":212,"omniscience":-25.3,"attempt_rate":0.688,"num_incorrect":465,"total_questions":1000,"num_not_attempted":312,"hallucination_rate":0.5901015228426396,"num_partial_answer":11},"Kotlin":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-38,"attempt_rate":0.74,"num_incorrect":28,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.6829268292682927,"num_partial_answer":0}},"Python":{"total":{"accuracy":0.18,"num_correct":36,"omniscience":-26.5,"attempt_rate":0.63,"num_incorrect":89,"total_questions":200,"num_not_attempted":74,"hallucination_rate":0.5426829268292683,"num_partial_answer":1}},"JavaScript":{"total":{"accuracy":0.2,"num_correct":22,"omniscience":-24.545454545454547,"attempt_rate":0.6636363636363637,"num_incorrect":49,"total_questions":110,"num_not_attempted":37,"hallucination_rate":0.5568181818181818,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.18888888888888888,"num_correct":17,"omniscience":-41.111111111111114,"attempt_rate":0.7888888888888889,"num_incorrect":54,"total_questions":90,"num_not_attempted":19,"hallucination_rate":0.7397260273972602,"num_partial_answer":0}}},"Humanities & Social Sciences":{"total":{"accuracy":0.207,"num_correct":207,"omniscience":-30.6,"attempt_rate":0.732,"num_incorrect":513,"total_questions":1000,"num_not_attempted":268,"hallucination_rate":0.6469104665825978,"num_partial_answer":12}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.219,"num_correct":219,"omniscience":-27.6,"attempt_rate":0.745,"num_incorrect":495,"total_questions":1000,"num_not_attempted":255,"hallucination_rate":0.6338028169014085,"num_partial_answer":31}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":256000,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-07-10","representative_query_token_counts":null,"scicode":0.294,"short_name":"Devstral Medium","show_host_model_evals":false,"size_class":"Medium","slug":"devstral-medium","tau2":0.199,"terminalbench_hard":0.085,"tokenizer_id":null,"model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"44c7d26f-52ac-43bb-9212-f47386353169","slug":"mistral_devstral-medium","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"aba82268-2bb7-4a0f-80be-9b7722e2145b","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"devstral-medium-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Devstral Medium","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.4,"price_1m_output_tokens":2,"price_1m_blended_3_to_1":0.8,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":1.25,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/devstral-medium","hosts_url":"/models/devstral-medium/providers","name_and_creator_label":"Devstral Medium, Mistral"},{"additional_text":null,"aime":0.003,"aime25":0.293,"agentic_index":16.06,"coding_index":11.88,"commercial_allowed":true,"computed_performance_host_model_id":"4500fce6-9c0f-405e-afa2-994f0c2e5d6a","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":308,"estimated_intelligence_index":14.840945563179064,"model_family_slug":"devstral","frontier_model":false,"gdpval":686.7466034000122,"gpqa":0.414,"hle":0.037,"humaneval":0.85,"id":"9eae4ec4-61b8-48bc-9843-3edd506ae933","ifbench":0.346,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":15.59,"intelligence_index_token_counts":{"input_tokens":220544290,"answer_tokens":4346705,"output_tokens":4346705,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.17,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.254,"math_500":0.635,"math_index":29.33,"mmlu_pro":0.622,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Devstral-Small-2507","multilingual_aa":null,"name":"Devstral Small (Jul '25)","is_open_weights":true,"omniscience":-51.967,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.09,"num_correct":90,"omniscience":-53.1,"attempt_rate":0.72,"num_incorrect":621,"total_questions":1000,"num_not_attempted":280,"hallucination_rate":0.6824175824175824,"num_partial_answer":9}},"total":{"accuracy":0.1395,"num_correct":837,"omniscience":-51.96666666666667,"attempt_rate":0.8243333333333334,"num_incorrect":3955,"total_questions":6000,"num_not_attempted":1054,"hallucination_rate":0.7660275033895022,"num_partial_answer":154},"Health":{"total":{"accuracy":0.149,"num_correct":149,"omniscience":-58.2,"attempt_rate":0.944,"num_incorrect":731,"total_questions":1000,"num_not_attempted":56,"hallucination_rate":0.8589894242068156,"num_partial_answer":64}},"Business":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":-48.8,"attempt_rate":0.726,"num_incorrect":598,"total_questions":1000,"num_not_attempted":274,"hallucination_rate":0.6719101123595506,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.25,"num_correct":25,"omniscience":-40,"attempt_rate":0.91,"num_incorrect":65,"total_questions":100,"num_not_attempted":9,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"R":{"total":{"accuracy":0.04,"num_correct":2,"omniscience":-72,"attempt_rate":0.8,"num_incorrect":38,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7916666666666666,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-68,"attempt_rate":0.9,"num_incorrect":39,"total_questions":50,"num_not_attempted":5,"hallucination_rate":0.8666666666666667,"num_partial_answer":1}},"PHP":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-62,"attempt_rate":0.86,"num_incorrect":37,"total_questions":50,"num_not_attempted":7,"hallucination_rate":0.8409090909090909,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-64,"attempt_rate":0.84,"num_incorrect":37,"total_questions":50,"num_not_attempted":8,"hallucination_rate":0.8222222222222222,"num_partial_answer":0}},"HTML":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-50,"attempt_rate":0.92,"num_incorrect":35,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.875,"num_partial_answer":1}},"Java":{"total":{"accuracy":0.11,"num_correct":11,"omniscience":-70,"attempt_rate":0.92,"num_incorrect":81,"total_questions":100,"num_not_attempted":8,"hallucination_rate":0.9101123595505618,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":0,"attempt_rate":0.94,"num_incorrect":22,"total_questions":50,"num_not_attempted":3,"hallucination_rate":0.7857142857142857,"num_partial_answer":3}},"Julia":{"total":{"accuracy":0.08,"num_correct":2,"omniscience":-72,"attempt_rate":0.88,"num_incorrect":20,"total_questions":25,"num_not_attempted":3,"hallucination_rate":0.8695652173913043,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.24,"num_correct":6,"omniscience":-44,"attempt_rate":0.92,"num_incorrect":17,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.8947368421052632,"num_partial_answer":0}},"total":{"accuracy":0.167,"num_correct":167,"omniscience":-53.1,"attempt_rate":0.879,"num_incorrect":698,"total_questions":1000,"num_not_attempted":121,"hallucination_rate":0.8379351740696278,"num_partial_answer":14},"Kotlin":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-54,"attempt_rate":0.88,"num_incorrect":35,"total_questions":50,"num_not_attempted":6,"hallucination_rate":0.8333333333333334,"num_partial_answer":1}},"Python":{"total":{"accuracy":0.13,"num_correct":26,"omniscience":-53.5,"attempt_rate":0.81,"num_incorrect":133,"total_questions":200,"num_not_attempted":38,"hallucination_rate":0.764367816091954,"num_partial_answer":3}},"JavaScript":{"total":{"accuracy":0.2545454545454545,"num_correct":28,"omniscience":-39.09090909090909,"attempt_rate":0.9181818181818182,"num_incorrect":71,"total_questions":110,"num_not_attempted":9,"hallucination_rate":0.8658536585365854,"num_partial_answer":2}},"TypeScript":{"total":{"accuracy":0.12222222222222222,"num_correct":11,"omniscience":-63.333333333333336,"attempt_rate":0.9,"num_incorrect":68,"total_questions":90,"num_not_attempted":9,"hallucination_rate":0.8607594936708861,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.149,"num_correct":149,"omniscience":-49.7,"attempt_rate":0.814,"num_incorrect":646,"total_questions":1000,"num_not_attempted":186,"hallucination_rate":0.7591069330199764,"num_partial_answer":19}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.172,"num_correct":172,"omniscience":-48.9,"attempt_rate":0.863,"num_incorrect":661,"total_questions":1000,"num_not_attempted":137,"hallucination_rate":0.7983091787439613,"num_partial_answer":30}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":256000,"parameters":24,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-07-10","representative_query_token_counts":null,"scicode":0.243,"short_name":"Devstral Small","show_host_model_evals":false,"size_class":"Small","slug":"devstral-small","tau2":0.284,"terminalbench_hard":0.057,"tokenizer_id":null,"model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"4500fce6-9c0f-405e-afa2-994f0c2e5d6a","slug":"mistral_devstral-small","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"9eae4ec4-61b8-48bc-9843-3edd506ae933","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"devstral-small-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Devstral Small (Jul '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"ab62a229-f9ea-4d48-852e-f9efee58a8c4","slug":"deepinfra_devstral-small","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"9eae4ec4-61b8-48bc-9843-3edd506ae933","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistralai/Devstral-Small-2507","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Devstral Small (Jul '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.07,"price_1m_output_tokens":0.28,"price_1m_blended_3_to_1":0.1225,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":8.16,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/devstral-small","hosts_url":"/models/devstral-small/providers","name_and_creator_label":"Devstral Small, Mistral"},{"additional_text":null,"aime":0.067,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":"e0557e7f-dfa9-4186-964c-96737df7f912","context_window_tokens":256000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"devstral-small","display_order":1366,"estimated_intelligence_index":12.13536984200864,"model_family_slug":"devstral","frontier_model":null,"gdpval":null,"gpqa":0.434,"hle":0.04,"humaneval":0.848,"id":"cc1fa238-1a76-486d-a997-22309275eadd","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":null,"input_modality_text":true,"input_modality_video":null,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":0.258,"math_500":0.684,"math_index":null,"mmlu_pro":0.632,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Devstral-Small-2505","multilingual_aa":null,"name":"Devstral Small (May '25)","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":null,"output_modality_speech":null,"output_modality_text":true,"output_modality_video":null,"output_tokens":null,"parameters":23.6,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-05-21","representative_query_token_counts":null,"scicode":0.245,"short_name":"Devstral Small (May)","show_host_model_evals":false,"size_class":"Small","slug":"devstral-small-2505","tau2":null,"terminalbench_hard":null,"tokenizer_id":null,"model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"32b5cf04-3c65-4398-81d1-d6a192da4a43","slug":"deepinfra_devstral-small-2505","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"cc1fa238-1a76-486d-a997-22309275eadd","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistralai/Devstral-Small-2505","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Devstral Small (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.06,"price_1m_output_tokens":0.12,"price_1m_blended_3_to_1":0.075,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":128000,"price_m_tokens_blended_3_to_1_per_dollar":13.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"e0557e7f-dfa9-4186-964c-96737df7f912","slug":"mistral_devstral-small-2505","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"cc1fa238-1a76-486d-a997-22309275eadd","footnotes":null,"json_mode":null,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"devstral-small-2505","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Devstral Small (May '25)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.1,"price_1m_output_tokens":0.3,"price_1m_blended_3_to_1":0.15,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":6.67,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/devstral-small-2505","hosts_url":"/models/devstral-small-2505/providers","name_and_creator_label":"Devstral Small (May), Mistral"},{"additional_text":null,"aime":null,"aime25":0.343,"agentic_index":20.16,"coding_index":20.01,"commercial_allowed":true,"computed_performance_host_model_id":"1aa81f79-c289-473c-b493-d2ce3e849e86","context_window_tokens":256000,"critpt":0,"deleted":false,"deprecated":false,"deprecated_to":null,"display_order":305,"estimated_intelligence_index":16.707286688382993,"model_family_slug":"devstral","frontier_model":false,"gdpval":884.0426385379646,"gpqa":0.532,"hle":0.034,"humaneval":null,"id":"ce819310-af7c-49d3-9a02-6845111e1788","ifbench":0.312,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":19,"intelligence_index_token_counts":{"input_tokens":167168662,"answer_tokens":8749672,"output_tokens":8749672,"reasoning_tokens":0},"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.24,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.348,"math_500":null,"math_index":34.33,"mmlu_pro":0.678,"mmmu_pro":0.446,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Devstral-Small-2-24B-Instruct-2512","multilingual_aa":{"ar":{"score":0.6641666666666667,"input_tokens":188556,"answer_tokens":44237,"output_tokens":44237,"reasoning_tokens":0,"total_input_tokens_api":184419,"total_answer_tokens_api":46250,"total_reasoning_tokens_api":0},"bn":{"score":0.6325,"input_tokens":225534,"answer_tokens":69623,"output_tokens":69623,"reasoning_tokens":0,"total_input_tokens_api":263853,"total_answer_tokens_api":76116,"total_reasoning_tokens_api":0},"de":{"score":0.7941666666666666,"input_tokens":191646,"answer_tokens":127912,"output_tokens":127912,"reasoning_tokens":0,"total_input_tokens_api":201243,"total_answer_tokens_api":133989,"total_reasoning_tokens_api":0},"en":{"score":0.8291666666666666,"input_tokens":159654,"answer_tokens":88095,"output_tokens":88095,"reasoning_tokens":0,"total_input_tokens_api":167055,"total_answer_tokens_api":91393,"total_reasoning_tokens_api":0},"es":{"score":0.8041666666666667,"input_tokens":182088,"answer_tokens":134758,"output_tokens":134758,"reasoning_tokens":0,"total_input_tokens_api":192090,"total_answer_tokens_api":141498,"total_reasoning_tokens_api":0},"fr":{"score":0.7991666666666667,"input_tokens":191346,"answer_tokens":146597,"output_tokens":146597,"reasoning_tokens":0,"total_input_tokens_api":196695,"total_answer_tokens_api":149583,"total_reasoning_tokens_api":0},"hi":{"score":0.6699999999999999,"input_tokens":209430,"answer_tokens":58213,"output_tokens":58213,"reasoning_tokens":0,"total_input_tokens_api":242139,"total_answer_tokens_api":65541,"total_reasoning_tokens_api":0},"id":{"score":0.7308333333333333,"input_tokens":181314,"answer_tokens":87940,"output_tokens":87940,"reasoning_tokens":0,"total_input_tokens_api":197520,"total_answer_tokens_api":96875,"total_reasoning_tokens_api":0},"it":{"score":0.7933333333333333,"input_tokens":199032,"answer_tokens":236887,"output_tokens":236887,"reasoning_tokens":0,"total_input_tokens_api":202272,"total_answer_tokens_api":243890,"total_reasoning_tokens_api":0},"ja":{"score":0.7291666666666666,"input_tokens":228129,"answer_tokens":119794,"output_tokens":119794,"reasoning_tokens":0,"total_input_tokens_api":227634,"total_answer_tokens_api":125599,"total_reasoning_tokens_api":0},"ko":{"score":0.7158333333333333,"input_tokens":199401,"answer_tokens":92250,"output_tokens":92250,"reasoning_tokens":0,"total_input_tokens_api":191046,"total_answer_tokens_api":92161,"total_reasoning_tokens_api":0},"my":{"score":0.5358333333333333,"input_tokens":353547,"answer_tokens":116184,"output_tokens":116184,"reasoning_tokens":0,"total_input_tokens_api":375978,"total_answer_tokens_api":120895,"total_reasoning_tokens_api":0},"pt":{"score":0.7725,"input_tokens":178176,"answer_tokens":118933,"output_tokens":118933,"reasoning_tokens":0,"total_input_tokens_api":192072,"total_answer_tokens_api":129210,"total_reasoning_tokens_api":0},"sw":{"score":0.5016666666666666,"input_tokens":208677,"answer_tokens":100109,"output_tokens":100109,"reasoning_tokens":0,"total_input_tokens_api":250863,"total_answer_tokens_api":114959,"total_reasoning_tokens_api":0},"yo":{"score":0.3233333333333333,"input_tokens":307062,"answer_tokens":59633,"output_tokens":59633,"reasoning_tokens":0,"total_input_tokens_api":424803,"total_answer_tokens_api":65681,"total_reasoning_tokens_api":0},"zh":{"score":0.7791666666666668,"input_tokens":179793,"answer_tokens":123499,"output_tokens":123499,"reasoning_tokens":0,"total_input_tokens_api":205800,"total_answer_tokens_api":145963,"total_reasoning_tokens_api":0},"average":{"score":0.6921875,"input_tokens":3383385,"answer_tokens":1724664,"output_tokens":1724664,"reasoning_tokens":0,"total_input_tokens_api":3715482,"total_answer_tokens_api":1839603,"total_reasoning_tokens_api":0}},"name":"Devstral Small 2","is_open_weights":true,"omniscience":-58.883,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.091,"num_correct":91,"omniscience":-61.3,"attempt_rate":0.802,"num_incorrect":704,"total_questions":1000,"num_not_attempted":198,"hallucination_rate":0.7744774477447744,"num_partial_answer":7}},"total":{"accuracy":0.14983333333333335,"num_correct":899,"omniscience":-58.88333333333333,"attempt_rate":0.9113333333333333,"num_incorrect":4432,"total_questions":6000,"num_not_attempted":532,"hallucination_rate":0.8688492452460302,"num_partial_answer":137},"Health":{"total":{"accuracy":0.158,"num_correct":158,"omniscience":-62.1,"attempt_rate":0.979,"num_incorrect":779,"total_questions":1000,"num_not_attempted":21,"hallucination_rate":0.9251781472684085,"num_partial_answer":42}},"Business":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":-61.8,"attempt_rate":0.858,"num_incorrect":728,"total_questions":1000,"num_not_attempted":142,"hallucination_rate":0.8179775280898877,"num_partial_answer":20}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.24,"num_correct":24,"omniscience":-48,"attempt_rate":0.98,"num_incorrect":72,"total_questions":100,"num_not_attempted":2,"hallucination_rate":0.9473684210526315,"num_partial_answer":2}},"R":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-72,"attempt_rate":0.92,"num_incorrect":41,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.9111111111111111,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.12,"num_correct":6,"omniscience":-66,"attempt_rate":0.96,"num_incorrect":39,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8863636363636364,"num_partial_answer":3}},"PHP":{"total":{"accuracy":0.22,"num_correct":11,"omniscience":-54,"attempt_rate":0.98,"num_incorrect":38,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9743589743589743,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-76,"attempt_rate":0.98,"num_incorrect":43,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9555555555555556,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.32,"num_correct":16,"omniscience":-30,"attempt_rate":0.98,"num_incorrect":31,"total_questions":50,"num_not_attempted":1,"hallucination_rate":0.9117647058823529,"num_partial_answer":2}},"Java":{"total":{"accuracy":0.13,"num_correct":13,"omniscience":-73,"attempt_rate":0.99,"num_incorrect":86,"total_questions":100,"num_not_attempted":1,"hallucination_rate":0.9885057471264368,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.38,"num_correct":19,"omniscience":-16,"attempt_rate":0.96,"num_incorrect":27,"total_questions":50,"num_not_attempted":2,"hallucination_rate":0.8709677419354839,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-88,"attempt_rate":0.96,"num_incorrect":23,"total_questions":25,"num_not_attempted":1,"hallucination_rate":0.9583333333333334,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.32,"num_correct":8,"omniscience":-32,"attempt_rate":1,"num_incorrect":16,"total_questions":25,"num_not_attempted":0,"hallucination_rate":0.9411764705882353,"num_partial_answer":1}},"total":{"accuracy":0.186,"num_correct":186,"omniscience":-56.7,"attempt_rate":0.961,"num_incorrect":753,"total_questions":1000,"num_not_attempted":39,"hallucination_rate":0.9250614250614251,"num_partial_answer":22},"Kotlin":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-48,"attempt_rate":0.92,"num_incorrect":34,"total_questions":50,"num_not_attempted":4,"hallucination_rate":0.85,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.14,"num_correct":28,"omniscience":-62,"attempt_rate":0.92,"num_incorrect":152,"total_questions":200,"num_not_attempted":16,"hallucination_rate":0.8837209302325582,"num_partial_answer":4}},"JavaScript":{"total":{"accuracy":0.22727272727272727,"num_correct":25,"omniscience":-50.90909090909091,"attempt_rate":0.990909090909091,"num_incorrect":81,"total_questions":110,"num_not_attempted":1,"hallucination_rate":0.9529411764705882,"num_partial_answer":3}},"TypeScript":{"total":{"accuracy":0.16666666666666666,"num_correct":15,"omniscience":-61.111111111111114,"attempt_rate":0.9666666666666667,"num_incorrect":70,"total_questions":90,"num_not_attempted":3,"hallucination_rate":0.9333333333333333,"num_partial_answer":2}}},"Humanities & Social Sciences":{"total":{"accuracy":0.167,"num_correct":167,"omniscience":-58.9,"attempt_rate":0.937,"num_incorrect":756,"total_questions":1000,"num_not_attempted":63,"hallucination_rate":0.907563025210084,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.187,"num_correct":187,"omniscience":-52.5,"attempt_rate":0.931,"num_incorrect":712,"total_questions":1000,"num_not_attempted":69,"hallucination_rate":0.8757687576875769,"num_partial_answer":32}}},"output_modality_image":false,"output_modality_speech":false,"output_modality_text":true,"output_modality_video":false,"output_tokens":null,"parameters":24,"reasoning_model":false,"reasoning_properties":null,"release_date":"2025-12-09","representative_query_token_counts":null,"scicode":0.288,"short_name":"Devstral Small 2","show_host_model_evals":false,"size_class":"Small","slug":"devstral-small-2","tau2":0.234,"terminalbench_hard":0.156,"tokenizer_id":"devstral_tokenizer","model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"1aa81f79-c289-473c-b493-d2ce3e849e86","slug":"mistral_devstral-small-2","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"ce819310-af7c-49d3-9a02-6845111e1788","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"labs-devstral-small-2512","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Devstral Small 2","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0,"price_1m_output_tokens":0,"price_1m_blended_3_to_1":0,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":256000,"price_m_tokens_blended_3_to_1_per_dollar":null,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/devstral-small-2","hosts_url":"/models/devstral-small-2/providers","name_and_creator_label":"Devstral Small 2, Mistral"},{"additional_text":"Note: If hosted by the provider, we track the latest version of Mistral 7B Instruct i.e. v0.3.","aime":0,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":true,"computed_performance_host_model_id":"c41a9038-2acb-4a93-b477-ae2404e0145f","context_window_tokens":8192,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"ministral-8b-2410","display_order":1343,"estimated_intelligence_index":7.413887665229345,"model_family_slug":"mistral","frontier_model":null,"gdpval":null,"gpqa":0.177,"hle":0.043,"humaneval":0.402,"id":"217b34ec-5920-4fc1-8886-6a70a324837d","ifbench":0.199,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":null,"input_modality_text":null,"input_modality_video":null,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":0.384,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":"Apache 2.0","license_url":"https://www.apache.org/licenses/LICENSE-2.0","livecodebench":0.046,"math_500":0.121,"math_index":null,"mmlu_pro":0.245,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1","multilingual_aa":null,"name":"Mistral 7B Instruct","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":null,"output_modality_speech":null,"output_modality_text":null,"output_modality_video":null,"output_tokens":null,"parameters":7,"reasoning_model":false,"reasoning_properties":null,"release_date":"2023-09-27","representative_query_token_counts":null,"scicode":0.024,"short_name":"Mistral 7B","show_host_model_evals":false,"size_class":"Small","slug":"mistral-7b-instruct","tau2":null,"terminalbench_hard":null,"tokenizer_id":"mistral_tokenizer","model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"76d6d39e-917f-46f7-bb0c-22a5e99f988c","slug":"amazon-bedrock_mistral-7b-instruct","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"217b34ec-5920-4fc1-8886-6a70a324837d","footnotes":"v0.2","json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistral.mistral-7b-instruct-v0:2","function_calling":false,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Mistral 7B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.15,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.1625,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":6.15,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"f3f518c7-9d26-4a25-839d-94f8ffd01542","slug":"togetherai_mistral-7b-instruct","deleted":false,"host_id":"e0bfeec9-405f-4e75-b120-a52bdd70c812","gpqa_16x":null,"model_id":"217b34ec-5920-4fc1-8886-6a70a324837d","footnotes":"v0.1","json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistralai/Mistral-7B-Instruct-v0.3","function_calling":false,"cache_write_price":null,"host_model_string":"Together.ai_Mistral 7B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.2,"price_1m_output_tokens":0.2,"price_1m_blended_3_to_1":0.2,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":5,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"6b9d0328-9211-4851-98ae-1888b103e2fa","slug":"deepinfra_mistral-7b-instruct","deleted":false,"host_id":"a1575ad8-55b5-4652-8e4a-22099e72f1f9","gpqa_16x":null,"model_id":"217b34ec-5920-4fc1-8886-6a70a324837d","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistralai/Mistral-7B-Instruct-v0.3","function_calling":true,"cache_write_price":null,"host_model_string":"Deepinfra_Mistral 7B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.028,"price_1m_output_tokens":0.054,"price_1m_blended_3_to_1":0.0345,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":28.99,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"c41a9038-2acb-4a93-b477-ae2404e0145f","slug":"mistral_mistral-7b-instruct","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"217b34ec-5920-4fc1-8886-6a70a324837d","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"open-mistral-7b","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Mistral 7B Instruct","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":0.25,"price_1m_output_tokens":0.25,"price_1m_blended_3_to_1":0.25,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":32768,"price_m_tokens_blended_3_to_1_per_dollar":4,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mistral-7b-instruct","hosts_url":"/models/mistral-7b-instruct/providers","name_and_creator_label":"Mistral 7B, Mistral"},{"additional_text":null,"aime":0,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":"dd58d0fb-e384-42cf-86d2-d55cba9c3d07","context_window_tokens":32768,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"mistral-large-2407","display_order":1306,"estimated_intelligence_index":9.90917085347575,"model_family_slug":"mistral","frontier_model":null,"gdpval":null,"gpqa":0.351,"hle":0.034,"humaneval":0.706,"id":"5e4e4590-a77e-4b66-95f8-f3960a1a7c68","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":null,"input_modality_text":null,"input_modality_video":null,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":0.677,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":0.178,"math_500":0.527,"math_index":null,"mmlu_pro":0.515,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":null,"multilingual_aa":null,"name":"Mistral Large (Feb '24)","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":null,"output_modality_speech":null,"output_modality_text":null,"output_modality_video":null,"output_tokens":null,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2024-02-26","representative_query_token_counts":{"n_queries":180,"updated_at":"2025-03-13T04:54:09.780372","input_tokens":934,"answer_tokens":506,"output_tokens":506,"reasoning_tokens":0},"scicode":0.208,"short_name":"Mistral Large (Feb)","show_host_model_evals":false,"size_class":"Large","slug":"mistral-large","tau2":null,"terminalbench_hard":null,"tokenizer_id":"mistral_tokenizer","model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"1c361c44-81b8-4cbf-951b-7b4b768ccc58","slug":"amazon-bedrock_mistral-large","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"5e4e4590-a77e-4b66-95f8-f3960a1a7c68","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistral.mistral-large-2402-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Mistral Large (Feb '24)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":4,"price_1m_output_tokens":12,"price_1m_blended_3_to_1":6,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.17,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mistral-large","hosts_url":"/models/mistral-large/providers","name_and_creator_label":"Mistral Large (Feb), Mistral"},{"additional_text":null,"aime":0.093,"aime25":0,"agentic_index":null,"coding_index":null,"commercial_allowed":false,"computed_performance_host_model_id":"569c54d4-7422-40c1-8090-fd3b5b92c2fd","context_window_tokens":128000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"mistral-large-2","display_order":1286,"estimated_intelligence_index":13.033082438627458,"model_family_slug":"mistral","frontier_model":null,"gdpval":null,"gpqa":0.472,"hle":0.032,"humaneval":0.888,"id":"1b05e346-e86a-4a20-8feb-7da8c65a99aa","ifbench":0.316,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":null,"input_modality_text":null,"input_modality_video":null,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":0.92,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.017,"license_name":"Mistral Research License","license_url":"https://mistral.ai/licenses/MRL-0.1.md","livecodebench":0.267,"math_500":0.714,"math_index":0,"mmlu_pro":0.683,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407","multilingual_aa":null,"name":"Mistral Large 2 (Jul '24)","is_open_weights":true,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":null,"output_modality_speech":null,"output_modality_text":null,"output_modality_video":null,"output_tokens":null,"parameters":123,"reasoning_model":false,"reasoning_properties":null,"release_date":"2024-07-24","representative_query_token_counts":null,"scicode":0.271,"short_name":"Mistral Large 2 (Jul)","show_host_model_evals":false,"size_class":"Medium","slug":"mistral-large-2407","tau2":0.33,"terminalbench_hard":null,"tokenizer_id":"mistral_tokenizer_v3","model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"7c86efd3-f393-490b-aeb5-4709e7df839f","slug":"amazon-bedrock_mistral-large-2407","deleted":false,"host_id":"3be95d43-d19e-42e3-8bf9-4cda40ecd7bf","gpqa_16x":null,"model_id":"1b05e346-e86a-4a20-8feb-7da8c65a99aa","footnotes":null,"json_mode":false,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistral.mistral-large-2407-v1:0","function_calling":true,"cache_write_price":null,"host_model_string":"Amazon Bedrock_Mistral Large 2 (Jul '24)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mistral-large-2407","hosts_url":"/models/mistral-large-2407/providers","name_and_creator_label":"Mistral Large 2 (Jul), Mistral"},{"additional_text":null,"aime":0.11,"aime25":0.14,"agentic_index":null,"coding_index":13.5,"commercial_allowed":false,"computed_performance_host_model_id":"732f5e29-af9e-4199-9278-efbee0a0815b","context_window_tokens":128000,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"mistral-large-3","display_order":1282,"estimated_intelligence_index":14.676681663368385,"model_family_slug":"mistral","frontier_model":null,"gdpval":null,"gpqa":0.486,"hle":0.04,"humaneval":0.898,"id":"50f92d5f-f413-4c97-8dab-331101622a28","ifbench":0.312,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":null,"input_modality_text":null,"input_modality_video":null,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":0.053,"license_name":"Mistral Research License","license_url":"https://mistral.ai/licenses/MRL-0.1.md","livecodebench":0.293,"math_500":0.736,"math_index":14,"mmlu_pro":0.697,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":"https://huggingface.co/mistralai/Mistral-Large-Instruct-2411","multilingual_aa":{"mgsm":{"bn":0.86,"de":0.92,"en":0.972,"es":0.9,"fr":0.852,"ja":0.888,"sw":0.76,"zh":0.912},"mmlu":{"bn":0.7172055262783079,"de":0.8062953995157385,"en":0.8494516450648056,"es":0.8237430565446517,"fr":0.8149124056402222,"ja":0.7832217632815838,"sw":0.6000569719413189,"zh":0.7940464321321749},"average":0.8283083250249252,"average_mgsm":0.883,"average_mmlu":0.7736166500498505,"global_mmlu_lite":{"bn":null,"de":null,"en":null,"es":null,"fr":null,"ja":null,"sw":null,"zh":null},"average_per_language":{"bn":0.7886027631391539,"de":0.8631476997578693,"en":0.9107258225324029,"es":0.8618715282723259,"fr":0.8334562028201111,"ja":0.8356108816407919,"sw":0.6800284859706595,"zh":0.8530232160660874},"average_global_mmlu_lite":null},"name":"Mistral Large 2 (Nov '24)","is_open_weights":true,"omniscience":null,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.11,"num_correct":110,"omniscience":-39.6,"attempt_rate":0.627,"num_incorrect":506,"total_questions":1000,"num_not_attempted":373,"hallucination_rate":0.5685393258426966,"num_partial_answer":11}},"total":{"accuracy":0.17716666666666667,"num_correct":1063,"omniscience":-31.716666666666665,"attempt_rate":0.693,"num_incorrect":2966,"total_questions":6000,"num_not_attempted":1842,"hallucination_rate":0.6007696981972858,"num_partial_answer":129},"Health":{"total":{"accuracy":0.204,"num_correct":204,"omniscience":-30.2,"attempt_rate":0.757,"num_incorrect":506,"total_questions":1000,"num_not_attempted":243,"hallucination_rate":0.635678391959799,"num_partial_answer":47}},"Business":{"total":{"accuracy":0.134,"num_correct":134,"omniscience":-31.7,"attempt_rate":0.603,"num_incorrect":451,"total_questions":1000,"num_not_attempted":397,"hallucination_rate":0.5207852193995381,"num_partial_answer":18}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.35,"num_correct":35,"omniscience":-12,"attempt_rate":0.83,"num_incorrect":47,"total_questions":100,"num_not_attempted":17,"hallucination_rate":0.7230769230769231,"num_partial_answer":1}},"R":{"total":{"accuracy":0.06,"num_correct":3,"omniscience":-44,"attempt_rate":0.56,"num_incorrect":25,"total_questions":50,"num_not_attempted":22,"hallucination_rate":0.5319148936170213,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-46,"attempt_rate":0.66,"num_incorrect":28,"total_questions":50,"num_not_attempted":17,"hallucination_rate":0.6222222222222222,"num_partial_answer":0}},"PHP":{"total":{"accuracy":0.2,"num_correct":10,"omniscience":-28,"attempt_rate":0.7,"num_incorrect":24,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.6,"num_partial_answer":1}},"Dart":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-46,"attempt_rate":0.76,"num_incorrect":30,"total_questions":50,"num_not_attempted":12,"hallucination_rate":0.6976744186046512,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.14,"num_correct":7,"omniscience":-34,"attempt_rate":0.62,"num_incorrect":24,"total_questions":50,"num_not_attempted":19,"hallucination_rate":0.5581395348837209,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.18,"num_correct":18,"omniscience":-35,"attempt_rate":0.71,"num_incorrect":53,"total_questions":100,"num_not_attempted":29,"hallucination_rate":0.6463414634146342,"num_partial_answer":0}},"Rust":{"total":{"accuracy":0.44,"num_correct":22,"omniscience":12,"attempt_rate":0.8,"num_incorrect":16,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.5714285714285714,"num_partial_answer":2}},"Julia":{"total":{"accuracy":0.04,"num_correct":1,"omniscience":-56,"attempt_rate":0.64,"num_incorrect":15,"total_questions":25,"num_not_attempted":9,"hallucination_rate":0.625,"num_partial_answer":0}},"Swift":{"total":{"accuracy":0.36,"num_correct":9,"omniscience":-20,"attempt_rate":0.92,"num_incorrect":14,"total_questions":25,"num_not_attempted":2,"hallucination_rate":0.875,"num_partial_answer":0}},"total":{"accuracy":0.195,"num_correct":195,"omniscience":-30,"attempt_rate":0.704,"num_incorrect":495,"total_questions":1000,"num_not_attempted":296,"hallucination_rate":0.6149068322981367,"num_partial_answer":14},"Kotlin":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-46,"attempt_rate":0.7,"num_incorrect":28,"total_questions":50,"num_not_attempted":15,"hallucination_rate":0.6222222222222222,"num_partial_answer":2}},"Python":{"total":{"accuracy":0.14,"num_correct":28,"omniscience":-34,"attempt_rate":0.63,"num_incorrect":96,"total_questions":200,"num_not_attempted":74,"hallucination_rate":0.5581395348837209,"num_partial_answer":2}},"JavaScript":{"total":{"accuracy":0.2636363636363636,"num_correct":29,"omniscience":-17.272727272727273,"attempt_rate":0.7363636363636363,"num_incorrect":48,"total_questions":110,"num_not_attempted":29,"hallucination_rate":0.5925925925925926,"num_partial_answer":4}},"TypeScript":{"total":{"accuracy":0.17777777777777778,"num_correct":16,"omniscience":-34.44444444444444,"attempt_rate":0.7111111111111111,"num_incorrect":47,"total_questions":90,"num_not_attempted":26,"hallucination_rate":0.6351351351351351,"num_partial_answer":1}}},"Humanities & Social Sciences":{"total":{"accuracy":0.204,"num_correct":204,"omniscience":-30,"attempt_rate":0.722,"num_incorrect":504,"total_questions":1000,"num_not_attempted":278,"hallucination_rate":0.6331658291457286,"num_partial_answer":14}},"Science, Engineering & Mathematics":{"total":{"accuracy":0.216,"num_correct":216,"omniscience":-28.8,"attempt_rate":0.745,"num_incorrect":504,"total_questions":1000,"num_not_attempted":255,"hallucination_rate":0.6428571428571429,"num_partial_answer":25}}},"output_modality_image":null,"output_modality_speech":null,"output_modality_text":null,"output_modality_video":null,"output_tokens":null,"parameters":123,"reasoning_model":false,"reasoning_properties":null,"release_date":"2024-11-18","representative_query_token_counts":null,"scicode":0.292,"short_name":"Mistral Large 2 (Nov)","show_host_model_evals":false,"size_class":"Medium","slug":"mistral-large-2","tau2":0.307,"terminalbench_hard":0.057,"tokenizer_id":"mistral_tokenizer_v3","model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"732f5e29-af9e-4199-9278-efbee0a0815b","slug":"mistral_mistral-large-2","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"50f92d5f-f413-4c97-8dab-331101622a28","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistral-large-2411","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Mistral Large 2 (Nov '24)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.33,"cache_storage_price_per_hour_per_1m_tokens":null},{"id":"0d21821a-d3a4-45fd-89f7-f4f1e061eaf7","slug":"azure_mistral-large-2","deleted":false,"host_id":"8b134dae-c63d-432e-bd07-d9596c3c5b9b","gpqa_16x":null,"model_id":"50f92d5f-f413-4c97-8dab-331101622a28","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"Mistral-Large-2411","function_calling":true,"cache_write_price":null,"host_model_string":"Microsoft Azure_Mistral Large 2 (Nov '24)","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2,"price_1m_output_tokens":6,"price_1m_blended_3_to_1":3,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":null,"price_m_tokens_blended_3_to_1_per_dollar":0.33,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mistral-large-2","hosts_url":"/models/mistral-large-2/providers","name_and_creator_label":"Mistral Large 2 (Nov), Mistral"},{"additional_text":null,"aime":0.037,"aime25":null,"agentic_index":null,"coding_index":null,"commercial_allowed":null,"computed_performance_host_model_id":"59b4a50b-d535-49c7-94c5-e75395c7ce96","context_window_tokens":32768,"critpt":null,"deleted":false,"deprecated":true,"deprecated_to":"mistral-medium-3","display_order":1365,"estimated_intelligence_index":9.010996334814534,"model_family_slug":"mistral","frontier_model":null,"gdpval":null,"gpqa":0.349,"hle":0.034,"humaneval":null,"id":"1f05af98-1ec6-4506-a0b8-57a8c9b63878","ifbench":null,"inference_parameters_active_billions":null,"input_modality_image":false,"input_modality_speech":null,"input_modality_text":null,"input_modality_video":null,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":null,"lab_claimed_hle":null,"lab_claimed_humaneval":null,"lab_claimed_livecodebench":null,"lab_claimed_math_500":null,"lab_claimed_mmlu_pro":null,"lab_claimed_scicode":null,"lcr":null,"license_name":null,"license_url":null,"livecodebench":0.099,"math_500":0.405,"math_index":null,"mmlu_pro":0.491,"mmmu_pro":null,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":null,"multilingual_aa":null,"name":"Mistral Medium","is_open_weights":false,"omniscience":null,"omniscience_breakdown":null,"output_modality_image":null,"output_modality_speech":null,"output_modality_text":null,"output_modality_video":null,"output_tokens":null,"parameters":null,"reasoning_model":false,"reasoning_properties":null,"release_date":"2023-12-11","representative_query_token_counts":null,"scicode":0.118,"short_name":"Mistral Medium","show_host_model_evals":false,"size_class":"Large","slug":"mistral-medium","tau2":null,"terminalbench_hard":null,"tokenizer_id":"mistral_tokenizer","model_creators":{"id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","logo":"mistral.png","name":"Mistral","slug":"mistral","color":"#fd6f00","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","created_at":"2023-12-06T11:54:01.450764+00:00","logo_small":"mistral_small.png","creator_url":"https://mistral.ai/","display_order":5,"logo_url":"/img/logos/mistral.png","logo_small_url":"/img/logos/mistral_small.png"},"host_models":[{"id":"59b4a50b-d535-49c7-94c5-e75395c7ce96","slug":"mistral_mistral-medium","deleted":false,"host_id":"1d77b28d-f9bc-4cdc-a139-8eff72f40fc2","gpqa_16x":null,"model_id":"1f05af98-1ec6-4506-a0b8-57a8c9b63878","footnotes":null,"json_mode":true,"aime25_32x":null,"ifbench_8x":null,"host_api_id":"mistral-medium-latest","function_calling":true,"cache_write_price":null,"host_model_string":"Mistral_Mistral Medium","cache_pricing_notes":null,"model_name_appendage":null,"price_1m_input_tokens":2.75,"price_1m_output_tokens":8.1,"price_1m_blended_3_to_1":4.0875,"price_per_1k_1mp_images":null,"image_input_pricing_notes":null,"supports_images_input_note":null,"override_supports_images_input":null,"context_window_if_different_to_model":131072,"price_m_tokens_blended_3_to_1_per_dollar":0.24,"cache_storage_price_per_hour_per_1m_tokens":null}],"model_url":"/models/mistral-medium","hosts_url":"/models/mistral-medium/providers","name_and_creator_label":"Mistral Medium, Mistral"},{"additional_text":null,"aime":0.44,"aime25":0.303,"agentic_index":null,"coding_index":13.4,"commercial_allowed":null,"computed_performance_host_model_id":"5fabb4d9-8750-4e52-993a-6f1d7695c6a3","context_window_tokens":128000,"critpt":0,"deleted":false,"deprecated":true,"deprecated_to":"mistral-medium-3-1","display_order":1368,"estimated_intelligence_index":17.611990577780258,"model_family_slug":"mistral","frontier_model":null,"gdpval":null,"gpqa":0.578,"hle":0.043,"humaneval":0.898,"id":"59e22326-1bca-4432-a5fa-147fbe8854e7","ifbench":0.393,"inference_parameters_active_billions":null,"input_modality_image":true,"input_modality_speech":false,"input_modality_text":true,"input_modality_video":false,"intelligence_index":null,"intelligence_index_token_counts":null,"knowledge_cutoff_date":null,"lab_claimed_aime":null,"lab_claimed_gpqa":0.571,"lab_claimed_hle":null,"lab_claimed_humaneval":0.921,"lab_claimed_livecodebench":null,"lab_claimed_math_500":0.91,"lab_claimed_mmlu_pro":0.772,"lab_claimed_scicode":null,"lcr":0.28,"license_name":null,"license_url":null,"livecodebench":0.4,"math_500":0.907,"math_index":30.33,"mmlu_pro":0.76,"mmmu_pro":0.53,"model_creator_id":"b5c0639a-cc9c-443b-a07e-bae6b7088933","model_weights_source_url":null,"multilingual_aa":null,"name":"Mistral Medium 3","is_open_weights":false,"omniscience":-32.617,"omniscience_breakdown":{"Law":{"total":{"accuracy":0.103,"num_correct":103,"omniscience":-35,"attempt_rate":0.566,"num_incorrect":453,"total_questions":1000,"num_not_attempted":434,"hallucination_rate":0.5050167224080268,"num_partial_answer":10}},"total":{"accuracy":0.173,"num_correct":1038,"omniscience":-32.61666666666667,"attempt_rate":0.6978333333333333,"num_incorrect":2995,"total_questions":6000,"num_not_attempted":1813,"hallucination_rate":0.6035872632003224,"num_partial_answer":154},"Health":{"total":{"accuracy":0.166,"num_correct":166,"omniscience":-40,"attempt_rate":0.786,"num_incorrect":566,"total_questions":1000,"num_not_attempted":214,"hallucination_rate":0.6786570743405276,"num_partial_answer":54}},"Business":{"total":{"accuracy":0.143,"num_correct":143,"omniscience":-27.4,"attempt_rate":0.575,"num_incorrect":417,"total_questions":1000,"num_not_attempted":425,"hallucination_rate":0.4865810968494749,"num_partial_answer":15}},"Software Engineering (SWE)":{"C":{"total":{"accuracy":0.35,"num_correct":35,"omniscience":-17,"attempt_rate":0.9,"num_incorrect":52,"total_questions":100,"num_not_attempted":10,"hallucination_rate":0.8,"num_partial_answer":3}},"R":{"total":{"accuracy":0.08,"num_correct":4,"omniscience":-32,"attempt_rate":0.48,"num_incorrect":20,"total_questions":50,"num_not_attempted":26,"hallucination_rate":0.43478260869565216,"num_partial_answer":0}},"Go":{"total":{"accuracy":0.1,"num_correct":5,"omniscience":-44,"attempt_rate":0.68,"num_incorrect":27,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.6,"num_partial_answer":2}},"PHP":{"total":{"accuracy":0.16,"num_correct":8,"omniscience":-36,"attempt_rate":0.68,"num_incorrect":26,"total_questions":50,"num_not_attempted":16,"hallucination_rate":0.6190476190476191,"num_partial_answer":0}},"Dart":{"total":{"accuracy":0.18,"num_correct":9,"omniscience":-36,"attempt_rate":0.74,"num_incorrect":27,"total_questions":50,"num_not_attempted":13,"hallucination_rate":0.6585365853658537,"num_partial_answer":1}},"HTML":{"total":{"accuracy":0.28,"num_correct":14,"omniscience":-24,"attempt_rate":0.8,"num_incorrect":26,"total_questions":50,"num_not_attempted":10,"hallucination_rate":0.7222222222222222,"num_partial_answer":0}},"Java":{"total":{"accuracy":0.16,"num_correct":16,"omniscience":-36,"attempt_rate":0.72,"num_incorrect":52,"total_questions":100,"num_not_attempted":28,"hallucination_rate":0.6190476190476191,"num_partial_answer":4}},"Rust":{"total":{"accuracy":0