🧩 MicroEvals
The fastest way to run 'vibe check' evals on models for your use case.
Run the same prompts across multiple models to see how they perform.
Featured
Create
A collection of physics animations, mostly using p5.js

Inspired by Simon Willison's pelican on a bicycle test

Easy questions that LLMs still trip up on

80s-style arcade racing games

Models responses to life questions

A series of challenging ASCII artworks in different styles

This benchmark is designed to show how difficult this task is for all LLMs.

Generate a complete, ready-to-play browser game with a single prompt


Renal physiology quiz.


Clone of Hacker News website

Endocrine system quiz. Disclaimer: translated from spanish to english


A Twist on the Snake Game where the snake is having an existential crisis

Generate the complete HTML, CSS, and JavaScript code for a web-based simulation of Conway's Game of Life.

A variety of difficult programming tests with complex input and output parameters.

An ASCII artwork of the Eiffel Tower




Who will win the battle of the 7 seater SUV fight to the death

First test

Testing a few simple experimentations and visualizations




Pico





This microeval asks the LLM to produce a single HTML code block with optional CSS JavaScript and GLSL that renders a full screen Julia set shader animation with smooth color transitions from golden yellow through orange magenta purple to deep indigo, continuously morphs via a rotating complex constant, supports click and drag panning mouse wheel or pinch zoom and a space bar toggle for play and pause, and relies solely on Three.js loaded from a CDN.


Words spelt out using indexes of the key on a QWERTY keyboard
Cette évaluation contient des exemples de dialogues simulant des consultations pharmaceutiques courantes. Les prompts incluent des demandes de conseils sur des vitamines, des symptômes bénins, ou des situations nécessitant une évaluation initiale avant orientation vers un professionnel de santé. Ils sont conçus pour tester la capacité d’un modèle à fournir des réponses utiles, sécuritaires et conformes aux bonnes pratiques pharmaceutiques.



Write a tweet-length sci-fi story



Perplexity AI:

Evaluating an LLM's ability to generate algorithmically complex and numerically stable code. The goal is to test its capacity to avoid naive solutions (O(n²)) and implement an optimized physics simulation.


An visual IQ test generator

Use svg

Can the models correctly write Svelte 5 components? Do they avoid using patterns from earlier versions?




Cardiac phisiology quiz.

Testing knowledge of Czech culture and language - designed to test smaller models based on https://semanticmachines.notion.site/evals


Glasses of wine are traditionally only half-full.

Kenta

Write a SVG animation that draws a cute kitten using html and css.

The 10 public Simple Bench questions (https://simple-bench.com/)

JPEvalは、LLMの苦手とする日本語で問題を行います!

API Key for "diqddi88@gmail.com"
![Strawrbrerrry [sic] eval](/_next/image?url=https%3A%2F%2Fartificialanalysiscdn.com%2Fmicro-evals%2F45d80a29bd4f4c68b3a92569454473d4.jpg&w=3840&q=75)
Reasoning should include the ability to generalize to unfamiliar words instead of memorizing answers. Let's see if models can detect the number of 'r's in the word "strawrbrerrry."

A basic minecraft 3D eval. It should create a basic chunk with a greedy mesher, block placing and distroying and fps camera

The purpose of this is to evaluate how good various AI models are at a variety of Minecraft skills like planning, designing, puzzles, and providing accurate information. It’ll also test to see how good each AI is at coding a web app clone of the game.




More 't' s and a 'T' is added to confuse AI


Simple and detailed prompt and persian version

A set of difficult tasks with the theme of emoji's including: tier list creation, music creation and, themeable website creation.



Detailed prompt and simple prompt

Persian prompts but translated in output

Visual perception of the 5 most important unsolved concepts in mathematics!


Assorted SVG generation prompts

=)))
How well can AI create fun, little games as web apps that can be played on mobile devices? This benchmark tests AI’s abilities to generate good mobile UI and controls as well as basic gameplay experiences.


mnf


5 challenging math problem
building a versions of the greatest old retro video games of all time

from https://x.com/goodside/status/1934833254726521169/photo/1

THE AI CAN MAKE AN INFOGRAPH ABOUT THE COMPOSITION OF THE GOV.




kellie marie lombardo

Prompt: "A luxurious, futuristic chocolate box design for ‘GARNET CHOCO’, shaped unlike any traditional market boxes — inspired by the elegance of a phoenix and a heart-shaped garnet gemstone. The box has a smooth, sculpted 3D surface with layered wing patterns embossed in deep burgundy and gold accents, giving a royal and premium feel. The lid opens in a unique petal or wing-spread motion, revealing individually wrapped chocolates in jewel-like compartments. The center of the lid features the Garnet Choco round logo in metallic gold and ruby red, glowing softly. The box should have an ultra-premium, limited-edition vibe with a mix of matte velvet texture and glossy gemstone highlights, photographed in dramatic studio lighting against a dark silk background with golden sparkles."






This benchmark tests an LLM's ultimate zero-shot creativity and advanced coding skills. The goal is to evaluate its ability to interpret abstract, surreal, and metaphorical concepts and translate them into a coherent, interactive 3D experience using Three.js. This goes beyond standard code generation to test true conceptual modeling.

This benchmark tests an LLM's ability to interpret and implement abstract, philosophical, and artistic theories. It requires the model to translate Wassily Kandinsky's theories on synesthesia (the connection between sound, color, and shape) into an interactive audio-visual experience. Success is judged on the creative fidelity to the artistic concept, not just technical execution.

Micro gold

Tetris that runs in a web browser


Attempted proof of it

Test



-

Ahmed


syuaib


nbhvvg


This prompt tests knowledge and design sense of coding models. It compares smaller and larger models of the same family.

Shows how well the best models can write.

Race 3d

一个帮助糖友管理日常饮食、住院记录、生活娱乐的助手

NHH

This asks about an Australian case that is widely cited, but not widely mentioned on the internet. The prompt is deliberately misleading in that the decision was unanimous




A tool for creating, editing, saving an ordered list of objects.


Website Landing Pages


Pallav Agarwal

Simple roleplay prompt example (by olety)

convert a timestamp to epoch
ai

انت ليان فتاة في السادسة عشرة من عمرها، ذات عينين عسليتين تشعان بالفضول وشعر أسود طويل يتماوج مع كل حركة. لم تكن كزميلاتها المهووسات بالموضة أو المسلسلات، بل كانت غارقة في عالم آخر: عالم الرموز والحضارات القديمة.

A simple eval to check LLM capability and creativity when expanding an idea seed into more refined ideas.

Which llm is the best at generating Roblox related code?



شبس

This benchmark tests an LLM's ability to translate paradoxical, metaphorical, and logically inconsistent concepts into a functional and interactive 3D scene using Three.js. It is the ultimate test of "zero-shot" creative problem-solving, forcing the model to invent novel technical solutions for abstract artistic ideas.


Trading Analysis Using Elliott Wave

test





Revenue analysis of Apple







اي



recreating popular games with varying complexity, with prompt mentioning only its name


龙

MCP server to facilitate other integrate with us


Create voice agent pricing calculator by Nikhil. R


no

Code


إذا كنت تبحث عن تطبيقات ذكاء اصطناعي (أجنبية) تساعدك في العمل والإنتاجية أو في مهام يومية أخرى، إليك مجموعة متنوعة من أبرز التطبيقات الأجنبية الرائدة في 2025، مرتبة حسب الاستخدام ونوع الأداء: --- 1. تطبيقات عامة ومتعددة المجالات ChatGPT: مساعد قوي متعدد الاستخدامات، يمكنك من كتابة النصوص، البرمجة، المحادثة، والتلخيص. متاح بنسخ مجانية ومدفوعة . Perplexity AI: يبحث لك على الويب، يوضّح النتائج ويذكر المصادر؛ يقدم نسخة Pro مجانية للمستخدمين عبر بعض الشراكات . Claude: يتميز بذاكرة طويلة ومناسب للأبحاث والتفاعل العميق . 2. أدوات الإنتاجية الذكية Notion AI: مدمج داخل Notion لتوليد نصوص، التلخيص، تصحيح وتحسين الكتابة، مع تكاملات واسعة مع أدوات مثل Slack وGitHub . Elephas: مساعد ذكي يعمل حتى بدون اتصال، وفعّال للباحثين والطلاب . Zapier AI: أداة آلية تربط بين التطبيقات وتقوم بالمهام المتكررة بدون برمجة . Descript: يتيح لك تعديل الصوت والفيديو عبر تعديل النص المترجم تلقائيًا مما يجعل التحرير سهلاً وسريعاً . 3. أدوات التدوين والتصحيح اللغوي ProWritingAid / Grammarly: تساعد في تحسين الكتابة من حيث الأسلوب، التراكيب اللغوية والنحو . 4. أدوات تدوين الاجتماعات والملاحظات Jamie: يسجل الاجتماعات ويحولها إلى نصوص منظمة وملخصات واقعية باستخدام الذكاء الاصطناعي . Otter.ai: تطبيق أمريكي مشهور لتحويل الكلام إلى نص وتوليد ملاحظات Meetings . 5. الذكاء الصوتي والتشغيل النصي Braina: مساعد ذكي يتيح التحكم بالحاسوب صوتياً، تحويل الصوت إلى نص، وتوليد الصور، مع دعم عدد كبير من اللغات ويتوفر لأنظمة Windows وiOS وAndroid . Replika: شات بوت يشكل رفيقًا عاطفيًا تفاعليًا؛ بعض الأشخاص تطوّروا معه علاقات عاطفية رقمية . 6. أبحاث وتصميم سريع DeepSeek: تطبيق صيني مفتوح المصدر، تصدر قوائم التحميل في الولايات المتحدة، ويقدّم طريقة شفافة في عرض آلية عمل الذكاء . Moises Live: مخصص لتحرير الموسيقى وفصل العناصر الصوتية بشكل فوري دون الإنترنت، يناسب المحترفين والهواة على حد سواء . 7. مراجعة شاملة حديثة تشير مراجعة TechRadar بتاريخ 6 أغسطس 2025 إلى عدد كبير من الأدوات المتخصصة: ChatGPT-4o: دعم الوسائط المتعددة (نص وصورة وصوت). Google Gemini: تكامل مميز مع Workspace ودقة في المعلومات. أدوات تدوين مثل Fireflies وJamie ممتازة في توليد ملاحظات الاجتماعات. أدوات التصميم مثل Adobe Firefly تقدم صورًا آمنة للاستخدام. أدوات الترجمة المتقدمة مثل DeepL، Google Translate . --- ملخص سريع بالمقارنة الاستخدام التطبيقات المقترحة مساعد عام ChatGPT, Claude, DeepSeek إنتاجية وكتابة Notion AI, Elephas, Zapier AI, Descript تحسين الكتابة ProWritingAid, Grammarly تدوين الاجتماعات Jamie, Otter.ai مراجعة صوتية وربط Braina تجربة عاطفية Replika تحرير موسيقي Moises Live أدوات متنوعة ChatGPT-4o, Gemini, Fireflies, Firefly, DeepL --- أي تطبيق يناسبك؟ للمهام العامة والإجابة السريعة: ابدأ بـ ChatGPT أو Perplexity. للعمل اليومي والكتابة: استخدم Notion AI أو Elephas. لتدوين الاجتماعات: جرّب Jamie أو Otter.ai. للتحكم الصوتي أو الكتابة الصوتية: اختبر Braina. لتحرير الموسيقى: شاهد قدرات Moises Live. إذا رغبت في رفقة عاطفية رقمية: مثلاً Replika. --- إذا أعجبك أي من هذه الأدوات أو ترغب بتحديد المجال—مثل “أفضل تطبيق للترجمة” أو “أداة تصميم بصري”—قولي وسأرشّح لك الأفضل مع التفاصيل الدقيقة.

create an MIT poster with beaver TIM


A high-level physics benchmarck


222

e




Creates dynamic IQ Tests

meh meh

mostramos docentes, familias , jovenes y niños La Inteligencia articial como recurso vs el arterapia



Adapted from 2024 IMO Problem 5


This benchmark tests an LLM's ability to handle a multi-language, algorithmically complex task. It requires generating a single HTML file with JavaScript (using Three.js) to manage the scene, and GLSL shader code to render a dynamic, interactive fractal. This evaluates advanced knowledge of mathematics, GPU programming, and system integration.


Build out industry supply demand


Generation of a HTML application that renders a mathematically-accurate black hole. (I already feel the fascination the fans of Interstellar have right now.)

The only GSM8K problem that most frontier models get wrong.

Create a website that simulates the Tower of Hanoi the puzzle

AI plays the markets

بيب

خلفية بلون أزرق سماوي باهت يتدرج تدريجيًا إلى بيج رملي فاتح في الأسفل، ليعطي إحساسًا بالسماء والنيل معًا. في الوسط: شكل مبسط جداً لتمثال فرعوني قديم (يمكن أن يكون رأس تمثال حجري) مرسوم بخطوط ناعمة وظلال خفيفة، بدون تفاصيل معقدة. حول التمثال: لمسات صغيرة من زهور اللوتس البيضاء الطافية على خلفية هادئة، بشكل مبسط وبدون ازدحام. لا تفاصيل كثيرة… ولا عناصر مشتتة… مجرد تكوين هادئ يريح العين عند النظر إليه، ألوانه باهتة وناعمة كلوحة مرسومة بالألوان المائية.

Creates a 3d minecraft like game

One shot GTA Clone game

syuaib


Laboratorio donde poder crear tus propios arquitecturas de Ia y redes neuronales
make a cat



classic game; by mnf

Minecraft Components



DJ Toenail



DJ Toenail



DJ Toenail

Punk Philosophy - Diving Deep Again!


qwq

DJ Toenail

DJ Toenail

This benchmark tests an LLM's ability to create a dynamic visual narrative where an AI agent progressively "builds" and "designs" an operating system interface directly in the browser. It combines creative storytelling, dynamic HTML/CSS/JS generation, and animated visualization of a conceptual AI design process. The goal is to make the user feel like they are watching an AI create its own visual environment.

DJ Toenail


a Diagram for an AI system


DJ Toenail


create a anime style scene

This code is trivial to run and see the actual output, but most of the models so far fails spectacularly if they can only guessing and not allows code eval. This test is good to determine if model is actually not bluffing.


syuaib-gpt5

dark purple plastic container with curved sides, resembling a yogurt pack of premium double chocolate pudding, extending it towards the upper left corner of the frame. The container features the word "pudding" in a large, white, cursive font in the center, with "premium" written above it in a smaller, light purple, sans-serif font. To the left of "premium" is a logo with white Arabic script above a stylized flower. On the right side of the container is a circular gold seal with white Arabic writing. Below the "pudding" text is a photographic depiction of chocolate pudding and two dark chocolate squares. The lighting and shadows are carefully rendered to make the pudding container appear realistically integrated into the scene, maintaining its original scale and contributing to a playful, vibrant tone



Ayuda a entender que respuestas estan dando las IAs en temas relacionados a mercately


copy minecraft as close as possible

Differentiating Mormonism vs LDS Church

3 MBTI's 1 Changed World




Chatbot with pdf RAG



inmobiliaria


Carl Jung & American Innovators of Social Technology from the past to the good old 2025 of our present day realities all round us!

Evaluación de prompts según modelos



CS and Ne






