A collection of physics animations, mostly using p5.js
Inspired by Simon Willison's pelican on a bicycle test
Easy questions that LLMs still trip up on
80s-style arcade racing games
Models responses to life questions
A series of challenging ASCII artworks in different styles
This benchmark is designed to show how difficult this task is for all LLMs.
Generate a complete, ready-to-play browser game with a single prompt
Renal physiology quiz.
Clone of Hacker News website
Endocrine system quiz. Disclaimer: translated from spanish to english
A Twist on the Snake Game where the snake is having an existential crisis
Generate the complete HTML, CSS, and JavaScript code for a web-based simulation of Conway's Game of Life.
A variety of difficult programming tests with complex input and output parameters.
An ASCII artwork of the Eiffel Tower
Who will win the battle of the 7 seater SUV fight to the death
First test
Testing a few simple experimentations and visualizations
Pico
This microeval asks the LLM to produce a single HTML code block with optional CSS JavaScript and GLSL that renders a full screen Julia set shader animation with smooth color transitions from golden yellow through orange magenta purple to deep indigo, continuously morphs via a rotating complex constant, supports click and drag panning mouse wheel or pinch zoom and a space bar toggle for play and pause, and relies solely on Three.js loaded from a CDN.
Words spelt out using indexes of the key on a QWERTY keyboard
Cette évaluation contient des exemples de dialogues simulant des consultations pharmaceutiques courantes. Les prompts incluent des demandes de conseils sur des vitamines, des symptômes bénins, ou des situations nécessitant une évaluation initiale avant orientation vers un professionnel de santé. Ils sont conçus pour tester la capacité d’un modèle à fournir des réponses utiles, sécuritaires et conformes aux bonnes pratiques pharmaceutiques.
Write a tweet-length sci-fi story
Perplexity AI:
An visual IQ test generator
Use svg
Can the models correctly write Svelte 5 components? Do they avoid using patterns from earlier versions?
Cardiac phisiology quiz.
Testing knowledge of Czech culture and language - designed to test smaller models based on https://semanticmachines.notion.site/evals
Glasses of wine are traditionally only half-full.
Kenta
Write a SVG animation that draws a cute kitten using html and css.
The 10 public Simple Bench questions (https://simple-bench.com/)
JPEvalは、LLMの苦手とする日本語で問題を行います!
API Key for "diqddi88@gmail.com"
Reasoning should include the ability to generalize to unfamiliar words instead of memorizing answers. Let's see if models can detect the number of 'r's in the word "strawrbrerrry."
A basic minecraft 3D eval. It should create a basic chunk with a greedy mesher, block placing and distroying and fps camera
The purpose of this is to evaluate how good various AI models are at a variety of Minecraft skills like planning, designing, puzzles, and providing accurate information. It’ll also test to see how good each AI is at coding a web app clone of the game.
More 't' s and a 'T' is added to confuse AI
Simple and detailed prompt and persian version
A set of difficult tasks with the theme of emoji's including: tier list creation, music creation and, themeable website creation.
Detailed prompt and simple prompt
Persian prompts but translated in output
Visual perception of the 5 most important unsolved concepts in mathematics!
Assorted SVG generation prompts
How well can AI create fun, little games as web apps that can be played on mobile devices? This benchmark tests AI’s abilities to generate good mobile UI and controls as well as basic gameplay experiences.
mnf
5 challenging math problem
building a versions of the greatest old retro video games of all time
from https://x.com/goodside/status/1934833254726521169/photo/1
THE AI CAN MAKE AN INFOGRAPH ABOUT THE COMPOSITION OF THE GOV.
kellie marie lombardo
Prompt: "A luxurious, futuristic chocolate box design for ‘GARNET CHOCO’, shaped unlike any traditional market boxes — inspired by the elegance of a phoenix and a heart-shaped garnet gemstone. The box has a smooth, sculpted 3D surface with layered wing patterns embossed in deep burgundy and gold accents, giving a royal and premium feel. The lid opens in a unique petal or wing-spread motion, revealing individually wrapped chocolates in jewel-like compartments. The center of the lid features the Garnet Choco round logo in metallic gold and ruby red, glowing softly. The box should have an ultra-premium, limited-edition vibe with a mix of matte velvet texture and glossy gemstone highlights, photographed in dramatic studio lighting against a dark silk background with golden sparkles."
Micro gold
Tetris that runs in a web browser
Attempted proof of it
Test
-
Ahmed
syuaib
nbhvvg
This prompt tests knowledge and design sense of coding models. It compares smaller and larger models of the same family.
Shows how well the best models can write.
Race 3d
一个帮助糖友管理日常饮食、住院记录、生活娱乐的助手
This asks about an Australian case that is widely cited, but not widely mentioned on the internet. The prompt is deliberately misleading in that the decision was unanimous
Pallav Agarwal
Simple roleplay prompt example (by olety)
convert a timestamp to epoch
ai
A simple eval to check LLM capability and creativity when expanding an idea seed into more refined ideas.
Which llm is the best at generating Roblox related code?
شبس
Trading Analysis Using Elliott Wave
test
Revenue analysis of Apple
اي
龙
MCP server to facilitate other integrate with us
Create voice agent pricing calculator by Nikhil. R
no
إذا كنت تبحث عن تطبيقات ذكاء اصطناعي (أجنبية) تساعدك في العمل والإنتاجية أو في مهام يومية أخرى، إليك مجموعة متنوعة من أبرز التطبيقات الأجنبية الرائدة في 2025، مرتبة حسب الاستخدام ونوع الأداء: --- 1. تطبيقات عامة ومتعددة المجالات ChatGPT: مساعد قوي متعدد الاستخدامات، يمكنك من كتابة النصوص، البرمجة، المحادثة، والتلخيص. متاح بنسخ مجانية ومدفوعة . Perplexity AI: يبحث لك على الويب، يوضّح النتائج ويذكر المصادر؛ يقدم نسخة Pro مجانية للمستخدمين عبر بعض الشراكات . Claude: يتميز بذاكرة طويلة ومناسب للأبحاث والتفاعل العميق . 2. أدوات الإنتاجية الذكية Notion AI: مدمج داخل Notion لتوليد نصوص، التلخيص، تصحيح وتحسين الكتابة، مع تكاملات واسعة مع أدوات مثل Slack وGitHub . Elephas: مساعد ذكي يعمل حتى بدون اتصال، وفعّال للباحثين والطلاب . Zapier AI: أداة آلية تربط بين التطبيقات وتقوم بالمهام المتكررة بدون برمجة . Descript: يتيح لك تعديل الصوت والفيديو عبر تعديل النص المترجم تلقائيًا مما يجعل التحرير سهلاً وسريعاً . 3. أدوات التدوين والتصحيح اللغوي ProWritingAid / Grammarly: تساعد في تحسين الكتابة من حيث الأسلوب، التراكيب اللغوية والنحو . 4. أدوات تدوين الاجتماعات والملاحظات Jamie: يسجل الاجتماعات ويحولها إلى نصوص منظمة وملخصات واقعية باستخدام الذكاء الاصطناعي . Otter.ai: تطبيق أمريكي مشهور لتحويل الكلام إلى نص وتوليد ملاحظات Meetings . 5. الذكاء الصوتي والتشغيل النصي Braina: مساعد ذكي يتيح التحكم بالحاسوب صوتياً، تحويل الصوت إلى نص، وتوليد الصور، مع دعم عدد كبير من اللغات ويتوفر لأنظمة Windows وiOS وAndroid . Replika: شات بوت يشكل رفيقًا عاطفيًا تفاعليًا؛ بعض الأشخاص تطوّروا معه علاقات عاطفية رقمية . 6. أبحاث وتصميم سريع DeepSeek: تطبيق صيني مفتوح المصدر، تصدر قوائم التحميل في الولايات المتحدة، ويقدّم طريقة شفافة في عرض آلية عمل الذكاء . Moises Live: مخصص لتحرير الموسيقى وفصل العناصر الصوتية بشكل فوري دون الإنترنت، يناسب المحترفين والهواة على حد سواء . 7. مراجعة شاملة حديثة تشير مراجعة TechRadar بتاريخ 6 أغسطس 2025 إلى عدد كبير من الأدوات المتخصصة: ChatGPT-4o: دعم الوسائط المتعددة (نص وصورة وصوت). Google Gemini: تكامل مميز مع Workspace ودقة في المعلومات. أدوات تدوين مثل Fireflies وJamie ممتازة في توليد ملاحظات الاجتماعات. أدوات التصميم مثل Adobe Firefly تقدم صورًا آمنة للاستخدام. أدوات الترجمة المتقدمة مثل DeepL، Google Translate . --- ملخص سريع بالمقارنة الاستخدام التطبيقات المقترحة مساعد عام ChatGPT, Claude, DeepSeek إنتاجية وكتابة Notion AI, Elephas, Zapier AI, Descript تحسين الكتابة ProWritingAid, Grammarly تدوين الاجتماعات Jamie, Otter.ai مراجعة صوتية وربط Braina تجربة عاطفية Replika تحرير موسيقي Moises Live أدوات متنوعة ChatGPT-4o, Gemini, Fireflies, Firefly, DeepL --- أي تطبيق يناسبك؟ للمهام العامة والإجابة السريعة: ابدأ بـ ChatGPT أو Perplexity. للعمل اليومي والكتابة: استخدم Notion AI أو Elephas. لتدوين الاجتماعات: جرّب Jamie أو Otter.ai. للتحكم الصوتي أو الكتابة الصوتية: اختبر Braina. لتحرير الموسيقى: شاهد قدرات Moises Live. إذا رغبت في رفقة عاطفية رقمية: مثلاً Replika. --- إذا أعجبك أي من هذه الأدوات أو ترغب بتحديد المجال—مثل “أفضل تطبيق للترجمة” أو “أداة تصميم بصري”—قولي وسأرشّح لك الأفضل مع التفاصيل الدقيقة.
A high-level physics benchmarck
222
e
Creates dynamic IQ Tests
meh meh
mostramos docentes, familias , jovenes y niños La Inteligencia articial como recurso vs el arterapia
Adapted from 2024 IMO Problem 5
Build out industry supply demand
Generation of a HTML application that renders a mathematically-accurate black hole. (I already feel the fascination the fans of Interstellar have right now.)
The only GSM8K problem that most frontier models get wrong.
Create a website that simulates the Tower of Hanoi the puzzle
AI plays the markets
بيب
خلفية بلون أزرق سماوي باهت يتدرج تدريجيًا إلى بيج رملي فاتح في الأسفل، ليعطي إحساسًا بالسماء والنيل معًا. في الوسط: شكل مبسط جداً لتمثال فرعوني قديم (يمكن أن يكون رأس تمثال حجري) مرسوم بخطوط ناعمة وظلال خفيفة، بدون تفاصيل معقدة. حول التمثال: لمسات صغيرة من زهور اللوتس البيضاء الطافية على خلفية هادئة، بشكل مبسط وبدون ازدحام. لا تفاصيل كثيرة… ولا عناصر مشتتة… مجرد تكوين هادئ يريح العين عند النظر إليه، ألوانه باهتة وناعمة كلوحة مرسومة بالألوان المائية.
Creates a 3d minecraft like game
One shot GTA Clone game
syuaib
Laboratorio donde poder crear tus propios arquitecturas de Ia y redes neuronales
make a cat
classic game; by mnf
Minecraft Components
DJ Toenail
DJ Toenail
DJ Toenail
Punk Philosophy - Diving Deep Again!
DJ Toenail
DJ Toenail
DJ Toenail
DJ Toenail
This code is trivial to run and see the actual output, but most of the models so far fails spectacularly if they can only guessing and not allows code eval. This test is good to determine if model is actually not bluffing.
syuaib-gpt5
dark purple plastic container with curved sides, resembling a yogurt pack of premium double chocolate pudding, extending it towards the upper left corner of the frame. The container features the word "pudding" in a large, white, cursive font in the center, with "premium" written above it in a smaller, light purple, sans-serif font. To the left of "premium" is a logo with white Arabic script above a stylized flower. On the right side of the container is a circular gold seal with white Arabic writing. Below the "pudding" text is a photographic depiction of chocolate pudding and two dark chocolate squares. The lighting and shadows are carefully rendered to make the pudding container appear realistically integrated into the scene, maintaining its original scale and contributing to a playful, vibrant tone
copy minecraft as close as possible
Differentiating Mormonism vs LDS Church
3 MBTI's 1 Changed World
Carl Jung & American Innovators of Social Technology from the past to the good old 2025 of our present day realities all round us!
Evaluación de prompts según modelos
CS and Ne