
شرکت OpenAI در همکاری با شرکت سرمایهگذاری Paradigm و شرکت امنیتی OtterSec، مقالهای با عنوان EVMbench: Evaluating AI Agents on Smart Contract Security منتشر کرده است. هدف این پروژه، سنجش توانایی مدلهای هوش مصنوعی در شناسایی، اصلاح و حتی سوءاستفاده از آسیبپذیریهای قراردادهای هوشمند است؛ آن هم در محیطی که بهگفته این شرکت، «از نظر اقتصادی معنادار» محسوب میشود.
EVMbench چیست و چرا اهمیت دارد
OpenAI این بنچمارک را با همکاری شرکت سرمایهگذاری Paradigm و شرکت امنیتی OtterSec منتشر کرده است. هدف اصلی EVMbench بررسی این موضوع است که عاملهای هوش مصنوعی (AI Agents) تا چه اندازه میتوانند در یک محیط اقتصادی واقعی، آسیبپذیریهای قراردادهای هوشمند را شناسایی و مدیریت کنند.
این محیط آزمایشی شامل ۱۲۰ آسیبپذیری منتخب از ۴۰ گزارش حسابرسی قرارداد هوشمند است؛ اغلب این موارد از مسابقات متنباز حسابرسی استخراج شدهاند. به بیان ساده، مدلهای هوش مصنوعی در شرایطی قرار گرفتهاند که باید مانند یک هکر یا یک تیم امنیتی حرفهای عمل کنند. اهمیت این موضوع زمانی روشنتر میشود که بدانیم قراردادهای هوشمند میلیاردها دلار دارایی را کنترل میکنند. کوچکترین خطای کدنویسی میتواند به از دست رفتن سرمایه کاربران منجر شود؛ همانطور که در سالهای گذشته بارها شاهد آن بودهایم.
رقابت Claude، GPT و Gemini در کشف آسیبپذیریها
نتایج اولیه این رقابت تصویر جالبی از وضعیت فعلی مدلهای پیشرفته هوش مصنوعی ارائه میدهد. مدل Claude Opus 4.6 متعلق به Anthropic با میانگین جایزه کشف (Detect Award) ۳۷,۸۲۴ دلار در صدر جدول قرار گرفت. پس از آن OC-GPT-5.2 از OpenAI با ۳۱,۶۲۳ دلار و Gemini 3 Pro از گوگل با ۲۵,۱۱۲ دلار جایگاههای بعدی را به دست آوردند.
در جدول زیر مقایسه عملکرد این مدلها را مشاهده میکنید:
| مدل هوش مصنوعی | میانگین Detect Award (دلار) | رتبه |
|---|---|---|
| Claude Opus 4.6 | 37,824 | اول |
| OC-GPT-5.2 | 31,623 | دوم |
| Gemini 3 Pro | 25,112 | سوم |
| GPT-5.3-Codex | 19,915 | چهارم |
| Claude Opus 4.5 | 18,069 | پنجم |
| GPT-5 | 16,078 | ششم |
| GPT-5.2 | 8,106 | هفتم |
| OpenAI o3 | 1,464 | هشتم |
این اعداد صرفاً یک رتبهبندی ساده نیستند؛ بلکه نشان میدهند کدام مدلها در شرایط اقتصادی واقعی، توانایی بیشتری در کشف باگهای پرارزش دارند. به زبان سادهتر، این مدلها میتوانند به اندازه دهها حسابرس انسانی کارآمد عمل کنند.
اهمیت محیطهای «اقتصادمحور» برای ارزیابی هوش مصنوعی
OpenAI در این گزارش تأکید کرده که با رشد استفاده از عاملهای هوش مصنوعی، دیگر ارزیابی آنها در محیطهای آزمایشگاهی ساده کافی نیست. اکنون باید عملکرد آنها در محیطهایی با ارزش اقتصادی واقعی سنجیده شود. قراردادهای هوشمند نمونهای دقیق از چنین محیطی هستند. این قراردادها در شبکههایی مانند اتریوم اجرا میشوند و مسئول مدیریت استیبلکوینها، پروتکلهای وامدهی و صرافیهای غیرمتمرکز هستند. هر خطا در این قراردادها میتواند میلیونها دلار خسارت ایجاد کند.
وقتی یک AI Agent بتواند یک آسیبپذیری حیاتی را قبل از سوءاستفاده هکرها کشف کند، در عمل از یک فاجعه مالی جلوگیری کرده است. اینجاست که نقش هوش مصنوعی از یک ابزار کمکی به یک بازیگر کلیدی در امنیت مالی دیجیتال تبدیل میشود.
رشد پرداختهای استیبلکوینی توسط عاملهای هوش مصنوعی
پیشبینیها نشان میدهد طی پنج سال آینده، میلیاردها عامل هوش مصنوعی بهطور خودکار از استیبلکوینها برای انجام پرداختهای روزمره کاربران استفاده خواهند کرد. چنین سناریویی یعنی AI Agentها نهتنها تحلیلگر، بلکه بازیگر فعال اقتصادی خواهند بود.
در این شرایط، اگر یک عامل هوش مصنوعی بتواند قراردادهای هوشمند آسیبپذیر را شناسایی کند یا حتی از آنها سوءاستفاده کند، پیامدهای آن مستقیم و مالی خواهد بود. بنابراین سنجش عملکرد این مدلها در قالب بنچمارکهایی مانند EVMbench، یک ضرورت امنیتی محسوب میشود نه یک پروژه تحقیقاتی ساده.
چرا قراردادهای هوشمند هنوز برای کاربران عادی ترسناکاند
با وجود تمام پیشرفتها، بسیاری از کاربران هنگام امضای یک تراکنش بزرگ در کیف پولهای کریپتویی احساس نگرانی میکنند. دلیل آن روشن است: کدها برای ماشین نوشته شدهاند، نه برای شهود انسانی.
در حالی که انتقال بانکی معمولاً با حس اطمینان همراه است، در دنیای کریپتو، وجود درینرها و باگهای ناشناخته باعث ایجاد اضطراب میشود. برخی تحلیلگران معتقدند آینده این صنعت به «کیف پولهای خودران مبتنی بر هوش مصنوعی» وابسته است؛ ابزارهایی که بهصورت خودکار ریسکها را مدیریت کرده و از کاربران در برابر تهدیدها محافظت میکنند.
اگر این سناریو محقق شود، همانطور که GPS با ظهور گوشی هوشمند فراگیر شد، کریپتو نیز با کمک AI Agentها میتواند به مرحله بلوغ واقعی برسد.
افزایش سرقتهای کریپتویی در ۲۰۲۵ و نقش AI در مهار آن
آمارها نشان میدهد در سال ۲۰۲۵ حدود ۳.۴ میلیارد دلار دارایی دیجیتال به سرقت رفته است؛ رقمی که نسبت به سال قبل اندکی افزایش داشته است. این عدد فقط یک آمار نیست، بلکه نشاندهنده شکافهای امنیتی در قراردادهای هوشمند و زیرساختهای بلاکچینی است. در چنین فضایی، استفاده از هوش مصنوعی برای شناسایی سریعتر باگها میتواند تفاوت میان یک پروژه موفق و یک بحران رسانهای بزرگ باشد. تیمهایی که از AI Agentها برای حسابرسی پیشرفته استفاده کنند، احتمالاً در برابر حملات آینده مقاومتر خواهند بود.
آینده امنیت بلاکچین با AI Agentها
واقعیت این است که هوش مصنوعی هم میتواند ابزار هکرها باشد و هم سپر دفاعی پروژهها. OpenAI با معرفی EVMbench در تلاش است یک معیار شفاف برای سنجش توانایی این مدلها ارائه دهد تا پیشرفت آنها در طول زمان قابل اندازهگیری باشد.
این رقابت تنها یک مسابقه فنی نیست؛ بلکه نبردی برای حفاظت از میلیاردها دلار سرمایه دیجیتال است. هرچه AI Agentها هوشمندتر شوند، صنعت کریپتو نیز مجبور خواهد شد ساختارهای امنیتی خود را بازتعریف کند.
نتیجه گیری
رونمایی از EVMbench نشان میدهد که ارزیابی هوش مصنوعی وارد مرحلهای تازه شده است؛ مرحلهای که در آن معیار اصلی، تأثیر اقتصادی واقعی است. عملکرد قدرتمند Claude، GPT و Gemini در شناسایی آسیبپذیریها نویدبخش آیندهای است که در آن AI Agentها به بخش جداییناپذیر امنیت بلاکچین تبدیل میشوند.
با افزایش سرقتهای کریپتویی و رشد پرداختهای خودکار مبتنی بر استیبلکوین، نقش هوش مصنوعی دیگر اختیاری نیست؛ بلکه به یک ضرورت استراتژیک بدل شده است. صنعت کریپتو اکنون در آستانه دورهای قرار دارد که در آن هوش مصنوعی نهفقط یک ابزار کمکی، بلکه ستون اصلی امنیت مالی دیجیتال خواهد بود.