کریپتوباز

مدل جدید چت جی‌پی‌تی o3 با درک تصویر منتشر شد

2 روز پیش 10:30 مطالعه3دقیقه 1,847
مدل جدید چت جی‌پی‌تی o3 با درک تصویر منتشر شد
پیش بینی
شزکت OpenAI مدل ChatGPT o3 را معرفی کرد؛ این نسخه از هوش مصنوعی‌ میتواند علاوه‌بر متن، توانایی تحلیل تصویر، تبدیل عکس به کد، درک دست‌خط و استخراج داده از تصاویر پیچیده را داراست.

۱۶ آوریل ۲۰۲۵ (۲۷ فروردین ۱۴۰۴) شرکت OpenAI دو مدل هوش مصنوعی با نام‌های تازه o3 و o4‑mini را رونمایی کرد؛ مدل‌هایی که نه‌تنها متن بلکه تصاویر را هم می‌فهمند و حتی روی عکس‌هایی با کیفیت پایین از تخته وایت‌برد یا طرح‌های دست‌وخط می‌توانند کد بنویسند یا مشکل حل کنند. 

نسخه ChatGPT o3 دقیقاً چه کار می‌کند؟

پردازش تصاویر کم‌کیفیت و مبهم

آیا تا به‌حال پیش آمده وسط یک جلسه، فقط با تلفن همراهتان از تخته‌سفید کد‌ها یا نمودارها عکس بگیرید و بعد ساعت‌ها وقت صرف بازنویسی کنید؟ o3 همین دردسر را حذف می‌کند. این مدل تازه به‌محض دیدن تصویر، ‌متنِ نهفته در آن را می‌فهمد، ساختار بصری را تحلیل می‌کند و خروجی‌ای کاملاً قابل‌استفاده تحویل می‌دهداز خلاصهٔ متنی گرفته تا کد پایتونی که همان نمودار را بازسازی می‌کند.

استدلال چندمرحله‌ای با ابزارهای بیرونی

این مدل مانند یک «مغز چندرسانه‌ای» به ابزارهایی نظیر مرورگر وب و پایگاه داده متصل می‌شود؛ ابتدا عکس را می‌بیند، سپس داده‌های تکمیلی را جست‌وجو کرده و در پایان پاسخ نهایی را تحویل می­دهد. چنین زنجیره‌ای از استدلال، کاری بود که تاکنون اغلب نیازمند چند نرم‌افزار و دخالت انسان بود. 

o4‑mini؛ خواهر کوچک اما چابک

اگر پروژه‌ای به قدرت کامل o3 نیاز نداشته باشد، o4‑mini همان توانمندی‌های پایه در ریاضیات، کدنویسی و شناخت تصویر را با سرعت بیشتر و هزینه پایین‌تر ارائه می‌دهد؛ گزینه‌ای به‌صرفه برای استارتاپ‌ها و توسعه­دهندگانی که هر ریال حساب می­کنند.

جدول مقایسه امکانات دو مدل

ویژگی کلیدی o3 o4‑mini
توان درک تصویر بسیار بالا؛ تشخیص جزئیات حتی در عکس‌های تار متوسط رو به بالا
سرعت پاسخ معمولی (به‌ازای استدلال عمیق) بسیار سریع
هزینه تقریبی API بالا پایین
موارد استفادهٔ ایده‌آل تحقیقات، پروژه‌های پیچیده چندرسانه‌ای ربات‌های گفتگو، اپ‌های موبایل سبک
دسترسی به ابزارهای بیرونی کامل (وب، پایتون و …) محدود به متن و تصویر

چرا این خبر برای اکوسیستم رمزارز مهم است؟

امنیت عکس‌های روی شبکه‌های اجتماعی، مستندسازی سریع پروژه‌ها، استخراج داده از اسکرین‌شات نمودارهای بازار رمزارز و حتی آموزش فراگیر در کلاس‌های آنلاین all in one. هر جا ترکیبی از «تصویر + متن + تحلیل» لازم باشد، o3 می‌تواند نقش موتور محرک را بازی کند.

  • تجزیه NFT‌ تصویری: اگر NFT یا همان توکن های غیرمثلی شما فقط یک تصویر هنری نیست و داده‌هایی مثل نقشه یا دیاگرام دارد، o3 می‌تواند لایه‌های پنهان ارزشی آن را تحلیل کند.

  • تحلیل داده‌های زنجیره با چارت‌های تصویری: بسیاری از داشبوردهای آن‌چین خروجی را به‌شکل نمودار نشان می‌دهند؛ مدل جدید می‌تواند به‌صورت مستقیم روی اسکرین‌شات آن نمودارها تحلیل انجام دهد.

  • امنیت هوشمند: شناسایی اسکرین‌شات‌های فیشینگ یا قراردادهای مشکوک در شبکه‌های اجتماعی با کمک درک تصویری ممکن می‌شود.

OpenAI اعلام کرده مدل GPT-4 ، تا دو هفته‌ی دیگر به‌طور کامل از دسترس ChatGPT خارج میشود و GPT-4o جایگزینش آن خواهد شد.

چالش‌های اخلاقی و فنی

  • حریم خصوصی بصری: آپلود هر تصویر، از چهره گرفته تا فاکتور مالی، نیازمند خط‌مشی مشخص است تا داده‌ها سوءاستفاده نشوند.

  • سوگیری داده‌ها: اگر دیتاست‌های تصویری مغرضانه باشند، خروجی مدل نیز منحرف می‌شود؛ پژوهشگران باید مراقب باشند.

  • بار پردازشی: پروژه‌های بزرگ به GPUهای قدرتمند و هزینه بالا نیاز دارند؛ راهکارهای هیبریدی (استفاده هم‌زمان از o4‑mini و Cache) می‌تواند گره‌گشا باشد.

جمع‌بندی

OpenAI با معرفی o3 و o4‑mini مسیر هوش مصنوعی را از «گفتگو» به «بینایی و گفتگوی هم‌زمان» ارتقا داد. از کلاس‌های درس تا تحلیل بازار رمزارز، مرزی میان متن و تصویر باقی نمانده است. حالا پرسش کلیدی این است: شما قصد دارید اولین کاربرد خلاقانه‌تان را در کدام حوزه پیاده کنید؟

مقاله رو دوست داشتی؟
نظرت چیه؟
سوالات متداول
داغ ترین مطالب
نظرات کاربران
ثبت دیدگاه جدید