گامی بزرگ به سمت تعاملات طبیعی تر بین انسان و کامپیوتر با OpenAI و GPT-4o

گامی بزرگ به سمت تعاملات طبیعی تر بین انسان و کامپیوتر با OpenAI و GPT-4o

  • calendar انتشار: 25 اردیبهشت 1403 - 11:47:48
  • eyes تعداد بازدید: 1984

OpenAI اعلام کرده است که آخرین مدل هوش مصنوعی خود، GPT-4o را راه اندازی کرده است. این چت بات هوش مصنوعی بیشتر شبیه به انسان است و می تواند صدا و تصویر کاربر را تفسیر کرده و به آن پاسخ دهد. "o" در GPT-4o به معنی "omni" است که نشان دهنده گامی به سمت تعاملات طبیعی تر بین انسان و کامپیوتر است.

در زیر جزئیات کلیدی در مورد GPT-4o آورده شده است:
این مدل می تواند در زمان واقعی بین صدا، تصویر، و متن استدلال کند.
این مدل می تواند به ورودی های صوتی در کمتر از 232 میلی ثانیه پاسخ دهد، با میانگین 320 میلی ثانیه، که مشابه زمان پاسخ انسان در یک مکالمه است.
این مدل عملکرد GPT-4 Turbo را در متن انگلیسی و کد برابری می کند، با بهبود قابل توجه در متن در زبان های غیر انگلیسی، در حالی که همچنین سریعتر و **50٪ ارزان تر در API است.
GPT-4o به خصوص در فهم تصویر و صدا نسبت به مدل های موجود بهتر است.
این مدل می تواند شوخی های پدرانه را به اشتراک بگذارد، داور یک مسابقه سنگ-کاغذ-قیچی بین دو کاربر باشد، و وقتی پرسیده می شود با طنز پاسخ دهد.

نسخه ورودی فقط متن و تصویر در 13 می 2024 راه اندازی شد، با نسخه کامل قرار است در هفته های آینده راه اندازی شود. GPT-4o برای هر دو کاربر پرداخت شده و رایگان ChatGPT در دسترس خواهد بود و از طریق API ChatGPT قابل دسترسی خواهد بود.

مشاهده منبع خبر arrow left

سوالات متداول

چه چیزی GPT-4o را از سایر چت بات های هوش مصنوعی متمایز می کند؟

GPT-4o می تواند صدا، تصویر و متن را در زمان واقعی تفسیر کند. این چت بات سریعتر، ارزان تر و در فهم زبان های غیر انگلیسی بهتر است.

GPT-4o چگونه به صداها پاسخ می دهد؟

GPT-4o می تواند به ورودی های صوتی در کمتر از 232 میلی ثانیه پاسخ دهد، با میانگین 320 میلی ثانیه، که مشابه زمان پاسخ انسان در یک مکالمه است.

GPT-4o چه توانایی های خاصی دارد؟

GPT-4o می تواند شوخی های پدرانه را به اشتراک بگذارد، داور یک مسابقه سنگ-کاغذ-قیچی بین دو کاربر باشد، و وقتی پرسیده می شود با طنز پاسخ دهد.