Google, dünyadaki bilgileri düzenlemeyi amaçlayan büyük dil modelleri serisinin en son modeli olan Gemini 2.0’ı duyurdu.
Google ve ana şirketi Alphabet’in CEO’su Sundar Pichai, yaptığı açıklamada Gemini 2.0’ın “evrensel asistan vizyonumuza bizi daha da yaklaştıran yeni yapay zeka aracıları oluşturmamızı sağlayacağını” söyledi ve modelin “yerel görüntü ve ses çıkışı gibi çoklu modalitedeki yeni gelişmeleri ve yerel araç kullanımını” içerdiğini belirtti.
“Gemini 1.0 bilgiyi organize etmek ve anlamakla ilgiliyse, Gemini 2.0 onu çok daha kullanışlı hale getirmekle ilgilidir,” dedi. “Bu yeni çağın neler getireceğini görmek için sabırsızlanıyorum.”
Pichai, yeni modelin yeteneklerinin “Yapay zeka inovasyonuna yönelik farklılaştırılmış tam yığın yaklaşımımıza yaptığımız on yıllık yatırımlarla desteklendiğini” söyledi. Gemini 2.0 için tüm eğitim ve çıkarımları destekleyen şirketin altıncı nesil Tensör İşleme Birimleri (TPU’lar) gibi özel donanımlar üzerine inşa edildi.
Gemini 2.0 Flash geliştiricilerin ve kullanıcıların kullanımına sunuldu
Google’ın yapay zeka araştırma birimi DeepMind’ın CEO’su Demis Hassabis ve Google DeepMind’ın CTO’su Koray Kavukçuoğlu’na göre Google ayrıca, “teknolojimizin en ileri noktasında, ölçekte, düşük gecikme ve gelişmiş performans” sunan modelin deneysel bir versiyonu olan Gemini 2.0 Flash’ı da yayınlıyor.
“Gemini 2.0 Flash, geliştiriciler için bugüne kadarki en popüler modelimiz olan 1.5 Flash’ın başarısının üzerine inşa edilmiştir ve benzer şekilde hızlı tepki sürelerinde gelişmiş performansa sahiptir,” dediler. “Önemli olan, 2.0 Flash’ın temel ölçütlerde 1.5 Pro’yu bile geride bırakmasıdır, hızın iki katıdır.”
Model şu anda Google’ın AI API’leri aracılığıyla geliştiriciler ve Gemini AI chatbot kullanıcıları için kullanılabilir. Dünya genelindeki Gemini kullanıcıları, uygulamanın masaüstü ve mobil web sürümlerindeki model açılır menüsünden seçerek modelin sohbet için optimize edilmiş bir sürümüne erişebilir. Yakında Gemini mobil uygulamalarında kullanılabilir olacak.
Hassabis ve Kavukçuoğlu, Gemini 2.0 Flash’ın görüntü, video ve ses gibi çok modlu girdileri desteklemenin yanı sıra “artık metinle karıştırılmış yerel olarak oluşturulmuş görüntüler ve yönlendirilebilir metinden sese (TTS) çok dilli ses gibi çok modlu çıktıları da desteklediğini” söyledi. Model ayrıca Google Arama, kod yürütme ve üçüncü taraf kullanıcı tanımlı işlevler gibi araçları yerel olarak çağırabiliyor.
Google, geliştiricilerin yeni modelle uygulama oluşturmasına yardımcı olmak için gerçek zamanlı ses ve video akışı girişini destekleyen ve birden fazla birleştirilmiş aracı kullanma olanağı sağlayan Çok Modlu Canlı API’yi de yayınlıyor.
Araştırma prototipleri, ajansal yapay zeka yeteneklerini sergiliyor
Google ayrıca, modelin kullanıcılar adına eylemde bulunma ve görevleri yerine getirme konusundaki ‘etkili’ yeteneklerini göstermeyi amaçlayan Gemini 2.0 ile oluşturulmuş çeşitli araştırma prototiplerini de sergiledi.
Şirketin I/O geliştirici konferansında ilk kez tanıtılan Project Astra, Google’ın küçük bir kullanıcı grubuyla test ettiği prototip bir evrensel AI asistanıdır. Gemini 2.0 ile oluşturulan en son sürüm, birden fazla dilde konuşma yeteneği, yeni araç kullanım yetenekleri, iyileştirilmiş bellek ve daha düşük gecikmeyle “daha iyi diyalog” özelliğine sahiptir.
Pichai, “Bu tür yetenekleri, yapay zeka asistanımız Gemini uygulaması ve gözlük gibi diğer form faktörleri gibi Google ürünlerine getirmek için çalışıyoruz,” dedi. “Ve güvenilir test programımızı, yakında prototip gözlüklerde Project Astra’yı test etmeye başlayacak küçük bir grup da dahil olmak üzere daha fazla kişiye genişletmeye başlıyoruz.”
Hassabis ve Kavukcuoglu, bir diğer ürün olan Project Mariner’ın “insan-aracı etkileşiminin geleceğini, tarayıcınızla başlayarak araştıran Gemini 2.0 ile oluşturulmuş erken bir araştırma prototipi” olduğunu söyledi. Deneysel bir Chrome tarayıcı uzantısı aracılığıyla, aracı “tarayıcı ekranınızdaki bilgileri anlayıp mantık yürütebilir” ve kullanıcılar için görevleri tamamlayabilir.
Gemini 1.0 bilgiyi organize etmek ve anlamakla ilgiliyse, Gemini 2.0 onu çok daha kullanışlı hale getirmekle ilgilidir.
DeepMind yöneticileri, Project Mariner’ın gerçek dünya web görevlerinde AI aracı performansını test eden WebVoyager kıyaslamasında son teknoloji sonuçlar elde ettiğini söyledi. “Henüz erken, ancak Project Mariner, bugün görevleri tamamlamak her zaman doğru ve yavaş olmasa da, zamanla hızla iyileşecek olsa da, bir tarayıcıda gezinmenin teknik olarak mümkün hale geldiğini gösteriyor,” dediler.
Son olarak Jules, GitHub yazılım geliştirme platformuyla bütünleşen deneysel bir AI kod aracısıdır. DeepMind yöneticilerine göre, “Bir geliştiricinin yönetimi ve denetimi altında bir sorunu ele alabilir, bir plan geliştirebilir ve bunu uygulayabilir.” “Bu çaba, kodlama dahil tüm alanlarda yardımcı olan AI aracıları oluşturma konusundaki uzun vadeli hedefimizin bir parçasıdır.”
Gemini 2.0 daha fazla Google ürününe geliyor
Pichai, Gemini 2.0’ın Google’ın Arama’daki AI Genel Bakış özelliğinde sınırlı bir şekilde test edildiğini ve modelin gelişmiş akıl yürütme yeteneklerinin “gelişmiş matematik denklemleri, çok modlu sorgular ve kodlama dahil olmak üzere daha karmaşık konuları ve çok adımlı soruları ele almak” için kullanıldığını söyledi. Özelliğin önümüzdeki yılın başlarında daha geniş bir şekilde kullanıma sunulacağını söyledi.
“Gelecek yılın başlarında, Gemini 2.0’ı daha fazla Google ürününe genişleteceğiz,” dedi. “Hiçbir ürün AI tarafından Arama’dan daha fazla dönüştürülmemiştir. AI Genel Bakışlarımız artık bir milyar kişiye ulaşıyor ve bu da onların tamamen yeni türde sorular sormasına olanak sağlıyor; bu da hızla şimdiye kadarki en popüler Arama özelliklerimizden biri haline geliyor.”
En son sayıyı keşfedinAI Dergisive küresel konferans serimizdeki sohbetin bir parçası olun,Teknoloji ve Yapay Zeka CANLI.
Discover all our upcoming events and secure your tickets today.
AI Magazine is a BizClik brand