Stability mengumumkan Stable Diffusion 3, pembuat gambar AI generasi berikutnya

Perbesar / Difusi Stabil Generasi ke-3 dengan Vektor: Potret studio close-up bunglon dengan latar belakang hitam.

Stability AI pada hari Kamis mengumumkan Stable Diffusion 3, model sintesis gambar generasi berikutnya dengan bobot terbuka. Ini mengikuti pendahulunya dengan membuat gambar multi-subjek yang detail dengan peningkatan kualitas dan akurasi dalam pembuatan teks. Pengumuman singkat tersebut tidak disertai dengan demo publik, namun stabilitas Buka daftar tunggu Hari ini untuk mereka yang ingin mencobanya.

Stable mengatakan rangkaian model Stable Diffusion 3 (yang mengambil deskripsi teks yang disebut “prompt” dan mengubahnya menjadi gambar yang sesuai) memiliki ukuran berkisar antara 800 juta hingga 8 miliar parameter. Skala ini memungkinkan versi model yang berbeda untuk dijalankan secara lokal di berbagai perangkat — mulai dari ponsel cerdas hingga server. Ukuran parameter secara kasar sesuai dengan kemampuan model dalam hal jumlah detail yang dapat dihasilkannya. Model yang lebih besar juga memerlukan lebih banyak VRAM pada akselerator GPU agar dapat dijalankan.

Sejak tahun 2022, kami telah melihat Stable meluncurkan evolusi model pembuatan gambar AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, dan sekarang 3. Stabilitas telah terkenal karena menyediakan alternatif yang lebih terbuka terhadap model sintesis gambar berpemilik seperti DALL-E 3 OpenAI, meskipun bukannya tanpa kontroversi karena penggunaan pelatihan berhak cipta data. Bias dan potensi penyalahgunaan. (Hal ini menyebabkan tuntutan hukum yang belum terselesaikan.) Model difusi kondisi tunak bersifat open-weighted dan open-source, yang berarti bahwa model tersebut dapat dijalankan secara lokal dan disesuaikan untuk mengubah keluarannya.

Difusi Stabil Generasi ke-3 dengan Klaim: Karya seni epik seorang penyihir di puncak gunung pada malam hari mengeluarkan mantra kosmik ke langit gelap yang mengatakan “Difusi Stabil 3” terbuat dari energi warna-warni.
Gambar seorang nenek yang mengenakan kaus “Go big or go home” yang dibuat oleh Stable Diffusion 3 yang dibuat oleh AI.
Difusi stabil generasi ketiga dengan cepat: Tiga botol kaca bening di atas meja kayu. Yang sebelah kiri ada cairan berwarna merah dan bernomor 1. Yang di tengah ada cairan berwarna biru dan bernomor 2. Yang sebelah kanan ada cairan berwarna hijau dan bernomor 3.
Gambar yang dihasilkan AI dengan Difusi Stabil 3.
Difusi Stabil generasi ketiga dengan prompt: Seekor kuda menyeimbangkan di atas bola berwarna di lapangan dengan rumput hijau dan gunung di latar belakang.
Perbanyakan benda mati generasi ketiga dengan cepat: benda mati murung dari berbagai macam labu.
Difusi Stabil generasi ke-3 dengan prompt: Lukisan astronot menunggangi babi mengenakan tutu memegang payung merah muda, di tanah di samping babi ada seekor burung robin yang mengenakan topi, dan di sudut ada tulisan “Difusi Stabil”.
Difusi Stabil Generasi ke-3 Dengan Klaim: Di atas meja dapur terdapat kain bordir bertuliskan “Selamat Malam” dan bordir bayi harimau. Di samping kain itu ada lilin yang menyala. Pencahayaannya redup dan dramatis.
Difusi Stabil Generasi ke-3 dengan prompt: Gambar komputer desktop tahun 90an di meja kerja, dengan tulisan “Halo” di layar komputer. Di dinding sebagai latar belakang kita melihat grafiti indah dengan teks “SD3” yang sangat besar di dinding.

Mengenai perbaikan teknis, kata CEO Stability Imad Mushtaq buku Di

READ Setelah 7 tahun, Dragon Quest Builders akhirnya hadir di PC

Seperti yang dikatakan Mostaque, keluarga Stable menggunakan Diffusion 3 Struktur transformator difusimetode baru dalam membuat gambar menggunakan kecerdasan buatan yang menggantikan elemen penyusun gambar biasa (mis arsitektur UNET) untuk sistem yang bekerja pada potongan kecil gambar. Metode ini terinspirasi dari trafo yang pandai menangani pola dan rangkaian. Pendekatan ini tidak hanya meningkatkan efisiensi, tetapi juga dikatakan menghasilkan gambar dengan kualitas lebih tinggi.

Difusi Stabil 3 juga digunakan”Pencocokan aliran“, suatu teknik untuk membuat model kecerdasan buatan yang dapat membuat gambar dengan mempelajari cara beralih dari gangguan acak ke gambar terstruktur dengan lancar. Hal ini dilakukan tanpa harus mensimulasikan setiap langkah proses, dan sebaliknya berfokus pada arah atau aliran umum yang haruskah pembuatan gambar mengikuti.

Membandingkan output antara DALL-E 3 dan Stable Diffusion 3 OpenAI dengan router, "Gambar malam mobil sport dengan teks "SD3" Di sampingnya, mobil melaju di trek balap dengan kecepatan tinggi, dengan tulisan tanda jalan besar di atasnya — Perbesar / Perbandingan keluaran antara DALL-E 3 OpenAI dan Stable Diffusion 3 dengan klaim “Gambar malam mobil sport dengan teks 'SD3' di sampingnya, mobil di trek balap dengan kecepatan tinggi, rambu jalan besar dengan teks 'Lebih Cepat '.”

Kami tidak memiliki akses ke Stable Diffusion 3 (SD3), tetapi dari sampel yang kami temukan diposting di situs web Stable dan akun media sosial terkait, Generasi tersebut terlihat kira-kira sebanding dengan model montase foto modern lainnya saat ini. Termasuk DALL-E 3 yang disebutkan di atas, Adobe Firefly, Imagine with Meta AI, Midjourney, dan Google Imagen.

SD3 tampaknya menangani pembuatan teks dengan sangat baik dalam contoh yang diberikan oleh orang lain, yang kemungkinan besar dipilih dengan baik. Pembuatan teks telah menjadi kelemahan khusus pada model montase gambar sebelumnya, jadi meningkatkan kemampuan ini dalam bentuk bebas adalah suatu hal yang besar. Selain itu, akurasi kecepatannya (seberapa mirip dengan deskripsi pada petunjuknya) tampak serupa dengan DALL-E 3, namun kami belum mengujinya sendiri.

READ Remaster Blade Runner yang dikritik secara kritis sekarang menyertakan versi remaster di Steam

Meskipun Stable Diffusion 3 tidak tersedia secara luas, Stability mengatakan bahwa setelah pengujian selesai, bobotnya akan bebas diunduh dan dijalankan secara lokal. “Fase pratinjau ini, seperti model sebelumnya, sangat penting untuk mengumpulkan ide guna meningkatkan kinerja dan keamanannya sebelum dirilis secara terbuka,” tulis Stability.

Stabilitas telah diujicobakan dengan berbagai arsitektur montase gambar baru-baru ini. Selain SDXL dan SDXL Turbo, perusahaan baru mengumumkannya minggu lalu Kaskade yang stabilyang menggunakan proses tiga tahap untuk melapisi teks ke gambar.

Daftar gambar oleh Imad Mushtaq (AI untuk Stabilitas)

Petrina Cicero

“Hipster-friendly explorer. Award-winning coffee enthusiast. Analyst. Problem solver. Troublemaker.”

Stability mengumumkan Stable Diffusion 3, pembuat gambar AI generasi berikutnya

YouTube mengumumkan fitur kecerdasan buatan dari Google DeepMind untuk pembuat video pendek

Foto pabrik dari prototipe Switch 2 bocor

Fitur unggulan iOS 18: Peningkatan layar beranda menambah tingkat penyesuaian yang luar biasa pada iPhone [Video]

Vision-Box meluncurkan teknologi biometrik di Indonesia

Fed mempertaruhkan kemarahan Trump dengan penurunan suku bunga bersejarah

Ariana Grande, John Mulaney, Michael Keaton

Makhluk yang menjadi fosil mungkin bisa menjelaskan gambar membingungkan di dinding batu

Tinggalkan Balasan Batalkan balasan

More Stories