HomeSorted by levelC1 - AdvancedGoogle’s Gemini Omni turns images, audio, and text into video — and...

Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start

[Reading level: C1 – Advanced]

When Google launched Gemini three years ago, the goal was to build a multimodal large language model — a single neural network that was trained on text, image, audio, and video and could generate content in any of those formats.

 

Today, at its Google I/O developer conference, the company took a concrete step toward that goal with Gemini Omni, a new family of multimodal models that Google CEO Sundar Pichai says will be able to “create anything from any input.”

 

Omni will start with video. Users can now combine images, audio, video, and text, and rather than simply stitching those inputs together, Omni reasons across all of them to produce a consistent output. The result is high-quality videos that reflect an understanding of physics, culture, history, and science.

 

Omni also lets users edit photos with plain text commands rather than complex editing software, similar to Google’s Nano Banana.

 

 

Google already has a dedicated video model, Veo, that lets users turn text and images into videos, and even direct and customize avatars. But Google DeepMind director of product management Nicole Brichtova says that today’s release is more than a Veo update: “It’s the next step towards the progression of combining the intelligence of Gemini with the rendering capabilities of our media models.”

 

One example that Koray Kavukcuoglu, DeepMind’s chief technologist, gave reporters during a media briefing on Monday: When Omni was given a simple prompt like “a claymation explainer of protein folding,” it quickly rendered a video of a stop-motion explainer with a voice-over that said, “Proteins start as chains of amino acids. They fold into patterns like the alpha helix and flat sections called beta sheets, forming a perfect three-dimensional shape.”

 

The long-term vision for Omni is broader, involving the model being used to do things like generate images from audio, or audio from video.

 

“When we first announced Gemini, it was our first AI model to be natively multimodal,” Pichai said during the briefing. “We knew that training it on a combination of text, code, audio, images, and video would give it a deeper understanding of the world. With world models, AI is moving from predicting text to simulating reality. Gemini Omni is the next step in that direction.”

 

As part of the release, users will also be able to create videos with their own digital avatars — something OpenAI popularized on its now-defunct Sora app with Cameos. To prevent deepfakes, users will have to go through a dedicated product onboarding, which involves recording themselves and speaking out a series of numbers, per Brichtova. The avatar then gets stored for future use.

 

Additionally, all videos created with Omni will include Google’s SynthID digital watermark, which allows users to verify if videos were generated via the Gemini products.

 

The first model in the family is Gemini Omni Flash, which will roll out today to the Gemini app, YouTube Shorts, and AI creative studio Flow. Flash will be capable of rendering 10 seconds of video, which Brichtova says isn’t a model limitation, but rather a decision based both on a desire to get it into more hands and an anticipation that most users won’t want to make much longer videos yet. Longer video durations are in the pipeline for the near future, though.

 

Google seems to be pitching Omni Flash as more of a consumer tool. The examples Brichtova and Gabe Barth-Maron, a research engineer at DeepMind, gave on a call with TechCrunch of uses for digital avatars were all personal: Making a video of yourself winning an award or going to the moon, or removing a passerby from the background of a video you took on vacation.

 

Barth-Maron put it more simply: “They’re like personalized memes.”

 

“We definitely did focus on making this easy to use for consumers,” Brichtova said. “Not many video models have breached that chasm with consumers, so this is our play to do that.”

 

The ease of use comes with a caveat: Brichtova and Barth-Maron noted that editing prompts will need to be highly specific, otherwise Omni risks over-editing or unintentionally altering elements the user wanted to keep — a problem Nano Banana users would have run into.

 

Source: https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start/?utm_source=chatgpt.com

WORD BANK:

launch sth /lɔːntʃ/ [B2] (v): ra mắt

multimodal /ˌmʌl.tiˈmoʊ.dəl/ (adj): đa phương thức

neural /ˈnʊr.əl/ (adj): thuộc thần kinh; nơ-ron

conference /ˈkɑːn.fɚ.əns/ [B1] (n): hội nghị

take a concrete step toward sth /teɪk ə ˈkɑːn.kriːt step təˈwɔːrd/ (v): thực hiện một bước đi cụ thể hướng tới điều gì

stitch sth together /stɪtʃ təˈɡeð.ɚ/ (v): ghép cái gì lại với nhau

reason /ˈriː.zən/ [B2] (v): suy luận

across sth /əˈkrɑːs/ (pre): trên khắp; xuyên suốt cái gì

consistent /kənˈsɪs.tənt/ [B2] (adj): nhất quán

command /kəˈmænd/ [B1] (n): lệnh

dedicated /ˈded.ə.keɪ.t̬ɪd/ [B2] (adj): chuyên dụng; tận tâm

customize sth /ˈkʌs.tə.maɪz/ (v): tùy chỉnh cái gì

progression /prəˈɡreʃ.ən/ (n): sự tiến triển

render /ˈren.dɚ/ (v): dựng hình

rendering /ˈren.dɚ.ɪŋ/ (n): sự dựng hình

chief technologist /tʃiːf tekˈnɑː.lə.dʒɪst/ (n): giám đốc công nghệ

media briefing /ˈmiː.di.ə ˈbriː.fɪŋ/ (n): buổi họp báo truyền thông

prompt /prɑːmpt/ [B2] (n): câu lệnh; yêu cầu đầu vào

claymation /kleɪˈmeɪ.ʃən/ (n): hoạt hình đất sét

protein folding /ˈproʊ.t̬iːn ˈfoʊl.dɪŋ/ (n): sự gấp cuộn protein

voice-over /ˈvɔɪsˌoʊ.vɚ/ (n): lời thuyết minh

helix /ˈhiː.lɪks/ (n): hình xoắn ốc

natively /ˈneɪ.t̬ɪv.li/ (adv): một cách nguyên bản

simulate sth /ˈsɪm.jə.leɪt/ [C1] (v): mô phỏng cái gì

now-defunct /ˌnaʊ.dɪˈfʌŋkt/ (adj): nay đã ngừng hoạt động

go through sth /ɡoʊ θruː/ [B1] (v): trải qua

product onboarding /ˈprɑː.dʌkt ˈɑːnˌbɔːr.dɪŋ/ (n): quy trình thiết lập/làm quen sản phẩm

per sb /pɝː/ (pre): theo lời ai; theo ai

verify sth /ˈver.ə.faɪ/ [B2] (v): xác minh cái gì

roll out /roʊl aʊt/ (v): triển khai

desire to do sth /dɪˈzaɪɚ tə duː/ (n): mong muốn làm gì

anticipation /ænˌtɪs.əˈpeɪ.ʃən/ (n): sự dự đoán; mong đợi

be in the pipeline /bi ɪn ðə ˈpaɪp.laɪn/ (phr): đang được chuẩn bị; đang trong quá trình phát triển

pitch sth as sth /pɪtʃ æz/ (v): quảng bá/cung cấp cái gì như là cái gì

consumer tool /kənˈsuː.mɚ tuːl/ (n): công cụ dành cho người tiêu dùng

passerby /ˌpæs.ɚˈbaɪ/ (n): người đi ngang qua

breach sth /briːtʃ/ [C2] (v): vượt qua; phá vỡ

chasm /ˈkæz.əm/ (n): vực sâu; khoảng cách lớn

play /pleɪ/ (n): cách làm; chiến lược

ease /iːz/ [B2] (n): sự dễ dàng

caveat /ˈkæv.i.æt/ (n): điều cảnh báo; lưu ý

alter sth /ˈɑːl.tɚ/ [B2] (v): thay đổi cái gì

run into (a problem) /rʌn ˈɪn.t̬uː/ [B2] (v): gặp phải (vấn đề)


NG HỘ READ TO LEAD!

Chào bạn! Có thể bạn chưa biết, Read to Lead là một trang giáo dục phi lợi nhuận với mục đích góp phần phát triển cộng đồng người học tiếng Anh tại Việt Nam. Chúng tôi không yêu cầu người đọc phải trả bất kỳ chi phí nào để sử dụng các sản phẩm của mình để mọi người đều có cơ hội học tập tốt hơn. Tuy nhiên, nếu bạn có thể, chúng tôi mong nhận được sự hỗ trợ tài chính từ bạn để duy trì hoạt động của trang và phát triển các sản phẩm mới.

Bạn có thể ủng hộ chúng tôi qua 1 trong 2 cách dưới đây.
– Cách 1: Chuyển tiền qua tài khoản Momo.
Số điện thoại 0947.886.865 (Chủ tài khoản: Nguyễn Tiến Trung)
Nội dung chuyển tiền: Ủng hộ Read to Lead
hoặc
– Cách 2: Chuyển tiền qua tài khoản ngân hàng.
Ngân hàng VIB chi nhánh Hải Phòng
Số tài khoản: 012704060048394 (Chủ tài khoản: Nguyễn Tiến Trung)
Nội dung chuyển tiền: Ủng hộ Read to Lead


Lớp luyện thi IELTS online

Bạn đang có nhu cầu thi chứng chỉ IELTS cho đầu vào đại học, đi du học, xin việc hay xin cư trú và đang phân vân chưa biết học ở đâu?

Nếu bạn đang tìm kiếm dịch vụ luyện thi IELTS online với giáo viên uy tín và chất lượng, cũng như học phí phải chăng, thì thầy TrungCô Thủy (Admin và dịch giả chính của Read to Lead) có thể là một lựa chọn phù hợp dành cho bạn. 

Hãy liên hệ (nhắn tin) tới trang Facebook cá nhân của mình (https://www.facebook.com/nguyen.trung.509) để tìm hiểu về lớp học và được tư vấn cũng như được học thử nha!

 

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisment -
Google search engine

Most Popular