[Reading level: C1 – Advanced]
When Google launched Gemini three years ago, the goal was to build a multimodal large language model — a single neural network that was trained on text, image, audio, and video and could generate content in any of those formats.
Today, at its Google I/O developer conference, the company took a concrete step toward that goal with Gemini Omni, a new family of multimodal models that Google CEO Sundar Pichai says will be able to “create anything from any input.”
Omni will start with video. Users can now combine images, audio, video, and text, and rather than simply stitching those inputs together, Omni reasons across all of them to produce a consistent output. The result is high-quality videos that reflect an understanding of physics, culture, history, and science.
Omni also lets users edit photos with plain text commands rather than complex editing software, similar to Google’s Nano Banana.
Google already has a dedicated video model, Veo, that lets users turn text and images into videos, and even direct and customize avatars. But Google DeepMind director of product management Nicole Brichtova says that today’s release is more than a Veo update: “It’s the next step towards the progression of combining the intelligence of Gemini with the rendering capabilities of our media models.”
One example that Koray Kavukcuoglu, DeepMind’s chief technologist, gave reporters during a media briefing on Monday: When Omni was given a simple prompt like “a claymation explainer of protein folding,” it quickly rendered a video of a stop-motion explainer with a voice-over that said, “Proteins start as chains of amino acids. They fold into patterns like the alpha helix and flat sections called beta sheets, forming a perfect three-dimensional shape.”
The long-term vision for Omni is broader, involving the model being used to do things like generate images from audio, or audio from video.
“When we first announced Gemini, it was our first AI model to be natively multimodal,” Pichai said during the briefing. “We knew that training it on a combination of text, code, audio, images, and video would give it a deeper understanding of the world. With world models, AI is moving from predicting text to simulating reality. Gemini Omni is the next step in that direction.”
As part of the release, users will also be able to create videos with their own digital avatars — something OpenAI popularized on its now-defunct Sora app with Cameos. To prevent deepfakes, users will have to go through a dedicated product onboarding, which involves recording themselves and speaking out a series of numbers, per Brichtova. The avatar then gets stored for future use.
Additionally, all videos created with Omni will include Google’s SynthID digital watermark, which allows users to verify if videos were generated via the Gemini products.
The first model in the family is Gemini Omni Flash, which will roll out today to the Gemini app, YouTube Shorts, and AI creative studio Flow. Flash will be capable of rendering 10 seconds of video, which Brichtova says isn’t a model limitation, but rather a decision based both on a desire to get it into more hands and an anticipation that most users won’t want to make much longer videos yet. Longer video durations are in the pipeline for the near future, though.
Google seems to be pitching Omni Flash as more of a consumer tool. The examples Brichtova and Gabe Barth-Maron, a research engineer at DeepMind, gave on a call with TechCrunch of uses for digital avatars were all personal: Making a video of yourself winning an award or going to the moon, or removing a passerby from the background of a video you took on vacation.
Barth-Maron put it more simply: “They’re like personalized memes.”
“We definitely did focus on making this easy to use for consumers,” Brichtova said. “Not many video models have breached that chasm with consumers, so this is our play to do that.”
The ease of use comes with a caveat: Brichtova and Barth-Maron noted that editing prompts will need to be highly specific, otherwise Omni risks over-editing or unintentionally altering elements the user wanted to keep — a problem Nano Banana users would have run into.
Source: https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start/?utm_source=chatgpt.com
WORD BANK:
launch sth /lɔːntʃ/ [B2] (v): ra mắt
multimodal /ˌmʌl.tiˈmoʊ.dəl/ (adj): đa phương thức
neural /ˈnʊr.əl/ (adj): thuộc thần kinh; nơ-ron
conference /ˈkɑːn.fɚ.əns/ [B1] (n): hội nghị
take a concrete step toward sth /teɪk ə ˈkɑːn.kriːt step təˈwɔːrd/ (v): thực hiện một bước đi cụ thể hướng tới điều gì
stitch sth together /stɪtʃ təˈɡeð.ɚ/ (v): ghép cái gì lại với nhau
reason /ˈriː.zən/ [B2] (v): suy luận
across sth /əˈkrɑːs/ (pre): trên khắp; xuyên suốt cái gì
consistent /kənˈsɪs.tənt/ [B2] (adj): nhất quán
command /kəˈmænd/ [B1] (n): lệnh
dedicated /ˈded.ə.keɪ.t̬ɪd/ [B2] (adj): chuyên dụng; tận tâm
customize sth /ˈkʌs.tə.maɪz/ (v): tùy chỉnh cái gì
progression /prəˈɡreʃ.ən/ (n): sự tiến triển
render /ˈren.dɚ/ (v): dựng hình
rendering /ˈren.dɚ.ɪŋ/ (n): sự dựng hình
chief technologist /tʃiːf tekˈnɑː.lə.dʒɪst/ (n): giám đốc công nghệ
media briefing /ˈmiː.di.ə ˈbriː.fɪŋ/ (n): buổi họp báo truyền thông
prompt /prɑːmpt/ [B2] (n): câu lệnh; yêu cầu đầu vào
claymation /kleɪˈmeɪ.ʃən/ (n): hoạt hình đất sét
protein folding /ˈproʊ.t̬iːn ˈfoʊl.dɪŋ/ (n): sự gấp cuộn protein
voice-over /ˈvɔɪsˌoʊ.vɚ/ (n): lời thuyết minh
helix /ˈhiː.lɪks/ (n): hình xoắn ốc
natively /ˈneɪ.t̬ɪv.li/ (adv): một cách nguyên bản
simulate sth /ˈsɪm.jə.leɪt/ [C1] (v): mô phỏng cái gì
now-defunct /ˌnaʊ.dɪˈfʌŋkt/ (adj): nay đã ngừng hoạt động
go through sth /ɡoʊ θruː/ [B1] (v): trải qua
product onboarding /ˈprɑː.dʌkt ˈɑːnˌbɔːr.dɪŋ/ (n): quy trình thiết lập/làm quen sản phẩm
per sb /pɝː/ (pre): theo lời ai; theo ai
verify sth /ˈver.ə.faɪ/ [B2] (v): xác minh cái gì
roll out /roʊl aʊt/ (v): triển khai
desire to do sth /dɪˈzaɪɚ tə duː/ (n): mong muốn làm gì
anticipation /ænˌtɪs.əˈpeɪ.ʃən/ (n): sự dự đoán; mong đợi
be in the pipeline /bi ɪn ðə ˈpaɪp.laɪn/ (phr): đang được chuẩn bị; đang trong quá trình phát triển
pitch sth as sth /pɪtʃ æz/ (v): quảng bá/cung cấp cái gì như là cái gì
consumer tool /kənˈsuː.mɚ tuːl/ (n): công cụ dành cho người tiêu dùng
passerby /ˌpæs.ɚˈbaɪ/ (n): người đi ngang qua
breach sth /briːtʃ/ [C2] (v): vượt qua; phá vỡ
chasm /ˈkæz.əm/ (n): vực sâu; khoảng cách lớn
play /pleɪ/ (n): cách làm; chiến lược
ease /iːz/ [B2] (n): sự dễ dàng
caveat /ˈkæv.i.æt/ (n): điều cảnh báo; lưu ý
alter sth /ˈɑːl.tɚ/ [B2] (v): thay đổi cái gì
run into (a problem) /rʌn ˈɪn.t̬uː/ [B2] (v): gặp phải (vấn đề)
ỦNG HỘ READ TO LEAD!
Chào bạn! Có thể bạn chưa biết, Read to Lead là một trang giáo dục phi lợi nhuận với mục đích góp phần phát triển cộng đồng người học tiếng Anh tại Việt Nam. Chúng tôi không yêu cầu người đọc phải trả bất kỳ chi phí nào để sử dụng các sản phẩm của mình để mọi người đều có cơ hội học tập tốt hơn. Tuy nhiên, nếu bạn có thể, chúng tôi mong nhận được sự hỗ trợ tài chính từ bạn để duy trì hoạt động của trang và phát triển các sản phẩm mới.
Bạn có thể ủng hộ chúng tôi qua 1 trong 2 cách dưới đây.
– Cách 1: Chuyển tiền qua tài khoản Momo.
Số điện thoại 0947.886.865 (Chủ tài khoản: Nguyễn Tiến Trung)
Nội dung chuyển tiền: Ủng hộ Read to Lead
hoặc
– Cách 2: Chuyển tiền qua tài khoản ngân hàng.
Ngân hàng VIB chi nhánh Hải Phòng
Số tài khoản: 012704060048394 (Chủ tài khoản: Nguyễn Tiến Trung)
Nội dung chuyển tiền: Ủng hộ Read to Lead
Lớp luyện thi IELTS online
Bạn đang có nhu cầu thi chứng chỉ IELTS cho đầu vào đại học, đi du học, xin việc hay xin cư trú và đang phân vân chưa biết học ở đâu?
Nếu bạn đang tìm kiếm dịch vụ luyện thi IELTS online với giáo viên uy tín và chất lượng, cũng như học phí phải chăng, thì thầy Trung và Cô Thủy (Admin và dịch giả chính của Read to Lead) có thể là một lựa chọn phù hợp dành cho bạn.
Hãy liên hệ (nhắn tin) tới trang Facebook cá nhân của mình (https://www.facebook.com/nguyen.trung.509) để tìm hiểu về lớp học và được tư vấn cũng như được học thử nha!




