Discovery Science & Technology Sorted by level C1 - Advanced

Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start

22 Tháng 5, 2026

236

[Reading level: C1 – Advanced]

When Google launched Gemini three years ago, the goal was to build a multimodal large language model — a single neural network that was trained on text, image, audio, and video and could generate content in any of those formats.

Hiển thị tiếng Việt

Khi Google ra mắt Gemini cách đây ba năm, mục tiêu là xây dựng một mô hình ngôn ngữ lớn đa phương thức — một mạng nơ-ron duy nhất được huấn luyện trên văn bản, hình ảnh, âm thanh và video, đồng thời có thể tạo nội dung dưới bất kỳ định dạng nào trong số đó.

Today, at its Google I/O developer conference, the company took a concrete step toward that goal with Gemini Omni, a new family of multimodal models that Google CEO Sundar Pichai says will be able to “create anything from any input.”

Hiển thị tiếng Việt

Hôm nay, tại hội nghị dành cho nhà phát triển Google I/O, công ty đã tiến thêm một bước cụ thể hướng tới mục tiêu đó với Gemini Omni, một dòng mô hình đa phương thức mới mà CEO Google Sundar Pichai cho biết sẽ có thể “tạo ra bất cứ thứ gì từ bất kỳ đầu vào nào.”

Omni will start with video. Users can now combine images, audio, video, and text, and rather than simply stitching those inputs together, Omni reasons across all of them to produce a consistent output. The result is high-quality videos that reflect an understanding of physics, culture, history, and science.

Hiển thị tiếng Việt

Omni sẽ bắt đầu với video. Giờ đây, người dùng có thể kết hợp hình ảnh, âm thanh, video và văn bản, và thay vì chỉ đơn giản ghép các đầu vào đó lại với nhau, Omni suy luận trên tất cả dữ liệu đó để tạo ra một đầu ra nhất quán. Kết quả là những video chất lượng cao phản ánh sự hiểu biết về vật lý, văn hóa, lịch sử và khoa học.

Omni also lets users edit photos with plain text commands rather than complex editing software, similar to Google’s Nano Banana.

Hiển thị tiếng Việt

Omni cũng cho phép người dùng chỉnh sửa ảnh bằng các lệnh văn bản thông thường thay vì phần mềm chỉnh sửa phức tạp, tương tự như Nano Banana của Google.

Google already has a dedicated video model, Veo, that lets users turn text and images into videos, and even direct and customize avatars. But Google DeepMind director of product management Nicole Brichtova says that today’s release is more than a Veo update: “It’s the next step towards the progression of combining the intelligence of Gemini with the rendering capabilities of our media models.”

Hiển thị tiếng Việt

Google hiện đã có một mô hình video chuyên dụng mang tên Veo, cho phép người dùng biến văn bản và hình ảnh thành video, thậm chí còn có thể điều khiển và tùy chỉnh avatar. Nhưng Nicole Brichtova, giám đốc quản lý sản phẩm của Google DeepMind, cho biết bản phát hành hôm nay không chỉ đơn thuần là một bản cập nhật của Veo: “Đây là bước tiếp theo trong quá trình kết hợp trí tuệ của Gemini với khả năng dựng hình của các mô hình truyền thông của chúng tôi.”

One example that Koray Kavukcuoglu, DeepMind’s chief technologist, gave reporters during a media briefing on Monday: When Omni was given a simple prompt like “a claymation explainer of protein folding,” it quickly rendered a video of a stop-motion explainer with a voice-over that said, “Proteins start as chains of amino acids. They fold into patterns like the alpha helix and flat sections called beta sheets, forming a perfect three-dimensional shape.”

Hiển thị tiếng Việt

Một ví dụ mà Koray Kavukcuoglu, giám đốc công nghệ của DeepMind, đưa ra với các phóng viên trong buổi họp báo hôm thứ Hai: Khi Omni được cung cấp một câu lệnh đơn giản như “một video giải thích về sự gấp cuộn protein bằng hoạt hình đất sét,” nó nhanh chóng dựng nên một video giải thích dạng stop-motion với lời thuyết minh: “Protein bắt đầu như những chuỗi axit amin. Chúng gấp lại thành các cấu trúc như xoắn alpha và các phần phẳng gọi là beta sheet, tạo thành một hình dạng ba chiều hoàn chỉnh.”

The long-term vision for Omni is broader, involving the model being used to do things like generate images from audio, or audio from video.

Hiển thị tiếng Việt

Tầm nhìn dài hạn của Omni còn rộng hơn, bao gồm việc mô hình này được sử dụng để tạo hình ảnh từ âm thanh, hoặc tạo âm thanh từ video.

“When we first announced Gemini, it was our first AI model to be natively multimodal,” Pichai said during the briefing. “We knew that training it on a combination of text, code, audio, images, and video would give it a deeper understanding of the world. With world models, AI is moving from predicting text to simulating reality. Gemini Omni is the next step in that direction.”

Hiển thị tiếng Việt

“Khi lần đầu công bố Gemini, đó là mô hình AI đầu tiên của chúng tôi được xây dựng theo hướng đa phương thức nguyên bản,” Sundar Pichai phát biểu trong buổi họp báo. “Chúng tôi biết rằng việc huấn luyện nó trên sự kết hợp giữa văn bản, mã lập trình, âm thanh, hình ảnh và video sẽ mang lại cho nó sự hiểu biết sâu sắc hơn về thế giới. Với các mô hình thế giới (world models), AI đang chuyển từ việc dự đoán văn bản sang mô phỏng thực tại. Gemini Omni là bước tiếp theo theo hướng đó.”

As part of the release, users will also be able to create videos with their own digital avatars — something OpenAI popularized on its now-defunct Sora app with Cameos. To prevent deepfakes, users will have to go through a dedicated product onboarding, which involves recording themselves and speaking out a series of numbers, per Brichtova. The avatar then gets stored for future use.

Hiển thị tiếng Việt

Là một phần của đợt phát hành này, người dùng cũng sẽ có thể tạo video với các avatar kỹ thuật số của riêng mình — điều mà OpenAI từng phổ biến trên ứng dụng Sora nay đã ngừng hoạt động với tính năng Cameos. Để ngăn chặn deepfake, người dùng sẽ phải trải qua một quy trình thiết lập sản phẩm riêng biệt, bao gồm việc tự quay video bản thân và đọc to một dãy số, theo lời Brichtova. Avatar sau đó sẽ được lưu lại để sử dụng trong tương lai.

Additionally, all videos created with Omni will include Google’s SynthID digital watermark, which allows users to verify if videos were generated via the Gemini products.

Hiển thị tiếng Việt

Ngoài ra, tất cả các video được tạo bằng Omni sẽ bao gồm watermark kỹ thuật số SynthID của Google, cho phép người dùng xác minh liệu video có được tạo ra thông qua các sản phẩm Gemini hay không.

The first model in the family is Gemini Omni Flash, which will roll out today to the Gemini app, YouTube Shorts, and AI creative studio Flow. Flash will be capable of rendering 10 seconds of video, which Brichtova says isn’t a model limitation, but rather a decision based both on a desire to get it into more hands and an anticipation that most users won’t want to make much longer videos yet. Longer video durations are in the pipeline for the near future, though.

Hiển thị tiếng Việt

Mô hình đầu tiên trong dòng sản phẩm này là Gemini Omni Flash, sẽ được triển khai ngay hôm nay trên ứng dụng Gemini, YouTube Shorts và studio sáng tạo AI Flow. Flash sẽ có khả năng dựng video dài 10 giây, điều mà Brichtova cho biết không phải giới hạn của mô hình, mà là một quyết định dựa trên mong muốn đưa công nghệ này đến tay nhiều người hơn cũng như dự đoán rằng phần lớn người dùng hiện tại chưa muốn tạo các video dài hơn. Tuy nhiên, thời lượng video dài hơn đang được lên kế hoạch trong tương lai gần.

Google seems to be pitching Omni Flash as more of a consumer tool. The examples Brichtova and Gabe Barth-Maron, a research engineer at DeepMind, gave on a call with TechCrunch of uses for digital avatars were all personal: Making a video of yourself winning an award or going to the moon, or removing a passerby from the background of a video you took on vacation.

Hiển thị tiếng Việt

Google dường như đang định vị Omni Flash như một công cụ dành cho người tiêu dùng hơn. Những ví dụ mà Brichtova và Gabe Barth-Maron, kỹ sư nghiên cứu tại DeepMind, đưa ra trong cuộc gọi với TechCrunch về việc sử dụng avatar kỹ thuật số đều mang tính cá nhân: tạo video bản thân giành giải thưởng hoặc đặt chân lên Mặt Trăng, hay xóa một người đi ngang qua khỏi hậu cảnh của video quay trong kỳ nghỉ.

Barth-Maron put it more simply: “They’re like personalized memes.”

Hiển thị tiếng Việt

Barth-Maron diễn đạt đơn giản hơn: “Chúng giống như những meme được cá nhân hóa.”

“We definitely did focus on making this easy to use for consumers,” Brichtova said. “Not many video models have breached that chasm with consumers, so this is our play to do that.”

Hiển thị tiếng Việt

“Chúng tôi chắc chắn đã tập trung vào việc làm cho công cụ này dễ sử dụng đối với người tiêu dùng,” Brichtova nói. “Không nhiều mô hình video vượt qua được khoảng cách đó với người dùng phổ thông, vì vậy đây là cách chúng tôi tiếp cận vấn đề.”

The ease of use comes with a caveat: Brichtova and Barth-Maron noted that editing prompts will need to be highly specific, otherwise Omni risks over-editing or unintentionally altering elements the user wanted to keep — a problem Nano Banana users would have run into.

Hiển thị tiếng Việt

Tính dễ sử dụng đó cũng đi kèm một lưu ý: Brichtova và Barth-Maron cho biết các câu lệnh chỉnh sửa sẽ cần phải cực kỳ cụ thể, nếu không Omni có nguy cơ chỉnh sửa quá mức hoặc vô tình thay đổi những yếu tố mà người dùng muốn giữ lại — một vấn đề mà người dùng Nano Banana có lẽ đã từng gặp phải.

Source: https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start/?utm_source=chatgpt.com

WORD BANK:

launch sth /lɔːntʃ/ [B2] (v): ra mắt

multimodal /ˌmʌl.tiˈmoʊ.dəl/ (adj): đa phương thức

neural /ˈnʊr.əl/ (adj): thuộc thần kinh; nơ-ron

conference /ˈkɑːn.fɚ.əns/ [B1] (n): hội nghị

take a concrete step toward sth /teɪk ə ˈkɑːn.kriːt step təˈwɔːrd/ (v): thực hiện một bước đi cụ thể hướng tới điều gì

stitch sth together /stɪtʃ təˈɡeð.ɚ/ (v): ghép cái gì lại với nhau

reason /ˈriː.zən/ [B2] (v): suy luận

across sth /əˈkrɑːs/ (pre): trên khắp; xuyên suốt cái gì

consistent /kənˈsɪs.tənt/ [B2] (adj): nhất quán

command /kəˈmænd/ [B1] (n): lệnh

dedicated /ˈded.ə.keɪ.t̬ɪd/ [B2] (adj): chuyên dụng; tận tâm

customize sth /ˈkʌs.tə.maɪz/ (v): tùy chỉnh cái gì

progression /prəˈɡreʃ.ən/ (n): sự tiến triển

render /ˈren.dɚ/ (v): dựng hình

rendering /ˈren.dɚ.ɪŋ/ (n): sự dựng hình

chief technologist /tʃiːf tekˈnɑː.lə.dʒɪst/ (n): giám đốc công nghệ

media briefing /ˈmiː.di.ə ˈbriː.fɪŋ/ (n): buổi họp báo truyền thông

prompt /prɑːmpt/ [B2] (n): câu lệnh; yêu cầu đầu vào

claymation /kleɪˈmeɪ.ʃən/ (n): hoạt hình đất sét

protein folding /ˈproʊ.t̬iːn ˈfoʊl.dɪŋ/ (n): sự gấp cuộn protein

voice-over /ˈvɔɪsˌoʊ.vɚ/ (n): lời thuyết minh

helix /ˈhiː.lɪks/ (n): hình xoắn ốc

natively /ˈneɪ.t̬ɪv.li/ (adv): một cách nguyên bản

simulate sth /ˈsɪm.jə.leɪt/ [C1] (v): mô phỏng cái gì

now-defunct /ˌnaʊ.dɪˈfʌŋkt/ (adj): nay đã ngừng hoạt động

go through sth /ɡoʊ θruː/ [B1] (v): trải qua

product onboarding /ˈprɑː.dʌkt ˈɑːnˌbɔːr.dɪŋ/ (n): quy trình thiết lập/làm quen sản phẩm

per sb /pɝː/ (pre): theo lời ai; theo ai

verify sth /ˈver.ə.faɪ/ [B2] (v): xác minh cái gì

roll out /roʊl aʊt/ (v): triển khai

desire to do sth /dɪˈzaɪɚ tə duː/ (n): mong muốn làm gì

anticipation /ænˌtɪs.əˈpeɪ.ʃən/ (n): sự dự đoán; mong đợi

be in the pipeline /bi ɪn ðə ˈpaɪp.laɪn/ (phr): đang được chuẩn bị; đang trong quá trình phát triển

pitch sth as sth /pɪtʃ æz/ (v): quảng bá/cung cấp cái gì như là cái gì

consumer tool /kənˈsuː.mɚ tuːl/ (n): công cụ dành cho người tiêu dùng

passerby /ˌpæs.ɚˈbaɪ/ (n): người đi ngang qua

breach sth /briːtʃ/ [C2] (v): vượt qua; phá vỡ

chasm /ˈkæz.əm/ (n): vực sâu; khoảng cách lớn

play /pleɪ/ (n): cách làm; chiến lược

ease /iːz/ [B2] (n): sự dễ dàng

caveat /ˈkæv.i.æt/ (n): điều cảnh báo; lưu ý

alter sth /ˈɑːl.tɚ/ [B2] (v): thay đổi cái gì

run into (a problem) /rʌn ˈɪn.t̬uː/ [B2] (v): gặp phải (vấn đề)

ỦNG HỘ READ TO LEAD!

Chào bạn! Có thể bạn chưa biết, Read to Lead là một trang giáo dục phi lợi nhuận với mục đích góp phần phát triển cộng đồng người học tiếng Anh tại Việt Nam. Chúng tôi không yêu cầu người đọc phải trả bất kỳ chi phí nào để sử dụng các sản phẩm của mình để mọi người đều có cơ hội học tập tốt hơn. Tuy nhiên, nếu bạn có thể, chúng tôi mong nhận được sự hỗ trợ tài chính từ bạn để duy trì hoạt động của trang và phát triển các sản phẩm mới.

Bạn có thể ủng hộ chúng tôi qua 1 trong 2 cách dưới đây.
– Cách 1: Chuyển tiền qua tài khoản Momo.
Số điện thoại 0947.886.865 (Chủ tài khoản: Nguyễn Tiến Trung)
Nội dung chuyển tiền: Ủng hộ Read to Lead
hoặc
– Cách 2: Chuyển tiền qua tài khoản ngân hàng.
Ngân hàng VIB chi nhánh Hải Phòng
Số tài khoản: 012704060048394 (Chủ tài khoản: Nguyễn Tiến Trung)
Nội dung chuyển tiền: Ủng hộ Read to Lead

Lớp luyện thi IELTS online

Bạn đang có nhu cầu thi chứng chỉ IELTS cho đầu vào đại học, đi du học, xin việc hay xin cư trú và đang phân vân chưa biết học ở đâu?

Nếu bạn đang tìm kiếm dịch vụ luyện thi IELTS online với giáo viên uy tín và chất lượng, cũng như học phí phải chăng, thì thầy Trung và Cô Thủy (Admin và dịch giả chính của Read to Lead) có thể là một lựa chọn phù hợp dành cho bạn.

Hãy liên hệ (nhắn tin) tới trang Facebook cá nhân của mình (https://www.facebook.com/nguyen.trung.509) để tìm hiểu về lớp học và được tư vấn cũng như được học thử nha!

Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start

[Mp4] How Japan saved its biggest city from collapse

Six things few people know about Thailand’s floating markets

Oyster divers in the Nhat Le river

LEAVE A REPLY Cancel reply

Most Popular

[Mp4] How Japan saved its biggest city from collapse

[Mp4] How many people does it take to make a cup of coffee?

Six things few people know about Thailand’s floating markets

Oyster divers in the Nhat Le river

EDITOR PICKS

[Mp4] How Japan saved its biggest city from collapse

[Mp4] How many people does it take to make a cup of coffee?

Six things few people know about Thailand’s floating markets

POPULAR POSTS

[Mp4] How Japan saved its biggest city from collapse

[Mp4] How many people does it take to make a cup of coffee?

Six things few people know about Thailand’s floating markets

POPULAR CATEGORY

ABOUT US

FOLLOW US