Generative AI là AI tạo sinh, đây là một bước tiến vượt bậc của trí tuệ nhân tạo (AI). Không dừng lại ở việc trích xuất câu trả lời từ kho dữ liệu đầu vào, Generative AI có khả năng tạo ra các nội dung mới lạ như văn bản, âm thanh, hoạt ảnh, đồ họa 3D, video và nhiều loại dữ liệu khác. Những nội dung này có sự tổng hợp và “tư duy” như người thật.
1. Generative AI là gì ?
Generative AI (GenAI), còn được gọi là AI tạo sinh, cho phép người dùng nhập nhiều loại yêu cầu để tạo ra nội dung mới, như văn bản, hình ảnh, video, âm thanh, mã, thiết kế 3D và các phương tiện truyền thông khác. AI này được huấn luyện trên các tài liệu và dữ liệu đã tồn tại trên mạng.
Generative AI đang phát triển khi nó tiếp tục huấn luyện trên nhiều dữ liệu hơn. Nó hoạt động dựa trên các mô hình và thuật toán AI được huấn luyện trên các bộ dữ liệu lớn chưa được gán nhãn, đòi hỏi các phép toán phức tạp và nhiều sức mạnh tính toán để tạo ra. Các bộ dữ liệu này huấn luyện AI để dự đoán kết quả theo cách con người có thể hành động hoặc sáng tạo.
Theo Gartner dự đoán, Generative AI sẽ tạo ra tác động ngày càng mạnh mẽ đối với các doanh nghiệp trong 5 năm tới. Đến năm 2024, 40% ứng dụng doanh nghiệp sẽ được nhúng AI đàm thoại, tăng từ mức dưới 5% vào năm 2020. Đến năm 2025, 30% doanh nghiệp sẽ triển khai chiến lược thử nghiệm và phát triển có hỗ trợ AI, tăng từ mức 5% vào năm 2021.(1)
2. Cách thức hoạt động của GenAI
Generative AI chủ yếu hoạt động qua ba giai đoạn:
- Huấn luyện: tạo ra một mô hình nền tảng có thể làm cơ sở cho nhiều ứng dụng AI tạo sinh khác nhau.
- Điều chỉnh: tùy chỉnh mô hình nền tảng theo từng ứng dụng AI tạo sinh cụ thể.
- Tạo, đánh giá và điều chỉnh lại: đánh giá đầu ra của ứng dụng AI tạo sinh và liên tục cải thiện chất lượng và độ chính xác của nó.
2.1. Huấn luyện
Trí tuệ nhân tạo tạo sinh bắt đầu với một mô hình nền tảng – đây là loại mô hình học sâu được huấn luyện để làm cơ sở cho nhiều ứng dụng AI khác nhau. Các mô hình phổ biến nhất hiện nay là mô hình ngôn ngữ lớn (LLM), được sử dụng để tạo văn bản, nhưng cũng có các mô hình để tạo hình ảnh, video, âm thanh và âm nhạc. Ngoài ra, còn có các mô hình đa phương thức có khả năng tạo nhiều loại nội dung khác nhau.
Để xây dựng một mô hình nền tảng, thuật toán học sâu cần được huấn luyện với một lượng dữ liệu khổng lồ, thường là dữ liệu thô không có cấu trúc như văn bản, hình ảnh, video từ internet. Trong quá trình này, AI sẽ thực hiện hàng triệu bài tập dự đoán, như “điền vào chỗ trống” trong văn bản, dự đoán phần tiếp theo trong hình ảnh hoặc dòng mã. Mỗi lần AI dự đoán sai, nó sẽ tự điều chỉnh để dần dần cải thiện độ chính xác.
Kết quả của quá trình huấn luyện là một mạng lưới nơ-ron – mô hình này có thể hiểu và tạo ra nội dung mới dựa trên dữ liệu đầu vào. Tuy nhiên, việc huấn luyện này tốn rất nhiều tài nguyên và chi phí, thường cần đến hàng nghìn đơn vị xử lý đồ họa (GPU) và hàng triệu đô la để hoàn thành.
Nhờ các dự án mã nguồn mở như Llama-2 của Meta, các nhà phát triển có thể tiết kiệm chi phí và thời gian khi sử dụng những mô hình đã được huấn luyện sẵn này.
2.2. Điều chỉnh
Nói một cách dễ hiểu, mô hình nền tảng giống như một chuyên gia tổng quát – nó biết rất nhiều thứ về nhiều chủ đề khác nhau, nhưng để tạo ra kết quả chính xác hoặc phù hợp cho một nhiệm vụ cụ thể, mô hình cần được tinh chỉnh.
Tinh chỉnh là quá trình cung cấp cho mô hình dữ liệu được gắn nhãn cho một ứng dụng cụ thể. Ví dụ, nếu muốn tạo một chatbot hỗ trợ khách hàng, nhóm phát triển sẽ thu thập hàng trăm hoặc hàng nghìn câu hỏi và câu trả lời về dịch vụ khách hàng. Những dữ liệu này sau đó được đưa vào mô hình để huấn luyện nó phản hồi một cách chính xác và phù hợp theo yêu cầu.
Quá trình tinh chỉnh tốn khá nhiều công sức và thời gian. Thường thì các công ty phát triển sẽ thuê ngoài các đơn vị chuyên gắn nhãn dữ liệu để hỗ trợ công việc này.
Trong kỹ thuật học tăng cường, con người sẽ đưa ra phản hồi về các nội dung mà AI đã tạo ra. Họ có thể đánh giá và xếp hạng các đầu ra hoặc đơn giản là sửa lỗi trực tiếp trong cuộc trò chuyện với chatbot hoặc trợ lý ảo. AI sử dụng phản hồi này để điều chỉnh và cải thiện tính chính xác, sự liên quan của nội dung mà nó tạo ra.
Phương pháp này giúp mô hình học từ những tương tác thực tế, nâng cao chất lượng đầu ra theo thời gian.
2.3. Tạo, đánh giá và điều chỉnh lại
Các nhà phát triển và người dùng liên tục đánh giá và tinh chỉnh kết quả từ các ứng dụng AI tạo sinh để cải thiện độ chính xác và sự liên quan. Việc điều chỉnh này có thể diễn ra rất thường xuyên, thậm chí mỗi tuần một lần. Trong khi đó, mô hình nền tảng thường được cập nhật với tần suất ít hơn nhiều, có thể chỉ một lần mỗi năm hoặc mỗi 18 tháng.
Một phương pháp khác để cải thiện hiệu suất của ứng dụng AI tạo sinh là retrieval augmented generation (RAG). Đây là một khuôn khổ mở rộng mô hình nền tảng, cho phép sử dụng thêm các nguồn thông tin bên ngoài dữ liệu đào tạo gốc. Điều này giúp mô hình bổ sung và tinh chỉnh các tham số hoặc biểu diễn, đảm bảo rằng ứng dụng AI tạo sinh luôn có quyền truy cập vào thông tin mới nhất.
Một ưu điểm của RAG là các nguồn bổ sung mà AI truy cập sẽ được hiển thị rõ ràng và minh bạch với người dùng, khác với kiến thức được tích hợp sẵn trong mô hình nền tảng mà đôi khi không rõ ràng về nguồn gốc.
3. Sự khác biệt giữa AI truyền thống và GenAI
(5)
GenAI tập trung vào việc tạo ra nội dung mới và độc đáo, như phản hồi trò chuyện, thiết kế, dữ liệu tổng hợp hoặc thậm chí là deepfake. Nó đặc biệt hữu ích trong các lĩnh vực sáng tạo và giải quyết vấn đề mới lạ, vì GenAI có thể tự động tạo ra nhiều loại đầu ra mới mẻ.
GenAI dựa vào các kỹ thuật mạng nơ-ron tiên tiến như bộ biến đổi (Transformers), GAN (Generative Adversarial Networks) và VAE (Variational Autoencoders). Ngược lại, các loại AI truyền thống sử dụng các kỹ thuật khác như mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi quy (RNN) và học tăng cường.
GenAI thường khởi đầu bằng một lời nhắc – một yêu cầu từ người dùng hoặc nguồn dữ liệu để hướng dẫn quá trình tạo nội dung. Quá trình này có thể lặp đi lặp lại để khám phá nhiều biến thể khác nhau. Trong khi đó, các thuật toán AI truyền thống tuân theo một bộ quy tắc đã được xác định trước để xử lý dữ liệu và tạo ra kết quả dự đoán.
Cả hai cách tiếp cận này đều có điểm mạnh và điểm yếu riêng, tùy thuộc vào vấn đề cần giải quyết. GenAI phù hợp hơn với các nhiệm vụ liên quan đến xử lý ngôn ngữ tự nhiên (NLP) và yêu cầu phải tạo nội dung mới, trong khi các thuật toán truyền thống lại hiệu quả hơn với những tác vụ cần xử lý dữ liệu theo quy tắc và kết quả được xác định rõ ràng.
4. Một số công cụ GenAI hiện nay
Các công cụ AI tạo ra tồn tại cho nhiều phương thức khác nhau, chẳng hạn như văn bản, hình ảnh, âm nhạc, mã và giọng nói. Một số trình tạo nội dung AI phổ biến để khám phá bao gồm:
- Các công cụ tạo văn bản bao gồm GPT, Jasper, AI-Writer và Lex.
- Các công cụ tạo hình ảnh bao gồm Dall-E 2, Midjourney và Stable Diffusion.
- Các công cụ tạo nhạc bao gồm Suno, Amper, Dadabots và MuseNet.
- Các công cụ tạo mã bao gồm CodeStarter, Codex, GitHub Copilot và Tabnine.
- Các công cụ tổng hợp giọng nói bao gồm Descript, Listnr và Podcast.ai.
- Ngoài ra, các công ty sản xuất công cụ thiết kế chip AI bao gồm Synopsys, Cadence, Google và Nvidia.
Nguồn tham khảo: