A inteligência artificial está avançando para além da compreensão textual: hoje, modelos capazes de interpretar imagens, sons e texto simultaneamente estão transformando a maneira como interagimos com máquinas. Neste livro, exploramos o poder dos Modelos de Linguagem Multimodal (MLLMs) com foco em aplicações práticas utilizando a linguagem Python e ferramentas modernas como o Hugging Face Transformers.
Por meio de exemplos claros e funcionais, como o uso do modelo BLIP (Bootstrapped Language-Image Pretraining) para geração automática de legendas a partir de imagens, o leitor aprenderá a desenvolver sistemas inteligentes que integram múltiplas formas de dados. O livro é ideal para estudantes, professores e profissionais que desejam compreender e aplicar conceitos de IA multimodal em seus projetos.
Com uma abordagem direta, prática e acessível, esta obra convida-o a mergulhar no futuro da computação — onde visão e linguagem caminham juntas para criar experiências verdadeiramente interativas e inteligentes.
Número de páginas | 108 |
Edição | 1 (2025) |
Formato | A5 (148x210) |
Acabamento | Brochura c/ orelha |
Tipo de papel | Couche 90g |
Idioma | Português |
Tem algo a reclamar sobre este livro? Envie um email para atendimento@clubedeautores.com.br
Faça o login deixe o seu comentário sobre o livro.