Introdución á Intelixencia Artificial: Orixes e evolución

A intelixencia artificial é unha ferramenta poderosa que redefine a creatividade, a produtividade e a interacción humana coa tecnoloxía. Con todo, a súa capacidade para aprender de nós tamén implica desafíos éticos e de seguridade. Como usuarios, debemos ser conscientes do seu potencial e das súas limitacións, garantindo que a IA sexa utilizada como unha aliada, non como unha ameaza.

A Intelixencia Artificial (IA) xerativa converteuse nun tema central na sociedade actual. Pero, antes de afondar, cantos de vós empregastes ChatGPT para facer traballos ou exercicios? Non vos preocupedes, isto é algo cada vez máis habitual. Por exemplo, a miña filla de 11 anos descubriu ChatGPT e usa a IA para facer exercicios escolares, algo que pode levar tanto ao éxito coma a algún contratempo se a descubren.

Agora, falando máis en serio, eu dedícome á tecnoloxía desde moi novo. Empecei a programar con 12 anos, fun seleccionado como "Xove Promesa da Informática" por un programa de radio chamado Benvido Mr. Chip, e toda a miña carreira profesional estivo ligada á informática. Actualmente, traballo como Chief Digital Officer en Telefónica, onde lidero transformacións dixitais que abarcan áreas como cloud computing, big data, e a propia Intelixencia Artificial.

A Intelixencia Artificial: De onde vimos?

A informática naceu nos anos 50, cando se definiu como a "ciencia que automatiza tarefas repetitivas". Aquí está a base do que hoxe coñecemos como Intelixencia Artificial.
Cando un problema se resolve cun algoritmo que automatiza unha tarefa, obtemos unha solución dixital. Isto funcionou durante décadas, pero ten unha limitación clave:

Cantos máis problemas temos, máis algoritmos necesitamos.

Por exemplo:

1 problema = 1 algoritmo
1 millón de problemas = 1 millón de algoritmos.

Isto non escala de forma eficiente. Así, nos anos 50 xurdiu unha idea revolucionaria: "E se creamos un cerebro artificial capaz de aprender como un humano?"

Esquema: Evolución da IA

timeline
    title A evolución da IA
    1950 : Primeiros computadores: Tarefas repetitivas.
    1980 : Machine Learning: Aprendizaxe automática.
    2010 : Deep Learning: Redes neuronais profundas.
    2020 : IA multimodal e xerativa.
    2025 : (Estimado) IA xeral intelixente.

Dos algoritmos aos sistemas intelixentes

Os algoritmos clásicos precisan que humanos codifiquen solucións detalladas. Isto é similar a que alguén explique en detalle como diferenciar unha vaca dun burro. En cambio, o ser humano aprende observando. Por exemplo:

Se che ensinan unha vaca e un burro, a túa mente identifica diferenzas sen necesidade dunha definición técnica. Este proceso é aprendizaxe supervisada, base do Machine Learning.

Esquema: Proceso de aprendizaxe supervisada

graph TD
    A[Observación de datos] --> B[Identificación de patróns]
    B --> C[Creación dun modelo]
    C --> D[Predición de resultados con novos datos]

IA actual: Machine Learning e IA xeral

Machine Learning (ML): O sistema aprende de datos para predicir solucións.
IA Xeral: Obxectivo final; un cerebro dixital capaz de resolver calquera problema sen instrucións detalladas.

Hoxe estamos cada vez máis preto da IA Xeral grazas aos modelos multimodais (como ChatGPT), que combinan texto, imaxes e máis tipos de datos para resolver problemas complexos.

Como aprenden os ordenadores? Introdución á IA e o Machine Learning

A Intelixencia Artificial (IA) permite que os ordenadores aprendan a resolver problemas a partir de datos. Para explicar como funciona, imos considerar un exemplo sinxelo: identificar vacas e burros nun espazo de dúas dimensións, onde a coordenada X pode ser o número de patas e a coordenada Y, o tamaño.

1. O problema inicial: datos de adestramento
Para adestrar un modelo, necesitamos fornecerlle datos. Por exemplo:

Coordenada (X=2, Y=5): vaca
Coordenada (X=6, Y=5): burro
Coordenada (X=1, Y=6): vaca

Unha vez adestrado, podemos preguntar ao modelo sobre novos datos, como (X=5, Y=6), e o modelo intentará predecir se corresponde a unha vaca ou un burro.

2. Aproximacións iniciais: a IA algebraica
As primeiras técnicas de IA buscaban atopar unha función matemática que separase os datos en diferentes grupos (neste caso, vacas e burros). Isto é eficaz para describir os datos de adestramento (analítica descritiva), pero pode non ser útil para predicir datos novos, xa que moitas funcións poden cumprir este propósito. Para mellorar a predición, necesitamos máis datos, o que nos leva á análise predictiva.

O papel do Big Data e o desenvolvemento histórico

A capacidade de predicir con precisión require gran cantidade de datos. Nos anos 50, os sistemas de almacenamento eran limitados (cintas magnéticas, discos flexibles) e non existían bases de datos avanzadas. Foi necesaria moita investigación para desenvolver:

Bases de datos relacionais e o SQL.
Sistemas de almacenamento avanzados como Data Warehouses.

En 2004, Google publicou o artigo "MapReduce", presentando unha arquitectura para procesar grandes volumes de datos. Este enfoque permitiu xestionar e analizar datos a gran escala, sentando as bases do Big Data. Paralelamente, Facebook desenvolveu Cassandra, unha plataforma open source para manexar grandes cantidades de datos.

A revolución da computación na nube

Outro obstáculo clave era o cómputo necesario para procesar estes datos. Ata os anos 2000, só existían centros de supercomputación. En 2010, Amazon lanzou o Cloud Computing, permitindo un acceso elástico a recursos computacionais baixo demanda. Isto desbloqueou as posibilidades das redes neuronais profundas (Deep Learning) e os algoritmos baseados en Big Data.

A evolución dos algoritmos: redes neuronais

Os enfoques iniciais de IA centrados en funcións algebraicas foron complementados por modelos inspirados no cerebro humano: as redes neuronais. Estas traballan con capas interconectadas de "neuronas" artificiais que procesan os datos en paralelo. Existen dúas variantes principais:

Redes convolucionais (CNN): Útiles para recoñecemento visual.
Redes recurrentes (RNN): Adecuadas para datos secuenciais, como texto ou audio.

A investigación intensiva nos últimos anos simplificou os algoritmos, reducindo os problemas a poucas técnicas clave que todos os investigadores utilizan hoxe en día.

A paridade humana e os retos actuais

Un modelo de IA acada a paridade humana cando a súa taxa de erro é inferior á media humana nunha tarefa específica. Exemplos inclúen:

Recoñecemento facial e de voz.
Comprensión lectora e conversacional.

Pero o progreso en IA non está exento de desafíos:

Custos computacionais: Entrenar un modelo avanzado como ChatGPT require meses de cálculo e miles de millóns de dólares.
Privacidade e adiccións: Empresas como TikTok reentrenan os seus algoritmos constantemente para maximizar a interacción dos usuarios, xerando preocupacións éticas e sociais.

A evolución da IA e o seu impacto no mundo actual

Desde os anos 50 ata hoxe, a IA evolucionou grazas ao Big Data, ao Cloud Computing e ás redes neuronais. Esta combinación tecnolóxica está a transformar a economía e a sociedade, separando as empresas que adoptan modelos baseados en datos das que quedan obsoletas. O futuro da IA promete avances aínda máis sorprendentes, pero tamén require unha reflexión ética sobre o seu impacto.

A evolución da intelixencia artificial (IA) transformou como interactuamos co mundo tecnolóxico. Desde aplicacións sinxelas ata sistemas complexos que superan a capacidade humana, a IA está intrinsecamente ligada ás nosas actividades diarias, sexa para crear contidos, conducir vehículos ou desenvolver experiencias visuais impresionantes.

Un exemplo curioso é como actividades aparentemente triviais, como o "Mannequin Challenge" ou o "10 Year Challenge", deron lugar a avances significativos. Estas modas permitiron aos investigadores recompilar datos masivos que facilitaron o desenvolvemento de algoritmos de visión artificial, recoñecemento facial ou técnicas de "anti-aging". Esta capacidade de mellorar coa información proporcionada polos usuarios exemplifica como as tecnoloxías de IA alcanzan e incluso superan a paridade humana nalgúns aspectos, pero sempre cun grao de confianza, non con perfección absoluta.

Paridade humana e alucinacións na IA

Cando falamos de "paridade humana", referímonos a sistemas de IA que igualan o rendemento humano en tarefas específicas. Por exemplo, en 2016, investigadores de Microsoft lograron a paridade humana no recoñecemento facial grazas a un "cognitive service" que analizaba miles de fotografías de celebridades. O sistema non é infalible; expresa as súas conclusións cun "grao de confianza", que indica a probabilidade de que a resposta sexa correcta. Este concepto lembra as "alucinacións" da IA: momentos nos que os algoritmos "ven" ou "comprenden" algo incorrectamente. É comparable aos erros perceptivos dos seres humanos, como confundir un oasis ou non notar un coche no espello retrovisor.

As alucinacións non son só curiosidades; destacan a importancia de supervisar as decisións tomadas por máquinas, especialmente en contextos críticos como sistemas armamentísticos ou condución autónoma. Por iso, moitas ferramentas de IA modernas son descritas como "copilotos", ferramentas de apoio que axudan aos humanos pero non substitúen o seu criterio.

A revolución de Deep Learning e as Redes Neuronais

O avance de sistemas baseados en redes neuronais, como "Deep Blue" de IBM, marcou un fito na historia da IA. Deep Blue, deseñado para xogar ao xadrez, competiu contra lendas como Kasparov e Karpov nos anos 90, demostrando o potencial das máquinas para igualar aos mellores estrategas humanos en xogos de regras fixas. Máis tarde, co desenvolvemento de algoritmos máis sofisticados como AlphaGo ou AlphaZero, as máquinas superaron aos humanos en xogos complexos como o Go, o póker e mesmo videoxogos. Estes logros evidencian como a IA pode procesar cantidades incribles de datos e optimizar decisións a unha velocidade e precisión imposibles para calquera persoa.

Os algoritmos GAN e a Creatividade Artificial

As técnicas máis recentes, como os Generative Adversarial Networks (GAN), levaron a IA a un nivel sen precedentes en canto a creación e manipulación de contidos. Estas redes funcionan mediante a interacción entre dous compoñentes principais:

Discriminador: Encargado de avaliar a calidade dun contido, como unha imaxe ou movemento.
Xerador: Deseñado para crear contidos que enganen ao discriminador.

A través de ciclos de mellora continua, o xerador pode perfeccionar os seus resultados ata superar as expectativas do discriminador. Isto levou á creación de contidos hiperrealistas, desde imaxes fotográficas ata vídeos falsos que poden ser utilizados tanto para fins creativos como malintencionados (deepfakes).

A era dos algoritmos de difusión

Un avance significativo chegou en 2016 cos algoritmos de difusión, que mesturan a capacidade de descompoñer datos visuais en pequenas pezas (como un crebacabezas) co uso de descricións textuais. Isto permite que as máquinas reconstrúan imaxes ou xeren contidos novos con precisión e creatividade. Estes modelos non só melloran coa práctica, senón que se retroalimentan constantemente, facendo que cada interacción aumente a súa eficiencia e intelixencia.

Hoxe, as ferramentas de IA, como as xeradoras de imaxes e texto, están en continuo progreso. Cada día que pasa representan a peor versión da súa capacidade futura, xa que o seu deseño lles permite aprender e mellorar sen parar.

Modelos de difusión e creación mediante IA

Introdución aos modelos de difusión

Os modelos de difusión son algoritmos de Intelixencia Artificial que aprenden patróns complexos a partir dun conxunto de datos inicial e os utilizan para xerar novos contidos. Por exemplo, partindo dunha base de datos de imaxes ou outros tipos de información, son capaces de xerar novos contidos realistas. Estes modelos, que avanzaron rapidamente nos últimos anos, teñen aplicacións en múltiples campos, pero tamén presentan riscos éticos e de seguridade que deben ser considerados. A súa popularidade e evolución nos últimos anos veñen revolucionando múltiples sectores, desde a arte e o entretemento ata a ciberseguridade e a educación.

Principais características:

Traballan mediante a análise de patróns e estruturas.
Requiren un número reducido de datos para xerar resultados de alta calidade.
Son capaces de imitar estilos visuais ou outras características baseándose en exemplos concretos.
Alta capacidade de xeneralización a partir dun número reducido de exemplos.
Flexibilidade para xerar contidos en diferentes formatos: imaxes, texto, audio ou vídeo.
Resultados cada vez máis realistas grazas aos avances no procesamento de datos.

Por exemplo, con só 20 fotografías, é posible adestrar un modelo para xerar imaxes de diferentes estilos mantendo unha calidade sorprendente. Estas tecnoloxías avanzaron rapidamente: en 2022, a calidade xerada era aceptable, pero en 2023 superou amplamente as expectativas. Para 2024, espérase un gran salto coa chegada de tecnoloxías como MetaHuman.

MetaHuman Creator – Ferramenta de Epic Games para crear humanos dixitais realistas.
Guía para iniciarse en modelos de difusión – Documentación de referencia sobre o uso de modelos de difusión.

Aplicacións destacadas dos modelos de difusión

Os modelos de difusión úsanse en campos tan diversos como:

Xeración de Contidos Visuais: Creación de imaxes e avatares realistas baseados en estilos específicos.
Audio e Voz Sintética: Réplica de voces humanas a partir de gravacións curtas.
Forense Dixital: Reconstrución de imaxes borradas ou incompletas.
Humanización Dixital: Creación de humanos virtuais para videoxogos, cine e aplicacións interactivas.

Algunhas destas aplicación xa se materializan na xeración de:

Música: Algoritmos como MuseNet crean composicións musicais baseándose en poucos exemplos.
Vídeo: Plataformas como Clean Eye permiten xerar vídeos animados a partir de descricións textuais.
Superheroes e superviláns: En só 10 minutos, é posible crear personaxes animados con música e animación.

graph TD
A[Modelos de Difusión] --> B[Música]
A --> C[Vídeo]
A --> D[Personaxes Animados]
A --> E[Expansión de Fotos]

Creación de Fotografías e Avatares Realistas

Cunha pequena mostra de imaxes persoais, os modelos de difusión poden xerar fotografías completamente novas nunha ampla variedade de estilos.

Así, con só unhas 20 fotos, un modelo de difusión pode adestrarse para xerar novas imaxes cun nivel sorprendente de detalle. Este proceso é usado tanto para fins creativos como comerciais, pero tamén presenta riscos significativos.

Beneficios:
- Uso creativo: Deseño artístico, personalización en marketing dixital.
- Creación de contido multimedia.
- Creación de personaxes animados para cine ou videoxogos.
Riscos:
- Manipulación fraudulenta de fotos.
- Creación de deepfakes con fins malintencionados.
- Creación de contidos difamatorios e fake news.

Esquema en Mermaid:

flowchart TD
A[Subida de 20 fotos] --> B[Adestramento do Modelo de Difusión]
B --> C[Pedir estilos diferentes]
C --> D[Obtención de resultados de alta calidade]

Audio e Voz Sintética

Empresas como ElevenLabs están empregando modelos de difusión para xerar voces sintéticas realistas. Estes algoritmos permiten replicar unha voz humana con gran precisión e sendo usados en:

Uso Lexítimo:
- Creación de contidos: Locucións para audiolibros, asistentes virtuais, etc.
Uso Fraudulento e cibercrime:
- Suplantación de identidades, estafas de voz, clonación de identidades en chamadas ou sistemas bancarios. Por exemplo, empresas xa perderon millóns de euros debido a chamadas fraudulentas de "directivos clonados".

Proceso de Clonación de Voz:

flowchart LR
X[Gravación de audio] --> Y[Procesamento do espectrograma]
Y --> Z[Adestramento do modelo]
Z --> W[Voz sintetizada similar á orixinal]

Exemplo real de fraude por voz clonada:

En 2023, clonadores de voz como Eleven Labs fixeron posible replicar voces humanas con só un arquivo de audio. Isto ten implicacións tanto para estafas como para cibercrimes. Exemplos reais inclúen:

Enganos familiares: Chamadas ás vítimas suplantando a voz dun ser querido pedindo axuda económica.
Fraudes corporativas: Suplantación de directivos para autorizar transferencias millonarias, como o caso dunha empresa onde roubaron 35 millóns de dólares mediante unha chamada de voz clonada.

Un caso coñecido implicou o roubo de 35 millóns de dólares, onde unha empresa foi enganada mediante unha chamada fraudulenta que imitaba a voz dun directivo autorizando unha transferencia.

Diagrama de Fraude por Voz Clonada:

sequenceDiagram
participant Hacker
participant Vítima
participant Banco
Hacker->>Vítima: Suplantación da voz dun directivo
Vítima->>Banco: Solicita transferencia de fondos
Banco->>Hacker: Realiza a transferencia
Hacker->>+Conta estranxeira: Roubo completado

Auditoría forense e reconstrución de imaxes

As técnicas de ampliación de fotos (photo expansion) están sendo empregadas para reconstruír partes en falta de imaxes ou incluso desfacer borrados e censuras aplicadas en fotos.

Uso positivo: Recuperación de arquivos danados ou probas perdidas.
Uso negativo: Reversión de censuras sensibles ou exposición de datos persoais.

Exemplo de Proceso de Ampliación de Fotos:

graph TB
Input[Imaxe orixinal] --> Processing[Modelo IA reconstrúe zonas faltantes]
Processing --> Output[Imaxe ampliada e reconstruída]

Uso en humanización dixital

Coa introdución de Metahuman e tecnoloxías similares, é posible crear humanos dixitais hiperrealistas:

En 30 segundos, un teléfono móbil pode escanear unha persoa.
Os resultados úsanse en videoxogos, cine, e-commerce ou incluso cibercrime.

Evolución dos humanos dixitais:

timeline
title Evolución dos humanos dixitais
2022: Persoas sintéticas con patróns básicos.
2023: Avances en microexpresións faciais e movementos realistas.
2024: Integración completa en interaccións virtuais.

Impactos éticos e riscos dos modelos de IA

A intelixencia artificial ten un lado escuro que pode ser usado para fins malintencionados. Algúns exemplos preocupantes inclúen:

Manipulación de fotos: Técnicas como "photo expansion" poden crear imaxes falsas de persoas, o que pode ser empregado para difamación ou fraudes.
DeepNudes: A xeración de imaxes non consensuais, como desnudos falsos, é un delito e está perseguida pola lei.
Reconstrución de datos borrados: A IA é capaz de recrear datos ocultos en imaxes, como contrasinais ou matrículas difuminadas.

Exemplo práctico: Se unha foto é enviada por WhatsApp co modo de "ver unha vez", a miniatura xerada pode ser suficiente para que un modelo de IA recree o contido completo da imaxe.

Riscos éticos da IA

graph TD
A[Impactos da IA] --> B[Manipulación de Fotos]
A --> C[DeepNudes]
A --> D[Reconstrución de Datos Borrados]
A --> E[Fraudes por Voz Clonada]

Impacto en ciberseguridade

Os modelos de difusión están tendo unha influencia crítica no mundo da ciberseguridade, tanto a nivel ofensivo como defensivo.
Principais problemas:

Estafas e fraudes:
- Uso de voz e imaxes clonadas para acceder a sistemas bancarios ou enganar persoas.
- Suplantación de identidade mediante deepfakes en videoconferencias ou chamadas telefónicas.
- Uso de imaxes ou documentos manipulados para acceder a sistemas bancarios
Ataques empresariais: Videoconferencias manipuladas en tempo real con Deepfakes para infiltrarse en organizacións.
Manipulación de datos e contidos:
- Creación de probas ou manipulación de documentos visuais.
- Creación de probas falsas para casos legais.
- Falsificación de identidade en redes sociais.

Esquema de Riscos Éticos e de Ciberseguridade:

graph TD
A[Modelos de Difusión] --> B[Deepfakes]
A --> C[Suplantación de Voz]
A --> D[Manipulación de Probas]
A --> E[Reconstrución de Datos Sensibles]

Contramedidas e Solucións Propostas

Para combater os riscos asociados aos modelos de difusión, é esencial adoptar un enfoque multidimensional:

Ferramentas de Detección:
- Desenvolver algoritmos de detección de deepfakes e tecnoloxías que detecten contidos xerados por IA (textos xerados ou imaxes manipuladas).
- Uso de software como Deepware Scanner, ou verifai.tu.com para analizar contidos sospeitosos.
Educación e Formación:
- Sensibilizar a sociedade sobre os perigos das tecnoloxías avanzadas.
- Formar aos profesionais en seguridade para identificar fraudes relacionados coa IA.
Regulación Ética:
- Establecer leis e estándares para o uso responsable das tecnoloxías de IA.
- Colaboración entre empresas e gobernos para controlar abusos.

Conclusión

Os modelos de difusión representan unha revolución tecnolóxica con grandes beneficios potenciais, pero tamén expoñen á sociedade a novos desafíos. O avance dos modelos de difusión implica tanto beneficios como perigos. Mentres que están democratizando a creación de contidos e potenciando sectores creativos, tamén supoñen un desafío na loita contra o cibercrime e a manipulación dixital. Para afrontar estes retos, a comunidade debe investir en educación, tecnoloxías de detección e regulación ética. O equilibrio entre innovación e seguridade será fundamental para aproveitar estas tecnoloxías de forma ética e efectiva. A educación, a investigación e a regulación desempeñarán un papel clave neste proceso.

Para saber máis

Para practicar:

https://scikit-learn.org/

bitsolto.com

Call me

write to me

Social media

Introdución á Intelixencia Artificial: Orixes e evolución