Descubriendo las Posibilidades en la Inteligencia Artificial- una Mirada en Profundidad. Parte II.
Introducción
En el capítulo l estudiamos que el aprendizaje automático, es un campo de la inteligencia artificial (IA) que implica:
El desarrollo de algoritmos y modelos estadísticos que permiten que los sistemas informáticos aprendan y hagan predicciones o decisiones basadas en datos sin estar programados explícitamente.
En el aprendizaje automático, los sistemas informáticos están capacitados para identificar patrones en grandes conjuntos de datos (big data) y hacer predicciones o decisiones basadas en estos patrones.
Los algoritmos aprenden iterativamente de los datos, ajustando sus parámetros en respuesta a la retroalimentación, hasta que puedan hacer predicciones o decisiones precisas.
Hay varios tipos de aprendizaje automático:
El aprendizaje supervisado.
El aprendizaje no supervisado.
El aprendizaje por refuerzo.
En este capítulo estudiaremos que es el aprendizaje automático supervisado (SML).
El aprendizaje automático supervisado:
Es un modelo donde se entrena un algoritmo en un conjunto de datos etiquetados para predecir o clasificar nuevos datos, el algoritmo aprende de:
Un conjunto de pares de entrada y salida, donde la entrada son los datos que se analizarán.
La salida es la respuesta correcta o la etiqueta asociada con esa entrada.
Durante el proceso de entrenamiento, el algoritmo ajusta sus parámetros internos para mapear (establecer una relación matemática) la entrada a la salida. El objetivo del aprendizaje supervisado es crear un modelo que pueda predecir con precisión la salida de datos de entrada nuevos e invisibles.
Hay dos tipos principales de aprendizaje supervisado:
1. Regresión.
2. Clasificación.
Aquí estudiaremos la clasificación como técnica del aprendizaje automático.
2. La clasificación en el aprendizaje automático supervisado:
Se entrena un modelo para predecir una etiqueta o clase categórica para una entrada determinada, en función de un conjunto de ejemplos etiquetados. En otras palabras, la clasificación es el proceso de encontrar una función que asigne variables de entrada a variables de salida discretas.
Algunos ejemplos comunes de tareas de clasificación incluyen identificar correos electrónicos no deseados, predecir si un cliente abandonará o no, clasificar imágenes en diferentes categorías e identificar sentimientos en datos de texto.
Hay varios algoritmos para la clasificación:
Regresión logística:
Es utilizada para predecir la probabilidad de que una observación pertenezca a una de dos categorías (binarias), como "sí" o "no", "verdadero" o "falso", "enfermo" o "sano", etc.
Modela la relación entre las variables independientes y la variable dependiente, que es la variable de resultado o la variable a predecir.
Esta función produce una curva en forma de "S" que transforma los valores de entrada en una escala de 0 a 1, lo que representa la probabilidad de que la observación pertenezca a una de las dos categorías.
El modelo de regresión logística utiliza un conjunto de coeficientes (pesos) para ponderar las variables independientes y ajustar la curva logística a los datos de entrenamiento. Estos coeficientes se estiman utilizando un método llamado máxima verosimilitud, que busca maximizar la probabilidad de que los datos de entrenamiento se ajusten a la curva logística.
Arboles de decisión:
Es un modelo que se construye a partir de una serie de decisiones simples basadas en características o atributos de los datos de entrada:
El árbol de decisión se compone de nodos y ramas.
Cada nodo representa una decisión basada en un atributo de los datos de entrada, y cada rama representa una salida posible basada en esa decisión.
En la parte superior del árbol se encuentra el nodo raíz, que representa la primera decisión en el árbol.
A medida que se avanza hacia abajo en el árbol, se toman más decisiones, lo que lleva a una clasificación final o a una predicción de valor.
Los árboles de decisión son útiles porque son fáciles de entender e interpretar, y pueden manejar datos numéricos y categóricos.
Máquinas de vectores de soporte (SVM):
Son un tipo de modelo utilizado para la clasificación y regresión. A diferencia de los árboles de decisión, que se basan en una serie de decisiones simples, las SVM buscan encontrar el hiperplano que mejor separa los datos de entrada en dos o más clases.
En SVM, cada punto de datos se representa en un espacio n-dimensional, donde n es el número de atributos de los datos de entrada.
SVM busca el hiperplano que maximiza la distancia entre los puntos de datos de diferentes clases, llamado el margen, y utiliza este hiperplano para clasificar nuevos datos.
Las SVM son útiles porque pueden manejar datos no lineales mediante el uso de funciones de kernel que mapean los datos a un espacio dimensional superior.
Las SVM tienen varias aplicaciones en el campo de la visión por computadora, el procesamiento del lenguaje natural y la bioinformática, entre otros. Sin embargo, pueden ser computacionalmente costosas para entrenar en conjuntos de datos grandes y complejos.
Redes neuronales:
Son un tipo de modelo inspirado en el funcionamiento del cerebro humano.
Están compuestas por capas de unidades de procesamiento llamadas neuronas, que están conectadas por pesos sinápticos.
Los datos de entrada se introducen en la capa de entrada, que se conecta a una o más capas ocultas de neuronas que procesan los datos y los transmiten a la capa de salida.
Las conexiones entre las neuronas se ajustan durante el entrenamiento de la red para minimizar una función de pérdida, que mide el error de la red en las predicciones.
Las redes neuronales son útiles porque pueden aprender patrones complejos en los datos de entrada y pueden manejar datos no lineales.
También pueden manejar datos de alta dimensionalidad y pueden ser utilizadas para tareas de clasificación, regresión y generación de texto y de imágenes.
La elección de la técnica de clasificación depende de la complejidad del problema, el tamaño y la calidad del conjunto de datos y otros factores.
Chat GPT
Es un modelo de lenguaje desarrollado por Open AI basado en la arquitectura GPT-3.5. Es capaz de generar respuestas similares a las humanas a las indicaciones del lenguaje natural y se puede utilizar para una amplia gama de aplicaciones, como:
Aplicaciones en la industria financiera:
Evaluación del riesgo crediticio: la clasificación se puede utilizar para clasificar a los prestatarios como de alto o bajo riesgo en función de su historial crediticio y otras variables relevantes, como los ingresos y la situación laboral. Esto ayuda a las instituciones financieras a tomar decisiones crediticias más informadas y administrar el riesgo crediticio.
Detección de fraude: la clasificación se puede utilizar para clasificar transacciones como fraudulentas o legítimas en función de patrones y anomalías en los datos de transacciones. Esto puede ayudar a las instituciones financieras a detectar y prevenir fraudes, como fraudes con tarjetas de crédito o lavado de dinero.
Segmentación de clientes: la clasificación se puede utilizar para segmentar a los clientes en diferentes grupos en función de sus características, como la edad, los ingresos y los hábitos de gasto. Esto puede ayudar a las instituciones financieras a orientar sus esfuerzos de marketing y brindar servicios más personalizados a los clientes.
Análisis de inversión: la clasificación se puede utilizar para clasificar valores como comprar, mantener o vender en función de varios factores, como las métricas de rendimiento de la empresa y los indicadores económicos. Esto ayuda a las instituciones financieras a tomar decisiones de inversión más informadas.
Aplicaciones en Big Data:
Predicción de abandono de clientes: la clasificación se puede utilizar para clasificar a los clientes como propensos a abandonar o no en función de su comportamiento histórico, como la frecuencia de compra y las interacciones de servicio al cliente. Con big data, los modelos de clasificación se pueden entrenar en grandes conjuntos de datos para proporcionar predicciones e información más precisas.
Reconocimiento de imagen y voz: la clasificación se puede utilizar en aplicaciones de procesamiento de lenguaje natural y visión artificial para el reconocimiento de imagen y voz. Por ejemplo, la clasificación se puede utilizar para clasificar imágenes en función de las características visuales o para clasificar el habla en función de los fonemas.
Análisis de opinión: la clasificación se puede utilizar para clasificar datos de texto, como reseñas de clientes o publicaciones en redes sociales, en categorías de opinión positivas o negativas. Con big data, los modelos de clasificación se pueden entrenar en grandes conjuntos de datos para proporcionar un análisis de sentimiento más preciso e información sobre las opiniones y preferencias de los clientes.
Detección de fraude: la clasificación se puede utilizar para clasificar transacciones como fraudulentas o legítimas en función de patrones y anomalías en los datos de transacciones. Con big data, los modelos de clasificación se pueden entrenar en grandes conjuntos de datos de transacciones para proporcionar una detección y prevención de fraude más precisas.
Aplicaciones en la industria de bienes raíces:
Clasificación de propiedades: la clasificación se puede usar para clasificar propiedades en diferentes categorías según características como la ubicación, el tamaño y las comodidades. Esto ayuda a los profesionales inmobiliarios a orientar sus esfuerzos de marketing y brindar servicios más personalizados a los clientes.
Clasificación de compradores y vendedores: la clasificación se puede utilizar para clasificar a los compradores y vendedores en diferentes categorías según sus características, como la edad, los ingresos y el historial de compras. Esto ayuda a los profesionales inmobiliarios a brindar servicios más específicos a los clientes y optimizar sus esfuerzos de marketing.
Puntuación de clientes potenciales: la clasificación se puede utilizar para calificar a los clientes potenciales en función de su probabilidad de convertirse en una venta o una lista. Con big data, los modelos de clasificación se pueden entrenar en grandes conjuntos de datos para proporcionar una puntuación de clientes potenciales más precisa e información sobre el comportamiento del cliente.
Clasificación de rango de precios: la clasificación se puede usar para clasificar propiedades en diferentes categorías de rango de precios en función de factores como la ubicación, el tamaño y las comodidades. Esto ayuda a los profesionales inmobiliarios a proporcionar recomendaciones de precios más precisas a los clientes y optimizar sus estrategias de precios.
Observación final:
En general, las técnicas de clasificación en el aprendizaje automático supervisado tienen una amplia gama de aplicaciones en la todos los sectores industriales, lo que permite a los profesionales brindar servicios más personalizados a los clientes y optimizar sus estrategias de marketing y fijación de precios.