Ir al contenido

Aprendizaje no Supervisado

6.1 Cambio de Paradigma: De la Etiqueta a la Estructura

Sección titulada «6.1 Cambio de Paradigma: De la Etiqueta a la Estructura»

En la Regresión Lineal y Logística (temas anteriores), siempre teníamos un conjunto de datos con la respuesta correcta: {(x(1),y(1)),...}\{(x^{(1)}, y^{(1)}), ...\}. La máquina aprendía comparando su predicción con esa yy.

En el Aprendizaje No Supervisado, la situación cambia radicalmente:

  • Datos: Solo tenemos xx (Datos sin etiquetar). No hay yy.
  • Objetivo: El algoritmo debe encontrar estructuras, patrones o agrupamientos en los datos por sí mismo.
  • Rol del Humano: Es el diseñador quien, a posteriori, le da significado a esos grupos (ej. “Este grupo son clientes VIP”, “Este grupo son clientes en riesgo”).

Es el algoritmo más popular y sencillo para resolver problemas de Agrupamiento (Clustering). Su objetivo es dividir los datos en KK grupos (clusters).

Es un proceso iterativo (“bucle”) que funciona como un baile de centros de gravedad.

  1. Inicialización:

    • Decidimos cuántos grupos queremos (KK).
    • Elegimos aleatoriamente KK puntos del mapa para que sean los Centroides iniciales (μ1,μ2,...,μK\mu_1, \mu_2, ..., \mu_K).
  2. Bucle (Repetir hasta converger):

    • Paso A: Asignación de grupos: Para cada dato (x(i)x^{(i)}), calculamos la distancia a todos los centroides y lo “pintamos” del color del centroide más cercano. c(i):=ıˊndice del centroide maˊs cercano a x(i)c^{(i)} := \text{índice del centroide más cercano a } x^{(i)}
    • Paso B: Movimiento de Centroides: Calculamos la media (promedio) de todos los puntos que pertenecen a un grupo y movemos el centroide a esa nueva posición central. μk:=promedio de los puntos asignados al grupo k\mu_k := \text{promedio de los puntos asignados al grupo } k El algoritmo se detiene cuando los centroides ya no se mueven (convergencia).

Al igual que en la regresión teníamos el error cuadrático, aquí necesitamos medir “qué tan mal” están agrupados los datos. A esta función se le llama Función de Distorsión (JJ):

J(c,μ)=1mi=1mx(i)μc(i)2J(c, \mu) = \frac{1}{m} \sum_{i=1}^{m} ||x^{(i)} - \mu_{c^{(i)}}||^2

  • Significado: Mide la suma de las distancias al cuadrado entre cada punto y el centroide de su grupo.
  • Objetivo: Queremos minimizar JJ. Si JJ es bajo, significa que los puntos están muy “apretaditos” alrededor de su centroide (buen agrupamiento).

Como los centroides iniciales se eligen al azar, a veces tenemos mala suerte.

  • Riesgo: Los centroides pueden quedarse “atascados” en una mala posición (Mínimo Local) y no encontrar la mejor agrupación posible (Óptimo Global).

  • Solución: No ejecutes el algoritmo una sola vez.

    1. Ejecuta K-Medias muchas veces (ej. 50 o 100 veces) con inicializaciones aleatorias diferentes.
    2. Calcula la Distorsión JJ final para cada intento.
    3. Quédate con la solución que tenga la menor distorsión.

6.4.2 ¿Cómo elegir el número de grupos (K)?

Sección titulada «6.4.2 ¿Cómo elegir el número de grupos (K)?»

A veces el número de grupos es obvio, pero otras veces no. ¿Son 3 grupos o 4?

  1. Método del Codo (Elbow Method):

    • Ejecutas el algoritmo variando KK (ej. K=1,2,3,4,5...K=1, 2, 3, 4, 5...).
    • Graficas la función de coste JJ vs. KK.
    • Al aumentar los grupos, el error siempre baja. Pero buscamos el punto donde la curva hace un codo (deja de bajar rápido y empieza a bajar lento). Ese es el KK óptimo.
  2. Propósito del Mercado (Market Purpose):

    • A veces el “Codo” no es claro. En ese caso, el KK lo dicta el negocio.
    • Ejemplo (Tallas de Camisetas): Tienes datos de altura y peso. Podrías hacer 3 grupos (S, M, L) o 5 grupos (XS, S, M, L, XL). La decisión depende de tu estrategia de ventas, no solo de la matemática.

Para tu esquema mental global:

  • Regresión Lineal: Predice un número (Supervisado).
  • Regresión Logística: Predice una clase binaria (Supervisado).
  • K-Medias: Descubre grupos sin etiquetas (No Supervisado). Usa distancias geométricas (como los vecinos cercanos) y medias iterativas.