Conocer la diferencia entre cuatro técnicas de ciencia de datos

Conocer la diferencia entre cuatro técnicas de ciencia de datos

La ciencia de los datos es un vasto campo para aprender. Las técnicas utilizadas en la ciencia de los datos ayudan a extraer conocimientos significativos de los datos. Estas técnicas también sirven como base para muchos otros algoritmos conocidos. Sin embargo, difieren en términos de funcionalidad y resultados de uno a otro. Aquí están las principales diferencias entre las cuatro técnicas más utilizadas en la ciencia de los datos.

Regresión logística v/s Análisis discriminante

Definiciones

La regresión logística se utiliza para predecir la probabilidad de las variables dependientes dicotómicas sobre la base de una o más variables independientes que pueden ser continuas o categóricas.

El análisis discriminante es un análisis estadístico para predecir una variable dependiente categórica (llamada variable de agrupación) mediante una o más variables continuas o binarias independientes (llamadas variables predictoras).

Tanto la regresión logística como el análisis discriminante parecen similares, pero aquí están las diferencias.

Regresión logística: Se basa en la estimación de máxima probabilidad.

Análisis discriminante: Se basa en la estimación de los mínimos cuadrados; equivalente a la regresión lineal.

Regresión logística: Estima la probabilidad (de pertenecer a un grupo) de forma inmediata (la predicción se toma como probabilidad, observada uno) y condicional.

Análisis discriminante: Estima la probabilidad de forma intermedia (la predicción se considera una variable continua binada, el discriminante) mediante un dispositivo clasificador (como el ingenuo Bayes) que utiliza tanto información condicional como marginal.

Regresión logística: No tan exigente al nivel de la escala y la forma de la distribución en los predictores.

Análisis discriminante: Predice el nivel de intervalo deseable con una distribución normal multivariante.

Regresión logística: No hay requisitos sobre las matrices de covarianza dentro del grupo de los pronosticadores.

Análisis discriminante: Las matrices de covarianza dentro del grupo deben ser idénticas en población.

Regresión logística: Los grupos pueden tener n. bastante diferentes

Análisis discriminante: Los grupos deben tener n. similares

Regresión logística: No tan sensible a los valores atípicos.

Análisis discriminante: Bastante sensible a los valores atípicos.

Regresión logística: Normalmente se prefiere, porque es menos exigente / más robusto.

Análisis discriminante: Con todos sus requisitos cumplidos, a menudo clasifica mejor que BLR (eficiencia relativa asintótica 3/2 veces más alta entonces).

Análisis factorial v/s Análisis de conglomerados

Definiciones

La principal aplicación del análisis factorial es reducir el número de variables y detectar la estructura en las relaciones entre las variables, es decir, clasificar las variables.

El análisis de conglomerados es un grupo de técnicas multivariadas cuyo propósito principal es agrupar objetos (por ejemplo, encuestados, productos u otras entidades) en función de sus características. Es un medio de agrupar registros basados en atributos que los hacen similares.

Análisis factorial: Técnica de reducción de dimensiones.

Análisis de conglomerados: Una técnica de clasificación.

Análisis factorial: Técnica interdependiente.

Análisis de conglomerados: No hay información previa sobre el grupo.

Análisis factorial: El objetivo es explicar la correlación en un conjunto de datos y variables relacionadas entre sí.

Análisis de conglomerados: El objetivo es abordar la heterogeneidad en cada conjunto de datos.

Análisis factorial: No hay tipos

Análisis de conglomerados: Los principales tipos son: agrupación jerárquica, agrupación parcial (K-means Fuzzy K-Means, Isodata) y agrupación basada en la densidad (Denclust, CLUPOT, Mean Shift, SVC, Parzen)

Análisis factorial: Las estadísticas asociadas incluyen la Matriz de Correlación, la Comunidad, el Valor Propio, las Cargas Factoriales y las Puntuaciones Factoriales.

Análisis de conglomerados: Las estadísticas asociadas incluyen el Calendario de Aglomeración, el Centroide de Agrupación, los Centros de Agrupación y el Dendrograma.

Análisis factorial: Los ejemplos incluyen la comprensión de la característica de los clientes.

Análisis de conglomerados: Los ejemplos incluyen la agrupación de los clientes en diferentes clusters para la comparación.

Espero que el artículo le haya ayudado a entender la diferencia básica entre estas cuatro técnicas. Estas técnicas encuentran un gran uso en una amplia variedad de industrias y campos, incluyendo el marketing y la investigación de mercado. Ayudan a comprender la base de clientes de las empresas y les permiten comercializar productos o resolver problemas comerciales en tiempo real.

 

Leave a Comment!