Universidad de Penn State – Impartiendo educación e investigación analítica innovadora a los estudiantes

Universidad de Penn State – Impartiendo educación e investigación analítica innovadora a los estudiantes

La analítica es un vasto espacio educativo en el que el diluvio de datos está golpeando a todas las disciplinas y la oportunidad de comprender esos datos es emocionante para todos. Reconociendo esto, la Universidad de Penn State diseñó el programa de Analítica de Datos para expandirse fácilmente en áreas de aplicación específicas y disciplinas creando opciones de grado. Los estudiantes de la División de Ingeniería de Software y Sistemas de Penn State toman cursos de estadística, minería de datos y análisis predictivo, pero pueden centrarse en el diseño y la construcción de sistemas analíticos, utilizando la analítica para los negocios o la analítica en el marketing. Cada estudiante puede posteriormente adaptar su plan de estudios con asignaturas optativas en temas que incluyen programación en Python, aprendizaje profundo, análisis de redes sociales, visualización de datos, demografía social y estadística avanzada.

Pedagógicamente, Penn State se basa en un enfoque de instrucción centrado en el estudiante, un aula volteada, como se suele llamar. Así que en lugar de una instrucción didáctica pesada, la universidad se centra en el aprendizaje activo y experimental. En la práctica, esto significa que cada lección funciona como una hoja de ruta para el estudiante guiándole a través del material a un ritmo apropiado y escenificado con actividades formativas de autoestudio, elementos multimedia cortos para la exposición, y tareas prácticas individuales y de grupo utilizando datos del mundo real tanto como sea posible para asegurar que los estudiantes realmente dominen el material. Todo ello es facilitado por un profesorado experto en la disciplina y comprometido con el aprendizaje del estudiante a través de diversos modos de comunicación, como el correo electrónico, el chat, los foros de debate y las tele/videoconferencias.

Impartiendo educación analítica dinámica

En una disciplina de ritmo rápido donde hay un cambio constante de herramientas y plataformas desplegadas en el programa – siempre hay una nueva actualización del ecosistema Apache Hadoop. Pero ahora mismo, la lista de herramientas incluye la mayor parte de ese ecosistema – Hive, HBase, Pig, etc. Además, el programa de análisis de datos incluye muchas herramientas de Oracle; Big Data Analytics de IBM; kits de herramientas de Python (Pandas, SciKit-Learn); bases de datos NoSQL como MongoDB y Cassandra; y herramientas de visualización como Tableau y Gephi para sus estudiantes.

En el lado de la máquina de aprendizaje e inteligencia artificial, el programa cubre el aprendizaje supervisado y no supervisado, la minería de datos y la clasificación, las redes neuronales, las redes de aprendizaje profundo y el juego de superjuegos, por nombrar algunos. Las herramientas utilizadas incluyen KNIME, WEKA, Keras, NumPY, y AlphaGo.

Finalmente, en las estadísticas, los estudiantes de frente aprenden sobre análisis descriptivo, regresión, regresión múltiple, ANOVA, análisis de series de tiempo y estadísticas para las ciencias sociales usando R, SAS, SPSS, y Minitab.

Ciertamente, Penn State no considera que su programa de capacitación se limite a estas herramientas, pero es bastante imposible separar las técnicas de las herramientas en la práctica, y los estudiantes aprecian ganar experiencia práctica en el uso de las plataformas que se utilizan comercialmente.

Liderazgo con un borde

El profesor Dr. Colin J. Neill es el Director Fundador de la maestría en Análisis de Datos de la Universidad Estatal de Pensilvania, y dirige un equipo de profesores de la Escuela de Negocios Smeal, la Escuela de Ciencias Eberly, la Escuela de Ingeniería y la Escuela de Estudios Profesionales de Posgrado en el desarrollo del programa. El curso fue lanzado en línea a través del Campus Mundial de Penn State en 2016 y en forma residencial en 2017, con más de 400 estudiantes inscritos hasta el momento y alrededor de 100 estudiantes graduados.

El viaje del Profesor Dr. Colin J. Neill en esta área comenzó como estudiante de posgrado a mediados de los 90 en el Grupo de Investigación de Inteligencia Artificial en Tiempo Real de la Universidad de Gales Swansea. Su supervisor de doctorado, el profesor Michael Rodd, fundó el grupo para investigar las formas de hacer que la inteligencia artificial sea útil en tiempo real, en aplicaciones de misión crítica. El grupo desarrolló enfoques para utilizar las redes neuronales y los sistemas expertos para cosas como los sistemas de control para ferrocarriles, los sistemas de aterrizaje por instrumentos para aviones y los sistemas de inspección por visión artificial. Sin embargo, la IA cayó en desgracia durante algún tiempo y la propia investigación de Neill se trasladó a la ingeniería de software y sistemas. «Ha sido divertido ver el resurgimiento del aprendizaje de las máquinas con la llegada de la gran analítica de datos y es emocionante ser testigo de la investigación que el Gran Laboratorio de Datos de la universidad está llevando a cabo actualmente, dijo». Uno de los proyectos por los que el Profesor Dr. Colin J. Neill está especialmente entusiasmado es el uso de enfoques analíticos de redes para identificar elementos críticos en sistemas de gran escala – elementos que, si se ven comprometidos, podrían amenazar todo el sistema. La universidad ha descubierto que esto es cierto en los sistemas de software, en los sistemas de ingeniería heterogéneos e incluso en los sistemas de organización.

Logros y reconocimientos

El programa de análisis de datos en sí ha tenido un éxito fenomenal y ha crecido a un ritmo que ha sorprendido a todos. Esto ha permitido a la universidad ampliar la fuerza de su facultad en la disciplina y lanzar una maestría orientada a la investigación para complementar el programa inicial orientado a la profesión. Los logros más satisfactorios, sin embargo, son los de sus estudiantes. Una de las estudiantes, Heather Myers, ganó el concurso Tableau Student Viz en 2017, que es una competición internacional con más de 250 propuestas de todo el mundo. Los equipos de los estudiantes de la universidad también han tenido éxito en las competiciones de tipo hackathon, incluyendo la obtención del segundo puesto en el 2018 ASA Datafest trabajando en un conjunto de datos de 14 millones de filas de Indeed.com, y ganando el premio SAP$0027s Veterans Challenge Use Case Award en Code4PA en septiembre de 2018. Estos logros demuestran no sólo que el programa es capaz de atraer a excelentes estudiantes, sino también que su plan de estudios está preparando a los estudiantes para resolver problemas espinosos del mundo real.

Un emocionante crecimiento de la educación analítica

Cuando se propuso el programa de licenciatura había cerca de dos docenas de programas similares en los EE.UU. Sólo 3 o 4 años después, hay al menos el doble ahora, lo que habla de la necesidad en el mercado de profesionales conocedores de los datos. Una palabra de advertencia a los posibles estudiantes, sin embargo, para que realmente hagan su debida diligencia en el examen de los programas, como en la opinión del profesor Dr. Colin J. Neill un gran número de los programas de grado que están surgiendo ahora están tratando de capitalizar en el término de análisis, pero realmente sólo proporcionan una preparación en lo que los términos de moda significan, en lugar de cómo diseñar, construir y utilizar los sistemas de análisis.

INFORMS y la Sociedad Americana de Estadística, las dos sociedades profesionales, más estrechamente alineadas con la ciencia de los datos y el análisis, tienen claras las habilidades técnicas y analíticas requeridas para un profesional del análisis de datos y el programa está diseñado en torno a esas necesidades – estadísticas computacionales, aprendizaje automático y minería de datos, plataformas tecnológicas para la recolección de datos, limpieza, almacenamiento y recuperación, y críticamente, la capacidad de enmarcar los problemas de negocios como problemas de análisis.

El alcance del Programa de Análisis de Datos Grandes

El gran fenómeno de los datos se describe con 5 Vs – volumen, velocidad, variedad, veracidad y valor. Los datos se generan en mayor volumen y más rápido de lo que nunca se ha visto, piense en los flujos constantes de datos procedentes de redes de sensores que muestrean su entorno miles de veces por segundo o en los volúmenes de tweets generados tras un evento socialmente significativo, por ejemplo. Añada que la industria está ahora interesada en mayores variedades de datos que nunca antes con imágenes, videos, grabaciones de audio así como lenguaje natural expresado como texto, tweets, etc. Todo esto requiere nuevas tecnologías y plataformas para el almacenamiento, recuperación y procesamiento de los datos, por lo que Hadoop, MapReduce y NoSQL están de moda. Además, es necesario explorar nuevas formas de evaluar la calidad de los datos, de limpiarlos identificando errores y corrigiéndolos o procesándolos sabiendo que el nivel de calidad que quisiéramos no es alcanzable a esos volúmenes y velocidades. Finalmente, Penn State hace esto con la única intención de descubrir percepciones significativas que no son de otra manera obvias o incluso conocibles para crear valor. Todos estos son nuevos desafíos que requieren programas especializados que los abarquen de manera holística.

Exposición práctica a conjuntos de datos del mundo real

Penn State utiliza datos reales en la medida de lo posible. «De hecho, considerando la escala de los conjuntos de datos que debemos usar para que la experiencia del estudiante sea significativa, no tenemos alternativa – sería casi imposible generar artificialmente esos conjuntos de datos con todas las peculiaridades encontradas en los datos reales, dijo el Dr. Colin. «Por lo tanto, utilizamos conjuntos de datos públicos como los que ponen a disposición las agencias de investigación como la NSF y los NIH, así como las agencias del gobierno estatal y federal – el concurso Code4PA que ganaron nuestros estudiantes, por ejemplo, utilizó los datos sobre la crisis de los opiáceos puestos a disposición por el Portal de Datos Abiertos de la PA». Además, la facultad de la universidad colabora con la industria privada que comparte sus datos, incluyendo la promoción de asociaciones con United Airlines, GSK, CitiBike y OSIsoft, por nombrar algunos.

A los estudiantes del programa no sólo les encantan los datos porque son reales, sino también porque los problemas que les crea determinan qué pre-procesamiento debe realizarse, seleccionando las herramientas y técnicas de análisis, construyendo modelos a partir de datos reales y evaluando la calidad de esos modelos, y finalmente generando conocimientos que nadie ha descubierto antes. Es ese sentido de descubrimiento el que atrae a los estudiantes a la disciplina en primer lugar. Es emocionante para ellos y para la universidad.

Leave a Comment!