Cómo entrar en Data scientist y más

hda

Buenas compañeros,

me encuentro próximo a un periodo de cambio y tengo que ver cómo encararlo. Aprovecharé este hilo mío número 100 para exponeros el tema a expensas de ver cómo me podéis ayudar. Voy a dejar una pregunta simple abierta en RPV y bajo spoiler indicaré un poco mi trayectoria y competencias por si se pudiese afinar más. Muchas gracias.


RPV

Creo, no estoy seguro, que debería apuntar al sector de Data science conforme termine mis estudios. Controlo, aunque estoy oxidado, algo de programación de gestión y programación científica. Mi capacidad de análisis, aprendizaje y comunicación debiera ser avanzada. Puedo decir que me resuelvo por encima de la media en capacidades informáticas y en ofimática. No tengo ningún curso de big data ni de científico-analista de datos. ¿Qué debería hacer?


Historia completa

Así que sucede lo siguiente: si realmente quiero arriesgarme con un cambio de tercio y saltar a científico de datos, ¿en qué debería formarme? ¿Qué cursos debería hacer? He pensado que quizás debería hacer algún tipo de formación mínima homologada o reconocida antes de entrar en una empresa (para no entrar desde lo raso), o quizás debería optar por entrar directamente en una empresa donde ya ellos mismos me diesen la formación necesaria.

He visto que estando en paro hay una serie de cursos, caros, los cuales serían gratuitos para formarme en esto. También existe la opción de moocs, pero debéis de tener en cuenta que mi atención a día de hoy está centrada en escribir la tesis y no podría dedicarme a ello hasta depositar. Por último, me ha salido una oferta de trabajo, una vez termine la tesis, de entre 6 y 8 meses en mi propio centro de investigación para funcionalización de un material, sería un posdoc corto. Esto también es interesante porque para el personal del CSIC hay a disposición una serie de cursos (necesitáis login) homologados a cero coste. Mientras estuviese trabajando con este contrato podría aprovechar para hacer formación sobre el tema.

Concluyo hablando de mi temor. Temor porque, como he dicho antes, desde los 8 hasta los 23 quise ser programador para una vez alcanzado el hito darme cuenta de que ya no quería serlo. Temo intentar un cambio de tercio a mi edad y que salga mal (que no me motive ser data scientist, su realidad laboral, vaya). Aunque claro, quien no arriesga no gana.

Nota: defenderé la tesis en septiembre/octubre. Mi contrato actual durará hasta octubre. Obviamente seguiré necesitando trabajo para vivir a partir de ese mes (eso sí, podría disponer de varios meses de prestación por paro, quizás para invertir en formación).

Muchas gracias por leerme y por vuestras respuestas.

5
perez_chuck

#1 https://web.unican.es/centros/ciencias/Paginas/Master-interuniversitario-(UC-UIMP)-en-Data-Science.aspx
El máster es de 1 año, oficial, y permite doctorarse después.

Si tienes alguna pregunta concreta ya sabes.

IBM tiene una serie de cursos, al principio se llamaba bigdatauniversity, ahora creo que es https://cognitiveclass.ai/courses/

Ten en cuenta que si nunca has hecho BigData, aunque tienes muy buena base, la cosa cambia. En BigData todo es a lo grande, y cambian las estructuras de datos y con ellos la forma de programación. En el máster había varios físicos y les costó la programación bastante pero lo sacaron. Hoy en día ya hay mucho hecho, y por ejemplo en machine learning y tal con 4 sentencias haces todo. Ya luego ser experto y profundizar y entender por qué ocurre todo y como mejorar tu sistema de aprendizaje lleva su tiempo y práctica y error. También dependiendo sobre lo que trabajes, necesitarás base matemática/estadística.
Vi un doctorado en La Coruña que no sé si llegarán a cubrir, y dudo que alcancen el objetivo fijado, que era mostrar por qué y cómo saca las conclusiones que saca el deep learning.

PD: los cursos esos son para Madrid sólo, o estando en otra comunidad podrías hacerlos?
Creo que en su día miré y los que había eran super básicos (2+2). Qué suerte poder hacer esos.

Editado que no vi la historia completa.

1 respuesta
Onehit

Tienes formación de sobra para empezar a trabajar como científico de datos, aunque tendrás que defender en la entrevista el cambio con 32 años

La Data Scientist de mi empresa es física, lo que pasa es que es jovencita.. otras expectativas económicas y está en formación

Una buena opción es que busques startups de tecnología que estén metidas en el tema Cloud y BigData y consigas una entrevista, pero te la tienes que preparar porque seguramente te la vaya a hacer un técnico

El data scientist es un puesto relativamente reciente, hay mucha gente que recién está empezando por lo que es importante que demuestres una buena actitud por aprender, no pidas un sueldazo y te partas el culo formándote dentro de la empresa. En la mía todos los técnicos están en constante formación

Luego mira exactamente qué habilidades técnicas te van a pedir, para ver cuáles tienes y cuáles podrías adquirir con algún curso básico para ir a la entrevista

1 respuesta
PaCoX

creo que @legent sabe de esto

1
Narop

Buenas, yo lo he sido... ahora me he movido mas a management pero sigo ensenando a tios. En mi caso te recomendaria estadistica a saco, algo de SQL, R o SAS no esta mal y obviamente te complementa a saco, pero estadistica de libro, saber que aplicar en cada caso, para que, etc.

Factor analysis, clustering, regresiones con variables discretas, dicotonomicas, continuas (toda esa mierda y saber distinguirla), modelos IMA, MA, exponential smoothing simple, doble, triple... etc. El como lo aplicas ya dependera del sector, empresa y puesto.

Vamos para mi la parte de data management, extraction/queries (que mucha gente de BI puro de autodefinen como Data Scientist) no es tan importante como el saber que hacer con ello. Yo siempre digo, dame la data y ya me las apa;o yo. La mayoria de gente que he visto en BI no saben dar el salto de data a insights que es lo importante, pero bueno eso es mi experiencia personal.

Despues dentro de Data Scientist hay muchisimo... puedes ir como has dicho a Big Data en cuyo caso, R y SAS seran casi indispensables o a parte mas de estrategia y management donde probablemente con SPSS, Excel y poco mas lo hagas.

En resumen, estadistica y aplicaciones practicas, creacion de algoritmos para ventas, modelacion de precios, estimacion de XXXXX, etc.

Referente a perfil, quizas ahora mismo estes un poco junior pero siendo fisico nadie te cuestionara capacidad, asi que animo :)

4 1 respuesta
hda

#2 gracias por el primer enlace. En principio no contemplo hacer otro máster u otro doctorado. Tampoco tengo cómo pagármelo xD

Tomo nota de los mooc de esa web.

Los cursos del paro que enlazo creo que son solo para Madrid, sí. Que es lo que he estado mirando.

#3 sí, creo que la justificación es lo implícito que pongo en OP. Lo de buscar una startup es interesante, pero creo que para eso debería llegar ya sabiendo lo que necesito. Quizás en una más grande den información. Tomo nota de tus recomendaciones.

#5 tengo que analizar más detenidamente tu respuesta. La estadística no se me da mal, tampoco es que sepa un chorro de ella. La cosa es que pese a no disgustarme tampoco es que sea la mayor de mis motivaciones. Obviamente me tendré que manejar con ella, ¿pero es tal el nivel necesario?

#5Narop:

Factor analysis, clustering, regresiones con variables discretas, dicotonomicas, continuas (toda esa mierda y saber distinguirla), modelos IMA, MA, exponential smoothing simple, doble, triple... etc. El como lo aplicas ya dependera del sector, empresa y puesto.

Vamos, en este párrafo tuyo me suenan campanas.

Se te ve enterado, ¿alguna recomendación de por dónde empezar? ¿Qué estudiar? ¿Qué empresas seguir?

Gracias a los 3 :)

2 respuestas
perez_chuck

#6 Tras ver lo que has estudiado ya, imaginé que no xD Pero bueno te sirve de guía para ver qué hay que estudiar y tal.
La estadística es necesaria dependiendo el perfil al que quieras dedicarte y los datos que vayas a tratar.

Ya vi lo de los cursos. Puta vida... ni comparación a los de Cantabria o Castilla y León :rolling_eyes:

1 respuesta
Unrack

#7 Yo estoy terminando ese mismo máster xD

1 respuesta
perez_chuck

#8 Y qué tal la experiencia. Qué estudiaste antes?

1 respuesta
HeXaN

Dada tu formación en Física (con alta carga matemática) no vas a tener problemas en comprender los fundamentos, por lo que yo no me pondría a hacer cursos chorras sobre esto.

Lo que te falta son HERRAMIENTAS y saber usarlas. ¿Quieres dedicarte a bigdata? Empieza a empaparte de Scala porque es el estándar de facto en la industria y no eres nadie si no te desenvuelves en él (o mínimo Hadoop).

¿Usar KNN, una regresión, SVR, SVM...? Chorradas que tú, concretamente, vas a saber en una semana que te dediques a estudiar el estado del arte. No te ciegues por la teoría porque, en este campo, la picaresca y el saber usar las herramientas adecuadas valen casi tanto o más que ésta.

5 1 respuesta
Unrack

#9 Tiene sus cosas buenas y malas pero teniendo en cuenta lo diverso que es el campo no está mal. Si quieres algo más detallado mandame mp.

Narop

#6 Voy a escribir un poco de todo asi que sorry por la falta de estructura...

Empresas hay 20,000, piensa en tech, robotica, software, AI... yo en concreto he trabajado algunos anos para Software/SaaS, donde creaba algoritmos de estimacion de ingresos, o algoritmos de estimacion de precio, comportamiento de consumidor, etc. La gente se piensa que crear algoritmos es the matrix pero es tan sencillo como una funcion, y = c + aX1 + bX2 o similares...

Algunas que hacen por ejemplo heavy data science son Uber o Lyft, pero claro son unos flipados que te cagas y piden ser Dr. Estadistica o matematicas y cosas asi, pq mezclan mucho big data con data science y claro... otras como Online media, Facebook, Google, Twitter tambien tienen equipos interesantes, sobretodo el primero pq son muy enfocados a customer behaviour y es una pasada. Otras obviamente son las de AI que he comentado antes, yo he trabajado para un casi un ano en un par de proyectos y usabamos muchisimo estadistica inferencial, prevision de comportamiento, que resultados habian sido mejores y algo de machine learning basica para ponderar mas mejores respuesta... (de nuevo esto suena a NASA, pero no lo es).

Yo empezaba por teoria basica, tengo un par de libros en casa de mis padres que era de Introduccion a la estadistica o estadistica I (ojo que yo soy de ADE) muy buenos, te los miro y te mando MP. Mirate estadistica descriptiva e inferencial, algo de teoria de juegos (que aunque yo personalmente he llegado a aplicar equilibrios de Nash en curros, lo recomiendo mas por el aprender los principios que por las veces que lo vayas a usar), modelos de regresion simple y multiple, y cluster y factor analisis para temas de segmentacion, y con eso tienes unas bases bastante cojonudas.

Last but not least, yo aprenderia algo teorico de microeconomia y funciones de utilidad, pq en trabajos donde tengas B2C puedes desarrollar curvas de preferencia y tal entendiendolas un poco mejor, y relacionarla con oferta y demanda, que a veces el algoritmo de turno lo tienes que capar con limites y mierdas.

Como te ha dicho Hexan no creo que viniendo de Fisicas te cueste mucho aprenderte esto, y ademas lo bueno es que hoy en dia hasta Excel te hace muchisimo, si ya te vas a R o SPSS te hacen todo.

Mas cosas... ESADE creo que tiene una catedra de Big Data, Manu Carricano (muy majete) lleva todos estos temas, da muchas conferencias y tal, te lo puedes buscar por linkedin y pedirle bibliografia, o seguirle simplemente, postea bastante y siempre interesante. El lo enfoca mucho a pricing que es el sector que tenemos en comun pero en cualquier caso, muy util.

#10 Curiosidad, como y cuando usas KNN en concreto? clustering o estimacion de datos no informados? Y SVR/SVM, como lo usas? pq lo estudie en su dia por mi cuenta pero me en la practica siempre me ha resultado mucho mas facil hacer exponential smoothing doble o triple.

2 1 respuesta
HeXaN

#12 A mí me da que tú eres más de business intelligence que de ciencia de datos pura y dura xD

1 respuesta
Narop

#13 might be... yo BI lo encajo mas en extraccion de data y gestion de database, en cualquier caso como lo usas?

Desde luego yo vengo de consulta y voy a impacto directo en revenue o profitability normalmente, entonces hacemos cosas muy practicas con impacto directo xD

1 respuesta
HeXaN

#14 Lo usas como cualquier otra herramienta: estudias el problema y pruebas los que piensas que irán mejor.

Por ejemplo, yo ahora tengo un problema de forecasting de series temporales y el SVR funciona muy bien por la naturaleza del mismo.

1 respuesta
Narop

#15 Si claro, yo tb lo uso para forecasting, el tema es que debo desconocer las diferencias entre esa el SVM y el TES xD

1 respuesta
HeXaN

#16 Pues por ejemplo, hasta donde yo sé, TES no se lleva muy bien con problemas multivariantes con dependencias temporales en instantes pasados.

Mi problema precisamente es eso (365 variables que afectan a la serie temporal de salida) y SVR va de puta madre (sobretodo cuando añades información de instantes temporales anteriores).

1 respuesta
Narop

#17 pfff, seguire con mi TES tranquilamente... por curiosidad, que cojones estas prediciendo y de cuanto tienes historico?

1 respuesta
hda

Por la discusión en la que nos encontramos voy a dejar esta imagen que he encontrado:

Yo creo que lo que me llama es el análisis predictivo,

1 1 respuesta
Fyn4r

#19 Me encantan este tipo de imágenes porque les cambias el nombre por estadística descriptiva e inferencia estadística y es exactamente lo mismo pero joder, cuanto glamour pierde por el camino!

2 2 respuestas
hda

#20 ¿y de la "flecha sonrisa" no dices nada?

1 respuesta
Fyn4r

#21 No porque son un recurso que utilizo mucho xDDD

1
Camperito

Buff, yo estoy trabajando ahora en big data desde hace 1 año, y te puedo decir que si lo que te gusta es programar, yo no me meteria en este mundo, es una porqueria y cuento los dias para salir de aqui. Si lo que te gusta es la ingesta de datos etc, bienvenido seas, pero literalmente me he pasado 7 meses sin poner una linea de codigo, y ahora estos ultimos 3 meses trabajando con un poco de calidad de datos con python. Te las pasas el 99% con el programita de turno que use la empresa y la base de datos abierta

Te paso dos imagenes de lo que estoy haciendo justo ahora mientras escribo este post para que te hagas una idea

https://imgur.com/a/qAm1hlU

1 1 respuesta
hda

#23 Gracias por el feedback.

Creo que debo aclarar algo: a mí no me atrae hacer ingeniería de big data, montar esquemas y bases de datos, optimizar la velocidad con la que se lee o trasfiere la información, etc. Es decir, no me interesa especializarme en arquitecturas Big Data.

Lo que me interesa es, creo, ser data scientific. Utilizar la herramienta ya estructurada, poder analizar la información que en ella hay, buscar correlaciones, enseñar redes neuronales, optimizar su aprendizaje (de las redes), sacar conclusiones y transmitir/comunicar esas conclusiones.

Quizás pida que cambien el título del hilo y retiren la palabra "big data".

2 respuestas
Narop

#20 Hace no mucho lei un articulo de un pavo que hablaba precisamente de eso, era algo como... Explain or Predict?

Para mi Data Science es ambos... tienes la parte de analisis y despues la parte "se me va la puta olla intentando predecir el futuro con un margen de error del 1%" xD

1 respuesta
hda

#25 jaja, y eso mola. Solo quiero dejar claro que mi interés no radica en saber montar y optimizar un data warehouse, sino en saber trabajar con él.

Unrack

#24 efectivamente son dos especialidades completamente distintas.

Narop

#24 Quizas puedes buscar por Insights analyst o algo asi... pero vamos yo juraria que entonces estas mas interesado en la descriptiva, y en base a eso hacer algoritmos y tal, no tanto para predecir si no para ayudar en la toma de decisiones, etc. Yo estoy mas en eso, temas de prediccion lo hago mas si ayudo a otros departamentos

1 respuesta
hda

Bueno, insisto en que me encuentro bastante perdido, no tengo muy claro a qué apuntar (por eso el hilo).

Pues lo que comentas, #28 , sí me llama más inisght analyst – or more fashionably, data scientists – se ve que además de tensorflow (Python) y, según @hexan , Scala, debería aprehender SPSS, SAS y KXEN. Además de masterizar estadística.

Vamos, que me atraen los retos, pero como esto siga creciendo veo más viable irme a Holanda a diseñar chips fotónicos, cosa que también es atractiva, aunque no explote mis habilidades informáticas. 😊🔫

HeXaN

Si os leen en mi grupo de investigación decir que "Big Data es darle a un botón y analizar" os cancelan la beca al instante.

#18 Es la salida de un proceso industrial lo que predecimos. Para que te hagas una idea tenemos 2,5 millones de observaciones (minuto a minuto) cada una con más de 300 variables (a las que añadimos un montón de operaciones y llegamos a varios miles de variables) y hacemos predicciones MUY buenas en horizontes de 15, 30, 45 y 60 minutos. Y por cierto: a pesar de la cantidad de datos NO es Big Data.

7 1 respuesta