Cómo entrar en Data scientist y más

HeXaN
#60covaga:

Es muy aburrido

Mira mi número de mensajes en el foro y dímelo tú xD

1 1 respuesta
covaga

#61 pero aburrido en el sentido cuabdo se hacen los "test" se tiene que dejar el pc dandole al tema y tienes que esperar los resultaldos?

Te comes mucho la cabeza? o ya está todo inventado y solo hay que saber aplicar las cosas?

2 respuestas
HeXaN

#62 En mi caso, ciencia de datos pura (nada de BI de esos que hacen cuatro gráficas y se creen científicos de datos) se juntan varios problemas:

  • Las empresa, en su mayoría, siguen pensando que esto es magia. Piensan que hay unos algoritmos esotéricos que te devuelven lo que justo estás buscando.
  • Relacionado con lo anterior: los datos del mundo real son pura mierda y la mayoría de empresas se piensan que te han dado oro. Datos de mala calidad, escasos, que no reflejan el problema a resolver, etcétera. Debido a esto tienes que pasarte horas en reuniones haciéndoles entender que la ciencia de datos es tan buena como buenos sean los datos de partida.
  • Te rompes la cabeza a diario para buscar las técnicas que extraigan algo útil de ese estercolero que te han dado por datos. Lees mil papers, implementas algoritmos del estado del arte, le das mil vueltas a los datos...
  • La puta moda de las redes neuronales. Un cáncer en las industria y de nuevo a hacerles comprender que no puedes meter una puta arquitectura de CNN + LSTM con 1000 putos datos de mierda.
  • Otro problema que se suele ver es el tema de tener resultados cuanto antes. A los de negocio les cuesta entender que esto no es hacer una web que todos los días haces tus cuatro mierdas de JS y CSS y listo. Hay semanas que no hay nada que enseñar y punto (típico algoritmo genético que tarda tres o cuatro días en correr).

Pero bueno, podría seguir y seguir. Si no fuese porque mi contrato es parte de mi doctorado, el buen sueldo y las condiciones, le daban por culo a la ciencia de datos más pronto que tarde.

8
Isidrus

Un par de curiosidades para los del sector.

¿Se usa R en el mundillo? En investigación tengo entendido que bastante pero no sé si a nivel de empresa...

¿Usáis clusters cuando hay que correr cosas muy pesadas?

2 respuestas
HeXaN

#64 Se usa Python fundamentalmente y sí, hay que usar clusters muchas veces.

1
hda

#60 la fase del proyecto en el que me encuentro se trata de recabar datos, limpiarlos, estandarizarlos y componer la db. Así que actualmente estoy picando bastante código, python, es pura gestión. Cuando termine esta fase empezará la parte estimulante: mates sobre los datos, proponer modelos, intentar buscar justificaciones a las dinámicas que se muestran, etc. Sobre la segunda fase hemos hecho algo tentativo ya, y prometedor (espero que salgan 1 o 2 papeles); pero por lo pronto toca generar la db.

#64 python y R, quizás algo de matlab. Pero. sobre todo y como dice el pato, python. Sobre clústeres, bueno, depende de lo que hagas, claro. Hacer análisis descriptivos no requiere de un coste computacional tal como desarrollar modelos avanzados para análisis predictivos.

1
1 mes después
Ardi

Yo después de haber hecho mi Tfg con CNNs no quiero volver a tocar el tema en lo que me queda de vida, problemas de preprocesamiento, datos de mierda, equipo limitado y una ciencia con la que se piensa todo el mundo que se va a hacer rico

1 1 respuesta
Unrack

#62 Siguiendo en la línea de @HeXaN yo recomiendo no comerse mucho la cabeza. Entregas una puta mierda default de sklearn/keras/(o ya si quieres ser creativo jugar con tensorflow/pytorch nativo). Hasta los cojones de que se planteen los proyectos con objetivos de métricas sin tener ni puta idea de lo que hay. Te doy este estercolero y hace falta un modelo con 90% accuracy porque potato.

1 1 respuesta
HeXaN

#67 Mi día a día xD

covaga

#68 yo es que no trabajo de eso pero en mi departamento hay un estadístico dándole duro con el tema pero trabaja mucho con R.
Ahora le han pedido que cree lo que sea para que el transelevador elija las rutas mas rápidas a la hora de dejar los palets en las estanterías.
estaba probando el gradient boost tree. pero no le estaba funcionando.

1 respuesta
Unrack

#70 Pues son algoritmos bastante robustos. Yo uso mucho https://lightgbm.readthedocs.io/en/latest/index.html
Sus problemas pueden venir del tipo de problema y quizá darle al coco al feature extraction/engineering.

HeXaN

Es que para hacer ese tipo de problemas se usa otra rama xD @Fyn4r trabaja en ello si no recuerdo mal.

Fyn4r

En efecto, eso suena más a "mi" rama. Casi seguro necesite otra forma de modelar el problema

1 respuesta
Unrack

#73 Cuál es tu rama. El problema de este chico me suena a temas de caminos más cortos en grafos, pero no se mucho del tema.

1 respuesta
covaga

mañana hablaré con él del tema.
Siempre flipo cuando plantea las formulas y luego las pasa al lenguaje que le los informaticos que llevan el SGA, cuando hablo con él se nota que está muy mal de la cabeza.

Fyn4r

#74 ser, es la investigación operativa, optimización combinatoria siendo más concreto. Modelos de programación lineal entera y estas cosas. Justamente lo que comentas de caminos y grafos, aunque no trabajo tanto con problemas representables con grafos como me gustaría xd

7 días después
Phil_Rich

https://www.elespanol.com/reportajes/20200723/modulo-fp-big-data-estrella-trabajo-seguro/507200421_0.html

El nuevo módulo de FP en ‘Big Data’, la estrella: dos años, trabajo seguro y 30.000 euros de sueldo

Easy

1 respuesta
Leoshito

#77 Mis profes de la uni estarán tirándose de los pelos o frotándose las manos, una de dos.

1 respuesta
HeXaN

#78 A tus profesores de la universidad les sudan las pelotas eso xD

1 respuesta
Leoshito

#79 No si es más por bien que se saquen otro sueldo como profes o que se caguen en dios al ver el nivel xD

R

La burbuja de los científicos de datos

richmonde

Pues van como... 6 años tarde xD