The Altair Community is migrating to a new platform to provide a better experience for you. In preparation for the migration, the Altair Community is on read-only mode from October 28 - November 6, 2024. Technical support via cases will continue to work as is. For any urgent requests from Students/Faculty members, please submit the form linked here

que significa el weight en el rol de datos?

hildarghildarg Member Posts: 1 Learner I
edited July 2019 in Help
que significa el weight en el rol de datos?
Tagged:

Answers

  • varunm1varunm1 Member Posts: 1,207 Unicorn
    Hello @hildarg

    Los weight se utilizan para indicar la importancia de un ejemplo para predecir la salida. Esto generalmente es dado por el operador "Generar weight". Si ya tiene ponderaciones calculadas en su conjunto de datos, simplemente puede establecer ese tipo de atributo como ponderación utilizando el operador de rol establecido. Si desea obtener más información, puede consultar el texto de ayuda del operador Generar weight (LPR).

    Powered by Google Translate. My buddy @rfuentealba can dig deep on this in Spanish  :)
    Regards,
    Varun
    https://www.varunmandalapu.com/

    Be Safe. Follow precautions and Maintain Social Distancing

  • rfuentealbarfuentealba RapidMiner Certified Analyst, Member, University Professor Posts: 568 Unicorn
    Hola @hildarg,

    "weight" en castellano es "peso". Y la idea del peso es la misma que un balancín.

    Supongamos que agrupaste a cinco personas según su diagnóstico. Tres de ellas, cada una de 50 kilos de peso, están en un lado del balancín y dos de ellas al otro lado. ¿Cómo están los datos? Desbalanceados, ¿verdad? Pues, si quieres que el balancín quede más o menos bien, tienes que agregarle peso a un lado para que quede parejo.

    En ciencia de datos necesitas tener datos balanceados para que éstos signifiquen algo, porque si no tus predicciones no van a ser exactamente lindas, por lo que hay un análogo a esta operación. Con este ejercicio en mente, supongamos que tienes el siguiente set de datos:

    id, sistole, diastole, pulso, diagnóstico<br> 1,     120,       70,   120, arritmia<br> 2,     150,      100,    90, hipertension<br> 3,     120,       70,    60, normal<br> 4,     120,       70,    65, normal<br> 5,     120,       80,    70, normal <br>

    Tienes dos formas de darle importancia a la etiqueta de arritmia, para poder hacer que sea significativa. Una es usando "muestras hasta igualar hacia arriba", otra es "muestras hasta igualar hacia abajo", y otra es "uso de pesos específicos". El problema es que igualar hacia arriba o hacia abajo (en inglés, upsampling o downsampling) ensucia las muestras, porque estás creando datos artificialmente. En cambio, puedes generar pesos (Generate Weight) para multiplicar los valores por ese peso, cosa de no ensuciar las muestras.



    En el caso que te describí, por ejemplo, arritmia tiene un peso de 25% sobre el resto que tiene 12.5%. ¿Te das cuenta de que la columna weight es rosada? Es porque esa columna tiene como "rol" un peso generado (o sea, un weight). Ahora, yo lo hice usando el operador que es para eso, pero ¿qué ocurre si por ejemplo, tienes otra forma de generar pesos, como una fórmula matemática diferente, un script en Python, etc.? Puedes por ti mismo ponerle ese rol en la columna, y usar alguno de los operadores que tienen soporte para pesos (hay un árbol de decisión que tiene eso).

    Ahí hay una explicación un poco más didáctica.

    @varunm1, your translation was good, thanks mate!!!
Sign In or Register to comment.