💬0 Comments

🔥0 Discussions

👤0 Members

🔌0 Online

Howdy, Stranger!

It looks like you're new here. Sign in or register to get started.

Sign In Register

Categories

This Week's Leaders

All Time Leaders

16942 Points varunm1
15188 Points Telcontar120
11379 Points lionelderkrikor
9452 Points ceaperez
7621 Points kayman
6838 Points rfuentealba
4978 Points jacobcybulski
4837 Points jwpfau
2910 Points hughesfleming68
2812 Points SGolbert

Forum Stats

445,168 Users
18,510 Discussions
54,552 Comments

The Altair Community is migrating to a new platform to provide a better experience for you. In preparation for the migration, the Altair Community is on read-only mode from October 28 - November 6, 2024. Technical support via cases will continue to work as is. For any urgent requests from Students/Faculty members, please submit the form linked here

Vector Creation TF-IDF

Flixport

Flixport Member Posts: 33

Contributor II

April 2019 in Help

Hey all,

does the TF IDF vector creation have a certain number of records that MUST be present?

BR

0

Best Answers

sgenzer Administrator, Moderator, Employee-RapidMiner, RapidMiner Certified Analyst, Community Manager, Member, University Professor, PM Moderator Posts: 2,959 Community Manager

April 2019 Solution Accepted

hi @Flixport here's a rather lengthy explanation of TF-IDF that I wrote a while ago:

https://community.rapidminer.com/discussion/46333/term-frequencies-and-tf-idf-how-are-these-calculated

Scott

5
kayman Member Posts: 662 Unicorn

April 2019 Solution Accepted

Your prune settings are incorrect, when using percentual ensure you use a range like 0 to 80 or so. Now you prune everything above 0.4% while I assume you want 40% instead.

7

Answers

Flixport Member Posts: 33 Contributor II

April 2019

Hi @sgenzer,

thanks for the answer. What surprises me here is that I use TF IDF but I don't get the words spit out as output of the records.

<?xml version="1.0" encoding="UTF-8"?><process version="9.2.001">
<context>
    <input/>
    <output/>
    <macros/>
</context>
<operator activated="true" class="process" compatibility="9.2.001" expanded="true" name="Process">
    <parameter key="logverbosity" value="init"/>
    <parameter key="random_seed" value="2001"/>
    <parameter key="send_mail" value="never"/>
    <parameter key="notification_email" value=""/>
    <parameter key="process_duration_for_mail" value="30"/>
    <parameter key="encoding" value="UTF-8"/>
    <process expanded="true">
      <operator activated="true" class="read_csv" compatibility="9.2.001" expanded="true" height="68" name="Read CSV" width="90" x="45" y="34">
        <parameter key="csv_file" value="C:\Users\Araz\Desktop\reut2-10N.csv"/>
        <parameter key="column_separators" value=";"/>
        <parameter key="trim_lines" value="false"/>
        <parameter key="use_quotes" value="true"/>
        <parameter key="quotes_character" value="""/>
        <parameter key="escape_character" value="\"/>
        <parameter key="skip_comments" value="true"/>
        <parameter key="comment_characters" value="#"/>
        <parameter key="starting_row" value="1"/>
        <parameter key="parse_numbers" value="true"/>
        <parameter key="decimal_character" value="."/>
        <parameter key="grouped_digits" value="false"/>
        <parameter key="grouping_character" value=","/>
        <parameter key="infinity_representation" value=""/>
        <parameter key="date_format" value=""/>
        <parameter key="first_row_as_names" value="true"/>
        <list key="annotations">
          <parameter key="0" value="Name"/>
        </list>
        <parameter key="time_zone" value="SYSTEM"/>
        <parameter key="locale" value="English (United States)"/>
        <parameter key="encoding" value="windows-1252"/>
        <parameter key="read_all_values_as_polynominal" value="false"/>
        <list key="data_set_meta_data_information">
          <parameter key="0" value="exchanges.true.polynominal.attribute"/>
          <parameter key="1" value="orgs.true.polynominal.attribute"/>
          <parameter key="2" value="people.true.polynominal.attribute"/>
          <parameter key="3" value="places.true.polynominal.attribute"/>
          <parameter key="4" value="text.true.polynominal.attribute"/>
          <parameter key="5" value="title.true.polynominal.attribute"/>
          <parameter key="6" value="topics.true.polynominal.attribute"/>
          <parameter key="7" value="Category.true.polynominal.attribute"/>
          <parameter key="8" value="zahlen.true.polynominal.attribute"/>
          <parameter key="9" value="text_orig.true.polynominal.attribute"/>
        </list>
        <parameter key="read_not_matching_values_as_missings" value="false"/>
        <parameter key="datamanagement" value="double_array"/>
        <parameter key="data_management" value="auto"/>
      </operator>
      <operator activated="true" class="nominal_to_text" compatibility="9.2.001" expanded="true" height="82" name="Nominal to Text" width="90" x="246" y="34">
        <parameter key="attribute_filter_type" value="subset"/>
        <parameter key="attribute" value=""/>
        <parameter key="attributes" value="text"/>
        <parameter key="use_except_expression" value="false"/>
        <parameter key="value_type" value="nominal"/>
        <parameter key="use_value_type_exception" value="false"/>
        <parameter key="except_value_type" value="file_path"/>
        <parameter key="block_type" value="single_value"/>
        <parameter key="use_block_type_exception" value="false"/>
        <parameter key="except_block_type" value="single_value"/>
        <parameter key="invert_selection" value="false"/>
        <parameter key="include_special_attributes" value="true"/>
      </operator>
      <operator activated="true" class="generate_tfidf" compatibility="9.2.001" expanded="true" height="82" name="Generate TFIDF" width="90" x="380" y="34">
        <parameter key="calculate_term_frequencies" value="true"/>
      </operator>
      <operator activated="true" class="text:process_document_from_data" compatibility="8.1.000" expanded="true" height="82" name="Textfeatures" width="90" x="514" y="34">
        <parameter key="create_word_vector" value="true"/>
        <parameter key="vector_creation" value="TF-IDF"/>
        <parameter key="add_meta_information" value="true"/>
        <parameter key="keep_text" value="false"/>
        <parameter key="prune_method" value="percentual"/>
        <parameter key="prune_below_percent" value="0.0"/>
        <parameter key="prune_above_percent" value="0.4"/>
        <parameter key="prune_below_rank" value="0.001"/>
        <parameter key="prune_above_rank" value="0.3"/>
        <parameter key="datamanagement" value="double_sparse_array"/>
        <parameter key="data_management" value="auto"/>
        <parameter key="select_attributes_and_weights" value="false"/>
        <list key="specify_weights">
          <parameter key="text" value="1.0"/>
        </list>
        <process expanded="true">
          <operator activated="true" class="text:transform_cases" compatibility="8.1.000" expanded="true" height="68" name="Transform Cases" width="90" x="45" y="34">
            <parameter key="transform_to" value="lower case"/>
          </operator>
          <operator activated="true" class="text:filter_stopwords_english" compatibility="8.1.000" expanded="true" height="68" name="Filter Stopwords (English)" width="90" x="179" y="34"/>
          <operator activated="true" class="text:tokenize" compatibility="8.1.000" expanded="true" height="68" name="Tokenize" width="90" x="313" y="34">
            <parameter key="mode" value="non letters"/>
            <parameter key="characters" value=".:"/>
            <parameter key="language" value="English"/>
            <parameter key="max_token_length" value="3"/>
          </operator>
          <operator activated="true" class="text:stem_snowball" compatibility="8.1.000" expanded="true" height="68" name="Stem (Snowball)" width="90" x="447" y="34">
            <parameter key="language" value="English"/>
          </operator>
          <operator activated="true" class="text:filter_by_length" compatibility="8.1.000" expanded="true" height="68" name="Filter Tokens (by Length)" width="90" x="581" y="34">
            <parameter key="min_chars" value="3"/>
            <parameter key="max_chars" value="100"/>
          </operator>
          <connect from_port="document" to_op="Transform Cases" to_port="document"/>
          <connect from_op="Transform Cases" from_port="document" to_op="Filter Stopwords (English)" to_port="document"/>
          <connect from_op="Filter Stopwords (English)" from_port="document" to_op="Tokenize" to_port="document"/>
          <connect from_op="Tokenize" from_port="document" to_op="Stem (Snowball)" to_port="document"/>
          <connect from_op="Stem (Snowball)" from_port="document" to_op="Filter Tokens (by Length)" to_port="document"/>
          <connect from_op="Filter Tokens (by Length)" from_port="document" to_port="document 1"/>
          <portSpacing port="source_document" spacing="0"/>
          <portSpacing port="sink_document 1" spacing="0"/>
          <portSpacing port="sink_document 2" spacing="0"/>
        </process>
      </operator>
      <operator activated="true" class="store" compatibility="9.2.001" expanded="true" height="68" name="Store" width="90" x="715" y="34">
        <parameter key="repository_entry" value="reut2"/>
      </operator>
      <connect from_op="Read CSV" from_port="output" to_op="Nominal to Text" to_port="example set input"/>
      <connect from_op="Nominal to Text" from_port="example set output" to_op="Generate TFIDF" to_port="example set input"/>
      <connect from_op="Generate TFIDF" from_port="example set output" to_op="Textfeatures" to_port="example set"/>
      <connect from_op="Textfeatures" from_port="example set" to_op="Store" to_port="input"/>
      <connect from_op="Store" from_port="through" to_port="result 1"/>
      <portSpacing port="source_input 1" spacing="0"/>
      <portSpacing port="sink_result 1" spacing="0"/>
      <portSpacing port="sink_result 2" spacing="0"/>
    </process>
</operator>
</process>

reut2-10N.csv 218.1K

0

Sign In or Register to comment.