Processing documents from files -Xpath query

AbhiPM · March 2024

Hi there,

Could someone assist me with a problem I encountered in RapidMiner? I utilized the Website Crawl Web operator to create a file, then used the Extract Information operator. However, when attempting to display a paragraph via XPATH, the result shows a question mark. Can you please help me solve this? I have attached the details. I'm aiming for a result like this: "ZineMind is a Global Information Technology Services and Product Development company delivering quality tech solutions to customers across varied industry domains."

<div><?xml version="1.0" encoding="UTF-8"?><process version="10.3.000"></div><div>&nbsp; <context></div><div>&nbsp; &nbsp; <input/></div><div>&nbsp; &nbsp; <output/></div><div>&nbsp; &nbsp; <macros/></div><div>&nbsp; </context></div><div>&nbsp; <operator activated="true" class="process" compatibility="10.3.000" expanded="true" name="Process"></div><div>&nbsp; &nbsp; <parameter key="logverbosity" value="init"/></div><div>&nbsp; &nbsp; <parameter key="random_seed" value="2001"/></div><div>&nbsp; &nbsp; <parameter key="send_mail" value="never"/></div><div>&nbsp; &nbsp; <parameter key="notification_email" value=""/></div><div>&nbsp; &nbsp; <parameter key="process_duration_for_mail" value="30"/></div><div>&nbsp; &nbsp; <parameter key="encoding" value="SYSTEM"/></div><div>&nbsp; &nbsp; <process expanded="true"></div><div>&nbsp; &nbsp; &nbsp; <operator activated="true" class="text:process_document_from_file" compatibility="10.0.000" expanded="true" height="82" name="Process Documents from Files" width="90" x="45" y="136"></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <list key="text_directories"></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <parameter key="all" value="C:/Users/ADMIN/Desktop/Rapidminer/Crawl"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; </list></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="file_pattern" value="*"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="extract_text_only" value="false"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="use_file_extension_as_type" value="true"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="content_type" value="txt"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="encoding" value="SYSTEM"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="create_word_vector" value="false"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="vector_creation" value="TF-IDF"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="add_meta_information" value="true"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="keep_text" value="true"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="prune_method" value="none"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="prune_below_percent" value="3.0"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="prune_above_percent" value="30.0"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="prune_below_rank" value="0.05"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="prune_above_rank" value="0.95"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="datamanagement" value="double_sparse_array"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <parameter key="data_management" value="auto"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; <process expanded="true"></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <operator activated="true" class="text:extract_information" compatibility="10.0.000" expanded="true" height="68" name="Extract Information" width="90" x="45" y="34"></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <parameter key="query_type" value="XPath"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <list key="string_machting_queries"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <parameter key="attribute_type" value="Nominal"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <list key="regular_expression_queries"></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <parameter key="Test" value="//p[@id=&quot;ze-vc-subtitle-4618&quot;]/text()"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; </list></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <list key="regular_region_queries"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <list key="xpath_queries"></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <parameter key="Who we are" value="//p[@id=&quot;ze-vc-subtitle-4618&quot;]/text()"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; </list></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <list key="namespaces"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <parameter key="ignore_CDATA" value="true"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <parameter key="assume_html" value="true"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <list key="index_queries"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <list key="jsonpath_queries"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; </operator></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <connect from_port="document" to_op="Extract Information" to_port="document"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <connect from_op="Extract Information" from_port="document" to_port="document 1"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <portSpacing port="source_document" spacing="0"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <portSpacing port="sink_document 1" spacing="0"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <portSpacing port="sink_document 2" spacing="0"/></div><div>&nbsp; &nbsp; &nbsp; &nbsp; </process></div><div>&nbsp; &nbsp; &nbsp; </operator></div><div>&nbsp; &nbsp; &nbsp; <connect from_op="Process Documents from Files" from_port="example set" to_port="result 2"/></div><div>&nbsp; &nbsp; &nbsp; <connect from_op="Process Documents from Files" from_port="word list" to_port="result 3"/></div><div>&nbsp; &nbsp; &nbsp; <portSpacing port="source_input 1" spacing="0"/></div><div>&nbsp; &nbsp; &nbsp; <portSpacing port="sink_result 1" spacing="0"/></div><div>&nbsp; &nbsp; &nbsp; <portSpacing port="sink_result 2" spacing="0"/></div><div>&nbsp; &nbsp; &nbsp; <portSpacing port="sink_result 3" spacing="0"/></div><div>&nbsp; &nbsp; &nbsp; <portSpacing port="sink_result 4" spacing="0"/></div><div>&nbsp; &nbsp; </process></div><div>&nbsp; </operator></div><div></process></div>

Howdy, Stranger!

Quick Links

Categories

Altair RapidMiner Community

GET HELP. LEARN BEST PRACTICES. NETWORK WITH YOUR PEERS.

Processing documents from files -Xpath query