Add embedding instruction prompt support for to hf-embedder #30967

jobergum · 2024-04-18T18:22:27Z

It's becoming the norm to have prompt prefixes for text embedding models. I think we should add this to the hf-embedder.

<component id="snow" type="hugging-face-embedder">
        <transformer-model url="https://huggingface.co/Snowflake/snowflake-arctic-embed-l/resolve/main/onnx/model_int8.onnx"/>
        <tokenizer-model url="https://huggingface.co/Snowflake/snowflake-arctic-embed-l/raw/main/tokenizer.json"/>
        <normalize>true</normalize>
        <pooling-strategy>cls</pooling-strategy>
        <instruction-prompt>
           <query>Represent this sentence for searching relevant passages:</query>
           <document>passage:</document>
       </instruction-prompt>
</component>

The embedder would then prepend the input with these instructions depending on the context (query or indexing)

jobergum · 2024-04-24T10:38:19Z

Alternatives

Alternative 1

<instruction-prompts>
           <query>Represent this sentence for searching relevant passages:</query>
           <document>passage:</document>
</instruction-prompt>

Alternative 2

<prefixes>
           <query>Represent this sentence for searching relevant passages:</query>
           <document>passage:</document>
</prefixes>

Alternative 3

<prepend query="Represent this sentence for searching relevant passages:" document="passage:"/>

Alternative 4

<prepend>
           <query>Represent this sentence for searching relevant passages:</query>
           <document>passage:</document>
</prepend>

Since normalize is a verb I think that prepend is a good alternative, so I'm voting for alternative 4.

andreer added the enhancement label Apr 19, 2024

jobergum self-assigned this Apr 24, 2024

jobergum added this to the soon milestone Apr 24, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add embedding instruction prompt support for to hf-embedder #30967

Add embedding instruction prompt support for to hf-embedder #30967

jobergum commented Apr 18, 2024

jobergum commented Apr 24, 2024

Add embedding instruction prompt support for to hf-embedder #30967

Add embedding instruction prompt support for to hf-embedder #30967

Comments

jobergum commented Apr 18, 2024

jobergum commented Apr 24, 2024

Alternative 1

Alternative 2

Alternative 3

Alternative 4