Skip to content

Latest commit

 

History

History
111 lines (68 loc) · 20.8 KB

File metadata and controls

111 lines (68 loc) · 20.8 KB

ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣਾ

ਉਪਰੋਕਤ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਇਸ ਪਾਠ ਦਾ ਵੀਡੀਓ ਦੇਖਣ ਲਈ

LLMs ਚੈਟਬੋਟ ਅਤੇ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਤੋਂ ਬਹੁਤ ਵੱਧ ਹਨ। ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣਾ ਵੀ ਸੰਭਵ ਹੈ। ਐਮਬੈਡਿੰਗਜ਼ ਡਾਟਾ ਦੀ ਸੰਖਿਆਤਮਕ ਪ੍ਰਤੀਨਿਧਿਤਾ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਵੈਕਟਰ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਡਾਟਾ ਲਈ ਸੈਮੈਂਟਿਕ ਖੋਜ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਇਸ ਪਾਠ ਵਿੱਚ, ਤੁਸੀਂ ਸਾਡੇ ਸਿੱਖਿਆ ਸਟਾਰਟਅਪ ਲਈ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਜਾ ਰਹੇ ਹੋ। ਸਾਡਾ ਸਟਾਰਟਅਪ ਇੱਕ ਗੈਰ-ਲਾਭਕਾਰੀ ਸੰਸਥਾ ਹੈ ਜੋ ਵਿਕਾਸਸ਼ੀਲ ਦੇਸ਼ਾਂ ਵਿੱਚ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਮੁਫ਼ਤ ਸਿੱਖਿਆ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਸਾਡੇ ਸਟਾਰਟਅਪ ਕੋਲ ਬਹੁਤ ਸਾਰੇ ਯੂਟਿਊਬ ਵੀਡੀਓ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਵਿਦਿਆਰਥੀ AI ਬਾਰੇ ਸਿੱਖਣ ਲਈ ਵਰਤ ਸਕਦੇ ਹਨ। ਸਾਡਾ ਸਟਾਰਟਅਪ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣਾ ਚਾਹੁੰਦਾ ਹੈ ਜੋ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਇੱਕ ਸਵਾਲ ਟਾਈਪ ਕਰਕੇ ਯੂਟਿਊਬ ਵੀਡੀਓ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਵਿਦਿਆਰਥੀ 'Jupyter Notebooks ਕੀ ਹਨ?' ਜਾਂ 'Azure ML ਕੀ ਹੈ' ਟਾਈਪ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਸਵਾਲ ਨਾਲ ਸਬੰਧਤ ਯੂਟਿਊਬ ਵੀਡੀਓਜ਼ ਦੀ ਸੂਚੀ ਵਾਪਸ ਕਰੇਗਾ, ਅਤੇ ਇਸ ਤੋਂ ਵੀ ਵਧੀਆ, ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ ਦਾ ਲਿੰਕ ਵਾਪਸ ਕਰੇਗਾ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ।

ਪੇਸ਼ਕਸ਼

ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਕਵਰ ਕਰਾਂਗੇ:

  • ਸੈਮੈਂਟਿਕ ਵਿਰੁੱਧ ਕੀਵਰਡ ਖੋਜ।
  • ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਕੀ ਹਨ।
  • ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਇੰਡੈਕਸ ਬਣਾਉਣਾ।
  • ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਇੰਡੈਕਸ ਦੀ ਖੋਜ।

ਸਿੱਖਣ ਦੇ ਲਕਸ਼

ਇਸ ਪਾਠ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਤੁਸੀਂ ਯੋਗ ਹੋਵੋਗੇ:

  • ਸੈਮੈਂਟਿਕ ਅਤੇ ਕੀਵਰਡ ਖੋਜ ਵਿੱਚ ਅੰਤਰ ਦੱਸੋ।
  • ਸਮਝਾਓ ਕਿ ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਕੀ ਹਨ।
  • ਡਾਟਾ ਦੀ ਖੋਜ ਲਈ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਓ।

ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਕਿਉਂ ਬਣਾਈਏ?

ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਨਾਲ ਤੁਹਾਨੂੰ ਡਾਟਾ ਦੀ ਖੋਜ ਲਈ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕਰਨੀ ਹੈ ਇਸ ਦੀ ਸਮਝ ਆਉਣ ਵਿੱਚ ਮਦਦ ਮਿਲੇਗੀ। ਤੁਸੀਂ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਦੇ ਤਰੀਕੇ ਬਾਰੇ ਵੀ ਸਿੱਖੋਗੇ ਜੋ ਵਿਦਿਆਰਥੀਆਂ ਦੁਆਰਾ ਸੂਚਨਾ ਨੂੰ ਤੁਰੰਤ ਲੱਭਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਪਾਠ ਵਿੱਚ ਮਾਈਕਰੋਸਾਫਟ AI ਸ਼ੋ ਯੂਟਿਊਬ ਚੈਨਲ ਦੇ ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟਸ ਦੇ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਸ਼ਾਮਲ ਹੈ। AI ਸ਼ੋ ਇੱਕ ਯੂਟਿਊਬ ਚੈਨਲ ਹੈ ਜੋ ਤੁਹਾਨੂੰ AI ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਬਾਰੇ ਸਿੱਖਾਉਂਦਾ ਹੈ। ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਵਿੱਚ ਅਕਤੂਬਰ 2023 ਤੱਕ ਹਰ ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਲਈ ਐਮਬੈਡਿੰਗਜ਼ ਹਨ। ਤੁਸੀਂ ਸਾਡੇ ਸਟਾਰਟਅਪ ਲਈ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਲਈ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਦੀ ਵਰਤੋਂ ਕਰੋਗੇ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ ਦਾ ਲਿੰਕ ਵਾਪਸ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ। ਇਹ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਜਰੂਰੀ ਜਾਣਕਾਰੀ ਤੁਰੰਤ ਲੱਭਣ ਦਾ ਇੱਕ ਵਧੀਆ ਤਰੀਕਾ ਹੈ।

'ਕੀ ਤੁਸੀਂ rstudio ਨੂੰ azure ml ਨਾਲ ਵਰਤ ਸਕਦੇ ਹੋ?' ਸਵਾਲ ਲਈ ਸੈਮੈਂਟਿਕ ਪੁੱਛਗਿੱਛ ਦਾ ਇੱਕ ਉਦਾਹਰਨ ਹੇਠਾਂ ਦਿੱਤਾ ਗਿਆ ਹੈ। ਯੂਟਿਊਬ URL ਦੇਖੋ, ਤੁਹਾਨੂੰ URL ਵਿੱਚ ਇੱਕ ਟਾਈਮਸਟੈਂਪ ਨਜ਼ਰ ਆਵੇਗਾ ਜੋ ਤੁਹਾਨੂੰ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ 'ਤੇ ਲੈ ਜਾਂਦਾ ਹੈ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ।

ਸੈਮੈਂਟਿਕ ਖੋਜ ਕੀ ਹੈ?

ਹੁਣ ਤੁਸੀਂ ਸੋਚ ਰਹੇ ਹੋ ਸਕਦੇ ਹੋ, ਸੈਮੈਂਟਿਕ ਖੋਜ ਕੀ ਹੈ? ਸੈਮੈਂਟਿਕ ਖੋਜ ਇੱਕ ਖੋਜ ਤਕਨੀਕ ਹੈ ਜੋ ਇੱਕ ਪੁੱਛਗਿੱਛ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੇ ਸੈਮੈਂਟਿਕਸ ਜਾਂ ਅਰਥ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਬੰਧਤ ਨਤੀਜੇ ਵਾਪਸ ਕਰਦੀ ਹੈ।

ਇਹ ਇੱਕ ਸੈਮੈਂਟਿਕ ਖੋਜ ਦਾ ਉਦਾਹਰਨ ਹੈ। ਮੰਨ ਲਓ ਤੁਸੀਂ ਇੱਕ ਕਾਰ ਖਰੀਦਣ ਦੀ ਖੋਜ ਕਰ ਰਹੇ ਹੋ, ਤੁਸੀਂ 'ਮੇਰੀ ਸੁਪਨੇ ਦੀ ਕਾਰ' ਲਈ ਖੋਜ ਕਰ ਸਕਦੇ ਹੋ, ਸੈਮੈਂਟਿਕ ਖੋਜ ਸਮਝਦੀ ਹੈ ਕਿ ਤੁਸੀਂ ਕਾਰ ਬਾਰੇ dreaming ਨਹੀਂ ਕਰ ਰਹੇ ਹੋ, ਬਲਕਿ ਤੁਸੀਂ ਆਪਣੀ ideal ਕਾਰ ਖਰੀਦਣ ਦੀ ਖੋਜ ਕਰ ਰਹੇ ਹੋ। ਸੈਮੈਂਟਿਕ ਖੋਜ ਤੁਹਾਡੇ ਇਰਾਦੇ ਨੂੰ ਸਮਝਦੀ ਹੈ ਅਤੇ ਸਬੰਧਤ ਨਤੀਜੇ ਵਾਪਸ ਕਰਦੀ ਹੈ। ਵਿਸ਼ਲੈਸ਼ਣ ਹੈ keyword search ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਕਾਰਾਂ ਬਾਰੇ ਸੁਪਨਿਆਂ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ ਅਤੇ ਅਕਸਰ ਅਸੰਬੰਧਿਤ ਨਤੀਜੇ ਵਾਪਸ ਕਰਦਾ ਹੈ।

ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਕੀ ਹਨ?

ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਇੱਕ ਟੈਕਸਟ ਪ੍ਰਤੀਨਿਧਿਤਾ ਤਕਨੀਕ ਹੈ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਟੈਕਸਟ ਦੀ ਸੈਮੈਂਟਿਕ ਸੰਖਿਆਤਮਕ ਪ੍ਰਤੀਨਿਧਿਤਾ ਹਨ। ਐਮਬੈਡਿੰਗਜ਼ ਡਾਟਾ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਪ੍ਰਤੀਨਿਧਿਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਮਸ਼ੀਨ ਲਈ ਸਮਝਣ ਲਈ ਆਸਾਨ ਹੈ। ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਬਣਾਉਣ ਲਈ ਬਹੁਤ ਸਾਰੇ ਮਾਡਲ ਹਨ, ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ OpenAI ਐਮਬੈਡਿੰਗ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਐਮਬੈਡਿੰਗਜ਼ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਦੇਵਾਂਗੇ।

ਇਹ ਇੱਕ ਉਦਾਹਰਨ ਹੈ, ਕਲਪਨਾ ਕਰੋ ਕਿ ਹੇਠਾਂ ਦਿੱਤਾ ਟੈਕਸਟ AI ਸ਼ੋ ਯੂਟਿਊਬ ਚੈਨਲ ਦੇ ਇੱਕ ਐਪੀਸੋਡ ਦੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਵਿੱਚ ਹੈ:

Today we are going to learn about Azure Machine Learning.

ਅਸੀਂ ਟੈਕਸਟ ਨੂੰ OpenAI ਐਮਬੈਡਿੰਗ API ਨੂੰ ਸੌਂਪਦੇ ਹਾਂ ਅਤੇ ਇਹ 1536 ਨੰਬਰਾਂ ਦੇ ਐਮਬੈਡਿੰਗ aka ਵੈਕਟਰ ਵਾਪਸ ਕਰੇਗਾ। ਵੈਕਟਰ ਵਿੱਚ ਹਰ ਨੰਬਰ ਟੈਕਸਟ ਦੇ ਵੱਖਰੇ ਪੱਖ ਦੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਕਰਦਾ ਹੈ। ਸੰਖੇਪ ਲਈ, ਇੱਥੇ ਵੈਕਟਰ ਵਿੱਚ ਪਹਿਲੇ 10 ਨੰਬਰ ਹਨ।

[-0.006655829958617687, 0.0026128944009542465, 0.008792596869170666, -0.02446001023054123, -0.008540431968867779, 0.022071078419685364, -0.010703742504119873, 0.003311325330287218, -0.011632772162556648, -0.02187200076878071, ...]

ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਕਿਵੇਂ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ?

ਇਸ ਪਾਠ ਲਈ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਪਾਈਥਨ ਸਕ੍ਰਿਪਟਸ ਦੀ ਇੱਕ ਲੜੀ ਨਾਲ ਬਣਾਇਆ ਗਿਆ ਸੀ। ਤੁਸੀਂ ਇਸ ਪਾਠ ਲਈ 'ਸਕ੍ਰਿਪਟਸ' ਫੋਲਡਰ ਵਿੱਚ README ਵਿੱਚ ਸਕ੍ਰਿਪਟਸ ਦੇ ਨਾਲ ਹਦਾਇਤਾਂ ਪਾਓਗੇ। ਤੁਹਾਨੂੰ ਇਹ ਪਾਠ ਪੂਰਾ ਕਰਨ ਲਈ ਇਹ ਸਕ੍ਰਿਪਟਸ ਚਲਾਉਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਤੁਹਾਡੇ ਲਈ ਪ੍ਰਦਾਨ ਕੀਤਾ ਗਿਆ ਹੈ।

ਸਕ੍ਰਿਪਟਸ ਹੇਠਾਂ ਦਿੱਤੇ ਕਾਰਜ ਕਰਦੇ ਹਨ:

  1. AI ਸ਼ੋ ਪਲੇਲਿਸਟ ਵਿੱਚ ਹਰ ਯੂਟਿਊਬ ਵੀਡੀਓ ਲਈ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਡਾਊਨਲੋਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
  2. OpenAI ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਦੇ ਪਹਿਲੇ 3 ਮਿੰਟਾਂ ਤੋਂ ਸਪੀਕਰ ਦਾ ਨਾਮ ਕੱਢਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਹਰ ਵੀਡੀਓ ਲਈ ਸਪੀਕਰ ਦਾ ਨਾਮ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ embedding_index_3m.json ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
  3. ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਟੈਕਸਟ ਨੂੰ 3 ਮਿੰਟ ਟੈਕਸਟ ਖੰਡ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ। ਖੰਡ ਵਿੱਚ ਅਗਲੇ ਖੰਡ ਤੋਂ ਲਗਭਗ 20 ਸ਼ਬਦ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਤਾਂ ਕਿ ਖੰਡ ਲਈ ਐਮਬੈਡਿੰਗ ਨਾ ਕੱਟਿਆ ਜਾਵੇ ਅਤੇ ਬਿਹਤਰ ਖੋਜ ਸੰਦਰਭ ਪ੍ਰਦਾਨ ਕੀਤਾ ਜਾ ਸਕੇ।
  4. ਫਿਰ ਹਰ ਟੈਕਸਟ ਖੰਡ ਨੂੰ OpenAI ਚੈਟ API ਨੂੰ ਸੌਂਪਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਟੈਕਸਟ ਨੂੰ 60 ਸ਼ਬਦਾਂ ਵਿੱਚ ਸਾਰांशਿਤ ਕਰਦਾ ਹੈ। ਸਾਰांश ਵੀ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ embedding_index_3m.json ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
  5. ਆਖਿਰਕਾਰ, ਖੰਡ ਟੈਕਸਟ ਨੂੰ OpenAI ਐਮਬੈਡਿੰਗ API ਨੂੰ ਸੌਂਪਿਆ ਜਾਂਦਾ ਹੈ। ਐਮਬੈਡਿੰਗ API 1536 ਨੰਬਰਾਂ ਦਾ ਇੱਕ ਵੈਕਟਰ ਵਾਪਸ ਕਰਦਾ ਹੈ ਜੋ ਖੰਡ ਦੇ ਸੈਮੈਂਟਿਕ ਅਰਥ ਦੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਕਰਦਾ ਹੈ। ਖੰਡ ਨਾਲ OpenAI ਐਮਬੈਡਿੰਗ ਵੈਕਟਰ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ embedding_index_3m.json ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਵੈਕਟਰ ਡਾਟਾਬੇਸ

ਪਾਠ ਦੀ ਸਧਾਰਨਤਾ ਲਈ, ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਨੂੰ embedding_index_3m.json ਨਾਮਕ JSON ਫਾਇਲ ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ Pandas DataFrame ਵਿੱਚ ਲੋਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਉਤਪਾਦਨ ਵਿੱਚ, ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਨੂੰ Azure Cognitive Search, Redis, Pinecone, Weaviate ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਵੇਗਾ।

ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਨੂੰ ਸਮਝਣਾ

ਅਸੀਂ ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਬਾਰੇ ਸਿੱਖਿਆ ਹੈ, ਅਗਲਾ ਕਦਮ ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਡਾਟਾ ਦੀ ਖੋਜ ਕਰਨ ਦਾ ਅਤੇ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਇੱਕ ਦਿੱਤੇ ਗਏ ਪੁੱਛਗਿੱਛ ਲਈ ਸਭ ਤੋਂ ਸਮਰੂਪ ਐਮਬੈਡਿੰਗਜ਼ ਨੂੰ ਖੋਜਣ ਦਾ ਹੈ ਜੋ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।

ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਕੀ ਹੈ?

ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੋ ਵੈਕਟਰਾਂ ਵਿਚਕਾਰ ਸਮਰੂਪਤਾ ਦਾ ਮਾਪ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ nearest neighbor search ਦੇ ਤੌਰ 'ਤੇ ਵੀ ਸੁਣੋਗੇ। ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਖੋਜ ਕਰਨ ਲਈ ਤੁਹਾਨੂੰ OpenAI ਐਮਬੈਡਿੰਗ API ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪੁੱਛਗਿੱਛ ਟੈਕਸਟ ਲਈ ਵੈਕਟਰਾਈਜ਼ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਫਿਰ ਪੁੱਛਗਿੱਛ ਵੈਕਟਰ ਅਤੇ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਵਿੱਚ ਹਰ ਵੈਕਟਰ ਦੇ ਵਿਚਕਾਰ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੀ ਗਣਨਾ ਕਰੋ। ਯਾਦ ਰੱਖੋ, ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਵਿੱਚ ਹਰ ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਟੈਕਸਟ ਖੰਡ ਲਈ ਇੱਕ ਵੈਕਟਰ ਹੈ। ਅੰਤ ਵਿੱਚ, ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੁਆਰਾ ਨਤੀਜਿਆਂ ਨੂੰ ਕ੍ਰਮਬੱਧ ਕਰੋ ਅਤੇ ਸਭ ਤੋਂ ਉੱਚੀ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਵਾਲੇ ਟੈਕਸਟ ਖੰਡ ਪੁੱਛਗਿੱਛ ਨਾਲ ਸਭ ਤੋਂ ਵੱਧ ਸਮਰੂਪ ਹਨ।

ਗਣਿਤਕ ਪੱਖ ਤੋਂ, ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੋ ਵੈਕਟਰਾਂ ਦੇ ਵਿਚਕਾਰ ਕੋਸਾਈਨ ਨੂੰ ਮਾਪਦੀ ਹੈ ਜੋ ਬਹੁ-ਮਾਤਰੀਕ ਸਥਾਨ ਵਿੱਚ ਪ੍ਰੋਜੈਕਟ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹ ਮਾਪ ਫਾਇਦੇਮੰਦ ਹੈ, ਕਿਉਂਕਿ ਜੇ ਦੋ ਦਸਤਾਵੇਜ਼ ਆਕਾਰ ਦੇ ਕਾਰਨ ਯੂਕਲਿਡੀਅਨ ਦੂਰੀ ਦੁਆਰਾ ਦੂਰ ਹਨ, ਤਾਂ ਉਹਨਾਂ ਵਿੱਚ ਫਿਰ ਵੀ ਇੱਕ ਛੋਟਾ ਕੋਣ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਇਸ ਲਈ ਉੱਚੀ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਹੋ ਸਕਦੀ ਹੈ। ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਸਮੀਕਰਣਾਂ ਬਾਰੇ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਲਈ, ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਵੇਖੋ।

ਆਪਣਾ ਪਹਿਲਾ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣਾ

ਅਗਲੇ, ਅਸੀਂ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਦਾ ਤਰੀਕਾ ਸਿੱਖਣ ਜਾ ਰਹੇ ਹਾਂ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਸਵਾਲ ਟਾਈਪ ਕਰਕੇ ਵੀਡੀਓ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਵੇਗੀ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਸਵਾਲ ਨਾਲ ਸਬੰਧਤ ਵੀਡੀਓਜ਼ ਦੀ ਸੂਚੀ ਵਾਪਸ ਕਰੇਗਾ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ ਦਾ ਲਿੰਕ ਵੀ ਵਾਪਸ ਕਰੇਗਾ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ।

ਇਹ ਹੱਲ Windows 11, macOS, ਅਤੇ Ubuntu 22.04 'ਤੇ Python 3.10 ਜਾਂ ਇਸ ਤੋਂ ਬਾਅਦ ਵਰਤ ਕੇ ਬਣਾਇਆ ਅਤੇ ਪਰਖਿਆ ਗਿਆ। ਤੁਸੀਂ python.org ਤੋਂ ਪਾਈਥਨ ਡਾਊਨਲੋਡ ਕਰ ਸਕਦੇ ਹੋ।

ਅਸਾਈਨਮੈਂਟ - ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਸਮਰਥਨ ਦੇਣ ਲਈ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣਾ

ਅਸੀਂ ਇਸ ਪਾਠ ਦੀ ਸ਼ੁਰੂਆਤ ਵਿੱਚ ਆਪਣੇ ਸਟਾਰਟਅਪ ਦਾ ਪੇਸ਼ਕਸ਼ ਕੀਤਾ। ਹੁਣ ਸਮਾਂ ਹੈ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਆਪਣੇ ਅਸੈਸਮੈਂਟ ਲਈ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਦੇ ਸਮਰਥਨ ਦੇਣ ਦਾ।

ਇਸ ਅਸਾਈਨਮੈਂਟ ਵਿੱਚ, ਤੁਸੀਂ Azure OpenAI ਸੇਵਾਵਾਂ ਬਣਾਉਣ ਜਾ ਰਹੇ ਹੋ ਜੋ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਲਈ ਵਰਤੀਆਂ ਜਾਣਗੀਆਂ। ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੀਆਂ Azure OpenAI ਸੇਵਾਵਾਂ ਬਣਾਉਣ ਜਾ ਰਹੇ ਹੋ। ਇਸ ਅਸਾਈਨਮੈਂਟ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਤੁਹਾਨੂੰ ਇੱਕ Azure ਸਬਸਕ੍ਰਿਪਸ਼ਨ ਦੀ ਲੋੜ ਹੋਵੇਗੀ।

Azure ਕਲਾਉਡ ਸ਼ੈੱਲ ਸ਼ੁਰੂ ਕਰੋ

  1. Azure ਪੋਰਟਲ ਵਿੱਚ ਸਾਈਨ ਇਨ ਕਰੋ।
  2. Azure ਪੋਰਟਲ ਦੇ ਉੱਪਰ

ਬੇਦਾਖਲੀ:
ਇਹ ਦਸਤਾਵੇਜ਼ ਨੂੰ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਅਤ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਜਾਣਕਾਰੀ ਰੱਖੋ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਨਿਸ਼ਚਿਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਉਪਜਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀਆਂ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।