ਉਪਰੋਕਤ ਚਿੱਤਰ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਇਸ ਪਾਠ ਦਾ ਵੀਡੀਓ ਦੇਖਣ ਲਈ
LLMs ਚੈਟਬੋਟ ਅਤੇ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ ਤੋਂ ਬਹੁਤ ਵੱਧ ਹਨ। ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣਾ ਵੀ ਸੰਭਵ ਹੈ। ਐਮਬੈਡਿੰਗਜ਼ ਡਾਟਾ ਦੀ ਸੰਖਿਆਤਮਕ ਪ੍ਰਤੀਨਿਧਿਤਾ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਵੈਕਟਰ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਡਾਟਾ ਲਈ ਸੈਮੈਂਟਿਕ ਖੋਜ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਇਸ ਪਾਠ ਵਿੱਚ, ਤੁਸੀਂ ਸਾਡੇ ਸਿੱਖਿਆ ਸਟਾਰਟਅਪ ਲਈ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਜਾ ਰਹੇ ਹੋ। ਸਾਡਾ ਸਟਾਰਟਅਪ ਇੱਕ ਗੈਰ-ਲਾਭਕਾਰੀ ਸੰਸਥਾ ਹੈ ਜੋ ਵਿਕਾਸਸ਼ੀਲ ਦੇਸ਼ਾਂ ਵਿੱਚ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਮੁਫ਼ਤ ਸਿੱਖਿਆ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਸਾਡੇ ਸਟਾਰਟਅਪ ਕੋਲ ਬਹੁਤ ਸਾਰੇ ਯੂਟਿਊਬ ਵੀਡੀਓ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਵਿਦਿਆਰਥੀ AI ਬਾਰੇ ਸਿੱਖਣ ਲਈ ਵਰਤ ਸਕਦੇ ਹਨ। ਸਾਡਾ ਸਟਾਰਟਅਪ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣਾ ਚਾਹੁੰਦਾ ਹੈ ਜੋ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਇੱਕ ਸਵਾਲ ਟਾਈਪ ਕਰਕੇ ਯੂਟਿਊਬ ਵੀਡੀਓ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਵਿਦਿਆਰਥੀ 'Jupyter Notebooks ਕੀ ਹਨ?' ਜਾਂ 'Azure ML ਕੀ ਹੈ' ਟਾਈਪ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਸਵਾਲ ਨਾਲ ਸਬੰਧਤ ਯੂਟਿਊਬ ਵੀਡੀਓਜ਼ ਦੀ ਸੂਚੀ ਵਾਪਸ ਕਰੇਗਾ, ਅਤੇ ਇਸ ਤੋਂ ਵੀ ਵਧੀਆ, ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ ਦਾ ਲਿੰਕ ਵਾਪਸ ਕਰੇਗਾ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ।
ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਕਵਰ ਕਰਾਂਗੇ:
- ਸੈਮੈਂਟਿਕ ਵਿਰੁੱਧ ਕੀਵਰਡ ਖੋਜ।
- ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਕੀ ਹਨ।
- ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਇੰਡੈਕਸ ਬਣਾਉਣਾ।
- ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਇੰਡੈਕਸ ਦੀ ਖੋਜ।
ਇਸ ਪਾਠ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਤੁਸੀਂ ਯੋਗ ਹੋਵੋਗੇ:
- ਸੈਮੈਂਟਿਕ ਅਤੇ ਕੀਵਰਡ ਖੋਜ ਵਿੱਚ ਅੰਤਰ ਦੱਸੋ।
- ਸਮਝਾਓ ਕਿ ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਕੀ ਹਨ।
- ਡਾਟਾ ਦੀ ਖੋਜ ਲਈ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਓ।
ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਨਾਲ ਤੁਹਾਨੂੰ ਡਾਟਾ ਦੀ ਖੋਜ ਲਈ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕਰਨੀ ਹੈ ਇਸ ਦੀ ਸਮਝ ਆਉਣ ਵਿੱਚ ਮਦਦ ਮਿਲੇਗੀ। ਤੁਸੀਂ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਦੇ ਤਰੀਕੇ ਬਾਰੇ ਵੀ ਸਿੱਖੋਗੇ ਜੋ ਵਿਦਿਆਰਥੀਆਂ ਦੁਆਰਾ ਸੂਚਨਾ ਨੂੰ ਤੁਰੰਤ ਲੱਭਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਪਾਠ ਵਿੱਚ ਮਾਈਕਰੋਸਾਫਟ AI ਸ਼ੋ ਯੂਟਿਊਬ ਚੈਨਲ ਦੇ ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟਸ ਦੇ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਸ਼ਾਮਲ ਹੈ। AI ਸ਼ੋ ਇੱਕ ਯੂਟਿਊਬ ਚੈਨਲ ਹੈ ਜੋ ਤੁਹਾਨੂੰ AI ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਬਾਰੇ ਸਿੱਖਾਉਂਦਾ ਹੈ। ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਵਿੱਚ ਅਕਤੂਬਰ 2023 ਤੱਕ ਹਰ ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਲਈ ਐਮਬੈਡਿੰਗਜ਼ ਹਨ। ਤੁਸੀਂ ਸਾਡੇ ਸਟਾਰਟਅਪ ਲਈ ਇੱਕ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਲਈ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਦੀ ਵਰਤੋਂ ਕਰੋਗੇ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ ਦਾ ਲਿੰਕ ਵਾਪਸ ਕਰਦਾ ਹੈ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ। ਇਹ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਜਰੂਰੀ ਜਾਣਕਾਰੀ ਤੁਰੰਤ ਲੱਭਣ ਦਾ ਇੱਕ ਵਧੀਆ ਤਰੀਕਾ ਹੈ।
'ਕੀ ਤੁਸੀਂ rstudio ਨੂੰ azure ml ਨਾਲ ਵਰਤ ਸਕਦੇ ਹੋ?' ਸਵਾਲ ਲਈ ਸੈਮੈਂਟਿਕ ਪੁੱਛਗਿੱਛ ਦਾ ਇੱਕ ਉਦਾਹਰਨ ਹੇਠਾਂ ਦਿੱਤਾ ਗਿਆ ਹੈ। ਯੂਟਿਊਬ URL ਦੇਖੋ, ਤੁਹਾਨੂੰ URL ਵਿੱਚ ਇੱਕ ਟਾਈਮਸਟੈਂਪ ਨਜ਼ਰ ਆਵੇਗਾ ਜੋ ਤੁਹਾਨੂੰ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ 'ਤੇ ਲੈ ਜਾਂਦਾ ਹੈ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ।
ਹੁਣ ਤੁਸੀਂ ਸੋਚ ਰਹੇ ਹੋ ਸਕਦੇ ਹੋ, ਸੈਮੈਂਟਿਕ ਖੋਜ ਕੀ ਹੈ? ਸੈਮੈਂਟਿਕ ਖੋਜ ਇੱਕ ਖੋਜ ਤਕਨੀਕ ਹੈ ਜੋ ਇੱਕ ਪੁੱਛਗਿੱਛ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੇ ਸੈਮੈਂਟਿਕਸ ਜਾਂ ਅਰਥ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਬੰਧਤ ਨਤੀਜੇ ਵਾਪਸ ਕਰਦੀ ਹੈ।
ਇਹ ਇੱਕ ਸੈਮੈਂਟਿਕ ਖੋਜ ਦਾ ਉਦਾਹਰਨ ਹੈ। ਮੰਨ ਲਓ ਤੁਸੀਂ ਇੱਕ ਕਾਰ ਖਰੀਦਣ ਦੀ ਖੋਜ ਕਰ ਰਹੇ ਹੋ, ਤੁਸੀਂ 'ਮੇਰੀ ਸੁਪਨੇ ਦੀ ਕਾਰ' ਲਈ ਖੋਜ ਕਰ ਸਕਦੇ ਹੋ, ਸੈਮੈਂਟਿਕ ਖੋਜ ਸਮਝਦੀ ਹੈ ਕਿ ਤੁਸੀਂ ਕਾਰ ਬਾਰੇ dreaming ਨਹੀਂ ਕਰ ਰਹੇ ਹੋ, ਬਲਕਿ ਤੁਸੀਂ ਆਪਣੀ ideal ਕਾਰ ਖਰੀਦਣ ਦੀ ਖੋਜ ਕਰ ਰਹੇ ਹੋ। ਸੈਮੈਂਟਿਕ ਖੋਜ ਤੁਹਾਡੇ ਇਰਾਦੇ ਨੂੰ ਸਮਝਦੀ ਹੈ ਅਤੇ ਸਬੰਧਤ ਨਤੀਜੇ ਵਾਪਸ ਕਰਦੀ ਹੈ। ਵਿਸ਼ਲੈਸ਼ਣ ਹੈ keyword search ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਕਾਰਾਂ ਬਾਰੇ ਸੁਪਨਿਆਂ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ ਅਤੇ ਅਕਸਰ ਅਸੰਬੰਧਿਤ ਨਤੀਜੇ ਵਾਪਸ ਕਰਦਾ ਹੈ।
ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਇੱਕ ਟੈਕਸਟ ਪ੍ਰਤੀਨਿਧਿਤਾ ਤਕਨੀਕ ਹੈ ਜੋ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਟੈਕਸਟ ਦੀ ਸੈਮੈਂਟਿਕ ਸੰਖਿਆਤਮਕ ਪ੍ਰਤੀਨਿਧਿਤਾ ਹਨ। ਐਮਬੈਡਿੰਗਜ਼ ਡਾਟਾ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਪ੍ਰਤੀਨਿਧਿਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਮਸ਼ੀਨ ਲਈ ਸਮਝਣ ਲਈ ਆਸਾਨ ਹੈ। ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਬਣਾਉਣ ਲਈ ਬਹੁਤ ਸਾਰੇ ਮਾਡਲ ਹਨ, ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ OpenAI ਐਮਬੈਡਿੰਗ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਐਮਬੈਡਿੰਗਜ਼ ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਦੇਵਾਂਗੇ।
ਇਹ ਇੱਕ ਉਦਾਹਰਨ ਹੈ, ਕਲਪਨਾ ਕਰੋ ਕਿ ਹੇਠਾਂ ਦਿੱਤਾ ਟੈਕਸਟ AI ਸ਼ੋ ਯੂਟਿਊਬ ਚੈਨਲ ਦੇ ਇੱਕ ਐਪੀਸੋਡ ਦੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਵਿੱਚ ਹੈ:
Today we are going to learn about Azure Machine Learning.
ਅਸੀਂ ਟੈਕਸਟ ਨੂੰ OpenAI ਐਮਬੈਡਿੰਗ API ਨੂੰ ਸੌਂਪਦੇ ਹਾਂ ਅਤੇ ਇਹ 1536 ਨੰਬਰਾਂ ਦੇ ਐਮਬੈਡਿੰਗ aka ਵੈਕਟਰ ਵਾਪਸ ਕਰੇਗਾ। ਵੈਕਟਰ ਵਿੱਚ ਹਰ ਨੰਬਰ ਟੈਕਸਟ ਦੇ ਵੱਖਰੇ ਪੱਖ ਦੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਕਰਦਾ ਹੈ। ਸੰਖੇਪ ਲਈ, ਇੱਥੇ ਵੈਕਟਰ ਵਿੱਚ ਪਹਿਲੇ 10 ਨੰਬਰ ਹਨ।
[-0.006655829958617687, 0.0026128944009542465, 0.008792596869170666, -0.02446001023054123, -0.008540431968867779, 0.022071078419685364, -0.010703742504119873, 0.003311325330287218, -0.011632772162556648, -0.02187200076878071, ...]ਇਸ ਪਾਠ ਲਈ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਪਾਈਥਨ ਸਕ੍ਰਿਪਟਸ ਦੀ ਇੱਕ ਲੜੀ ਨਾਲ ਬਣਾਇਆ ਗਿਆ ਸੀ। ਤੁਸੀਂ ਇਸ ਪਾਠ ਲਈ 'ਸਕ੍ਰਿਪਟਸ' ਫੋਲਡਰ ਵਿੱਚ README ਵਿੱਚ ਸਕ੍ਰਿਪਟਸ ਦੇ ਨਾਲ ਹਦਾਇਤਾਂ ਪਾਓਗੇ। ਤੁਹਾਨੂੰ ਇਹ ਪਾਠ ਪੂਰਾ ਕਰਨ ਲਈ ਇਹ ਸਕ੍ਰਿਪਟਸ ਚਲਾਉਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਤੁਹਾਡੇ ਲਈ ਪ੍ਰਦਾਨ ਕੀਤਾ ਗਿਆ ਹੈ।
ਸਕ੍ਰਿਪਟਸ ਹੇਠਾਂ ਦਿੱਤੇ ਕਾਰਜ ਕਰਦੇ ਹਨ:
- AI ਸ਼ੋ ਪਲੇਲਿਸਟ ਵਿੱਚ ਹਰ ਯੂਟਿਊਬ ਵੀਡੀਓ ਲਈ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਡਾਊਨਲੋਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
- OpenAI ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਦੇ ਪਹਿਲੇ 3 ਮਿੰਟਾਂ ਤੋਂ ਸਪੀਕਰ ਦਾ ਨਾਮ ਕੱਢਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਹਰ ਵੀਡੀਓ ਲਈ ਸਪੀਕਰ ਦਾ ਨਾਮ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ
embedding_index_3m.jsonਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। - ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਟੈਕਸਟ ਨੂੰ 3 ਮਿੰਟ ਟੈਕਸਟ ਖੰਡ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ। ਖੰਡ ਵਿੱਚ ਅਗਲੇ ਖੰਡ ਤੋਂ ਲਗਭਗ 20 ਸ਼ਬਦ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਤਾਂ ਕਿ ਖੰਡ ਲਈ ਐਮਬੈਡਿੰਗ ਨਾ ਕੱਟਿਆ ਜਾਵੇ ਅਤੇ ਬਿਹਤਰ ਖੋਜ ਸੰਦਰਭ ਪ੍ਰਦਾਨ ਕੀਤਾ ਜਾ ਸਕੇ।
- ਫਿਰ ਹਰ ਟੈਕਸਟ ਖੰਡ ਨੂੰ OpenAI ਚੈਟ API ਨੂੰ ਸੌਂਪਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਟੈਕਸਟ ਨੂੰ 60 ਸ਼ਬਦਾਂ ਵਿੱਚ ਸਾਰांशਿਤ ਕਰਦਾ ਹੈ। ਸਾਰांश ਵੀ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ
embedding_index_3m.jsonਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। - ਆਖਿਰਕਾਰ, ਖੰਡ ਟੈਕਸਟ ਨੂੰ OpenAI ਐਮਬੈਡਿੰਗ API ਨੂੰ ਸੌਂਪਿਆ ਜਾਂਦਾ ਹੈ। ਐਮਬੈਡਿੰਗ API 1536 ਨੰਬਰਾਂ ਦਾ ਇੱਕ ਵੈਕਟਰ ਵਾਪਸ ਕਰਦਾ ਹੈ ਜੋ ਖੰਡ ਦੇ ਸੈਮੈਂਟਿਕ ਅਰਥ ਦੀ ਪ੍ਰਤੀਨਿਧਿਤਾ ਕਰਦਾ ਹੈ। ਖੰਡ ਨਾਲ OpenAI ਐਮਬੈਡਿੰਗ ਵੈਕਟਰ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ
embedding_index_3m.jsonਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਪਾਠ ਦੀ ਸਧਾਰਨਤਾ ਲਈ, ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਨੂੰ embedding_index_3m.json ਨਾਮਕ JSON ਫਾਇਲ ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ Pandas DataFrame ਵਿੱਚ ਲੋਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਉਤਪਾਦਨ ਵਿੱਚ, ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਨੂੰ Azure Cognitive Search, Redis, Pinecone, Weaviate ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਵੇਗਾ।
ਅਸੀਂ ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਬਾਰੇ ਸਿੱਖਿਆ ਹੈ, ਅਗਲਾ ਕਦਮ ਟੈਕਸਟ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਡਾਟਾ ਦੀ ਖੋਜ ਕਰਨ ਦਾ ਅਤੇ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਇੱਕ ਦਿੱਤੇ ਗਏ ਪੁੱਛਗਿੱਛ ਲਈ ਸਭ ਤੋਂ ਸਮਰੂਪ ਐਮਬੈਡਿੰਗਜ਼ ਨੂੰ ਖੋਜਣ ਦਾ ਹੈ ਜੋ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।
ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੋ ਵੈਕਟਰਾਂ ਵਿਚਕਾਰ ਸਮਰੂਪਤਾ ਦਾ ਮਾਪ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ nearest neighbor search ਦੇ ਤੌਰ 'ਤੇ ਵੀ ਸੁਣੋਗੇ। ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਖੋਜ ਕਰਨ ਲਈ ਤੁਹਾਨੂੰ OpenAI ਐਮਬੈਡਿੰਗ API ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪੁੱਛਗਿੱਛ ਟੈਕਸਟ ਲਈ ਵੈਕਟਰਾਈਜ਼ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਫਿਰ ਪੁੱਛਗਿੱਛ ਵੈਕਟਰ ਅਤੇ ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਵਿੱਚ ਹਰ ਵੈਕਟਰ ਦੇ ਵਿਚਕਾਰ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੀ ਗਣਨਾ ਕਰੋ। ਯਾਦ ਰੱਖੋ, ਐਮਬੈਡਿੰਗ ਇੰਡੈਕਸ ਵਿੱਚ ਹਰ ਯੂਟਿਊਬ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਟੈਕਸਟ ਖੰਡ ਲਈ ਇੱਕ ਵੈਕਟਰ ਹੈ। ਅੰਤ ਵਿੱਚ, ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੁਆਰਾ ਨਤੀਜਿਆਂ ਨੂੰ ਕ੍ਰਮਬੱਧ ਕਰੋ ਅਤੇ ਸਭ ਤੋਂ ਉੱਚੀ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਵਾਲੇ ਟੈਕਸਟ ਖੰਡ ਪੁੱਛਗਿੱਛ ਨਾਲ ਸਭ ਤੋਂ ਵੱਧ ਸਮਰੂਪ ਹਨ।
ਗਣਿਤਕ ਪੱਖ ਤੋਂ, ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਦੋ ਵੈਕਟਰਾਂ ਦੇ ਵਿਚਕਾਰ ਕੋਸਾਈਨ ਨੂੰ ਮਾਪਦੀ ਹੈ ਜੋ ਬਹੁ-ਮਾਤਰੀਕ ਸਥਾਨ ਵਿੱਚ ਪ੍ਰੋਜੈਕਟ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਇਹ ਮਾਪ ਫਾਇਦੇਮੰਦ ਹੈ, ਕਿਉਂਕਿ ਜੇ ਦੋ ਦਸਤਾਵੇਜ਼ ਆਕਾਰ ਦੇ ਕਾਰਨ ਯੂਕਲਿਡੀਅਨ ਦੂਰੀ ਦੁਆਰਾ ਦੂਰ ਹਨ, ਤਾਂ ਉਹਨਾਂ ਵਿੱਚ ਫਿਰ ਵੀ ਇੱਕ ਛੋਟਾ ਕੋਣ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਇਸ ਲਈ ਉੱਚੀ ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਹੋ ਸਕਦੀ ਹੈ। ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਸਮੀਕਰਣਾਂ ਬਾਰੇ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਲਈ, ਕੋਸਾਈਨ ਸਮਰੂਪਤਾ ਵੇਖੋ।
ਅਗਲੇ, ਅਸੀਂ ਐਮਬੈਡਿੰਗਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਦਾ ਤਰੀਕਾ ਸਿੱਖਣ ਜਾ ਰਹੇ ਹਾਂ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਸਵਾਲ ਟਾਈਪ ਕਰਕੇ ਵੀਡੀਓ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਵੇਗੀ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਸਵਾਲ ਨਾਲ ਸਬੰਧਤ ਵੀਡੀਓਜ਼ ਦੀ ਸੂਚੀ ਵਾਪਸ ਕਰੇਗਾ। ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਵੀਡੀਓ ਵਿੱਚ ਉਸ ਸਥਾਨ ਦਾ ਲਿੰਕ ਵੀ ਵਾਪਸ ਕਰੇਗਾ ਜਿੱਥੇ ਸਵਾਲ ਦਾ ਜਵਾਬ ਸਥਿਤ ਹੈ।
ਇਹ ਹੱਲ Windows 11, macOS, ਅਤੇ Ubuntu 22.04 'ਤੇ Python 3.10 ਜਾਂ ਇਸ ਤੋਂ ਬਾਅਦ ਵਰਤ ਕੇ ਬਣਾਇਆ ਅਤੇ ਪਰਖਿਆ ਗਿਆ। ਤੁਸੀਂ python.org ਤੋਂ ਪਾਈਥਨ ਡਾਊਨਲੋਡ ਕਰ ਸਕਦੇ ਹੋ।
ਅਸੀਂ ਇਸ ਪਾਠ ਦੀ ਸ਼ੁਰੂਆਤ ਵਿੱਚ ਆਪਣੇ ਸਟਾਰਟਅਪ ਦਾ ਪੇਸ਼ਕਸ਼ ਕੀਤਾ। ਹੁਣ ਸਮਾਂ ਹੈ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਆਪਣੇ ਅਸੈਸਮੈਂਟ ਲਈ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਦੇ ਸਮਰਥਨ ਦੇਣ ਦਾ।
ਇਸ ਅਸਾਈਨਮੈਂਟ ਵਿੱਚ, ਤੁਸੀਂ Azure OpenAI ਸੇਵਾਵਾਂ ਬਣਾਉਣ ਜਾ ਰਹੇ ਹੋ ਜੋ ਖੋਜ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਲਈ ਵਰਤੀਆਂ ਜਾਣਗੀਆਂ। ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੀਆਂ Azure OpenAI ਸੇਵਾਵਾਂ ਬਣਾਉਣ ਜਾ ਰਹੇ ਹੋ। ਇਸ ਅਸਾਈਨਮੈਂਟ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਤੁਹਾਨੂੰ ਇੱਕ Azure ਸਬਸਕ੍ਰਿਪਸ਼ਨ ਦੀ ਲੋੜ ਹੋਵੇਗੀ।
- Azure ਪੋਰਟਲ ਵਿੱਚ ਸਾਈਨ ਇਨ ਕਰੋ।
- Azure ਪੋਰਟਲ ਦੇ ਉੱਪਰ
ਬੇਦਾਖਲੀ:
ਇਹ ਦਸਤਾਵੇਜ਼ ਨੂੰ AI ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਅਤ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਜਾਣਕਾਰੀ ਰੱਖੋ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਨਿਸ਼ਚਿਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਉਪਜਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀਆਂ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।