Cara Kerja Mesin Pencari AI

Potret Ryan Law

Berdasarkan Ryan Law

Direktur Pemasaran Konten, Ahrefs

Saat Anda meminta ChatGPT merekomendasikan headphone over-ear terbaik untuk olahraga, apa yang sebenarnya terjadi?

Bagaimana mesin pencari AI menghasilkan jawaban dan memilih rekomendasi produknya? Apa bedanya dengan mesin pencari tradisional seperti Google (dan di mana titik irisan keduanya)?

Dan yang terpenting, bagaimana Anda dapat membantu situs web Anda, merek, dan produk agar bisa muncul?

Terima kasih kepada Gianluca Fiorelli dan Mark Williams-Cook atas peninjauan dan kontribusinya pada bab ini.


Bagian 1

Apa itu mesin pencari AI?

Mesin pencari AI adalah sistem tanya-jawab yang menggunakan model bahasa besar (LLM) untuk menemukan informasi dan menghasilkan respons.

Ada beberapa perbedaan utama antara mesin pencari tradisional dan mesin pencari AI (meskipun perbedaan ini semakin mengecil seiring mesin pencari tradisional mengadopsi lebih banyak fitur AI):

  • Alih-alih memasukkan kueri sekali jalan, pengguna dapat mengajukan pertanyaan lanjutan dan melanjutkan percakapan.
  • Alih-alih menampilkan daftar tautan berperingkat, mesin pencari AI memberikan jawaban dan rekomendasi langsung (dan jawaban ini bisa berubah secara berkala).
  • Alih-alih mengarahkan pencari untuk mengunjungi situs web Anda, pengguna mendapatkan jawaban atas kueri mereka langsung di antarmuka chat (sehingga menghasilkan lebih sedikit klik kembali ke situs web Anda).

Berikut seperti apa tampilan antarmuka pencarian AI yang tipikal, mirip dengan yang Anda lihat di ChatGPT, Claude, atau AI Mode:

Diagram antarmuka pencarian AI yang menampilkan prompt, pesan grounding, respons, penyebutan, dan sitasi
  • Prompt percakapan: Pertanyaan pengguna.
  • Pesan grounding: Pesan yang menunjukkan bahwa LLM telah memutuskan untuk mencari informasi tambahan untuk digunakan dalam responsnya.
  • Respons: Jawaban yang dihasilkan AI untuk prompt pengguna.
  • Penyebutan: Entitas (seperti merek atau produk Anda) yang disebutkan secara inline dalam teks respons.
  • Kutipan: URL sumber yang digunakan dalam pembuatan respons, biasanya dicantumkan di bagian akhir.

Agar Anda bisa muncul di jawaban seperti ini, pertama-tama Anda perlu memahami proses inti yang membuat mesin pencari AI bekerja.


Bagian 2

Cara kerja pelatihan

LLM dilatih menggunakan konten dalam jumlah sangat besar. Secara efektif, LLM telah “membaca” seluruh Wikipedia, seluruh Common Crawl Dataset, seluruh Google Books, dan jutaan demi jutaan halaman konten web.

Data pelatihan ini membantu memberikan LLM “pemahaman” tentang dunia. Jika perusahaan headphone Anda muncul berkali-kali dalam data pelatihannya, dalam konteks yang relevan dan berdampingan dengan deskripsi positif (“nilai terbaik”, “cocok untuk gym”, dan seterusnya), besar kemungkinan perusahaan Anda akan disebutkan dalam respons LLM terhadap prompt yang berkaitan dengan headphone.

Tahukah Anda?

Proses pelatihan ini lebih kompleks daripada yang dijelaskan di sini. Ada tahap pra-pelatihan untuk menghapus HTML, menghapus informasi yang dapat mengidentifikasi pribadi, mengecualikan kata-kata dalam blocklist, dan memfilter data untuk bahasa tertentu. Ada juga tahap pasca-pelatihan untuk melatih model bahasa agar berperilaku lebih seperti asisten chat yang membantu (dan bukan sekadar prediktor token berikutnya). Untuk mempelajari lebih lanjut, tonton video Andrej Karpathy, Deep Dive into LLMs like ChatGPT.

Diagram yang menggambarkan bagaimana model bahasa besar dilatih dengan konten skala web
Tanda kutip

Di sinilah SEO berbasis entitas menjadi sangat krusial. Jika merek Anda secara konsisten muncul di Knowledge Graph, terstruktur dengan benar menggunakan markup Schema, dan sering muncul bersama entitas yang relevan dalam konten berkualitas tinggi di seluruh web, Anda sedang membangun ‘sinyal entitas’ yang lebih kuat di data pelatihan.

Gianluca Fiorelli portrait

Gianluca Fiorelli, Konsultan SEO Strategis dan Internasional/Pencarian AI

Yang terpenting, LLM memiliki banyak keunikan:

  • Mereka bersifat probabilistik: Anda dapat menggunakan prompt yang sama dan mendapatkan respons yang berbeda setiap kali. Sifat probabilistik ini berarti Anda tidak bisa “mengoptimalkan untuk sebuah prompt” seperti saat Anda mengoptimalkan untuk sebuah kata kunci. Sebaliknya, berpikirlah dalam distribusi: seberapa besar probabilitas merek Anda muncul di 100 prompt yang serupa? Inilah sebabnya melacak visibilitas rata-rata di banyak prompt lebih baik daripada terpaku pada segelintir prompt.
  • Pengetahuannya memiliki batas waktu (cut-off): secara default, pengetahuan LLM terbatas pada apa yang ada di dataset saat model tersebut dilatih. Setiap model dilatih satu kali pada snapshot data hingga tanggal tertentu. Model baru dengan cut-off pengetahuan yang lebih baru dirilis secara berkala (secara historis kira-kira setiap enam bulan sekali).
  • Mereka berhalusinasi: mereka bisa menyatakan sesuatu yang tidak benar dengan sangat yakin. LLM menghasilkan teks dengan memprediksi kata apa yang kemungkinan muncul berikutnya, bukan dengan memverifikasi fakta. Walaupun mereka dilatih agar membantu dan akurat, mereka tidak memiliki mekanisme pemeriksaan fakta bawaan, itulah sebabnya grounding melalui penelusuran web sangat penting.
Tanda kutip

Kesalahpahaman yang umum adalah bahwa LLM mendapatkan ‘pembaruan pengetahuan’ seperti patch software. Kenyataannya, setiap model dilatih satu kali pada dataset yang tetap. Saat Anda melihat rilis model baru dengan batas pengetahuan yang lebih baru, itu adalah model yang benar-benar baru yang dilatih dari nol, bukan pembaruan untuk model yang sudah ada.

Gianluca Fiorelli portrait

Gianluca Fiorelli, Konsultan SEO Strategis dan Internasional/Pencarian AI

Mesin pencari yang berhalusinasi dan membagikan informasi lama terdengar tidak terlalu berguna. Karena itu, LLM mengatasi sebagian keterbatasan ini melalui proses yang dikenal sebagai grounding.


Bagian 3

Cara kerja grounding dan RAG

LLM dapat memverifikasi dan meningkatkan jawaban mereka dengan dua cara: menggunakan alat (seperti kalkulator atau API data lainnya), atau mengambil informasi tambahan dari sumber eksternal. Proses kedua ini secara teknis dikenal sebagai Retrieval-Augmented Generation (RAG).

Saat pengguna memasukkan pertanyaan, LLM bertanya pada dirinya sendiri: "Apakah aku sudah tahu jawabannya, atau perlu mengambil informasi tambahan?" Jika LLM dapat memprediksi token berikutnya dengan tingkat kepastian yang tinggi (misalnya, pertanyaan yang tidak banyak berubah, seperti "apa fungsi sel darah merah?"), besar kemungkinan ia akan menjawab berdasarkan pengetahuan dasarnya. Dengan tingkat kepastian yang rendah (untuk pertanyaan yang lebih mudah berubah, seperti "apa penggiling kopi budget terbaik?"), ia dapat menggunakan alat pencariannya untuk menemukan informasi relevan dari sumber lain di internet.

LLM di-fine-tune untuk mengenali jenis kueri yang mungkin mendapat manfaat dari informasi tambahan, seperti:

  • Topik di luar cakupan pelatihan model: “Apa faktor peringkat internal yang digunakan oleh Ahrefs’ Keywords Explorer?”
  • Topik yang membutuhkan informasi baru atau sensitif terhadap waktu: “Apa Pembaruan Inti terbaru Google dan kapan diluncurkan?”
  • <b>Topik yang secara eksplisit meminta pencarian web:</b> <em>
  • Prompt yang meminta sumber dan bukti: “Berikan sumber yang mengonfirmasi bahwa Google menggunakan sinyal keterlibatan pengguna dalam algoritmanya.”

Beberapa model LLM juga sangat mungkin memicu penelusuran tambahan (misalnya, model "deep research" secara khusus dikonfigurasi untuk memicu beberapa penelusuran RAG).

Diagram yang menunjukkan cara kerja grounding dan Retrieval-Augmented Generation (RAG)

Proses menemukan ground truth melalui RAG (sering disebut sebagai "grounding") ini menawarkan beberapa manfaat. LLM dapat meningkatkan akurasi faktual dan mengurangi halusinasi dengan memeriksa responsnya terhadap sumber pihak ketiga. LLM juga dapat mengambil dan membagikan informasi terbaru, meski data pelatihannya relatif sudah kedaluwarsa. Selain itu, LLM dapat membagikan jawaban yang lebih rinci dan komprehensif serta memberikan transparansi dan atribusi yang lebih baik untuk semua yang dibagikannya.

Mesin pencari AI melakukan grounding ini menggunakan proses yang dikenal sebagai query fan-out.


Bagian 4

Cara kerja fan-out kueri

Yang penting, fan-out kueri menjelaskan mengapa SEO tradisional sangat krusial untuk visibilitas AI.

Asisten AI seperti ChatGPT, Gemini, dan Perplexity menggunakan indeks pencarian seperti Google, Bing, dan Brave untuk mengambil informasi terbaru.

Penyedia mesin pencari itu penting karena masing-masing memiliki algoritme peringkat, indeks, dan cakupan yang berbeda: membuat merek Anda terlihat di Google Penelusuran mungkin lebih membantu visibilitas Anda di Mode AI dibandingkan di ChatGPT, yang lebih banyak bergantung pada Bing.

mesin pencari AIIndeks pencarian yang digunakan untuk grounding
ChatGPT logoChatGPT
Bing, logoBing,
Google logoGoogle
Claude logoClaude
Brave logoBrave
Gemini logoGemini
Google logoGoogle
Copilot logoCopilot
Bing logoBing
Perplexity logoPerplexity
In-house logoIn-house
AI Mode logoAI Mode
Google logoGoogle
AI Overviews logoAI Overviews
Google logoGoogle

Saat penelusuran web dipicu, LLM meminta hasil yang relevan dari indeks pencariannya. Indeks pencarian mengembalikan daftar hasil, dan LLM memilih halaman yang paling relevan untuk di-crawl dengan mengevaluasi informasi seperti judul halaman, isi cuplikan halaman yang ditampilkan, dan kebaruannya (seberapa baru halaman tersebut dipublikasikan).

Mengapa SEO krusial untuk Pencarian AI

Ini perlu diulang: mesin pencari tradisional seperti Google dan Bing memainkan peran krusial dalam membantu mesin pencari AI memutuskan konten mana yang akan disebutkan dan disitasi dalam jawaban mereka.

Atau dengan kata lain, peringkat tinggi di pencarian tradisional akan meningkatkan visibilitas Anda di pencarian AI.

Namun, sebenarnya apa yang dicari oleh LLM?

LLM menggunakan proses yang disebut query fan-out. Banyak prompt yang dimasukkan ke ChatGPT dan mesin pencari AI lainnya sangat panjang, bersifat percakapan, dan sering kali benar-benar unik. Mencari prompt persis seperti ini di Google tidak selalu menghasilkan konten yang berguna.

Jadi, alih-alih menjalankan pencarian web dengan kueri persis dari pengguna…

"Saya sedang menyusun strategi konten 6 bulan untuk perusahaan SaaS B2B berukuran menengah yang menjual produk analitik kepada merek ecommerce. Perusahaan tersebut…"

Mockup prompt pengguna yang panjang dan detail yang dimasukkan ke antarmuka chat AI

…LLM menggunakan prompt awal tersebut untuk menghasilkan serangkaian kueri yang lebih singkat dan terkait, guna membantu mengambil informasi yang relevan.

Tanda kutip

Kueri fan-out ini juga dihasilkan oleh model bahasa besar sehingga bersifat non-deterministik: kueri tersebut dapat berubah secara berkala, bahkan untuk penelusuran yang sama.

Mark Williams-Cook portrait

Mark Williams-Cook, Pendiri, AlsoAsked

Proses ini seharusnya terasa familier bagi praktisi SEO: kueri terkait ini sangat mirip dengan kata kunci panjang, sub-intent, dan pertanyaan People Also Ask:

  • Kerangka kerja strategi konten SaaS B2B yang umum
  • Contoh konten TOFU vs BOFU untuk SaaS
  • Penyegaran konten dan praktik terbaik tautan internal
  • Metrik untuk pertumbuhan demo yang didorong oleh konten

Faktanya, hanya 12% tautan yang disitasi oleh ChatGPT, Gemini, dan Copilot yang muncul di 10 hasil teratas Google untuk prompt pengguna asli. Namun, ini tidak berarti peringkat tradisional menjadi tidak relevan. Mesin pencari AI mengambil konten dengan menghasilkan beberapa kueri penelusuran—dan kueri fan-out tersebut sering kali berupa penelusuran yang lebih tradisional dan berfokus pada kata kunci, sehingga pekerjaan SEO Anda yang sudah ada sangat berpengaruh.

Diagram yang menggambarkan bagaimana mesin pencari AI menyebarkan satu prompt pengguna menjadi banyak kueri terkait
Tanda kutip

Fan-out kueri itu membebaskan: Anda tidak perlu menebak prompt percakapan seperti apa yang akan digunakan orang. Sebaliknya, optimalkan untuk kueri yang terurai, alias komponen semantik yang secara alami akan dihasilkan LLM. Bentuknya sangat mirip dengan riset kata kunci tradisional: [topik] + [kualifier], kueri perbandingan, kueri definisi, dan konten 'praktik terbaik'. Riset SEO Anda yang sudah ada kemungkinan besar sudah mencakup ruang fan-out tersebut.

Gianluca Fiorelli portrait

Gianluca Fiorelli, Konsultan SEO Strategis dan Internasional/Pencarian AI


Bagian 5

Cara kerja retrieval, chunking, dan sintesis jawaban

Begitu sebuah LLM mengambil halaman yang relevan dari indeks penelusuran, LLM tidak membacanya secara penuh. Sebaliknya, halaman dipecah menjadi "chunk" teks kecil, lalu model memprioritaskan (dan terkadang memperluas) bagian teks yang tampak paling relevan dengan kueri.

Potongan-potongan ini biasanya berisi beberapa ratus hingga beberapa ribu kata masing-masing, hanya sebagian kecil dari kebanyakan halaman web. LLM juga beroperasi dengan batas context window yang ketat: ia hanya dapat memproses sejumlah teks terbatas, termasuk prompt pengguna, semua potongan yang diambil, dan responsnya sendiri. Artinya, ia harus sangat selektif terhadap konten apa yang diambil dan disertakan.

Berikut contohnya:

Konten halaman penuh“Grounding adalah alur kerja ketika model mengambil sumber eksternal, mengekstrak fakta yang relevan, dan menggunakan ekstrak tersebut untuk mengurangi halusinasi serta meningkatkan kebaruan.… Kemudian, ia memindai berbagai sumber, membandingkan informasi, dan menyintesis respons alih-alih menyalin teks apa adanya. Tahap sintesis ini membantu menghindari ketergantungan berlebihan pada satu sumber saja.”
Cuplikan"Menjelaskan bagaimana asisten menggunakan penelusuran web untuk mengambil sumber eksternal dan mengurangi halusinasi dengan melakukan grounding respons pada fakta yang diambil."
Perluasan (baris 1–2)“Grounding adalah alur kerja ketika model mengambil sumber eksternal, mengekstrak fakta yang relevan, dan menggunakan ekstrak tersebut untuk mengurangi halusinasi serta meningkatkan kebaruan. Model mengevaluasi apakah sebuah kueri memerlukan informasi yang terbaru atau dapat diverifikasi sebelum memulai pencarian web.”
Perluasan (baris 33–34)“Kemudian, ia memindai berbagai sumber, membandingkan informasi, dan menyintesis respons alih-alih menyalin teks apa adanya. Tahap sintesis ini membantu menghindari ketergantungan berlebihan pada satu sumber saja.”

Permudah LLM memahami konten Anda

Ini penting: saat mesin pencari AI mengambil konten Anda dari internet, yang dapat mereka lihat hanyalah kutipan sebagian, bukan seluruh halaman. Untuk memaksimalkan peluang agar dikutip dalam jawaban LLM, relevansi dan nilai halaman Anda harus mudah dipahami oleh LLM, bahkan tanpa akses ke seluruh halaman.

Mesin pencari AI kemudian mengintegrasikan teks ini ke dalam proses pembuatan responsnya.

Konten web mentah di-grounding ke dalam jawaban model: cuplikan teks atau data yang diekstrak pada langkah sebelumnya ditambahkan ke konteks model, pada dasarnya mengatakan, “Berikut beberapa konteks dari web yang mungkin berguna, sekarang jawab pertanyaan pengguna menggunakan informasi ini.”


Bagian 6

Cara kutipan dipilih

Selanjutnya, model menghasilkan jawaban dengan menggabungkan pengetahuan bawaannya dengan konten yang diambil, lalu membagikannya kepada pengguna. Respons biasanya akan menyertakan sitasi: URL yang dapat diklik dan menaut ke sumber yang digunakan selama proses grounding.

Tidak setiap halaman yang diambil mesin pencari AI akan mendapatkan sitasi di jawaban akhir. Model memilih sumber mana yang akan disitasi berdasarkan beberapa faktor:

  • Relevansi: Seberapa langsung konten yang diambil berkontribusi pada klaim-klaim spesifik dalam respons.
  • Keterkinian: Seberapa baru sumber tersebut terlihat.
  • Keberagaman: Seberapa beragam sumber kutipannya (dengan mesin pencari AI sering kali lebih memilih mengutip berbagai sumber yang berbeda, alih-alih berulang kali mengutip sumber yang sama).

Ini berarti bahwa meskipun konten Anda diambil dan dibaca, tidak ada jaminan akan mendapatkan kutipan yang terlihat; konten tersebut harus dianggap benar-benar relevan dengan klaim tertentu dalam jawaban.


Bagian 7

Cara kerja personalisasi

Inilah inti cara kerja mesin pencari AI, tetapi ada satu tingkat kompleksitas tambahan: personalisasi.

ChatGPT dan mesin pencari AI lainnya dapat mempersonalisasi hasilnya untuk masing-masing pengguna, artinya prompt yang sama bisa menghasilkan hasil yang berbeda untuk orang yang berbeda. Personalisasi dapat dipengaruhi dengan beberapa cara, termasuk:

  • Konteks percakapan saat ini: Pesan-pesan sebelumnya dalam chat yang sama akan memengaruhi respons terhadap prompt saat ini. Sebutkan bahwa Anda mengutamakan “daya tahan” pada perlengkapan hiking Anda, dan Anda bisa mengharapkan ChatGPT untuk memasukkan kriteria ini dalam pencariannya ketika Anda meminta “rekomendasi ransel” di chat yang sama nanti.
  • Memori: Banyak LLM memiliki fitur memori yang memungkinkan sistem menyimpan fakta atau preferensi tertentu lintas chat. Misalnya, dengan memori diaktifkan, ChatGPT akan menyimpulkan dan mengingat detail yang Anda bagikan (seperti nama atau minat Anda) dan menyertakannya dalam percakapan berikutnya untuk mempersonalisasi responsnya.
  • Lokasi, waktu, tanggal: Banyak mesin pencari AI dapat menyimpulkan informasi tentang Anda dan menyesuaikan responsnya berdasarkan itu, mulai dari menggunakan alamat IP Anda untuk memperkirakan lokasi (untuk kueri seperti “brunch dekat saya”), hingga tanggal dan waktu (“daftar perlengkapan camping” mungkin menyarankan tenda 4 musim di Musim Dingin dan tenda 3 musim di Musim Panas).
  • Prompt sistem: Preferensi spesifik apa pun yang dibagikan dalam pesan sistem akan memengaruhi percakapan Anda (menambahkan "ingat saya vegan" ke prompt sistem akan memengaruhi respons terhadap prompt seperti "ide sarapan sehat").
Tanda kutip

Berikut analogi untuk memahami prompt sistem. Jika Anda bermain sepak bola, 'data pelatihan' adalah semua latihan yang Anda jalani selama bertahun-tahun, memori otot jangka panjang. Prompt sistem adalah apa yang pelatih Anda katakan tepat sebelum Anda turun ke lapangan. Ini adalah memori jangka pendek yang kuat yang lebih mungkin memengaruhi output.

Mark Williams-Cook portrait

Mark Williams-Cook, Pendiri, AlsoAsked

Diagram sinyal personalisasi yang memengaruhi respons penelusuran AI

Karena itu, sebaiknya Anda melacak rata-rata visibilitas merek dan situs web Anda dari waktu ke waktu dan di berbagai prompt, alih-alih terpaku pada respons dari satu prompt saja.


Pemikiran akhir

Setiap mesin pencari AI (dari ChatGPT hingga Perplexity hingga Google AI Mode) sedikit berbeda, tetapi proses intinya tetap sama. Yang penting bagi praktisi SEO dan pemasar, mesin pencari tradisional seperti Google dan Bing menyediakan sebagian besar infrastruktur yang diperlukan agar mesin pencari AI dapat berfungsi. Mengoptimalkan pencarian AI sangat bergantung pada praktik terbaik SEO tradisional.

Potret Ryan Law
Panduan olehRyan Law

Ryan Law adalah Direktur Pemasaran Konten di Ahrefs. Ryan memiliki 13 tahun pengalaman sebagai penulis, ahli strategi konten, pemimpin tim, direktur pemasaran, VP, CMO, dan pendiri agensi. Dia telah membantu puluhan perusahaan meningkatkan pemasaran konten dan SEO mereka, termasuk Google, Zapier, GoDaddy, Clearbit, dan Algolia. Dia juga seorang novelis dan pembuat dua kursus pemasaran konten.

Kuasai SEO Langkah demi Langkah

/01

Cara Kerja Mesin Pencari

Sebelum Anda mulai belajar SEO, Anda perlu memahami cara kerja mesin pencari.

/02

Dasar-Dasar SEO

Pelajari cara menyiapkan situs web Anda untuk kesuksesan SEO dan pahami keempat aspek utama SEO.

/03

Riset Kata Kunci

Titik awal dalam SEO adalah memahami apa yang dicari oleh pelanggan target Anda.

/04

Konten SEO

Pelajari cara membuat konten yang mendapat peringkat di mesin pencari.

/05

SEO On-Page

Ini adalah tempat Anda mengoptimalkan halaman Anda untuk membantu mesin pencari memahaminya.

/06

Bangunan Tautan

Tautan menjadi penentu bagi mesin pencari untuk menemukan halaman baru dan menilai "otoritas". Tanpa tautan, sulit mendapatkan peringkat untuk istilah yang kompetitif.

/07

SEO Teknis

Sangat penting untuk memastikan tidak ada kesalahan teknis yang menghalangi Google untuk mengakses dan memahami situs web Anda.

/08

SEO Lokal

Pelajari cara meningkatkan visibilitas Anda di hasil penelusuran lokal dan mendapatkan lebih banyak pelanggan dari area Anda.

/09

Peran AI dalam SEO

Mustahil membahas SEO saat ini tanpa menyinggung AI generatif.

/10

Cara Kerja Mesin Pencari AI

Pelajari secara tepat bagaimana mesin pencari AI seperti ChatGPT menghasilkan jawaban mereka dan memilih merek serta produk mana yang akan disebutkan.