📄️ 🟢 Úvod
Prompt hacking je termín používaný k popisu typu útoku, který zneužívá zranitelnosti %%LLM|LLM%% manipulací s jejich vstupy nebo prompty. Na rozdíl od tradičního hackingu, který obvykle zneužívá zranitelnosti softwaru, se prompt hacking spoléhá na pečlivě vytvořené prompty, aby oklamal LLM a přiměl ho k provedení nezamýšlených akcí.
📄️ 🟢 Prompt Injection
Prompt injection je proces zneužití výstupu jazykového modelu(@branch2022evaluating)(@crothers2022machine)(@goodside2022inject)(@simon2022inject). To hackerovi umožňuje přimět model, aby řekl cokoli, co chce.
📄️ 🟢 Prompt Leaking
Prompt leaking je forma prompt injekce, při které je model požádán, aby vyplivl svůj vlastní prompt.
📄️ 🟢 Jailbreaking
Jailbreak je proces, který využívá prompt injection ke specifickému obcházení bezpečnostních a moderátorských funkcí umístěných v %%LLM|LLM%% jejich tvůrci(@perez2022jailbreak)(@brundage_2022)(@wang2022jailbreak). Jailbreaking se obvykle týká chatbotů, které byly úspěšně prompt injektovány a nyní jsou ve stavu, kdy uživatel může položit jakoukoli otázku, kterou by chtěl.
🗃️ 🟢 Obranná opatření
9 items
🗃️ 🟢 Ofenzivní opatření
8 items