Files
myWiki/concepts/itemic-tokens.md

36 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Itemic Token"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: [recommendation, tokenization, generative-model]
sources: [raw/papers/onereason-team-onereason-2026.md]
---
# Itemic Token
> 生成式推荐中表示单个 item 的特殊 token将推荐转化为序列生成任务的基础抽象单元。
## 定义
在 [[generative-recommendation|生成式推荐]] 中,每个 item商品、视频、直播等被编码为一个特殊的 itemic token。整个用户行为历史被表示为 itemic token 序列,模型通过自回归生成下一个 token 来完成推荐。
## 核心特性
- **离散化表示**:将连续 item embedding 离散化为有限词表中的 token
- **序列化交互**:用户行为被扁平化为 token 序列,适用于 Transformer 自回归
- **Scaling 兼容**:与 LLM 的 token 机制同构,可复用 LLM 的训练基础设施
## 关键挑战
- **语义空洞**itemic token 本身不携带语言语义,模型只能学习表面转移模式
- **CoT 构造障碍**:无法仅用 itemic token 构造有意义的 [[chain-of-thought|思维链]]
- **感知鸿沟**:需要 [[itemic-text-alignment|itemic-text 对齐]] 来为 token 注入语义
## 参考
- [[onerec|OneRec]]
- [[generative-recommendation|生成式推荐]]
- [[itemic-text-alignment|Itemic-Text 对齐]]
- [[onereason|OneReason]]