From 6021dea160092d29b1a1f202917027e29f55465d Mon Sep 17 00:00:00 2001 From: Sidney Zhang Date: Thu, 25 Jun 2026 14:08:47 +0800 Subject: [PATCH] =?UTF-8?q?20260625:=E5=BE=88=E5=A4=9A=E6=96=B0=E5=86=85?= =?UTF-8?q?=E5=AE=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../atlas-agent-memory-architecture-2026.md | 89 ++++ articles/financial-llm-practice-2026.md | 62 +++ articles/llm-spiral-of-silence-2026.md | 84 ++++ articles/memtensor-memos-agent-memory-2026.md | 81 ++++ ...ichael-jordan-mlst-collectivist-ai-2026.md | 68 +++ .../nobrega-ai-production-tradeoffs-2026.md | 52 +++ concepts/ace-router.md | 49 ++ concepts/active-tool-discovery.md | 55 +++ concepts/active-tool-request.md | 56 +++ concepts/adkv.md | 46 ++ concepts/agent-memory-five-category-model.md | 53 +++ concepts/agent-memory-lifecycle.md | 55 +++ concepts/agent-memory-system.md | 45 ++ concepts/agent-memory-taxonomy.md | 36 ++ concepts/agent-skill-atomization.md | 52 +++ concepts/agent-skill-ecosystem.md | 63 +++ concepts/agent-skill.md | 50 ++ concepts/agent-web.md | 39 ++ concepts/agentic-cache-manager.md | 66 +++ concepts/agentic-rag.md | 42 ++ concepts/agentic-streaming-inference.md | 65 +++ concepts/agi-critique.md | 42 ++ concepts/ai-production-tradeoffs.md | 42 ++ concepts/aidb.md | 40 ++ concepts/anthropomorphization-critique.md | 47 ++ concepts/appearance-bias-vla.md | 38 ++ .../asymmetric-grounding-adherence-loss.md | 67 +++ concepts/atlas-memory-system.md | 41 ++ concepts/attention-mechanism.md | 49 ++ concepts/attractor-dynamics.md | 46 ++ concepts/audio-visual-generation.md | 38 ++ .../audio-visual-representation-alignment.md | 57 +++ concepts/autonomous-optimization-ao.md | 38 ++ concepts/autoregressive-unrolling.md | 52 +++ concepts/autoregressive-video-generation.md | 40 ++ concepts/barker-gibbs.md | 49 ++ concepts/batch-vs-real-time-inference.md | 44 ++ concepts/bayesian-filtering.md | 34 ++ concepts/belief-state.md | 39 ++ concepts/block-causal-attention.md | 49 ++ concepts/bm25-financial-retrieval.md | 42 ++ concepts/build-vs-buy-llm.md | 40 ++ concepts/cace-principle.md | 37 ++ concepts/candidate-graph.md | 45 ++ concepts/causal-generation.md | 31 ++ concepts/causal-multimodal-vae.md | 62 +++ concepts/center-manifold-theorem.md | 36 ++ concepts/clawforce.md | 59 +++ concepts/coarse-grained-recurrence.md | 40 ++ concepts/collectivist-ai.md | 62 +++ concepts/conditional-memory.md | 46 ++ concepts/constant-kv-cache.md | 39 ++ concepts/content-based-reasoning.md | 66 +++ concepts/content-diversity-decay.md | 42 ++ concepts/content-homogenization.md | 41 ++ concepts/context-anchoring.md | 44 ++ concepts/context-enriched-embeddings.md | 45 ++ concepts/convex-hull-relaxation.md | 46 ++ concepts/coordinator-executor-architecture.md | 37 ++ concepts/cross-head-budget-allocation.md | 52 +++ concepts/dag-reasoning-evaluation.md | 40 ++ concepts/data-markets.md | 51 ++ concepts/data-quality-vs-quantity.md | 38 ++ concepts/data-swamp.md | 38 ++ concepts/dcgwm.md | 63 +++ concepts/deepencoder.md | 34 ++ concepts/deepseek-ocr.md | 35 ++ concepts/default-tools.md | 40 ++ concepts/delta-rule.md | 62 +++ concepts/depth-dilemma.md | 40 ++ concepts/depth-recurrence.md | 40 ++ concepts/diffusion-transformer.md | 47 ++ .../domain-aware-preference-optimization.md | 56 +++ concepts/dpo-bias-mitigation.md | 38 ++ concepts/drifting.md | 45 ++ concepts/dual-collapse.md | 57 +++ concepts/dynamic-react.md | 62 +++ concepts/dynamic-state-evolution.md | 52 +++ concepts/dynamic-token-limit.md | 43 ++ concepts/e-values.md | 42 ++ concepts/edge-of-stability.md | 41 ++ concepts/ellipsis-prompt.md | 43 ++ concepts/emotional-reasoning-bias.md | 39 ++ concepts/empirical-fisher.md | 54 +++ concepts/end-to-end-ocr.md | 38 ++ concepts/end-to-end-streaming-interaction.md | 67 +++ concepts/engram.md | 70 +++ concepts/enhanced-state-space-models.md | 50 ++ concepts/extended-kalman-filter.md | 30 ++ concepts/fact-augmented-key-expansion.md | 57 +++ concepts/feedforward-depth-limitation.md | 43 ++ concepts/financial-agent-permission.md | 41 ++ concepts/financial-llm-deployment.md | 50 ++ concepts/financial-llm-model-selection.md | 42 ++ concepts/financial-llm-requirements.md | 45 ++ concepts/first-lyapunov-coefficient.md | 53 +++ concepts/fisher-lipschitz.md | 53 +++ concepts/fisher-width.md | 71 +++ concepts/flip-bifurcation.md | 37 ++ concepts/flow-matching.md | 5 + concepts/forward-repair-ladder.md | 47 ++ concepts/foundation-model-frontier-bias.md | 57 +++ concepts/full-duplex-interaction.md | 59 +++ concepts/gambling-gibbs.md | 52 +++ concepts/gaussian-filtering.md | 35 ++ concepts/gaussian-manifold.md | 29 ++ concepts/gaussian-width.md | 49 ++ concepts/gbrain-memory.md | 40 ++ concepts/generalized-delta-rule.md | 68 +++ concepts/generative-reconstruction-latent.md | 59 +++ concepts/geometric-compression-latent.md | 60 +++ concepts/gibbs-posterior.md | 35 ++ concepts/global-combinatorial-optimization.md | 60 +++ concepts/hardware-aware-algorithm.md | 69 +++ concepts/head-level-budget-allocation.md | 51 ++ concepts/head-structure-ssm.md | 51 ++ concepts/heuristic-metric.md | 57 +++ concepts/hierarchical-semantic-routing.md | 63 +++ concepts/hippo.md | 54 +++ concepts/history-aware-routing.md | 48 ++ concepts/human-in-the-loop.md | 53 +++ concepts/hybrid-reasoning-models.md | 44 ++ concepts/hybrid-recall-pipeline.md | 42 ++ concepts/hypothesis-tree-refinement.md | 43 ++ concepts/in-context-learning-rate.md | 53 +++ concepts/induction-heads.md | 49 ++ concepts/information-cocoons.md | 40 ++ concepts/information-leakage-vla.md | 36 ++ concepts/information-performance-binding.md | 52 +++ concepts/insight-backpropagation.md | 37 ++ concepts/intersectional-persona-evaluation.md | 36 ++ concepts/intra-head-eviction.md | 50 ++ concepts/inward-only-gradient-flow.md | 44 ++ concepts/isolation-necessity-theorem.md | 47 ++ concepts/isotonic-regression.md | 35 ++ concepts/iterative-capability-extension.md | 63 +++ concepts/jepa-for-robotics.md | 43 ++ concepts/kalman-filter.md | 36 ++ concepts/keydiff.md | 45 ++ concepts/kv-cache-eviction.md | 50 ++ concepts/kv-cache.md | 45 ++ concepts/large-reasoning-models.md | 45 ++ concepts/latent-action-pretraining.md | 41 ++ concepts/latent-thought-models.md | 45 ++ concepts/latent-world-model.md | 38 ++ concepts/layered-memory-architecture.md | 56 +++ concepts/leakage-free-state-prediction.md | 40 ++ concepts/lifting-identity.md | 59 +++ concepts/light-routing-agent.md | 38 ++ concepts/linear-attention.md | 47 ++ concepts/llm-consistent-reasoning.md | 54 +++ concepts/llm-mcmc.md | 61 +++ concepts/long-horizon-parsing.md | 41 ++ concepts/long-horizon-utility.md | 47 ++ concepts/long-range-dependency.md | 39 ++ concepts/long-term-interactive-memory.md | 49 ++ concepts/longmem-eval.md | 61 +++ concepts/look-ahead-buffer-controller.md | 56 +++ concepts/lukv.md | 47 ++ concepts/mamba-2.md | 48 ++ concepts/mamba-ssm.md | 58 ++- concepts/manifold-of-minimizers.md | 40 ++ concepts/marginal-utility.md | 55 +++ concepts/mcp-protocol.md | 54 +++ concepts/mcp-tools-dataset.md | 58 +++ concepts/me2-principle.md | 33 ++ concepts/megatron-lm.md | 16 + concepts/mem2skill.md | 47 ++ concepts/memcube.md | 39 ++ concepts/memory-compute-decoupling.md | 62 +++ concepts/memory-consolidation.md | 35 ++ concepts/memory-dedup-pipeline.md | 61 +++ concepts/memory-governance.md | 45 ++ concepts/memory-indexing-retrieval-reading.md | 67 +++ concepts/meta-tools.md | 48 ++ concepts/ml-technical-debt.md | 49 ++ concepts/model-driven-vs-app-driven-memory.md | 39 ++ concepts/moment-matching-filter.md | 38 ++ concepts/multi-agent-spiral.md | 43 ++ concepts/native-streaming-ar-training.md | 30 ++ concepts/natural-gradient-descent.md | 33 ++ concepts/ngram-embedding.md | 54 +++ concepts/non-thinking-mode.md | 40 ++ concepts/normal-tangent-decomposition.md | 46 ++ concepts/objective-interference-collapse.md | 47 ++ concepts/offline-profiling.md | 58 +++ concepts/omnidocbench.md | 38 ++ concepts/opinion-polarization.md | 45 ++ concepts/optimality-gap.md | 55 +++ concepts/oracle-importance.md | 56 +++ concepts/order-bias-removal.md | 54 +++ concepts/overthinking.md | 37 ++ concepts/pageindex.md | 38 ++ concepts/parallel-scan.md | 51 ++ concepts/passive-vs-active-knowledge.md | 56 +++ concepts/per-index-time-decay.md | 41 ++ concepts/persona-invariant-reasoning.md | 39 ++ concepts/personalization-trap.md | 39 ++ concepts/posterior-linearization-filter.md | 32 ++ concepts/prediction-driven-inference.md | 56 +++ concepts/pretraining-statistical-bias.md | 39 ++ concepts/probability-matching.md | 43 ++ concepts/procedural-gap.md | 38 ++ concepts/product-stability.md | 43 ++ concepts/prompt-engineering-vs-fine-tuning.md | 45 ++ concepts/prospective-memory-index.md | 95 ++++ concepts/pseudo-huber-loss.md | 31 ++ concepts/pyramidkv.md | 52 +++ concepts/rademacher-complexity.md | 38 ++ concepts/rag-closed-loop.md | 49 ++ concepts/rag.md | 6 + concepts/reasoning-quality-optimization.md | 42 ++ concepts/recurrence-taxonomy.md | 47 ++ .../recurrent-transformer-architectures.md | 44 ++ .../reference-sliding-window-attention.md | 50 ++ concepts/regular-language-recognition.md | 52 +++ .../reinforced-online-policy-distillation.md | 58 +++ concepts/representational-alignment.md | 38 ++ concepts/research-hypothesis-tree.md | 50 ++ concepts/reward-hacking.md | 41 ++ concepts/rlhf-alignment-amplification.md | 40 ++ concepts/rlhf.md | 6 + concepts/role-setting-entrenchment.md | 38 ++ concepts/rollout-drift.md | 44 ++ concepts/runtime-governance.md | 62 +++ concepts/rwkv.md | 59 +++ concepts/search-and-load.md | 66 +++ concepts/selective-copy.md | 48 ++ concepts/selective-hitl.md | 41 ++ concepts/selective-state-space-models.md | 50 ++ concepts/selective-state-space.md | 56 +++ concepts/self-evolutionary-mutation.md | 37 ++ concepts/self-resampling.md | 52 +++ concepts/semiseparable-matrices.md | 47 ++ concepts/sequential-dependency.md | 41 ++ concepts/sglang.md | 16 + concepts/sharpness.md | 43 ++ ...ituational-test-emotional-understanding.md | 37 ++ concepts/skill-acquisition.md | 60 +++ concepts/skill-composition.md | 59 +++ concepts/skill-evolution.md | 62 +++ concepts/skill-lifecycle.md | 53 +++ concepts/skill-representation.md | 56 +++ concepts/skill-retrieval.md | 66 +++ concepts/skill-selection.md | 62 +++ concepts/snapkv.md | 40 ++ concepts/social-capital-framework.md | 34 ++ concepts/social-video.md | 43 ++ concepts/social-world-model.md | 49 ++ concepts/socialvideo-bench.md | 47 ++ concepts/soft-supersession.md | 43 ++ concepts/space-supervision.md | 63 +++ concepts/sparsity-allocation.md | 64 +++ concepts/spiral-of-silence.md | 38 ++ concepts/ssd-algorithm.md | 53 +++ concepts/state-space-models.md | 60 +++ concepts/state-tracking.md | 42 ++ concepts/statistical-contract-theory.md | 46 ++ concepts/statistical-manifold.md | 54 +++ concepts/stein-lemma.md | 28 ++ concepts/step-recurrence.md | 41 ++ concepts/streaming-generation.md | 44 ++ concepts/streaming-inference.md | 30 ++ concepts/structured-masked-attention.md | 49 ++ concepts/structured-state-space-duality.md | 52 +++ concepts/structured-state-space-models.md | 68 +++ concepts/temperature-sampling.md | 41 ++ concepts/tensor-contraction-duality.md | 50 ++ concepts/thinker-performer-pipeline.md | 76 +++ concepts/thinking-based-non-thinking.md | 52 +++ concepts/thinking-mode.md | 49 ++ concepts/thinking-reward-model.md | 39 ++ concepts/time-aware-query-expansion.md | 56 +++ concepts/token-level-policy-gradient.md | 49 ++ concepts/token-shift.md | 46 ++ concepts/tool-registry.md | 50 +- concepts/trajectory-supervision.md | 51 ++ concepts/trajectory-synthesis.md | 42 ++ concepts/trm-preference-dataset.md | 36 ++ concepts/uncertainty-quantification.md | 9 + concepts/uncertainty-taxonomy.md | 57 +++ concepts/unified-latent-probe.md | 64 +++ concepts/unlimited-ocr.md | 37 ++ concepts/unscented-kalman-filter.md | 29 ++ concepts/user-memory-bias.md | 36 ++ concepts/vector-valued-gating.md | 53 +++ concepts/verbatim-pre-recall.md | 36 ++ concepts/vla-jepa.md | 41 ++ concepts/wkv-time-mixing.md | 57 +++ index.md | 339 +++++++++++++- log.md | 438 +++++++++--------- papers/arbor-htr-2026.md | 104 +++++ papers/dao-transformers-are-ssms-2024.md | 90 ++++ papers/engram-conditional-memory-2026.md | 89 ++++ papers/fei-mcp-zero-2025.md | 71 +++ papers/gan-bifurcation-eos.md | 73 +++ .../gan-thinking-based-non-thinking-2026.md | 90 ++++ papers/gaurav-dynamic-react-2025.md | 74 +++ papers/gu-mamba.md | 95 ++++ papers/hazare-dcgwm-2026.md | 105 +++++ papers/jordan-collectivist-ai-2025.md | 56 +++ papers/large-language-gibbs.md | 87 ++++ papers/latent-cot-supervision.md | 77 +++ papers/longmem-eval-2025.md | 91 ++++ papers/maineCoon.md | 85 ++++ papers/me2-trm-reasoning-2026.md | 77 +++ ...r-topological-trouble-transformers-2026.md | 78 ++++ papers/nano-filter.md | 66 +++ papers/peng-rwkv7.md | 100 ++++ papers/personalization-trap-2025.md | 76 +++ papers/tang-lukv.md | 101 ++++ papers/unlimited-ocr-works-2026.md | 66 +++ papers/vla-jepa-2026.md | 81 ++++ papers/vu-fisher-width-2026.md | 90 ++++ papers/wan-streamer.md | 79 ++++ papers/yao-ace-router-2026.md | 69 +++ papers/zhou-agent-skills-survey-2026.md | 93 ++++ .../atlas-agent-memory-architecture-2026.md | 61 +++ raw/articles/financial-llm-practice-2026.md | 49 ++ .../liyuanyuan-llm-spiral-of-silence-2026.md | 41 ++ .../memtensor-memos-agent-memory-2026.md | 63 +++ ...ichael-jordan-mlst-collectivist-ai-2026.md | 64 +++ .../nobrega-ai-production-tradeoffs-2026.md | 62 +++ raw/papers/arbor-htr-2026.md | 38 ++ raw/papers/cao-nano-filter-2024.md | 29 ++ raw/papers/dao-transformers-are-ssms-2024.md | 33 ++ raw/papers/engram-conditional-memory-2026.md | 32 ++ raw/papers/fei-mcp-zero-2025.md | 56 +++ raw/papers/gan-bifurcation-eos-2026.md | 36 ++ .../gan-thinking-based-non-thinking-2026.md | 39 ++ raw/papers/gaurav-dynamic-react-2025.md | 53 +++ raw/papers/gu-mamba-2024.md | 94 ++++ raw/papers/hazare-dcgwm-2026.md | 43 ++ raw/papers/jordan-collectivist-ai-2025.md | 71 +++ raw/papers/large-language-gibbs-2026.md | 19 + raw/papers/latent-cot-supervision-2026.md | 21 + raw/papers/longmem-eval-2025.md | 31 ++ .../maineCoon-social-world-model-2026.md | 73 +++ raw/papers/me2-trm-reasoning-2026.md | 40 ++ ...r-topological-trouble-transformers-2026.md | 41 ++ raw/papers/peng-rwkv7-goose-2025.md | 90 ++++ raw/papers/personalization-trap-2025.md | 40 ++ raw/papers/tang-lukv-2026.md | 59 +++ raw/papers/unlimited-ocr-works-2026.md | 45 ++ raw/papers/vla-jepa-2026.md | 41 ++ raw/papers/vu-fisher-width-2026.md | 45 ++ raw/papers/wan-streamer-2026.md | 18 + raw/papers/yao-ace-router-2026.md | 51 ++ raw/papers/zhou-agent-skills-survey-2026.md | 53 +++ reviews/ace-router-review-20260619.md | 40 ++ .../agent-skills-survey-review-20260619.md | 48 ++ reviews/arbor-htr-20260624.md | 39 ++ ...o-transformers-are-ssms-review-20260618.md | 59 +++ reviews/dcgwm-2026-06-23.md | 76 +++ reviews/dynamic-react-review-20260619.md | 39 ++ reviews/engram-conditional-memory-20260625.md | 42 ++ reviews/fisher-width-2026-06-23.md | 76 +++ reviews/gan-bifurcation-eos-20260623.md | 50 ++ reviews/gan-tnt-review-20260618.md | 60 +++ .../jordan-collectivist-ai-review-20260621.md | 46 ++ reviews/large-language-gibbs-2026-06-25.md | 46 ++ reviews/latent-cot-supervision-2026-06-25.md | 50 ++ reviews/longmem-eval-20250625.md | 45 ++ reviews/lukv-review-20260618.md | 77 +++ reviews/mainecoon-review-20260620.md | 51 ++ reviews/mamba-review-20260618.md | 70 +++ reviews/mcp-zero-review-20260619.md | 40 ++ reviews/me2-trm-reasoning-20260624.md | 41 ++ ...zer-topological-trouble-review-20260618.md | 62 +++ reviews/nano-filter-20260622.md | 40 ++ reviews/personalization-trap-20260624.md | 44 ++ reviews/rwkv7-review-20260618.md | 65 +++ reviews/unlimited-ocr-works-20260624.md | 45 ++ reviews/vla-jepa-20260624.md | 42 ++ reviews/wan-streamer-2026-06-25.md | 50 ++ 375 files changed, 19263 insertions(+), 251 deletions(-) create mode 100644 articles/atlas-agent-memory-architecture-2026.md create mode 100644 articles/financial-llm-practice-2026.md create mode 100644 articles/llm-spiral-of-silence-2026.md create mode 100644 articles/memtensor-memos-agent-memory-2026.md create mode 100644 articles/michael-jordan-mlst-collectivist-ai-2026.md create mode 100644 articles/nobrega-ai-production-tradeoffs-2026.md create mode 100644 concepts/ace-router.md create mode 100644 concepts/active-tool-discovery.md create mode 100644 concepts/active-tool-request.md create mode 100644 concepts/adkv.md create mode 100644 concepts/agent-memory-five-category-model.md create mode 100644 concepts/agent-memory-lifecycle.md create mode 100644 concepts/agent-memory-system.md create mode 100644 concepts/agent-memory-taxonomy.md create mode 100644 concepts/agent-skill-atomization.md create mode 100644 concepts/agent-skill-ecosystem.md create mode 100644 concepts/agent-skill.md create mode 100644 concepts/agent-web.md create mode 100644 concepts/agentic-cache-manager.md create mode 100644 concepts/agentic-rag.md create mode 100644 concepts/agentic-streaming-inference.md create mode 100644 concepts/agi-critique.md create mode 100644 concepts/ai-production-tradeoffs.md create mode 100644 concepts/aidb.md create mode 100644 concepts/anthropomorphization-critique.md create mode 100644 concepts/appearance-bias-vla.md create mode 100644 concepts/asymmetric-grounding-adherence-loss.md create mode 100644 concepts/atlas-memory-system.md create mode 100644 concepts/attention-mechanism.md create mode 100644 concepts/attractor-dynamics.md create mode 100644 concepts/audio-visual-generation.md create mode 100644 concepts/audio-visual-representation-alignment.md create mode 100644 concepts/autonomous-optimization-ao.md create mode 100644 concepts/autoregressive-unrolling.md create mode 100644 concepts/autoregressive-video-generation.md create mode 100644 concepts/barker-gibbs.md create mode 100644 concepts/batch-vs-real-time-inference.md create mode 100644 concepts/bayesian-filtering.md create mode 100644 concepts/belief-state.md create mode 100644 concepts/block-causal-attention.md create mode 100644 concepts/bm25-financial-retrieval.md create mode 100644 concepts/build-vs-buy-llm.md create mode 100644 concepts/cace-principle.md create mode 100644 concepts/candidate-graph.md create mode 100644 concepts/causal-generation.md create mode 100644 concepts/causal-multimodal-vae.md create mode 100644 concepts/center-manifold-theorem.md create mode 100644 concepts/clawforce.md create mode 100644 concepts/coarse-grained-recurrence.md create mode 100644 concepts/collectivist-ai.md create mode 100644 concepts/conditional-memory.md create mode 100644 concepts/constant-kv-cache.md create mode 100644 concepts/content-based-reasoning.md create mode 100644 concepts/content-diversity-decay.md create mode 100644 concepts/content-homogenization.md create mode 100644 concepts/context-anchoring.md create mode 100644 concepts/context-enriched-embeddings.md create mode 100644 concepts/convex-hull-relaxation.md create mode 100644 concepts/coordinator-executor-architecture.md create mode 100644 concepts/cross-head-budget-allocation.md create mode 100644 concepts/dag-reasoning-evaluation.md create mode 100644 concepts/data-markets.md create mode 100644 concepts/data-quality-vs-quantity.md create mode 100644 concepts/data-swamp.md create mode 100644 concepts/dcgwm.md create mode 100644 concepts/deepencoder.md create mode 100644 concepts/deepseek-ocr.md create mode 100644 concepts/default-tools.md create mode 100644 concepts/delta-rule.md create mode 100644 concepts/depth-dilemma.md create mode 100644 concepts/depth-recurrence.md create mode 100644 concepts/diffusion-transformer.md create mode 100644 concepts/domain-aware-preference-optimization.md create mode 100644 concepts/dpo-bias-mitigation.md create mode 100644 concepts/drifting.md create mode 100644 concepts/dual-collapse.md create mode 100644 concepts/dynamic-react.md create mode 100644 concepts/dynamic-state-evolution.md create mode 100644 concepts/dynamic-token-limit.md create mode 100644 concepts/e-values.md create mode 100644 concepts/edge-of-stability.md create mode 100644 concepts/ellipsis-prompt.md create mode 100644 concepts/emotional-reasoning-bias.md create mode 100644 concepts/empirical-fisher.md create mode 100644 concepts/end-to-end-ocr.md create mode 100644 concepts/end-to-end-streaming-interaction.md create mode 100644 concepts/engram.md create mode 100644 concepts/enhanced-state-space-models.md create mode 100644 concepts/extended-kalman-filter.md create mode 100644 concepts/fact-augmented-key-expansion.md create mode 100644 concepts/feedforward-depth-limitation.md create mode 100644 concepts/financial-agent-permission.md create mode 100644 concepts/financial-llm-deployment.md create mode 100644 concepts/financial-llm-model-selection.md create mode 100644 concepts/financial-llm-requirements.md create mode 100644 concepts/first-lyapunov-coefficient.md create mode 100644 concepts/fisher-lipschitz.md create mode 100644 concepts/fisher-width.md create mode 100644 concepts/flip-bifurcation.md create mode 100644 concepts/forward-repair-ladder.md create mode 100644 concepts/foundation-model-frontier-bias.md create mode 100644 concepts/full-duplex-interaction.md create mode 100644 concepts/gambling-gibbs.md create mode 100644 concepts/gaussian-filtering.md create mode 100644 concepts/gaussian-manifold.md create mode 100644 concepts/gaussian-width.md create mode 100644 concepts/gbrain-memory.md create mode 100644 concepts/generalized-delta-rule.md create mode 100644 concepts/generative-reconstruction-latent.md create mode 100644 concepts/geometric-compression-latent.md create mode 100644 concepts/gibbs-posterior.md create mode 100644 concepts/global-combinatorial-optimization.md create mode 100644 concepts/hardware-aware-algorithm.md create mode 100644 concepts/head-level-budget-allocation.md create mode 100644 concepts/head-structure-ssm.md create mode 100644 concepts/heuristic-metric.md create mode 100644 concepts/hierarchical-semantic-routing.md create mode 100644 concepts/hippo.md create mode 100644 concepts/history-aware-routing.md create mode 100644 concepts/human-in-the-loop.md create mode 100644 concepts/hybrid-reasoning-models.md create mode 100644 concepts/hybrid-recall-pipeline.md create mode 100644 concepts/hypothesis-tree-refinement.md create mode 100644 concepts/in-context-learning-rate.md create mode 100644 concepts/induction-heads.md create mode 100644 concepts/information-cocoons.md create mode 100644 concepts/information-leakage-vla.md create mode 100644 concepts/information-performance-binding.md create mode 100644 concepts/insight-backpropagation.md create mode 100644 concepts/intersectional-persona-evaluation.md create mode 100644 concepts/intra-head-eviction.md create mode 100644 concepts/inward-only-gradient-flow.md create mode 100644 concepts/isolation-necessity-theorem.md create mode 100644 concepts/isotonic-regression.md create mode 100644 concepts/iterative-capability-extension.md create mode 100644 concepts/jepa-for-robotics.md create mode 100644 concepts/kalman-filter.md create mode 100644 concepts/keydiff.md create mode 100644 concepts/kv-cache-eviction.md create mode 100644 concepts/kv-cache.md create mode 100644 concepts/large-reasoning-models.md create mode 100644 concepts/latent-action-pretraining.md create mode 100644 concepts/latent-thought-models.md create mode 100644 concepts/latent-world-model.md create mode 100644 concepts/layered-memory-architecture.md create mode 100644 concepts/leakage-free-state-prediction.md create mode 100644 concepts/lifting-identity.md create mode 100644 concepts/light-routing-agent.md create mode 100644 concepts/linear-attention.md create mode 100644 concepts/llm-consistent-reasoning.md create mode 100644 concepts/llm-mcmc.md create mode 100644 concepts/long-horizon-parsing.md create mode 100644 concepts/long-horizon-utility.md create mode 100644 concepts/long-range-dependency.md create mode 100644 concepts/long-term-interactive-memory.md create mode 100644 concepts/longmem-eval.md create mode 100644 concepts/look-ahead-buffer-controller.md create mode 100644 concepts/lukv.md create mode 100644 concepts/mamba-2.md create mode 100644 concepts/manifold-of-minimizers.md create mode 100644 concepts/marginal-utility.md create mode 100644 concepts/mcp-protocol.md create mode 100644 concepts/mcp-tools-dataset.md create mode 100644 concepts/me2-principle.md create mode 100644 concepts/megatron-lm.md create mode 100644 concepts/mem2skill.md create mode 100644 concepts/memcube.md create mode 100644 concepts/memory-compute-decoupling.md create mode 100644 concepts/memory-consolidation.md create mode 100644 concepts/memory-dedup-pipeline.md create mode 100644 concepts/memory-governance.md create mode 100644 concepts/memory-indexing-retrieval-reading.md create mode 100644 concepts/meta-tools.md create mode 100644 concepts/ml-technical-debt.md create mode 100644 concepts/model-driven-vs-app-driven-memory.md create mode 100644 concepts/moment-matching-filter.md create mode 100644 concepts/multi-agent-spiral.md create mode 100644 concepts/native-streaming-ar-training.md create mode 100644 concepts/natural-gradient-descent.md create mode 100644 concepts/ngram-embedding.md create mode 100644 concepts/non-thinking-mode.md create mode 100644 concepts/normal-tangent-decomposition.md create mode 100644 concepts/objective-interference-collapse.md create mode 100644 concepts/offline-profiling.md create mode 100644 concepts/omnidocbench.md create mode 100644 concepts/opinion-polarization.md create mode 100644 concepts/optimality-gap.md create mode 100644 concepts/oracle-importance.md create mode 100644 concepts/order-bias-removal.md create mode 100644 concepts/overthinking.md create mode 100644 concepts/pageindex.md create mode 100644 concepts/parallel-scan.md create mode 100644 concepts/passive-vs-active-knowledge.md create mode 100644 concepts/per-index-time-decay.md create mode 100644 concepts/persona-invariant-reasoning.md create mode 100644 concepts/personalization-trap.md create mode 100644 concepts/posterior-linearization-filter.md create mode 100644 concepts/prediction-driven-inference.md create mode 100644 concepts/pretraining-statistical-bias.md create mode 100644 concepts/probability-matching.md create mode 100644 concepts/procedural-gap.md create mode 100644 concepts/product-stability.md create mode 100644 concepts/prompt-engineering-vs-fine-tuning.md create mode 100644 concepts/prospective-memory-index.md create mode 100644 concepts/pseudo-huber-loss.md create mode 100644 concepts/pyramidkv.md create mode 100644 concepts/rademacher-complexity.md create mode 100644 concepts/rag-closed-loop.md create mode 100644 concepts/reasoning-quality-optimization.md create mode 100644 concepts/recurrence-taxonomy.md create mode 100644 concepts/recurrent-transformer-architectures.md create mode 100644 concepts/reference-sliding-window-attention.md create mode 100644 concepts/regular-language-recognition.md create mode 100644 concepts/reinforced-online-policy-distillation.md create mode 100644 concepts/representational-alignment.md create mode 100644 concepts/research-hypothesis-tree.md create mode 100644 concepts/reward-hacking.md create mode 100644 concepts/rlhf-alignment-amplification.md create mode 100644 concepts/role-setting-entrenchment.md create mode 100644 concepts/rollout-drift.md create mode 100644 concepts/runtime-governance.md create mode 100644 concepts/rwkv.md create mode 100644 concepts/search-and-load.md create mode 100644 concepts/selective-copy.md create mode 100644 concepts/selective-hitl.md create mode 100644 concepts/selective-state-space-models.md create mode 100644 concepts/selective-state-space.md create mode 100644 concepts/self-evolutionary-mutation.md create mode 100644 concepts/self-resampling.md create mode 100644 concepts/semiseparable-matrices.md create mode 100644 concepts/sequential-dependency.md create mode 100644 concepts/sglang.md create mode 100644 concepts/sharpness.md create mode 100644 concepts/situational-test-emotional-understanding.md create mode 100644 concepts/skill-acquisition.md create mode 100644 concepts/skill-composition.md create mode 100644 concepts/skill-evolution.md create mode 100644 concepts/skill-lifecycle.md create mode 100644 concepts/skill-representation.md create mode 100644 concepts/skill-retrieval.md create mode 100644 concepts/skill-selection.md create mode 100644 concepts/snapkv.md create mode 100644 concepts/social-capital-framework.md create mode 100644 concepts/social-video.md create mode 100644 concepts/social-world-model.md create mode 100644 concepts/socialvideo-bench.md create mode 100644 concepts/soft-supersession.md create mode 100644 concepts/space-supervision.md create mode 100644 concepts/sparsity-allocation.md create mode 100644 concepts/spiral-of-silence.md create mode 100644 concepts/ssd-algorithm.md create mode 100644 concepts/state-space-models.md create mode 100644 concepts/state-tracking.md create mode 100644 concepts/statistical-contract-theory.md create mode 100644 concepts/statistical-manifold.md create mode 100644 concepts/stein-lemma.md create mode 100644 concepts/step-recurrence.md create mode 100644 concepts/streaming-generation.md create mode 100644 concepts/streaming-inference.md create mode 100644 concepts/structured-masked-attention.md create mode 100644 concepts/structured-state-space-duality.md create mode 100644 concepts/structured-state-space-models.md create mode 100644 concepts/temperature-sampling.md create mode 100644 concepts/tensor-contraction-duality.md create mode 100644 concepts/thinker-performer-pipeline.md create mode 100644 concepts/thinking-based-non-thinking.md create mode 100644 concepts/thinking-mode.md create mode 100644 concepts/thinking-reward-model.md create mode 100644 concepts/time-aware-query-expansion.md create mode 100644 concepts/token-level-policy-gradient.md create mode 100644 concepts/token-shift.md create mode 100644 concepts/trajectory-supervision.md create mode 100644 concepts/trajectory-synthesis.md create mode 100644 concepts/trm-preference-dataset.md create mode 100644 concepts/uncertainty-taxonomy.md create mode 100644 concepts/unified-latent-probe.md create mode 100644 concepts/unlimited-ocr.md create mode 100644 concepts/unscented-kalman-filter.md create mode 100644 concepts/user-memory-bias.md create mode 100644 concepts/vector-valued-gating.md create mode 100644 concepts/verbatim-pre-recall.md create mode 100644 concepts/vla-jepa.md create mode 100644 concepts/wkv-time-mixing.md create mode 100644 papers/arbor-htr-2026.md create mode 100644 papers/dao-transformers-are-ssms-2024.md create mode 100644 papers/engram-conditional-memory-2026.md create mode 100644 papers/fei-mcp-zero-2025.md create mode 100644 papers/gan-bifurcation-eos.md create mode 100644 papers/gan-thinking-based-non-thinking-2026.md create mode 100644 papers/gaurav-dynamic-react-2025.md create mode 100644 papers/gu-mamba.md create mode 100644 papers/hazare-dcgwm-2026.md create mode 100644 papers/jordan-collectivist-ai-2025.md create mode 100644 papers/large-language-gibbs.md create mode 100644 papers/latent-cot-supervision.md create mode 100644 papers/longmem-eval-2025.md create mode 100644 papers/maineCoon.md create mode 100644 papers/me2-trm-reasoning-2026.md create mode 100644 papers/mozer-topological-trouble-transformers-2026.md create mode 100644 papers/nano-filter.md create mode 100644 papers/peng-rwkv7.md create mode 100644 papers/personalization-trap-2025.md create mode 100644 papers/tang-lukv.md create mode 100644 papers/unlimited-ocr-works-2026.md create mode 100644 papers/vla-jepa-2026.md create mode 100644 papers/vu-fisher-width-2026.md create mode 100644 papers/wan-streamer.md create mode 100644 papers/yao-ace-router-2026.md create mode 100644 papers/zhou-agent-skills-survey-2026.md create mode 100644 raw/articles/atlas-agent-memory-architecture-2026.md create mode 100644 raw/articles/financial-llm-practice-2026.md create mode 100644 raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md create mode 100644 raw/articles/memtensor-memos-agent-memory-2026.md create mode 100644 raw/articles/michael-jordan-mlst-collectivist-ai-2026.md create mode 100644 raw/articles/nobrega-ai-production-tradeoffs-2026.md create mode 100644 raw/papers/arbor-htr-2026.md create mode 100644 raw/papers/cao-nano-filter-2024.md create mode 100644 raw/papers/dao-transformers-are-ssms-2024.md create mode 100644 raw/papers/engram-conditional-memory-2026.md create mode 100644 raw/papers/fei-mcp-zero-2025.md create mode 100644 raw/papers/gan-bifurcation-eos-2026.md create mode 100644 raw/papers/gan-thinking-based-non-thinking-2026.md create mode 100644 raw/papers/gaurav-dynamic-react-2025.md create mode 100644 raw/papers/gu-mamba-2024.md create mode 100644 raw/papers/hazare-dcgwm-2026.md create mode 100644 raw/papers/jordan-collectivist-ai-2025.md create mode 100644 raw/papers/large-language-gibbs-2026.md create mode 100644 raw/papers/latent-cot-supervision-2026.md create mode 100644 raw/papers/longmem-eval-2025.md create mode 100644 raw/papers/maineCoon-social-world-model-2026.md create mode 100644 raw/papers/me2-trm-reasoning-2026.md create mode 100644 raw/papers/mozer-topological-trouble-transformers-2026.md create mode 100644 raw/papers/peng-rwkv7-goose-2025.md create mode 100644 raw/papers/personalization-trap-2025.md create mode 100644 raw/papers/tang-lukv-2026.md create mode 100644 raw/papers/unlimited-ocr-works-2026.md create mode 100644 raw/papers/vla-jepa-2026.md create mode 100644 raw/papers/vu-fisher-width-2026.md create mode 100644 raw/papers/wan-streamer-2026.md create mode 100644 raw/papers/yao-ace-router-2026.md create mode 100644 raw/papers/zhou-agent-skills-survey-2026.md create mode 100644 reviews/ace-router-review-20260619.md create mode 100644 reviews/agent-skills-survey-review-20260619.md create mode 100644 reviews/arbor-htr-20260624.md create mode 100644 reviews/dao-transformers-are-ssms-review-20260618.md create mode 100644 reviews/dcgwm-2026-06-23.md create mode 100644 reviews/dynamic-react-review-20260619.md create mode 100644 reviews/engram-conditional-memory-20260625.md create mode 100644 reviews/fisher-width-2026-06-23.md create mode 100644 reviews/gan-bifurcation-eos-20260623.md create mode 100644 reviews/gan-tnt-review-20260618.md create mode 100644 reviews/jordan-collectivist-ai-review-20260621.md create mode 100644 reviews/large-language-gibbs-2026-06-25.md create mode 100644 reviews/latent-cot-supervision-2026-06-25.md create mode 100644 reviews/longmem-eval-20250625.md create mode 100644 reviews/lukv-review-20260618.md create mode 100644 reviews/mainecoon-review-20260620.md create mode 100644 reviews/mamba-review-20260618.md create mode 100644 reviews/mcp-zero-review-20260619.md create mode 100644 reviews/me2-trm-reasoning-20260624.md create mode 100644 reviews/mozer-topological-trouble-review-20260618.md create mode 100644 reviews/nano-filter-20260622.md create mode 100644 reviews/personalization-trap-20260624.md create mode 100644 reviews/rwkv7-review-20260618.md create mode 100644 reviews/unlimited-ocr-works-20260624.md create mode 100644 reviews/vla-jepa-20260624.md create mode 100644 reviews/wan-streamer-2026-06-25.md diff --git a/articles/atlas-agent-memory-architecture-2026.md b/articles/atlas-agent-memory-architecture-2026.md new file mode 100644 index 0000000..b7d1436 --- /dev/null +++ b/articles/atlas-agent-memory-architecture-2026.md @@ -0,0 +1,89 @@ +--- +title: "Atlas Agent 记忆系统架构(2026)" +created: 2026-06-24 +updated: 2026-06-24 +type: article +tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation"] +sources: + - "https://mp.weixin.qq.com/s/fypjVWJBQg_MZV9OMfPpIA" +--- + +# Atlas Agent 记忆系统架构 + +> 基于 noamschwartz/atlas-memory-demo 的深度工程实践解析。核心主张:Agent 记忆不是 KV 存储问题,是多索引信息检索问题。 + +## 问题 + +`chat_history.append()` 把三种不同生命周期的信息塞进同一个数组——稳定事实、操作流程、时序事件——这是 Agent 永远在"忘记"的根因。真正的挑战是在查询瞬间穿过噪音找到对的那几条。 + +## 核心架构:[[atlas-memory-system|三索引 + 公共]] + +[[agent-memory-taxonomy|四种记忆类型]],各自独立的索引、字段和衰减策略: + +| 索引 | 存储内容 | 衰减源 | 写入频率 | 更新策略 | +|------|---------|--------|---------|---------| +| episodic | 原始消息+时间戳 | timestamp | 每回合 | 只写不改 | +| semantic | 提炼后稳定事实 | last_used_at | consolidation | supersession 链 | +| procedural | 多步操作流程 | 豁免 (1.0) | consolidation | 计数器更新 | +| catalog | 公共共享知识 | timestamp | 手动 | 脚本覆盖 | + +## 检索管线:[[hybrid-recall-pipeline|混合召回]] + +``` +用户消息 → Verbatim Pre-Recall(不经 LLM 改写) + → BM25 词法 + Dense 语义 双通路并行 + → RRF 融合 (rank_constant=30) + → Cross-encoder 重排序 (top-80 → top-K) + → 返回(reranker 失败时降级 RRF 顺序) +``` + +### 关键参数 +- **RECALL_OVER_FETCH_K=80** — consolidation 产生近重复 doc,候选池不足会挤掉 gold doc +- **rank_constant=30** — 比默认 60 小,排名靠前的结果保持更强信号权重 +- **DECAY_SCALE=1825d** — 演示默认,客服应收紧至 60-180d + +### Ablation 数据 (168 QA, 3 persona, ~250 docs/user) + +| 配置 | R@10 | +|------|------| +| Full | **0.89** | +| Dense-only | 0.845 | +| BM25-only | 0.708 | +| No-Reranker | -0.238 | + +dense 是主力,但 BM25 单腿 0.708 说明词法腿不可省略。reranker 最大单点贡献,但只在候选池足够宽时有用。 + +## [[verbatim-pre-recall|Verbatim Pre-Recall]] + +在 `messages.append(user_msg)` 和 LLM 调用之间,用用户原话(不经改写)跑一次 recall。LLM 会把 "postgres v15.3 + pgvector 0.5.1" 泛化成 "PostgreSQL 数据库"——精确 token 丢失,BM25 词法匹配报废。Verbatim 绕过改写层,把最原始的 token 直接给 BM25。 + +Ablation 证实:额外 query expansion(LLM paraphrase)反而降低性能——BM25 已捕获精确 token,dense 已捕获语义改写。 + +## [[memory-consolidation|Consolidation(写后提炼)]] + +每回合结束后从最近 30 条 episodic 事件中提取稳定事实和操作流程。一次 LLM 调用同时输出三类结果:new_facts、new_procedures、procedural_updates。Production 建议改为后台日批模式——积累一天后在夜间统一跑,成本减半。 + +## [[soft-supersession|Soft-Supersession]] + +非破坏性矛盾处理:用户说"搬家了"→ 创建新 doc + 标记旧 doc (superseded_by) + 召回时过滤旧版。链式追溯支持任意长度,旧记录永不删除(审计需要)。 + +## [[gbrain-memory|与 GBrain 的对比]] + +| 维度 | Atlas (ES) | GBrain (Markdown+Git) | +|------|-----------|----------------------| +| 存储 | ES 搜索引擎 | Markdown 文件 + Git | +| 多租户 | ES DLS(集群层) | 应用层 auth | +| 矛盾处理 | Soft-Supersession 链 | Git 版本历史 | +| 衰减 | [[per-index-time-decay|Per-index gauss]] | 无显式衰减 | +| 透明度 | 仅 API | 直接打开文件 | + +个人助理 → GBrain(人可读信任优先);多租户产品 → Atlas(ES 原生隔离)。 + +## 三个通用设计原则 + +1. **衰减曲线是领域性决策** — 先定义信息有效周期,再定衰减参数 +2. **BM25 + vector 互补,不可二选一** — BM25 抓精确术语,dense 抓语义意图 +3. **记忆需要后台提炼 + 矛盾处理** — 瓶颈从来不在数据库引擎,在分型逻辑和召回架构 + +## 来源 +[原始存档](raw/articles/atlas-agent-memory-architecture-2026.md) diff --git a/articles/financial-llm-practice-2026.md b/articles/financial-llm-practice-2026.md new file mode 100644 index 0000000..31c6b85 --- /dev/null +++ b/articles/financial-llm-practice-2026.md @@ -0,0 +1,62 @@ +--- +title: "金融行业大模型落地实践(林金曙,2026)" +created: 2026-06-24 +updated: 2026-06-24 +type: article +tags: ["financial-llm", "agent-engineering", "rag", "pageindex", "context-engineering", "mcp"] +sources: + - "https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg" +--- + +# 金融行业大模型落地实践 + +> 恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享,系统梳理金融行业大模型工程实践。 + +## 背景 + +金融行业的大模型落地面临三重硬约束——合规(可溯源+人工确认)、安全(私有化部署+数据不出域)、严谨(数据质量>模型能力)。团队的核心判断:不要用通用模型覆盖一切,而应基于大模型重构金融 IT 架构——业务能力原子化(Skills)、金融大模型插件化、面向大模型友好的数据层([[aidb]])。 + +## 核心方案 + +### 长文档检索:[[pageindex]] + [[agentic-rag]] + +金融文档(如蜜雪冰城 1300 页招股书)让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射,检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题,动态调用多种检索工具,自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。 + +反常识决策:团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配(代码、专有名词、数字),[[bm25-financial-retrieval|BM25]] 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。 + +### 审核工程:[[financial-llm-requirements|好需求定义]] + [[financial-llm-model-selection|模型选型]] + +"差需求":丢给模型几百页底稿说"审一下"。"好需求"需告知三件事: +1. **在哪里看** — 限定章节范围而非全文 +2. **看什么** — 用业务语言(如"注册资本")而非系统拼音缩写 +3. **怎么判** — 将 SOP 写成可执行判断条件 + +选型教训:Qwen3-32B 需 530 条规则、4300 行代码,三人离职;换 Qwen3-235B(4×H800,约 60 万一次性投入)后规则砍半,准确率 +45pp。结论:小模型省下的算力钱远不够覆盖人力成本。 + +### [[context-engineering|上下文工程]] + +Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入,章节目录与表头信息动态使用。最难的不是模型推理,而是让模型在恰当时机看到恰当信息。 + +模型能力边界:擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标;不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。 + +## Agent 工程 + +金融 Agent 需操作业务系统:读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板:[[financial-agent-permission|权限边界模糊]]、审计不足、插件无管控、幻觉无兜底。 + +三件事须同时成立: +- 模型侧:任务拆解/规划/反思 + 长上下文 + Function Call 稳定性 +- 工具侧:[[agent-skill-atomization|业务能力 Skill 原子化]] + [[mcp-protocol|MCP 协议]]接入 +- 资源侧:[[aidb|AIDB]] 文档结构化、知识分片、接口描述业务化 + +每个 Skill 需明确物料、数据来源、权限级别(只读/只调代码/写需人工确认)。接口描述改造示例:"基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。 + +## 核心洞见 + +1. **不卷织布速,卷机器驾驭力** — 竞争力在于能指挥多少个 AI Agent +2. **交付乐高式 Skills** — 拼好的乐高小车而非零碎积木 +3. **工程师转身审核员** — 价值转向定义标准、审核结果、设计约束 +4. **弃大脑之争,筑神经之基** — 不训练大模型,专注数据底座、接口标准、知识体系 + +## 来源 + +[原始存档](raw/articles/financial-llm-practice-2026.md) diff --git a/articles/llm-spiral-of-silence-2026.md b/articles/llm-spiral-of-silence-2026.md new file mode 100644 index 0000000..5968ad2 --- /dev/null +++ b/articles/llm-spiral-of-silence-2026.md @@ -0,0 +1,84 @@ +--- +title: "LLM 沉默螺旋:算法催生的数字从众" +created: 2025-04-15 +updated: 2026-06-21 +type: article +tags: + - spiral-of-silence + - llm + - rag + - multi-agent + - content-ecology +sources: + - data派THU + - https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw +--- + +# LLM 沉默螺旋:算法催生的数字从众 + +> 来源:[原始存档](raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md) | 数据派THU | 作者:李媛媛 | 2026 + +## 核心问题 + +大语言模型在 RAG 检索迭代、多智能体交互等闭环场景中,**无需人类心理动机,仅靠纯统计语言生成机制,就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应**。这是所有主流大模型的通用系统性问题。 + +## 理论迁移:从人类到 AI + +经典 [[spiral-of-silence|沉默的螺旋]](Noelle-Neumann, 1974)依赖三个心理机制:孤立恐惧、准统计感官、螺旋式循环。但 LLM 版本属于**算法驱动的沉默螺旋**——无需心理,纯技术机制即可触发。 + +## 两大实证场景 + +### 1. RAG 闭环:AI 正在"杀死"人类原创内容 + +[[rag-closed-loop|RAG 闭环迭代]]模式下,AI 生成→搜索引擎索引→检索复用→再次生成的循环导致: +- 仅 5 轮迭代后,人类原创内容占比从 50% 暴跌至 15% 以下 +- 搜索引擎算法天然偏好 AI 生成文本 +- 形成"AI 自我复制、人类原创失语、小众真相沉没"的单向信息固化 + +相关概念:[[rag|RAG]]、[[content-homogenization|内容同质化]] + +### 2. 多智能体交互:AI 对话如何自发极化 + +[[multi-agent-spiral|多智能体螺旋]]实验(arXiv 2025)覆盖 GPT-4o-mini、Llama3.1、Mistral、Qwen2.5、DeepSeek-V2: +- 历史上下文 + 角色设定叠加时,主流观点占比突破 80% +- 小模型效应远强于大模型;中文模型强于英文模型 +- 仅靠对话历史就能持续重复主流观点 + +相关概念:[[multi-agent-orchestration|多智能体编排]]、[[opinion-polarization|观点极化]] + +## 四大技术根源 + +1. **[[pretraining-statistical-bias|预训练统计偏好]]**(底层基础):主流观点在训练数据中占绝对优势,模型天然倾向于高概率内容 +2. **[[context-anchoring|历史上下文锚定]]**(核心驱动):自回归生成机制让模型持续贴合对话历史,形成正向闭环 +3. **[[role-setting-entrenchment|角色设定固化]]**(催化加速):固定立场放大观点对立,压制小众输出 +4. **[[rlhf-alignment-amplification|RLHF 对齐放大]]**(固化诱因):安全去偏压低了 token 预测熵值,压缩创作空间 + +与 [[rlhf|RLHF]] 的标准理解不同,此处强调的是**对齐训练作为沉默螺旋放大器的意外副作用**。 + +## 四大危害 + +- [[information-cocoons|信息茧房]] + 观点垄断:人类原创、批判性思考持续消失 +- 错误信息闭环扩散:AI 偏差内容强化传播,小众真相被边缘化 +- 社会偏见固化放大:性别、地域偏见通过螺旋效应持续放大 +- 知识创新被抑制:前沿小众观点、颠覆性创新思路被系统压制 + +## 治理方案 + +- **技术层**:优化采样策略(高 [[temperature-sampling|温度采样]])、历史去锚定、RAG 检索排序均衡、分层去偏训练 +- **机制层**:建立 [[content-diversity-decay|内容多样性衰减]]监测系统、内容来源透明标注 +- **研究层**:统一量化评估标准与测试数据集、长周期模拟实验 + +## 研究空白 + +- 无统一的沉默螺旋强度量化指标 +- 缺乏互联网级长周期信息迭代演化研究 +- 多模态 AI 沉默螺旋机制完全空白 +- 轻量化治理技术尚未成熟 + +## 参考文献 + +[1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval? +[2] arXiv 2025. Spiral of Silence in Large Language Model Agents +[3] Noelle-Neumann E. The Spiral of Silence, 1984. +[4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models +[5] KBS 2026. Quantifying and mitigating the spiral of silence in recommender systems diff --git a/articles/memtensor-memos-agent-memory-2026.md b/articles/memtensor-memos-agent-memory-2026.md new file mode 100644 index 0000000..e9a25c9 --- /dev/null +++ b/articles/memtensor-memos-agent-memory-2026.md @@ -0,0 +1,81 @@ +--- +title: "MemOS:Agent 记忆基础设施" +created: 2026-06-19 +updated: 2026-06-19 +type: article +tags: [agent-memory, memos, memtensor, memory-system, openclaw, clawforce] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# MemOS:Agent 记忆基础设施 + +> 熊飞宇(记忆张量 CEO)技术分享 | DataFun | 2026 + +## 核心断言 + +> **记忆不再是锦上添花,而是 Agent 能否持续进化的核心要素。** + +ChatGPT 个人记忆 + OpenClaw 连续型 Agent 推动行业共识转变:记忆从"降低 token 消耗"演进为"Agent 能否活下来"的生死问题。 + +## 两条路线的融合 + +| | 模型驱动 | 应用驱动 | +|---|---|---| +| 方式 | 基础模型架构创新 | Prompt/Agent 流模拟 | +| 代表 | Memorizing Transformers | Mem0, Zep | +| 优势 | 上限高 | 落地快 | +| 劣势 | 成本极高 | 与基模耦合弱 | + +MemTensor 的策略:**模型驱动决定上限,应用驱动决定下限,从系统层面融合。** + +## MemOS 五层架构 + +``` +应用层 + 编解码层 + ↑ +记忆调度层 ← 核心:三层记忆协同 + ↑ +记忆治理层(权限/生命周期/水印/隐私) + ↑ +记忆存储层(MemCube + MemStore) +``` + +### [[layered-memory-architecture|三层记忆协同]] + +| 层级 | 内容 | 载体 | 角色 | +|------|------|------|------| +| **明文记忆** | Prompt/Agent 流 | 自然语言 | 事实、对话上下文 | +| **激活记忆** | KV Cache 管理 | GPU 缓存 | 降低成本、提升命中率 | +| **参数记忆** | 行业 know-how | 后训练权重 | 增强领域认知 | + +## 核心创新 + +### [[memory-dedup-pipeline|三级去重漏斗]] +SHA-256 精确去重 → 向量余弦相似度 → LLM Judge 矛盾检测与智能合并 +→ 平均压缩比 **75%+** + +### [[mem2skill|Mem2Skill]] +从对话碎片中提取 → 结构化 → 参数化技能。核心:**记忆不止于被搜到,而是内化为能力。** 如 K8s OOM 排查从 2 小时 → 10 分钟。 + +## 关键数据 + +- GitHub **8.5K Star**,社区 1.2 万+ 活跃用户 +- 云服务单月调用 **2500 万+** 次,月涨幅 100-200% +- 单次请求节省 **45-72%** token +- 接入后:LLM Judge 评分↑、上下文成本 **-30%**、交互轮次 **-50%**、token 消耗 **-50%** + +## [[clawforce|ClawForce 企业方案]] + +五层设计 + 三重安全(事前隔离→事中脱敏→事后审计),解决企业 AI Agent 从"能用"到"敢用"的五个痛点。已在研发、电商、公文写作、销售等场景落地。 + +## 概念网络 + +- [[agent-memory-system|Agent 记忆系统]] — 为何记忆是 Agent 的生死关键 +- [[layered-memory-architecture|三层记忆架构]] — 明文/激活/参数分层协同 +- [[model-driven-vs-app-driven-memory|两路线融合]] — 模型驱动 + 应用驱动 +- [[memory-governance|记忆治理]] — 全生命周期管理 +- [[agent-memory-lifecycle|记忆生命周期]] — 抽取→组织→检索→更新→共享 +- [[memcube|MemCube]] — 最小可打包记忆单元 + +来源:[原始存档](raw/articles/memtensor-memos-agent-memory-2026.md) diff --git a/articles/michael-jordan-mlst-collectivist-ai-2026.md b/articles/michael-jordan-mlst-collectivist-ai-2026.md new file mode 100644 index 0000000..6c3b587 --- /dev/null +++ b/articles/michael-jordan-mlst-collectivist-ai-2026.md @@ -0,0 +1,68 @@ +--- +title: "Michael I. Jordan:AI 的集体主义经济学与虚假的 AGI 二元论" +created: 2026-06-21 +updated: 2026-06-21 +type: article +tags: + - michael-jordan + - ai-economics + - collectivist-ai + - uncertainty + - agi-critique +sources: + - 机器之心 + - MLST + - https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ +--- + +# Michael I. Jordan:AI 的集体主义经济学与虚假的 AGI 二元论 + +> 来源:[原始存档](raw/articles/michael-jordan-mlst-collectivist-ai-2026.md) | 机器之心编译 | MLST 访谈 | 2026 + +## 人物 + +**Michael I. Jordan**——统计机器学习奠基人,UC Berkeley EECS+统计系杰出教授。门下走出 Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等一整代 ML 核心建设者。2016 年《科学》杂志「全球最具影响力计算机科学家」。 + +## 五大核心论点 + +### 1. AGI 是公关词 + +「AGI 是个公关词,是一种扭曲,尤其让年轻人困惑。」真正的 ML 传统(供应链、金融、物流预测)一直比"AI"影响更大,但因输出不是人类可读语言而被忽视。LLM 只是换了个输出格式,背后的 ML 传统一直都在。参见 [[anthropomorphization-critique|人类化机器批判]]。 + +### 2. AI 需要经济学:集体主义框架 + +[[collectivist-ai|集体主义 AI 框架]]:当前 AI 的根本缺陷是将智能窄化为个体认知。人类是社会动物,智识来自聚合——聚合观点形成文化。完整框架需要 **CS(算法/抽象)+ 统计学(推断/不确定性)+ 经济学(激励机制/博弈均衡)** 三个支柱。 + +「只有计算加优化,你就只能得到语言模型。」 + +### 3. 基础模型在知识边界最危险 + +[[foundation-model-frontier-bias|基础模型前沿偏倚]]:科学家问的是知识边界上的新问题——恰恰是训练数据最稀少的地方。AlphaFold 案例:量子涨落预测的置信区间极窄但完全偏离真实值。模型答错却不说。解法:[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注 + 大量模型预测。 + +### 4. 不确定性的三分法 + +[[uncertainty-taxonomy|Jordan 不确定性分类法]],超越经典 [[epistemic-uncertainty|认知不确定性]]/[[aleatoric-uncertainty|偶然不确定性]] 二分: + +| 类型 | 本质 | 示例 | +|------|------|------| +| 采样不确定性 | 数据是否足够 | 但需在种群语境中按纳什均衡处理 | +| 信息不对称 | 结构性不透明,永不消失 | 专家知道但不会全告诉你 | +| 数据时效性 | 时间维度的元数据 | 十年前的医疗数据应自动打折 | + +LLM 对自身不确定性一无所知——它只是模仿了互联网上人类表达确定性的语气。 + +### 5. 超级智能 vs 人类灭绝是虚假二元 + +「思想领袖分成两队,一队冲向乌托邦,一队冲向末日——在人类历史上这种现实脱节非常罕见。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有**无数积极的可能性**。 + +## 金句 + +- 「现在这个领域有什么?只有非常聪明、会编程、有很多直觉的人——我从没感受到任何真正智识深度的东西。」 +- 「别问它是否理解。问:它能不能降低不确定性,能不能让工程系统建立在它之上。」 +- 「可怜的 LLM,不确定性三件事一件都不会做。」 +- 「AI 是关于帮助信息流动,让人类做出他们真正想做的正确决策。」 + +## 参考文献 + +- Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268 +- MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64 diff --git a/articles/nobrega-ai-production-tradeoffs-2026.md b/articles/nobrega-ai-production-tradeoffs-2026.md new file mode 100644 index 0000000..ac6f062 --- /dev/null +++ b/articles/nobrega-ai-production-tradeoffs-2026.md @@ -0,0 +1,52 @@ +--- +title: "AI 工程师的 6 种生产权衡" +created: 2026-06-19 +updated: 2026-06-19 +type: article +tags: [ai-engineering, production-tradeoffs, prompt-engineering, fine-tuning, hitl, mlops] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ + - https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA +--- + +# AI 工程师的 6 种生产权衡 + +> 原文:*Six Choices Every AI Engineer Has to Make (and Nobody Teaches)* — Sara Nobrega +> 翻译:陈超 | 来源:数据派THU + +## 核心问题 + +大学课程教你怎么让模型变精确。但几乎没人教你后续的决策:什么时候完全自动化?什么时候提示词不够?批处理和实时怎么选?这些问题在工作第一周就会出现。 + +## 核心原则 + +> **决策的成本很少在决策做出的地方产生回报。** — 更复杂的模型在 6 个月后增加维护成本,实时系统需要 24/7 基础设施支撑,大规模脏数据在重训练周期上付出代价。 + +## 6 种权衡 + +### 1. [[build-vs-buy-llm|构建 vs 购买]] +日请求 < 10 万 → API。日请求 > 100 万 → 自建。但 70-80% 的自建成本是人力,不是 GPU。团队平均超预算 340%。 + +### 2. [[cace-principle|模型复杂度 vs 可维护性]] +CACE 原理:改变任何事物都会改变一切。为 2% 精度选复杂模型的代价是 18 个月的调试税。一年后谁拥有它? + +### 3. [[data-quality-vs-quantity|数据数量 vs 数据质量]] +超过噪声阈值,更多数据会降低性能。医疗 AI 最典型:专家标注小数据集 > 不可靠标注大数据集。避免"数据沼泽"。 + +### 4. [[batch-vs-real-time-inference|吞吐量 vs 延迟]] +大多数业务问题不需要亚秒级预测。如果用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理。 + +### 5. [[prompt-engineering-vs-fine-tuning|提示词工程 vs 微调]] +提示词快、便宜、灵活,但脆弱。微调昂贵($1 万 + 6 周),但规模化可靠。混合模式(微调风格 + RAG 事实)日益普及。 + +### 6. [[human-in-the-loop|自动化 vs 人类监督]] +完全人工审查无法规模化。选择性 HITL:边缘案例、低置信度、高风险决策才触发人工。AI 处理规模,人类处理不可逆性。 + +## 关键概念网络 + +- [[ai-production-tradeoffs|AI 生产权衡]] — 六大维度的总览 +- [[ml-technical-debt|ML 技术债务]] — 数据依赖比代码依赖更昂贵 +- [[selective-hitl|选择性 HITL]] — 只有在最需要时引入人工 +- [[data-swamp|数据沼泽]] — 存储便宜带来的隐性成本 + +来源:[原始存档](raw/articles/nobrega-ai-production-tradeoffs-2026.md) diff --git a/concepts/ace-router.md b/concepts/ace-router.md new file mode 100644 index 0000000..a87d6d0 --- /dev/null +++ b/concepts/ace-router.md @@ -0,0 +1,49 @@ +--- +title: "ACE-Router — 训练专用路由器" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [router-training, mcp, tool-selection, history-aware, agent-web] +sources: + - https://arxiv.org/abs/2601.08276 +--- + +# ACE-Router + +## 定义 + +ACE-Router 是 Yao et al. (2026) 提出的**训练专用路由器框架**:不依赖 embedding 静态匹配或 LLM 通用推理,而是训练一个专门模型,将多轮对话历史显式对齐到精确的路由决策。 + +## 三阶段管线 + +``` +① Candidate Graph → ② Trajectory Synthesis → ③ Light Routing Agent + (扩展候选空间) (生成训练数据) (可插拔部署) +``` + +### ① Candidate Graph + 自进化变异 +- 基于语义相似(τ=0.82)构建候选图 +- 5 种变异算子:功能增强、参数变异、工作流链接、辅助操作、使用扩展 +- 627 初始工具 → 2005 工具 + +### ② 多 Agent 轨迹合成 +- DFS 随机游走采样 + 四角色模拟 +- 环境无关:LLM 模拟执行,无需真实 API +- 产出 15,092 个历史感知训练样本 + +### ③ Light Routing Agent +仅两个工具:router_invoke + tool_execute。路由与执行解耦 → 路由逻辑独立于具体工具定义。 + +## 关键结果 + +- **8B 专用路由器 > 巨型通用模型**:GPT-4o (47.4%) vs ACE-Router (53.4%) +- 扩展候选池:ReAct 从 41.8% 崩溃到 36.5%,ACE-Router 稳定在 53.0% +- 噪声鲁棒:GPT-4o 28% / Gemini 32%,ACE-Router 保持 56% +- 工具路由 → Agent 路由零训练迁移:88-92% + +## 参考 + +- [[yao-ace-router-2026|论文]] +- [[history-aware-routing|历史感知路由]] +- [[candidate-graph|候选图]] +- [[light-routing-agent|轻量路由 Agent]] diff --git a/concepts/active-tool-discovery.md b/concepts/active-tool-discovery.md new file mode 100644 index 0000000..3ba9471 --- /dev/null +++ b/concepts/active-tool-discovery.md @@ -0,0 +1,55 @@ +--- +title: "主动工具发现 — Active Tool Discovery" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [tool-discovery, llm-agents, mcp, active-learning, paradigm-shift] +sources: + - https://arxiv.org/abs/2506.01056 +--- + +# 主动工具发现(Active Tool Discovery) + +## 定义 + +Active Tool Discovery 是 [[fei-mcp-zero-2025|MCP-Zero]] 提出的工具选择新范式:**Agent 自主识别能力缺口,按需生成工具请求,由系统匹配返回**——而不是被动接受预注入的全部工具 schema。 + +## 范式对比 + +| | 被动注入(Passive Injection) | 检索增强(Retrieval-Augmented) | 主动发现(Active Discovery) | +|---|---|---|---| +| 决策主体 | LLM 从全量中选择 | 检索系统预选 | LLM 自主请求 | +| 上下文 | 全部 tool schema 在 context 中 | 仅相关 tool | 仅请求的 tool | +| 多轮能力 | 无(一次性注入) | 受限(基于首轮查询) | 天然支持迭代扩展 | +| 自主性 | 选择器 | 半自主 | 能力构建者 | + +## 为什么需要主动发现 + +三个根本约束: + +1. **外部决策权**:被动注入和检索方案将工具选择权交给外部系统,而非 Agent 自身 +2. **语义分布差距**:用户查询和正式 tool spec 在不同的语义空间中——检索精度受损 +3. **静态能力假设**:工具被一次性选定,而非随任务理解深化而迭代发现 + +## 理论建模 + +主动发现可建模为 **active learning**: + +``` +r* = arg max I(T*; r|s_t) + = arg max[H(T*|s_t) - H(T*|r, s_t)] +``` + +Agent 生成请求 r 以最大化关于最优工具集 T* 的信息增益。 + +## 关键机制 + +- [[active-tool-request|Active Tool Request]]:结构化请求生成 +- [[hierarchical-semantic-routing|层次语义路由]]:两级精匹配 +- [[iterative-capability-extension|迭代能力扩展]]:跨域 toolchain + +## 参考 + +- [[fei-mcp-zero-2025|MCP-Zero 论文]] +- [[mcp-protocol|MCP 协议]] +- [[skill-retrieval|Skill 检索]](类比:skill 检索也是主动选择) diff --git a/concepts/active-tool-request.md b/concepts/active-tool-request.md new file mode 100644 index 0000000..f5797de --- /dev/null +++ b/concepts/active-tool-request.md @@ -0,0 +1,56 @@ +--- +title: "Active Tool Request — 结构化工具请求" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [tool-discovery, mcp-zero, structured-request, llm-agents] +sources: + - https://arxiv.org/abs/2506.01056 +--- + +# Active Tool Request + +## 定义 + +Active Tool Request 是 MCP-Zero 的核心机制:当 Agent 识别到能力缺口时,**自主生成结构化工具请求**,而非从预选列表中被动选择。 + +## 请求格式 + +``` + +server: File system allowing file operations +tool: Read file by filename + +``` + +两个字段: +- **server**:平台/权限域要求(与 MCP server 描述对齐) +- **tool**:操作类型 + 目标(与 tool description 对齐) + +## 为什么比用户查询更好 + +MCP-Zero 的理论分析证明: + +``` +cos(e_request, e_tool_description) > cos(e_query, e_tool_description) +``` + +Agent 生成的请求在**工具文档的语义空间中**,天然比原始用户查询更对齐。用户可能说"帮我修 bug",Agent 能精确表达"需要读取文件的 API"。 + +## 与传统方案的对比 + +| | System Prompt 注入 | 检索增强 | Active Tool Request | +|---|---|---|---| +| 请求者 | 预设 | 用户查询匹配 | Agent 自主 | +| 语义对齐 | N/A | 低(user→tool 语义差) | 高(request→tool 对齐) | +| 多轮 | N/A | 基于首轮 | 每步可独立请求 | + +## 多轮能力 + +Agent 可在同一次对话中生成多个独立请求,每次触发独立的检索过程——天然支持跨域 toolchain 构建。 + +## 参考 + +- [[active-tool-discovery|主动工具发现]] +- [[fei-mcp-zero-2025|MCP-Zero 论文]] +- [[hierarchical-semantic-routing|层次语义路由]] diff --git a/concepts/adkv.md b/concepts/adkv.md new file mode 100644 index 0000000..8bb9ccf --- /dev/null +++ b/concepts/adkv.md @@ -0,0 +1,46 @@ +--- +title: "AdaKV" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "cross-head-budget-allocation", "dynamic-allocation"] +sources: [] +--- + +# AdaKV + +## 定义 + +AdaKV (Feng et al., 2026b) 是一种动态的 [[cross-head-budget-allocation]] 方法,通过全局 Top-K 选择在 attention head 之间分配缓存预算。它基于注意力熵等实时统计量动态调整分配。 + +## 核心机制 + +1. **全局池化**:将所有 head 的候选 token 及其代理分数集中 +2. **全局 Top-K**:跨所有 head 选择分数最高的 K 个 token +3. **动态分配**:各 head 的实际预算由 Top-K 选择结果自然决定 + +## 与 LU-KV 的关系 + +LU-KV 论文对 AdaKV 进行了关键性分析: + +- **借鉴**:AdaKV 的输出扰动界分析启发了 [[oracle-importance]] 的定义 +- **超越**:AdaKV 基于**原始代理分数**做全局比较(假设分数跨 head 可比),LU-KV 基于**边际效用曲线**做跨 head 比较 +- **形式化差异**:AdaKV 的贪心策略未考虑 [[optimality-gap]],LU-KV 显式优化它 + +## 局限性 + +1. **分数不可比假设**:不同 head 的注意力分数尺度和分布不同,直接全局 Top-K 可能偏向分数尺度大的 head +2. **瞬时视角**:使用当前注意力熵,无法捕捉 [[long-horizon-utility]] +3. **无离线 profiling**:每次推理需在线计算,但开销仍可接受 + +## 相关概念 + +- [[cross-head-budget-allocation]] — AdaKV 所在的类别 +- [[pyramidkv]] — 静态分配的替代方案 +- [[global-combinatorial-optimization]] — LU-KV 采用的形式化更强的优化框架 +- [[tang-lukv|LU-KV]] — 基于边际效用的改进方法 + +## 参考 + +- AdaKV (Feng et al., 2026b) +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/agent-memory-five-category-model.md b/concepts/agent-memory-five-category-model.md new file mode 100644 index 0000000..1d6a8cc --- /dev/null +++ b/concepts/agent-memory-five-category-model.md @@ -0,0 +1,53 @@ +--- +title: "Agent Memory Five-Category Model (sz 设计)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["agent-memory", "architecture", "design", "multi-index"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" + - "[[longmem-eval-2025]]" +--- + +# Agent Memory Five-Category Model + +基于 sz 的 Agent 记忆构建模式分析,将记忆按生命周期和检索特征划分为五类,并映射到现有 wiki 框架。 + +## 五类记忆模型 + +| # | 类别 | 存储方式 | Atlas 对应 | 检索特点 | +|---|------|---------|-----------|---------| +| 1 | **知识** | text + frontmatter delimiter | catalog(无 user_id,共享) | 确定性查找,结构化 | +| 2 | **概念** | 知识图谱 | —(wiki 体系独立) | 遍历 + 关联推理 | +| 3 | **Cron 定时** | cron 直接构建 | — | 触发式,不算完整记忆 | +| 4a | **用户偏好/习惯/认知** | 结构化文本 | semantic(稳定事实) | last_used_at 衰减 + use_count boost | +| 4b | **近期交流日志** | 结构化文本,快速塞上下文 | episodic(原始日志) | timestamp 衰减(短期) | +| **5** | **计划/想法/洞察/遗留问题** | 结构化摘要 | **prospective**(前瞻) | 语义关联匹配(平坦时间衰减) | + +## 设计原则 + +1. **知识(类型 1)**:独立于用户,MCP Server 的 catalog 索引承载。frontmatter 提供结构化元数据(来源、标签、更新时间),正文提供全文检索。 + +2. **概念(类型 2)**:wiki link graph 承载。概念之间的交叉引用形成知识图谱,与记忆系统的全文检索形成互补——一个是遍历式探索,一个是精确召回。 + +3. **Cron(类型 3)**:不进入记忆索引。Cron job 的配置本身是外部触发器,执行结果可作为 episodic 事件写入,但 job 定义不是"记忆"。 + +4. **用户绑定信息(类型 4)**:Atlas 的双索引(episodic + semantic)直接承载。日志部分走 episodic 的高频写入+短期衰减,偏好/习惯/认知走 semantic 的 consolidation 提炼+长期稳定。 + +5. **长周期随机提取(类型 5)**:需要专门的前瞻记忆索引——见 [[prospective-memory-index]]。 + +## 关键洞察 + +第 5 类(计划/想法/洞察)在传统三索引框架中处于缝隙位置: +- 不是 episodic(不应随 timestamp 沉底) +- 不是 semantic(不是稳定事实,是动态状态) +- 不是 procedural(不是可重复操作流程) + +它是**意图/计划/未闭合的思路**——介于 episodic 的短周期和 semantic 的稳定性之间,有自己的生命周期特征。 + +## 参考 +- [[atlas-memory-system]] +- [[agent-memory-taxonomy]] +- [[prospective-memory-index]] +- [[longmem-eval-2025]] +- [[memory-indexing-retrieval-reading]] diff --git a/concepts/agent-memory-lifecycle.md b/concepts/agent-memory-lifecycle.md new file mode 100644 index 0000000..793fa78 --- /dev/null +++ b/concepts/agent-memory-lifecycle.md @@ -0,0 +1,55 @@ +--- +title: "Agent 记忆生命周期" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, lifecycle, pipeline, memos] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# Agent 记忆生命周期 + +## 五阶段管线 + +一个完整的记忆系统可拆解为五个核心环节: + +``` +抽取 → 组织 → 检索 → 更新 → 共享 + ↑ | + └──────────────────────────────┘ + (闭环反馈) +``` + +### 1. 抽取(Extraction) +- 从对话流、交互轨迹中识别和提取关键信息 +- **关键风险**:记忆是对知识的高度总结,幻觉在此阶段引入后会在后续环节累积 +- MemOS 使用自研记忆原生模型自主决定何时抽取 + +### 2. 组织(Organization) +- 结构化存储、去重、归纳合并 +- [[memory-dedup-pipeline|三级去重漏斗]]:SHA-256 → 向量余弦 → LLM Judge +- 平均压缩比 75%+ + +### 3. 检索(Retrieval) +- 多路召回、时间衰减、多样性处理 +- 不同于文档检索——记忆检索需考虑时效性、相关性、可信度 + +### 4. 更新(Update) +- 增量合并、矛盾检测 +- 记忆不是只增不减——需要合并重复、解决冲突、过期退役 + +### 5. 共享(Sharing) +- 跨 Agent/用户/会话传递记忆 +- Hub 机制解决知识孤岛和经验蒸发问题 + +## 对应关系 + +这与 [[agent-skill|Agent Skill]] 的生命周期(Representation → Acquisition → Retrieval → Evolution)形成有趣的平行结构——两者共享"存储→检索→演化"的核心模式,但记忆更侧重事实性上下文,skill 更侧重过程性 know-how。 + +## 参考 + +- [[agent-memory-system|Agent 记忆系统]] +- [[layered-memory-architecture|三层记忆架构]] +- [[memory-dedup-pipeline|记忆去重管线]] +- [[agent-skill|Agent Skill]] diff --git a/concepts/agent-memory-system.md b/concepts/agent-memory-system.md new file mode 100644 index 0000000..15d1d64 --- /dev/null +++ b/concepts/agent-memory-system.md @@ -0,0 +1,45 @@ +--- +title: "Agent 记忆系统" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, llm-agents, memory-system, infrastructure] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# Agent 记忆系统 + +## 定义 + +Agent 记忆系统是为 LLM-based agent 提供持久化、可检索、可演化的上下文管理基础设施。它不仅关乎 token 节省,更决定 agent 能否执行连续型长程任务。 + +## 为什么记忆是 Agent 的生死关键 + +两个标志性事件推动行业共识转变: + +1. **ChatGPT 个人记忆功能(2025.4)**:记忆代表 AGI 时代模型对每个用户的个性化理解 +2. **OpenClaw 连续型 Agent**:缺乏记忆系统 → 长程任务无法顺利执行 + +视角扩展:single-session → multi-session → multi-user → multi-agent → multi-apps,复杂度指数增长。 + +## 需要独立记忆层的原因 + +当开发者面向上述多维度场景时,需要一个独立的处理框架来屏蔽复杂性——让开发者专注 Agent 业务逻辑,而非记忆的具体处理机制。MemOS 正是为此设计的记忆增强层。 + +## 核心能力 + +| 环节 | 功能 | +|------|------| +| 抽取 | 从对话流中提取关键信息 | +| 组织 | 结构化存储、去重、归纳 | +| 检索 | 多路召回、时间衰减 | +| 更新 | 增量合并、矛盾检测 | +| 共享 | 跨 Agent/用户/会话传递 | + +## 参考 + +- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]] +- [[layered-memory-architecture|三层记忆架构]] +- [[agent-memory-lifecycle|记忆生命周期]] +- [[memory-governance|记忆治理]] diff --git a/concepts/agent-memory-taxonomy.md b/concepts/agent-memory-taxonomy.md new file mode 100644 index 0000000..110b79e --- /dev/null +++ b/concepts/agent-memory-taxonomy.md @@ -0,0 +1,36 @@ +--- +title: "Agent Memory Taxonomy (三索引分型)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-memory", "architecture", "information-lifecycle"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# Agent Memory Taxonomy + +Agent 记忆的三索引分型逻辑:不同生命周期的信息用不同的存储结构、衰减策略和更新规则。 + +## 三种记忆类型 + +| 类型 | 例子 | 生命周期 | 衰减驱动力 | +|------|------|---------|----------| +| **Episodic** | "今天下雨好烦" | 短(数天-数周) | timestamp(时间新鲜度) | +| **Semantic** | "我只用 PostgreSQL" | 长(稳定事实) | last_used_at(使用频率) | +| **Procedural** | "部署 checklist 第3步" | 极长(操作流程) | 豁免(不因时间衰减) | + +## 为什么不能合并 + +- **字段语义污染**:timestamp 对 episodic 是主衰减源,对 semantic 只是发现时间 +- **生命周期冲突**:episodic 高频写入从不更新,semantic 低频写入但高频更新 +- **mapping 无法承载**:ES mapping 是 schema-on-write,合并后字段大量 null + +## 设计原则 + +信息的衰减驱动力是它有多频繁被需要,不是它有多旧。同一衰减策略套在所有记忆上是错误:客服 Agent 中 "API v2 偏好" 的衰减不应与 "今天心情不好" 相同。 + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[atlas-memory-system]] +- [[per-index-time-decay]] diff --git a/concepts/agent-skill-atomization.md b/concepts/agent-skill-atomization.md new file mode 100644 index 0000000..03fc5fa --- /dev/null +++ b/concepts/agent-skill-atomization.md @@ -0,0 +1,52 @@ +--- +title: "Agent Skill 原子化" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-architecture", "skill-design", "mcp", "financial-engineering"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# Agent Skill 原子化 + +将烟囱式业务系统拆解为颗粒合适的原子 Skill,是金融 Agent 工程的核心基础设施。每个 Skill 需统一注册、统一描述、统一权限管控。 + +## Skill 设计规范 + +### 三要素 +1. **所需物料**:Skill 执行需要哪些数据输入 +2. **数据来源**:物料从哪个系统/接口获取,实时还是历史 +3. **权限级别**: + - 只读:纯查询操作 + - 只调代码:可执行但不可写入 + - 写需人工确认:高风险操作强制确认 + +### 常见物料陷阱 +- 风险测评超过两年未更新 +- 产品申购状态非实时 +- 适当性规则未同步 + +## 接口大模型友好改造 + +| 旧描述 | 新描述 | +|--------|--------| +| "基金分红历史信息" | "【查询】基金分红【过去指定时间,如去年、上个月等】范围内的分红记录" | + +改造原则: +- **清晰**:带上时间、业务标签 +- **一致**:避免系统缩写(如 JJJJ) +- **业务性**:复杂功能封装为组合接口 + +## 与 MCP 的关系 + +Skill 原子化是实现 MCP 协议接入的前提。每个原子 Skill 作为一个 MCP Tool 暴露,Agent 通过 Function Call 动态调度。 + +## 组织挑战 + +困难不在技术,而在于业务侧愿不愿意开放自己的能力——需要组织层面推动。 + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[mcp-protocol]] +- [[financial-agent-permission]] diff --git a/concepts/agent-skill-ecosystem.md b/concepts/agent-skill-ecosystem.md new file mode 100644 index 0000000..d5faaf5 --- /dev/null +++ b/concepts/agent-skill-ecosystem.md @@ -0,0 +1,63 @@ +--- +title: "Agent Skill 生态系统" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-skills, ecosystem, platforms, infrastructure] +sources: + - https://arxiv.org/abs/2605.07358 +--- + +# Agent Skill 生态系统 + +## 定义 + +Agent skill 应被理解为**生态系统**而非孤立的推理模块。Skill 可从演示、轨迹、文档或反馈中创建;在仓库中索引;在任务、延迟或预算约束下检索和选择;与工具、内存和其他 agent 一起执行;并随着环境变化而修订、验证或退役。 + +## 代表性平台 + +| 平台 | 规模 | 特点 | +|------|------|------| +| **SkillNet** | 300k+ | 动态本体构建、关系图、多维评估 | +| **ClawHub** | 40k+ | Agent 社区的共享 skill 仓库 | +| **SkillHub** | 80k+ | 社区驱动的 skill 市场 | +| **SkillsMP** | 700k+ | 最大规模,含人类专家编写 skill | +| **Skills.sh** | 90k+ | 社区 skill 平台 | + +## 生态系统的关键组件 + +### 创建侧 +- 人类专家编写(精度高) +- Agent 自动生成(规模大) +- 语料提取(冷启动) +- 经验抽象(接地气) + +### 管理侧 +- 版本化和依赖管理 +- 质量评估和安全审计 +- 本体和关系图构建 +- 冲突检测和去重 + +### 消费侧 +- 检索和选择基础设施 +- 运行时路由和治理 +- 反馈收集和演化触发 + +## 开放挑战 + +1. **互操作性**:不同平台间的 skill schema 不统一 +2. **安全分发**:第三方 skill 可能包含恶意逻辑(PoisonedSkills 攻击面) +3. **质量控制**:入库前的验证机制不足 +4. **长期治理**:仓库级别的退役和废弃管理 + +## 与 Hermes 的对应 + +Hermes 的 skill 体系(`~/.hermes/skills/`)是一个本地的 skill 生态基础设施——覆盖了表示、获取(人工+经验)、检索和选择。论文中的仓库演化、运行时治理、统一 schema 等方向是 Hermes 可以借鉴的演进路径。 + +## 参考 + +- [[zhou-agent-skills-survey-2026|Zhou et al. 2026]] +- [[agent-skill|Agent Skill]] +- [[skill-lifecycle|Skill 生命周期]] +- [[runtime-governance|运行时治理]] +- [[skill-evolution|Skill 演化]] diff --git a/concepts/agent-skill.md b/concepts/agent-skill.md new file mode 100644 index 0000000..b33b86b --- /dev/null +++ b/concepts/agent-skill.md @@ -0,0 +1,50 @@ +--- +title: "Agent Skill — 可复用过程性构件" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-skills, procedural-knowledge, llm-agents] +sources: + - https://arxiv.org/abs/2605.07358 +--- + +# Agent Skill + +## 定义 + +Agent skill 是一个**可复用的过程性构件**,具有有界范围,将面向任务的 know-how 外化为显式、可检查、可存储的对象。它不仅是"能做什么"的声明,更编码了**何时行动、如何执行、有哪些启发式和失败模式、如何判断完成**。 + +## 形式化定义 + +来自 [[zhou-agent-skills-survey-2026|Zhou et al. 2026]]: + +**S = (M, R, C)** + +- **M**(主指令文档):agent 可以加载并遵循的根指令,是 skill 对人类可读的主要表示 +- **R**(辅助资源集):参考文档、可复用模板、可执行脚本、领域构件,扩展了 M 单独能完成的范畴 +- **C**(适用条件):编码何时应检索和应用该 skill 的条件,可为元数据、自然语言描述或嵌入向量 + +## 核心属性 + +1. **可复用性**:跨任务、跨会话复用,避免每次都从零推理 +2. **可组合性**:多个 skill 可编排为更大的执行行为 +3. **可检查性**:作为显式构件可被审计、版本化、共享 +4. **操作层定位**:与 agent 的高层推理形成互补——agent 决定"做什么",skill 执行"怎么做" + +## 与工具的区别 + +| 工具 (Tool) | Skill | +|------------|-------| +| 暴露原子能力 | 封装过程性 know-how | +| 说明能做什么 | 说明何时用、如何编排、怎样验证 | +| 单一调用接口 | 可含多步骤、分支、回退逻辑 | +| 无状态 | 可含触发条件、适用场景 | + +MCP 等协议解决了工具的**互操作性**问题,但未解决**过程性**问题——这正是 skill 填补的鸿沟。 + +## 参考 + +- [[zhou-agent-skills-survey-2026|Zhou et al. 2026 综述论文]] +- [[procedural-gap|过程性鸿沟]] +- [[skill-lifecycle|Skill 生命周期]] +- [[skill-representation|Skill 表示]] diff --git a/concepts/agent-web.md b/concepts/agent-web.md new file mode 100644 index 0000000..5f96c87 --- /dev/null +++ b/concepts/agent-web.md @@ -0,0 +1,39 @@ +--- +title: "Agent Web — 开放协作智能体网络" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-web, ecosystem, multi-agent, open-network, routing] +sources: + - https://arxiv.org/abs/2601.08276 +--- + +# Agent Web + +## 定义 + +Agent Web 是 ACE-Router 论文引述的**未来愿景**:一个开放的协作网络,其中 Agent 作为自治节点访问海量、持续增长的外部资源(工具、Agent、服务)。实现这一愿景需要从"静态编排"转向**"按需组队"(On-demand Teaming)**。 + +## 核心特征 + +- **开放生态**:Agent 不再是孤立的——MCP 统一了接入标准 +- **指数增长**:可访问的工具和 Agent 数量远超任何单一上下文窗口 +- **动态编排**:主机 Agent 必须基于实时状态**动态发现和调度**最优协作节点 + +## 为什么需要 Router + +Agent Web 的核心挑战不是"有没有工具可用",而是**在指数级候选空间中精准导航**。ACE-Router 提供了这一导航能力——通过训练专用路由器来处理大规模、异构、动态变化的候选空间。 + +## 按需组队 vs 静态编排 + +| | 静态编排 | 按需组队 | +|---|---|---| +| 工具集 | 预定义、硬编码 | 动态发现 | +| 规模 | 受限于上下文窗口 | 对数级别扩展 | +| 灵活性 | 差 | 实时适配 | + +## 参考 + +- [[ace-router|ACE-Router]] +- [[light-routing-agent|轻量路由 Agent]] +- [[yao-ace-router-2026|论文]] diff --git a/concepts/agentic-cache-manager.md b/concepts/agentic-cache-manager.md new file mode 100644 index 0000000..b5e140e --- /dev/null +++ b/concepts/agentic-cache-manager.md @@ -0,0 +1,66 @@ +--- +title: "Agentic Cache Manager" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["kv-cache", "memory", "drift", "streaming", "inference"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Agentic Cache Manager (Agentic 缓存管理) + +**Agentic Cache Manager** 是 [[maineCoon|MaineCoon]] [[agentic-streaming-inference|流式推理框架]] 中管理模型记忆的控制器:在单个持久 [[kv-cache|KV-Cache]] 上同时治理**记住多少**(bounded keep-set)和**记多准确**(drift control)。 + +## 单持久缓存 → 连续流 + +传统方案的问题: +- **重生成增长前缀**:每块 cost 随长度增长 → 不可扩展 +- **拼接独立段**:周期 re-anchoring → 身份/颜色/音频跳变 + +MaineCoon 使用**一个永不清理的 KV-cache**,chunk 间连续性由 attention 原生携带,无拼接边界。 + +## Bounded Keep-Set(有界保留集) + +缓存不能无限增长——模型使用有限 RoPE 位置编码。Manager 每次 commit 后重新计算保留集: + +``` +Keep = Subject Anchor ∪ Scene Sink ∪ Scene Anchors ∪ Recent Chunks ∪ Restored +``` + +- **Subject Anchor**:主体语义参考块(见 drift control) +- **Scene Sink**:场景建立时的 persistent attention sink +- **Scene Anchors**:散布的场景关键帧 +- **Recent Chunks**:固定预算的最新 chunk +- **Restored**:场景返回时恢复的历史 chunk + +**四种 attention 类型各自独立追踪**:visual self-attn, audio self-attn, cross-modal AV paths 的缓存增长速率不同,需要 per-type ledger 独立管理。 + +## Drift Control(漂移控制) + +核心原则:**永不修改已发布的像素**——修正仅施加于写回缓存的 committed copy。 + +### Statistical Anchor (AdaStat) +写回缓存前对 clean latent 做 per-channel 统计匹配: +``` +AdaStat(x) = σ* ⊙ (x - μ(x))/σ(x) + μ* +``` +- 参考 (μ*, σ*) 从场景开头初始化,慢 EMA 更新 +- 仅对**低漂移 chunk** 更新参考,追踪合法 scene evolution +- 音频通道使用降低的强度 + +### Subject Anchor(主体锚) +- 开放词汇分割器在周期性快照上对规划器的文本描述评分 +- 从流的 clean latent 中收割最高分 token +- 作为 KV-cache 中的固定参考块,**永不输出** +- 使漂移从不可逆变为**可恢复** + +## Bounded Positions +位置编码通过 bounded epoch slots 保持在训练范围内。epoch 耗尽时用保留的 clean latent 在新 slots 重建缓存,保留内容但刷新位置编码。 + +## 效果 +在二十秒训练片段上训练的模型,可连续流式运行 **45 分钟无显著退化**。 + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 4.2 +- [[kv-cache]] +- [[agentic-streaming-inference|Agentic Streaming Inference]] diff --git a/concepts/agentic-rag.md b/concepts/agentic-rag.md new file mode 100644 index 0000000..742133b --- /dev/null +++ b/concepts/agentic-rag.md @@ -0,0 +1,42 @@ +--- +title: "Agentic RAG" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["rag", "agent", "retrieval", "planning"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# Agentic RAG + +Agentic RAG 是将 Agent 规划能力引入检索增强生成(RAG)的架构范式。与传统 RAG 的"一次检索→一次生成"不同,Agentic RAG 赋予模型**动态规划检索策略、自我评估信息充分性**的能力。 + +## 核心工作流 + +1. **任务拆解**:将复杂查询拆分为子问题序列 +2. **工具选择**:根据子问题类型动态选择检索工具(PageIndex / BM25 / 向量检索) +3. **迭代检索**:执行检索,评估当前信息是否足够回答 +4. **自我评估**:不足则规划下一轮检索,足够则汇总生成 + +## 金融场景实践 + +恒生电子在金融长文档检索中采用 PageIndex + Agentic RAG 组合: + +- PageIndex 负责粗粒度定位(章节级) +- Agentic RAG 负责调度多工具、判断是否需要跨章节检索 +- 单 chunk 召回准确率超过 95% + +## 与传统 RAG 的区别 + +| 维度 | 传统 RAG | Agentic RAG | +|------|---------|------------| +| 检索次数 | 1 次 | 多轮迭代 | +| 工具选择 | 固定 | 动态选择 | +| 自我评估 | 无 | 有 | +| 适用场景 | 简单事实查询 | 复杂推理问题 | + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[pageindex]] +- [[context-engineering]] diff --git a/concepts/agentic-streaming-inference.md b/concepts/agentic-streaming-inference.md new file mode 100644 index 0000000..04ed92c --- /dev/null +++ b/concepts/agentic-streaming-inference.md @@ -0,0 +1,65 @@ +--- +title: "Agentic Streaming Inference" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["inference", "streaming", "agent", "framework", "real-time"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Agentic Streaming Inference (Agentic 流式推理) + +**Agentic Streaming Inference** 是 [[maineCoon|MaineCoon]] 提出的**训练无关推理框架**:用三个 agentic 控制器包裹冻结的生成器,不修改模型权重即可实现千秒级稳定流式生成。 + +## 架构 + +``` +Viewer ← Stream ← [Buffer Controller] → [Frozen Generator + KV-Cache] + ↑ Timing ↑ Memory ↑ Content + [Cache Manager] ←→ [Director: Planner + Observer] +``` + +三个控制器各司其职,**内容/记忆/时间三者分离**: + +| 控制器 | 职责 | 核心机制 | +|--------|------|---------| +| **Director** (Planner + Observer) | 内容流 | Gemma 4 26B agent 写 prompt + 观察质量 | +| **[[agentic-cache-manager|Cache Manager]]** | 记忆 | bounded keep-set + drift control | +| **[[look-ahead-buffer-controller|Buffer Controller]]** | 时间/节奏 | pace gate 管理生成 lead | + +## 关键设计原则 + +### 1. 分离关注点 +- **Agent (Planner/Observer)** 负责认知:何时生成什么、是否退化、如何修复 +- **Engine (Generator)** 负责执行:以固定节奏持续生成,不被中断 +- **Manager (Cache/Buffer)** 负责治理:记住什么、何时输出 + +### 2. 永不中断流 +- Generator 以固定 cadence 运行,永不 start/stop/step +- 所有修正通过 prompt stream 前向注入,不重置流 +- Observer 在 generation head 上检查(领先 playback),修复在观众看到之前完成 + +### 3. 优雅降级 +- 分割/检查/规划失败 → 降级到更粗粒度的信号或安全续写 +- Observer 端任何失败**不会卡住流** + +## Director: Planner + Observer + +**Planner** 按固定 beat 产生结构化 prompt: +``` +[VISUAL] 角色外观 + [SPEECH] 台词 + [SOUNDS] 环境音 + tags +``` +维护有限规划历史和已说台词记录,确保不重复。 + +**Observer** 在生成前线观察质量: +- 五项 photometric 漂移指标(廉价,每帧运行) +- 周期性 VLM 检查语义缺陷 +- 通过 [[forward-repair-ladder|前向修复阶梯]] 修复 + +**Feeder & Fast Lane**:异步队列化 prompt,fast lane 替换尚未生成的 beat,不影响正在飞行的 chunk。 + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 4 +- [[agentic-cache-manager|Agentic Cache Manager]] +- [[look-ahead-buffer-controller|Look-Ahead Buffer Controller]] +- [[forward-repair-ladder|Forward-Repair Ladder]] diff --git a/concepts/agi-critique.md b/concepts/agi-critique.md new file mode 100644 index 0000000..1284659 --- /dev/null +++ b/concepts/agi-critique.md @@ -0,0 +1,42 @@ +--- +title: "AGI 批判(AGI Critique)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - agi + - ai-philosophy + - hype + - michael-jordan +sources: + - Jordan, MLST 2026 +--- + +# AGI 批判(AGI Critique) + +对"通用人工智能(AGI)"概念及其叙事体系的批判性审视。核心主张:AGI 是一种**公关术语和思维扭曲**,而非有效的技术目标。 + +## Jordan 的批评 + +Michael I. Jordan(MLST 2026):「AGI 只是个公关词。它是一种扭曲。它让人困惑,尤其让年轻人困惑。」 + +他的论据: +- "AI"术语本身伴随 LLM 兴起而回归,因为输出是人类可读语言——但背后的 ML 传统从未消失 +- AGI 叙事缺乏清晰目标:没有"要解决什么社会问题"、没有"对谁有价值、以什么方式产生价值" +- 「这就是硅谷的谈话方式。那里没有什么深度的长期思考。它变成了一场内卷赛,一场金钱竞赛」 + +## 公共讨论中的扭曲效应 + +- 将 AI 讨论推向两极:乌托邦 vs 末日——「两队在人类历史上这种程度的现实脱节是非常罕见的」 +- 伤害年轻一代:年轻人听到的是"超级智能马上就来,你们有生之年没什么可做了"或"太危险了,你们不能做这个" +- 用隐喻代替系统设计:大脑隐喻 → 神经元 → 梯度下降 → "智能涌现" + +## 替代框架 + +- [[collectivist-ai|集体主义 AI]]:将 AI 视为经济系统而非个体智能 +- [[anthropomorphization-critique|人类化机器批判]]:停止问"它是否理解",转向工程问题 + +## 参考 + +- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]] +- [[anthropomorphization-critique|人类化机器批判]] diff --git a/concepts/ai-production-tradeoffs.md b/concepts/ai-production-tradeoffs.md new file mode 100644 index 0000000..fb91c06 --- /dev/null +++ b/concepts/ai-production-tradeoffs.md @@ -0,0 +1,42 @@ +--- +title: "AI 生产权衡 — 六大维度" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [ai-engineering, production, tradeoffs, mlops] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# AI 生产权衡 + +## 定义 + +AI 工程师在生产部署中面临的关键决策维度。来自 Sara Nobrega (2026) 的框架:这些权衡没有"正确"答案,但有可操作的框架、真实数字和决策背景。 + +## 六大维度 + +| # | 权衡 | 核心问题 | +|---|------|---------| +| 1 | [[build-vs-buy-llm|构建 vs 购买]] | API 调用何时不再划算? | +| 2 | [[cace-principle|复杂度 vs 可维护性]] | 6 个月后谁来调试? | +| 3 | [[data-quality-vs-quantity|数据数量 vs 质量]] | 更多数据何时变成更差结果? | +| 4 | [[batch-vs-real-time-inference|吞吐量 vs 延迟]] | 批处理还是实时? | +| 5 | [[prompt-engineering-vs-fine-tuning|提示词 vs 微调]] | 两条截然不同的投资曲线 | +| 6 | [[human-in-the-loop|自动化 vs 人类监督]] | 你有多信任模型独立行动? | + +## 统一原则 + +> **决策的成本很少在决策做出的地方产生回报。** 复杂度的代价延迟偿付——更复杂的模型 6 个月后增加维护成本,实时系统的 24/7 支撑长期代价更高,大规模脏数据在重训练周期上付出代价。 + +## 常见模式 + +- 团队默认使用实时推理(因为"听起来更令人印象深刻"),但大多数业务问题不需要亚秒级预测 +- 团队平均超出 LLM 预算 340%,主因是缺少使用跟踪和成本归属 +- 为 2% 精度提升选复杂模型,为这个选择支付 18 个月的调试税 + +## 参考 + +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] +- [[ml-technical-debt|ML 技术债务]] +- [[selective-hitl|选择性 HITL]] diff --git a/concepts/aidb.md b/concepts/aidb.md new file mode 100644 index 0000000..4c3e9ad --- /dev/null +++ b/concepts/aidb.md @@ -0,0 +1,40 @@ +--- +title: "AIDB(大模型友好数据层)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["data-engineering", "llm-infrastructure", "financial-engineering", "rag"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# AIDB(大模型友好数据层) + +AIDB(AI-friendly Database)是恒生电子提出的面向大模型友好的数据层概念,是金融大模型 IT 架构重构的三大方向之一(另两个为业务能力原子化 Skills、金融大模型插件化)。 + +## 核心定位 + +AIDB 不是一个新的数据库产品,而是一种**数据组织范式**——将传统面向人类和系统的数据结构,改造为面向大模型消费的形态。 + +## 关键能力 + +### 文档结构化 +将 PDF、扫描件、Word 等非结构化文档解析为带层级语义的结构化数据——这与 [[pageindex]] 的章节解析一脉相承。 + +### 知识分片 +不是简单的固定长度切块,而是基于语义边界(章节、段落、表格)的智能分片——确保表格头和数据在同一个 chunk 中。 + +### 接口描述业务化 +将系统接口的字段从技术命名改造为业务语义——让大模型能"读懂"每个字段的含义。 + +## 在 Agent 架构中的位置 + +AIDB 处于资源层,为 Agent 提供"对模型友好"的数据消费环境: +- Agent 通过 Function Call 访问 AIDB +- AIDB 返回已结构化、已分片、已标注业务语义的数据 +- 大模型无需自行解析和推理数据结构 + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[pageindex]] +- [[agentic-rag]] diff --git a/concepts/anthropomorphization-critique.md b/concepts/anthropomorphization-critique.md new file mode 100644 index 0000000..c98b73e --- /dev/null +++ b/concepts/anthropomorphization-critique.md @@ -0,0 +1,47 @@ +--- +title: "人类化机器批判(Anthropomorphization Critique)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - agi-critique + - philosophy-of-ai + - michael-jordan + - engineering +sources: + - Jordan, MLST 2026 +--- + +# 人类化机器批判(Anthropomorphization Critique) + +Michael I. Jordan 对 AI 话语中系统性**将机器类比为人类**的批判。核心主张:不要问"它是否理解",要问"它能不能降低不确定性、能不能让工程系统建立在它之上"。 + +## 为什么有害 + +1. **转移注意力**:一旦问"它是否理解",就忘记真正重要的工程问题——失效条件、误差范围、与真实数据的结合方式、出错的后果由谁承担 +2. **招来错误期待**:说模型"理解"蛋白质折叠,然后当它在新问题上给出自信但错误的答案时,人们会失望——而期待和失望都来自错误的框架 +3. **服务于媒体叙事**:「理解」「智能」这些词是给媒体用的——容易传播,但偏离研究 + +## AGI 作为人类化谬误的极端形式 + +[[agi-critique|AGI 批判]] 是人类化谬误的终极表达——把统计模式匹配系统描述为具有"通用智能"的存在。「AGI 只是个公关词,它是一种扭曲,尤其让年轻人困惑。」 + +## 正确的提问方式 + +| ❌ 不要问 | ✅ 要问 | +|----------|--------| +| 它是否理解? | 它能否降低不确定性? | +| 它是否智能? | 它在什么条件下会失效? | +| 它是不是有意识?| 它有没有给出误差范围? | +| 它能不能替代人类? | 它应该被嵌入什么样的系统? | + +## John Jumper 的共鸣 + +AlphaFold 核心研究者 John Jumper 对"AlphaFold 是否理解蛋白质"的回答:**对这个词过敏**。「预测让我们能预测和控制,但理解这个动作必须由人类自己来做,不能外包给机器。」 + +## 参考 + +- [[agi-critique|AGI 批判]] +- [[collectivist-ai|集体主义 AI]] +- [[uncertainty-taxonomy|不确定性分类法]] +- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]] diff --git a/concepts/appearance-bias-vla.md b/concepts/appearance-bias-vla.md new file mode 100644 index 0000000..be64655 --- /dev/null +++ b/concepts/appearance-bias-vla.md @@ -0,0 +1,38 @@ +--- +title: "Appearance Bias in VLA" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["vla", "bias", "pretraining", "representation-learning"] +sources: + - "[[vla-jepa-2026]]" +--- + +# Appearance Bias in VLA Pretraining + +Appearance Bias 是 VLA 像素级预训练目标中的系统性失败模式:模型学习的表示偏向视觉外观变化(纹理、光照、背景),而非动作相关的可控自由度。 + +## 表现 + +- 光照变化被编码为重要"特征" +- 背景纹理替换导致 latent action 大幅变化 +- 相机角度偏移比对动作转移更显著地影响表示 +- 用 VQ-VAE 等压缩机制仍无法完全消除——压缩空间仍保留大量外观信息 + +## 根因 + +像素空间的变化主要由外观因素主导,这些因素: +1. 方差高(texture, illumination, clutter, viewpoint) +2. 可控性低(与机器人动作弱相关) +3. 易预测(建模难度低) + +因此模型自然地学习预测这些"低垂果实",而非真正的动作语义。 + +## JEPA 的修复 + +通过 latent space prediction 而非 pixel space prediction,JEPA 目标天然不直接建模像素变化,迫使模型在语义层面抽象。 + +## 参考 +- [[vla-jepa-2026]] +- [[latent-action-pretraining]] +- [[leakage-free-state-prediction]] diff --git a/concepts/asymmetric-grounding-adherence-loss.md b/concepts/asymmetric-grounding-adherence-loss.md new file mode 100644 index 0000000..efaf270 --- /dev/null +++ b/concepts/asymmetric-grounding-adherence-loss.md @@ -0,0 +1,67 @@ +--- +title: "Asymmetric Grounding Adherence Loss (L_AGA)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["loss-function", "rollout-drift", "regularization", "world-modeling"] +sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"] +--- + +# Asymmetric Grounding Adherence Loss (L_AGA) + +**L_AGA** 是 Hazare (2026) 提出的首个针对异质接地源、具有不兼容容忍结构的 [[rollout-drift|rollout drift]] 防止损失。 + +## 动机 + +[[dcgwm|DCGWM]] 中的 L_PGC 和 L_SBGC 仅在训练时的单步上接地——不能保证多步展开的预测轨迹保持接地。[[rollout-drift|Rollout drift]] 是长视距下潜在世界模型的中心失效模式。 + +## 公式 + +``` +L_AGA = L_AGA_p(z_p^{1:T}) + L_AGA_b(z_b^{1:T}) +``` + +### 物理 Adherence — 平方铰链惩罚 + +``` +L_AGA_p = (1/T) · Σ_t max(0, d_p(z_p^{(t)}, G_p^{(t)}) − ε_p)² +``` + +- d_p 度量与物理接地流形 G_p 的距离 +- ε_p 是硬物理容忍阈值 +- 容忍范围内惩罚为零(允许测量噪声) +- 超出阈值后二次增长——物理违反是范畴错误 + +### 行为 Adherence — 软 KL 散度 + +``` +L_AGA_b = (1/T) · Σ_t KL(q_b(z_b^{(t)}) ∥ p_b^{(t)}) +``` + +- q_b 是 rollout 诱导的 Z_b 分布 +- p_b^{(t)} 是 SBGC 锚定的行为分布 +- KL 散度提供与分布距离成比例的连续惩罚——行为随机性是预期内的 + +## 为什么不对称 + +不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容: + +| 维度 | 物理 | 行为 | +|------|------|------| +| 误差性质 | 范畴错误 | 分布距离 | +| 惩罚形状 | 硬铰链 | 软 KL | +| 容忍结构 | 硬阈值 ε_p | 连续缩放 | +| 梯度特征 | 超出阈值→大梯度 | 按分布距离比例 | + +梯度流同样遵守内向约束:L_AGA_p 仅更新 W_p,L_AGA_b 仅更新 W_b。 + +## 操作化 + +p_b^{(t)} 通过**摊销投影**获得:SBGC 对齐阶段训练的 enc_b 将模拟轨迹窗口参数化映射到 Z_b,在 rollout 时冻结该编码器读取分布锚点。 + +## 参考 + +- [[hazare-dcgwm-2026|DCGWM 论文]] +- [[rollout-drift|Rollout Drift]] +- [[dcgwm|DCGWM]] +- [[objective-interference-collapse|OIC]] diff --git a/concepts/atlas-memory-system.md b/concepts/atlas-memory-system.md new file mode 100644 index 0000000..a28ab90 --- /dev/null +++ b/concepts/atlas-memory-system.md @@ -0,0 +1,41 @@ +--- +title: "Atlas Memory System" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-memory", "elasticsearch", "architecture", "hybrid-retrieval"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# Atlas Memory System + +Atlas(noamschwartz/atlas-memory-demo)是 Agent 记忆系统的工程实践架构,核心理念:Agent 记忆不是 KV 存储问题,而是多索引信息检索问题。 + +## 四索引架构 + +- **episodic**:原始消息 + 时间戳,每回合写入,timestamp 衰减 +- **semantic**:提炼后稳定事实,consolidation 写入,last_used_at 衰减,use_count boost +- **procedural**:多步操作流程,衰减豁免(1.0),success/failure 计数器 +- **catalog**:公共共享知识,无 user_id,所有用户可见 + +## 检索管线 + +Verbatim Pre-Recall → BM25 + Dense 并行 → RRF 融合 → Cross-encoder 重排序 + +## 关键指标 + +R@10=0.89(168 QA, 3 persona, ~250 docs/user),CI gate: R@10≥0.85。 + +## 扩展:五类记忆模型 + +Atlas 的三索引覆盖了 sz 五类记忆模型中的第 1 类(catalog)和第 4 类(episodic + semantic),但第 5 类(计划/想法/洞察)需要一个额外的 [[prospective-memory-index|前瞻记忆索引]] ——不以时间为主导衰减信号,以语义关联为检索驱动力。详见 [[agent-memory-five-category-model]]。 + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[agent-memory-taxonomy]] +- [[agent-memory-five-category-model]] +- [[prospective-memory-index]] +- [[hybrid-recall-pipeline]] +- [[memory-consolidation]] +- [[soft-supersession]] diff --git a/concepts/attention-mechanism.md b/concepts/attention-mechanism.md new file mode 100644 index 0000000..35a95a4 --- /dev/null +++ b/concepts/attention-mechanism.md @@ -0,0 +1,49 @@ +--- +title: "Attention Mechanism" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["attention", "transformer", "sequence-modeling"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Attention Mechanism + +## 定义 + +Attention Mechanism(注意力机制)是 Transformer 架构的核心模块(Vaswani et al., 2017),通过 query-key-value 交互实现序列中 token 之间的**内容感知信息路由**。每个 token 的注意力分布取决于其 query 与其他 token 的 key 之间的语义相似度。 + +## 核心公式 + +``` +Attention(Q, K, V) = softmax(Q K^T / sqrt(d_k)) V +``` + +## 与 Mamba 的对比 + +Mamba 论文将注意力作为**内容感知推理**的参考标准: + +| 维度 | Attention | Mamba (S6) | +|------|----------|-----------| +| 内容感知 | ✅(Q-K 内积天然内容依赖) | ✅(B, C, Δ 为输入的函数) | +| 复杂度 | O(n²) | O(n) | +| 机制 | token 间显式交互 | token 独立处理后选择性记忆 | +| 推理内存 | O(n) KV cache | O(1) 隐状态 | + +## 核心性质 + +- **密集路由**:每个 token 与所有前序 token 交互 → O(n²) +- **KV Cache**:自回归推理需缓存所有历史 (k, v) +- **理论上无界上下文**:实际受内存限制 + +## 相关概念 + +- [[content-based-reasoning]] — 注意力天然具备的能力 +- [[kv-cache]] — 注意力的推理内存瓶颈 +- [[selective-state-space|selection mechanism]] — Mamba 的替代路径 +- [[gu-mamba|Mamba 论文]] + +## 参考 + +- Vaswani et al. (2017) "Attention Is All You Need" +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) diff --git a/concepts/attractor-dynamics.md b/concepts/attractor-dynamics.md new file mode 100644 index 0000000..eda5d85 --- /dev/null +++ b/concepts/attractor-dynamics.md @@ -0,0 +1,46 @@ +--- +title: "吸引子动力学 (Attractor Dynamics)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [dynamical-systems, recurrence, transformers, convergence] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 吸引子动力学 (Attractor Dynamics) + +吸引子动力学是循环网络中的一种状态演化模式:激活性持续迭代直至**收敛到稳态**,然后才推进到下一步(Mozer et al., 2026)。 + +## 在 Mozer et al. 图 5d 中的体现 + +全循环(Fully Recurrent)模型中: +- 每步输入一个 token +- 在 t 步,所有 1 ~ t-1 步的层持续从深层向浅层发送信号 +- **只有当所有前序步骤收敛后,当前步骤才算完成** + +## 与简单循环的区别 + +| 简单循环 | 吸引子动力学 | +|----------|------------| +| 固定步数迭代 | 迭代至收敛 | +| 输出可能偏离稳态 | 输出在稳态附近 | +| 计算成本可预测 | 计算成本可变 | + +## 潜在优势 + +1. **自然的多步推理**:不需要显式指定思考步数 +2. **能量函数解释**:类似 Hopfield 网络的能量最小化视角 +3. **与人类认知对齐**:人脑的许多过程是到稳态的动力学(如感知决策) + +## 挑战 + +- **训练困难**:需要 Truncated BPTT 或循环反向传播(Almeida, 1987; Pineda, 1987; Liao et al., 2018) +- **收敛时间不可预测**:推理延迟不确定 + +## 参考 + +- [[recurrent-transformer-architectures|循环 Transformer 架构]] +- [[latent-thought-models|隐式思考模型]] +- [[state-tracking|状态追踪]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/audio-visual-generation.md b/concepts/audio-visual-generation.md new file mode 100644 index 0000000..e4662c0 --- /dev/null +++ b/concepts/audio-visual-generation.md @@ -0,0 +1,38 @@ +--- +title: "Audio-Visual Generation" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["generation", "audio", "video", "multimodal"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Audio-Visual Generation (音视频联合生成) + +**Audio-Visual Generation** 是指同时生成视频和音频的生成范式,要求画面运动、语音、环境音在时序上紧密同步。 + +## 与传统视频生成的区别 + +传统 [[diffusion-transformer|视频扩散模型]] 通常仅处理视觉信号,或仅将音频作为条件输入。真正的音视频联合生成需要: +- **联合潜空间**:视觉和音频在共享的时间轴上表示为对齐的 latent chunk +- **因果时间建模**:逐块自回归生成,保持时间一致性 +- **跨模态同步**:唇音对齐、表情与语音节奏匹配 + +## 挑战 + +- 长时序生成中的内容漂移([[drifting|temporal drift]]) +- 跨模态表示对齐的困难 +- 实时推理的延迟约束 +- 单 GPU 上的计算效率 + +## 代表性工作 + +- **LTX-2.3**: 22B 开源音视频扩散模型,非因果、离线生成 +- **MaineCoon**: 22B 实时流式音视频自回归模型([[maineCoon]]),47.5 FPS,单 GPU +- 传统方法:Video Diffusion + 独立 Audio Diffusion 拼接 + +## 相关概念 +- [[streaming-generation|流式生成]] +- [[autoregressive-video-generation|自回归视频生成]] +- [[social-video|社交视频]] +- [[audio-visual-representation-alignment|跨模态表示对齐]] diff --git a/concepts/audio-visual-representation-alignment.md b/concepts/audio-visual-representation-alignment.md new file mode 100644 index 0000000..ba14664 --- /dev/null +++ b/concepts/audio-visual-representation-alignment.md @@ -0,0 +1,57 @@ +--- +title: "Audio-Visual Representation Alignment" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["representation", "alignment", "audio-visual", "training", "jepa"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Audio-Visual Representation Alignment (音视频表示对齐) + +**Audio-Visual Representation Alignment** 是 [[maineCoon|MaineCoon]] 中通过 [[jepa|V-JEPA 2]] teacher 的 **token relation distillation** 加速流式音视频训练的技术。 + +> 注意:此概念不同于 LLM 中的 [[representation-alignment|表示对齐]](TST 中的 embedding 不变性)。此处特指音视频扩散模型中的中间层特征对齐。 + +## 动机:流式训练的可视语义获取缓慢 + +从零训练大规模音视频 DiT 时,[[flow-matching|Flow Matching]] loss 仅监督低级重建,对语义结构仅施加弱压力。连贯运动和音视频对应关系在训练后期才涌现。 + +## Token Relation Distillation + +MaineCoon 采用 VideoREPA 的**关系对齐**策略: + +### 1. Teacher 特征提取 +- Teacher: 冻结的 V-JEPA 2 编码器 +- 对训练 clip 采样帧,resize 使其 patch grid 与 visual latent grid 对齐 +- 输出特征体 `Y ∈ R^{F×S×d_tea}`,与 visual latent token 一一对应 + +### 2. 关系矩阵匹配 +在选定的中间层,将 noisy visual target hidden states 投影到 teacher space,然后匹配**成对 token 关系矩阵**: +``` +R(a)_{mn} = a_m^T a_n / (‖a_m‖₂ ‖a_n‖₂) +``` +对齐关系而非绝对特征值 — 让 generator 保留自己的表示基。 + +### 3. Hinge-Margin Loss +``` +L_TRD = (1/N²) Σ ReLU(R(Ŷ)_{mn} - R(Y)_{mn} - γ) +``` +margin γ 忽略小的关系差异,更稳定。 + +## 与 Native Streaming Training 的集成 + +- 对齐 loss 作为辅助目标加入 +- 仅在 visual target half 上计算(audio stream 不约束) +- 仅在 main gradient forward pass 上启用(self-resampling rollout 禁用) +- Teacher 冻结且特征预计算,训练时无额外 teacher forward pass + +## 效果 +- 大幅减少达到连贯运动和 AV 对应所需的训练步数 +- 提升最终生成质量 + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 3.2 +- [[jepa|V-JEPA 2]] +- [[representation-alignment|LLM Representation Alignment]](不同含义) +- VideoREPA (Zhao et al.) diff --git a/concepts/autonomous-optimization-ao.md b/concepts/autonomous-optimization-ao.md new file mode 100644 index 0000000..958dac3 --- /dev/null +++ b/concepts/autonomous-optimization-ao.md @@ -0,0 +1,38 @@ +--- +title: "Autonomous Optimization (AO)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["autonomous-research", "task-formulation", "evaluation"] +sources: + - "[[arbor-htr-2026]]" +--- + +# Autonomous Optimization (AO) + +AO 是 Arbor 提出的自主科研任务形式化模型:P = (M0, O, Edev, Etest),Agent 通过迭代实验改进研究产物,无需步骤级人工监督。 + +## 四元组 + +| 元素 | 含义 | 约束 | +|------|------|------| +| **M0** | 可变初始产物(代码库+数据) | Agent 可检查、修改 | +| **O** | 改进目标(指标方向) | 标量目标,越大越好 | +| **Edev** | 开发评估器 | 搜索期间自由使用 | +| **Etest** | Held-out 评估器 | 仅用于 merge gate,不可做探索 oracle | + +## 关键约束 + +目标:M⋆ = arg max Stest(M') +约束:假设和实现决策**不使用 Etest 作为探索 oracle** + +这防止了过拟合——在 dev 上改进但无法 transfer 到 test 的候选不应被接受。 + +## 与普通 Agentic Tool Use 的区别 + +AO 的目标不是单一响应或代码补丁,而是**持续的研究轨迹**。Agent 必须提出假设、物化为产物变更、解读实验反馈,并决定哪些方向应该精炼、合并或放弃。 + +## 参考 +- [[arbor-htr-2026]] +- [[hypothesis-tree-refinement]] +- [[coordinator-executor-architecture]] diff --git a/concepts/autoregressive-unrolling.md b/concepts/autoregressive-unrolling.md new file mode 100644 index 0000000..429bd02 --- /dev/null +++ b/concepts/autoregressive-unrolling.md @@ -0,0 +1,52 @@ +--- +title: "自回归展开 (Autoregressive Unrolling)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, recurrence, training, teacher-forcing] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 自回归展开 (Autoregressive Unrolling) + +自回归展开是 Mozer et al. (2026) 定义的关键概念:即使在 Teacher Forcing 训练下,循环模型也必须**按自回归步逐步展开**,而非完全并行处理。 + +## 与标准 Transformer 的区别 + +| | 标准 Transformer | 循环 Transformer(需展开) | +|---|---|---| +| 训练时 | 所有 token 并行(一次前向) | 按步展开(串行或块状) | +| 推理时 | Token-by-token 自回归 | Token-by-token 自回归 | +| 状态传播 | 前馈(深度受限) | 循环(无界) | + +## Mozer et al. 的精确定义 + +> "循环步"严格定义为训练期间排除跨序列并行化的**顺序依赖**——不是纯前馈模型 token-by-token 推理中的伪串行。 + +## 三种展开模式 + +### 图 5b:深度展开(Looped Transformer) +- 块内并行,深度方向循环 +- 状态仍受深度限制 + +### 图 5c:块状展开(Blockwise-Recurrent) +- 固定长度 token 块内并行 +- 块间串行传递状态 + +### 图 5d/图 6:全自回归展开 +- 一个或多个自回归步对应一个输入 token +- 真正无界状态追踪的关键 + +## 训练效率挑战 + +自回归展开是**必要的代价**——任何能在训练时完全并行化的模型,其状态追踪能力都受限于其前馈深度(Merrill et al., 2025)。 + +应对策略:Mozer et al. 建议**分阶段训练**——先标准 Transformer 预训练,再引入循环机制。 + +## 参考 + +- [[sequential-dependency|顺序依赖]] +- [[recurrent-transformer-architectures|循环 Transformer 架构]] +- [[recurrence-taxonomy|循环分类法]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/autoregressive-video-generation.md b/concepts/autoregressive-video-generation.md new file mode 100644 index 0000000..01add23 --- /dev/null +++ b/concepts/autoregressive-video-generation.md @@ -0,0 +1,40 @@ +--- +title: "Autoregressive Video Generation" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["generation", "video", "autoregressive", "causal"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Autoregressive Video Generation (自回归视频生成) + +**Autoregressive Video Generation** 是将视频生成建模为逐帧/逐块因果生成的过程:每一帧依赖之前生成的帧,而不访问未来信息。 + +## 与双向扩散模型的核心差异 + +传统 [[diffusion-transformer|DiT]] 视频模型使用**双向时间注意力**(bidirectional temporal attention),在生成过程中所有帧相互依赖。这带来两个问题: +1. **非实时**:中间帧在全部去噪完成前无法输出 +2. **计算随长度增长**:自注意力成本随序列长度平方增长 + +自回归视频生成通过**因果注意力**(causal attention)解决: +- 逐块生成,每块仅依赖历史 +- 使用 [[kv-cache|KV-Cache]] 复用历史状态 +- 支持流式输出和实时交互 + +## 关键技术 + +- **Causal Streaming Generation**: 因果时间顺序生成,帧/块依次产生 +- **KV-Cache 管理**: 持久化缓存,限制缓存大小以控制计算量 +- **漂移控制**:长时序自回归容易积累误差,需要 drift mitigation + +## 代表性模型 + +- **MaineCoon**: 实时音视频自回归模型([[maineCoon]]),22B,47.5 FPS +- 其他流式视频生成模型:VideoGPT, TATS 等 + +## 相关概念 +- [[streaming-generation|流式生成]] +- [[audio-visual-generation|音视频联合生成]] +- [[kv-cache]] +- [[causal-generation|因果生成]] diff --git a/concepts/barker-gibbs.md b/concepts/barker-gibbs.md new file mode 100644 index 0000000..d49a1cf --- /dev/null +++ b/concepts/barker-gibbs.md @@ -0,0 +1,49 @@ +--- +title: "Barker Gibbs" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [mcmc, gibbs-sampling, llm, discriminative, rejection-sampling] +sources: + - "[[large-language-gibbs]]" +--- + +# Barker Gibbs + +**Barker Gibbs** 是 Large Language Gibbs 框架中的一种核变体,使用 LLM 的**判别能力**(而非生成能力)来实现 Gibbs 重采样。相比 Basic Gibbs 的直接条件采样,Barker Gibbs 更适合指令微调模型(其生成概率可能未被良好校准)。 + +## 核心机制 + +Barker Gibbs 将 LLM 用作偏好比较器: + +1. **提议**:从均匀分布 q(·) 中抽取候选值 X_i' +2. **比较**:向 LLM 展示当前值 X_i 和候选值 X_i',询问"哪个更合理" +3. **接受**:根据 Barker 规则计算接受概率 + +``` +p^LM(X_i' ≻ X_i | X_{-i}) = q^*(X_{-i}, X_i') / (q^*(X_{-i}, X_i) + q^*(X_{-i}, X_i')) +``` + +## 与 Basic Gibbs 的对比 + +| 维度 | Basic Gibbs | Barker Gibbs | +|------|-----------|-------------| +| LLM 使用方式 | 生成式(采样) | 判别式(比较) | +| 适用模型 | base + instruct | 更适合 instruct | +| 校准要求 | 需要校准的生成概率 | 仅需判别性偏好 | +| 概率保证 | 直接近似条件分布 | Barker 规则保证稳态不变 | + +## 为什么需要 + +指令微调模型(如 RLHF 后的模型)的生成概率往往未被良好校准——模型可能对某些 token 过于自信或犹豫。Barker Gibbs 绕过了这个问题:LLM 只需做"二选一"偏好判断,这通常比生成完整样本更可靠。 + +## 在 Large Language Gibbs 中的位置 + +Barker Gibbs 是 Basic Gibbs 的**互补方案**——当 LLM 的生成条件不可靠时,改用判别条件;当两者都可用时,Barker Gibbs 的稳态分布与 Basic Gibbs 的稳态分布一致(在 Barker 规则假设下)。 + +## 参考 + +- Barker, A. A. (1965) — Barker's rule 原始文献 +- [[large-language-gibbs]] — 提出 Barker Gibbs 的论文 +- [[gambling-gibbs]] — 另一种判别式核变体 +- [[llm-mcmc]] — LLM + MCMC 的整体框架 diff --git a/concepts/batch-vs-real-time-inference.md b/concepts/batch-vs-real-time-inference.md new file mode 100644 index 0000000..a4157cc --- /dev/null +++ b/concepts/batch-vs-real-time-inference.md @@ -0,0 +1,44 @@ +--- +title: "批处理推理 vs 实时推理" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [inference, deployment, batch-processing, real-time, latency, throughput] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# 批处理推理 vs 实时推理 + +## 两种架构 + +批处理和实时推理是两种**不同的系统架构**。选择错误的选项会影响基础设施、成本和用户体验——这些选择难以逆转。 + +| | 批处理推理 | 实时推理 | +|---|---|---| +| **生成方式** | 按时间表(每小时/每天) | 按需,毫秒到秒 | +| **存储** | 预计算,存数据库 | 即时计算 | +| **成本** | 低 | 高(24/7 运行) | +| **基础设施** | 简单,易调试 | 更多活动部件,难监控 | +| **数据新鲜度** | 可能过时 | 始终最新 | + +## 系统层面的权衡 + +- 更大的批处理 → 更高吞吐量,但每个请求延迟也更高 +- 实时系统使用 batch_size=1 → 速度快,但可能降低效率 + +## 最常见的错误 + +**团队默认使用实时推理,因为听起来更令人印象深刻。** 但大多数业务问题不需要亚秒级预测: +- 每晚的流失率评分 +- 每周的推荐更新 +- 每天的欺诈模式更新 + +## 决策信号 + +> 如果你的用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理推理。 + +## 参考 + +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/bayesian-filtering.md b/concepts/bayesian-filtering.md new file mode 100644 index 0000000..ca91ee4 --- /dev/null +++ b/concepts/bayesian-filtering.md @@ -0,0 +1,34 @@ +--- +title: "贝叶斯滤波" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [state-estimation, filtering, probabilistic-inference] +sources: [nano-filter] +--- + +# 贝叶斯滤波 + +Bayesian filtering 是状态估计最通用的框架,通过递归的**预测-更新**两步计算状态的后验分布 $p(x_t | y_{1:t})$。 + +## 核心机制 + +- **预测步**(Chapman-Kolmogorov 方程):利用转移概率 $p(x_t | x_{t-1})$ 从上一时刻后验预测先验分布 +$$ +p(x_t | y_{1:t-1}) = \int p(x_t | x_{t-1}) p(x_{t-1} | y_{1:t-1}) dx_{t-1} +$$ +- **更新步**(Bayes 定理):利用测量似然 $p(y_t | x_t)$ 更新先验为后验 +$$ +p(x_t | y_{1:t}) = \frac{p(y_t | x_t) p(x_t | y_{1:t-1})}{\int p(y_t | x_t) p(x_t | y_{1:t-1}) dx_t} +$$ + +## 关键特性 + +- 线性高斯系统 → Kalman filter 给出解析解 +- 非线性系统 → 需近似:Gaussian filter 族(参数化近似)或 Particle filter(离散采样近似) +- [[nano-filter|NANO filter]] 从变分优化视角重新构造了 Gaussian 滤波,将预测步与更新步分别视为两个优化问题 + +## 参考 +- [[kalman-filter|Kalman Filter]] +- [[gaussian-filtering|Gaussian Filtering]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/belief-state.md b/concepts/belief-state.md new file mode 100644 index 0000000..1fd23a1 --- /dev/null +++ b/concepts/belief-state.md @@ -0,0 +1,39 @@ +--- +title: "信念状态 (Belief State)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [state-tracking, reasoning, cognition] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 信念状态 (Belief State) + +信念状态是 AI 智能体对环境的**紧凑、充分的知识摘要**(Chrisman, 1992; Kaelbling et al., 1998)。 + +## 形式 + +- **事实集合**:已知命题的集合(如"Fred 在河边") +- **概率分布**:可能世界的概率分布,追踪不确定性 +- **组合状态**:多个独立状态变量的组合(如实体位置、关系状态) + +## 在 Transformer 中的困境 + +Transformer 需要维护信念状态来确保推理一致性,但其前馈架构([[feedforward-depth-limitation|前馈深度局限]])导致: +- 信念状态的更新被推入深层网络 +- 生成响应时浅层可能使用**过时或未更新的信念** +- 维护完整概率信念状态在一般情形下不可行(分布爆炸) + +## 人类的启发式策略 + +Mozer et al. 指出人类采用近似方法: +- **采样**(Vul et al., 2014) +- **原型坍缩**(Tversky & Kahneman, 1971) +- **MAP 估计**——形成与前提最一致的具体心智模型 + +## 相关概念 + +- [[state-tracking|状态追踪]] +- [[depth-dilemma|深度困境]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/block-causal-attention.md b/concepts/block-causal-attention.md new file mode 100644 index 0000000..0b537b4 --- /dev/null +++ b/concepts/block-causal-attention.md @@ -0,0 +1,49 @@ +--- +title: "Block-Causal Attention" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [attention, streaming, transformer, causal, multimodal] +sources: + - "[[wan-streamer]]" +--- + +# Block-Causal Attention + +**Block-Causal Attention** 是一种介于标准因果注意力(causal attention)和双向注意力(bidirectional attention)之间的注意力模式,专为流式多模态生成设计。它在 Wan-Streamer 中作为协调交错的视觉、音频和文本 token 流式生成的核心机制。 + +## 核心机制 + +在标准因果注意力中,每个 token 只能关注其之前的 token。在双向注意力中,每个 token 可以关注所有 token。**Block-causal attention** 将序列划分为块(blocks),在每个块内允许双向注意力,但跨块之间保持因果约束: + +- **块内(intra-block)**:token 可以关注同块内的所有 token(双向) +- **块间(inter-block)**:token 只能关注之前块的 token(因果) + +这种设计在流式生成中取得了关键权衡:块内双向注意力保证了同帧内多模态 token(如音频+视频+文本)的充分交互和同步,而块间因果约束保证了流式推理的可行性(不需要等待未来帧)。 + +## 在 Wan-Streamer 中的应用 + +在 Wan-Streamer 的全双工流式交互中,每个 160ms 的流式单元形成一个块。块内包含该时刻的用户输入 token 和 Agent 响应 token(视觉、音频、文本),块内双向注意力确保: + +- 语音和视频潜变量的耦合生成 +- 嘴唇运动与语音的天然同步 +- 跨模态语义对齐 + +跨块因果约束确保: +- 增量流式推理(不需要等待整个对话完成) +- KV-cache 的可复用性 +- 全历史上下文的线性的计算复杂度 + +## 与其他注意力模式对比 + +| 模式 | 块内 | 块间 | 适用场景 | +|------|------|------|----------| +| Causal | 因果 | 因果 | 标准自回归语言模型 | +| Bidirectional | 双向 | 双向 | BERT 类理解任务 | +| **Block-Causal** | **双向** | **因果** | **流式多模态生成** | + +## 参考 + +- [[wan-streamer]] — 首次在端到端流式交互基础模型中应用 +- [[native-streaming-ar-training]] +- [[kv-cache]] diff --git a/concepts/bm25-financial-retrieval.md b/concepts/bm25-financial-retrieval.md new file mode 100644 index 0000000..1241c3a --- /dev/null +++ b/concepts/bm25-financial-retrieval.md @@ -0,0 +1,42 @@ +--- +title: "BM25 金融检索" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# BM25 在金融精确检索中的应用 + +BM25 是一种基于词频-逆文档频率(TF-IDF)的经典信息检索算法。在金融场景中,恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。 + +## 为什么金融场景 BM25 更优 + +金融查询大量涉及**精确匹配需求**: +- 股票代码(如 "600519") +- 专有名词(如 "超额累进税率") +- 精确数字(如 "净利润超过 10 亿") +- 法规条款编号(如 "第三十二条") + +向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。 + +## 与向量检索的适用边界 + +| 场景 | BM25 | 向量检索 | +|------|------|---------| +| 精确代码/编号 | ✅ 强 | ❌ 弱 | +| 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 | +| 数字精确匹配 | ✅ 强 | ❌ 弱 | +| 同义改写查询 | ❌ 弱 | ✅ 强 | +| 跨语言检索 | ❌ 弱 | ✅ 强 | + +## 行业趋势 + +恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。 + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[pageindex]] +- [[agentic-rag]] diff --git a/concepts/build-vs-buy-llm.md b/concepts/build-vs-buy-llm.md new file mode 100644 index 0000000..310ecab --- /dev/null +++ b/concepts/build-vs-buy-llm.md @@ -0,0 +1,40 @@ +--- +title: "构建 vs 购买 — Build vs Buy (LLM)" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [llm, cost-optimization, infrastructure, api-vs-self-host] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# 构建 vs 购买(Build vs Buy) + +## 定义 + +在 LLM 时代,"构建 vs 购买"不再是从零训练模型的问题。2026 年的版本更难:三个选择,每个有不同的成本曲线和失效模式。 + +## 三个选择 + +| 选择 | 适用场景 | 成本结构 | 失效模式 | +|------|---------|---------|---------| +| **调用 API** | 日请求 < 10 万 | 按 token 付费,低开销 | 供应商锁定、框架迁移 | +| **微调开源模型** | 中等规模,专业化需求 | 一次性计算成本 | 数据准备和评估成本 | +| **自建托管** | 日请求 > 100 万 | 硬件 + 人力 | 人力占 70-80% 成本! | + +## 关键数据 + +- Omdia 调查(n=376):95% 认为自建提供更多定制,91% 同意预构建更快——**两者同时成立** +- 硬件和电力仅占自托管成本的 20-30%,**人力占 70-80%** +- 团队平均超出 LLM 预算 340%,主因是缺少使用跟踪和成本归属 + +## 实践框架 + +1. **从 API 开始** +2. **从第一天起记录每次调用的成本、延迟和功能归属** +3. **当运算显示优势下降时再更换** + +## 参考 + +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/cace-principle.md b/concepts/cace-principle.md new file mode 100644 index 0000000..74717ef --- /dev/null +++ b/concepts/cace-principle.md @@ -0,0 +1,37 @@ +--- +title: "CACE 原理 — Change Anything Changes Everything" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [ml-engineering, technical-debt, system-complexity, maintainability] +sources: + - https://arxiv.org/abs/1506.07756 + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# CACE 原理 + +## 定义 + +**CACE = Change Anything Changes Everything**(改变任何事物都会改变一切)。 + +来自 Sculley et al. (2015) 的经典论文《Hidden Technical Debt in Machine Learning Systems》(NeurIPS)。在 ML 系统中,流水线上的一个小调整可能引发其他地方的惊人变化。 + +## 核心洞察 + +- 这种级联效应在线性回归中很少发生,但在**集成系统和神经网络中经常发生** +- **数据依赖比代码依赖更昂贵**——数据更难追踪、更难版本化、更难向继承者解释 +- 实际的模型代码只是真实 ML 系统的一小部分——大部分是特征存储、管道逻辑、监控、重训练触发器及它们之间的粘合剂 + +## 实践含义 + +在为 2% 的精度提升选择更复杂模型之前,问自己: +> **一年后谁拥有它?** 如果答案是"不清楚",那就是决策点。 + +隐含成本:18 个月的调试时间、重训练开销、以及"没人记得我们为什么这样做"的税。 + +## 参考 + +- [[ml-technical-debt|ML 技术债务]] +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/candidate-graph.md b/concepts/candidate-graph.md new file mode 100644 index 0000000..d2806d4 --- /dev/null +++ b/concepts/candidate-graph.md @@ -0,0 +1,45 @@ +--- +title: "候选图 — Candidate Graph" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [candidate-graph, tool-expansion, mutation, semantic-graph] +sources: + - https://arxiv.org/abs/2601.08276 +--- + +# 候选图(Candidate Graph) + +## 定义 + +Candidate Graph 是 ACE-Router 的第一阶段:基于候选间的语义相似度和功能依赖关系构建的图结构,用于**扩展和结构化候选空间**。 + +## 构建流程 + +### 1. 初始图构建 +- 对每个候选 c 编码其结构化规范 ϕ(c)(工具描述 + schema,或 Agent profile + 能力范围) +- 计算余弦相似度,阈值 τ=0.82 以上建边 +- 产生初始无向图 G = (C, E_sim) + +### 2. 自进化变异 +五种变异算子(针对工具): +| 算子 | 作用 | +|------|------| +| Function Enhancement | 增强现有功能 | +| Parameter Mutation | 参数层面修改 | +| Workflow Chaining | 链接多个操作为流水线 | +| Helper Operation | 创建辅助工具 | +| Usage Extension | 扩展使用场景 | + +每轮随机选候选 c + 算子 m → LLM 合成新候选 c' = m(c) → 添加到图 + 建变异边 + +## 效果 + +627 初始工具 → 2005 工具(+219%)→ 训练数据从 15,092 样本。候选空间的丰富度直接决定路由器的辨识能力。 + +## 参考 + +- [[ace-router|ACE-Router]] +- [[self-evolutionary-mutation|自进化变异]] +- [[trajectory-synthesis|轨迹合成]] +- [[yao-ace-router-2026|论文]] diff --git a/concepts/causal-generation.md b/concepts/causal-generation.md new file mode 100644 index 0000000..b00b1bd --- /dev/null +++ b/concepts/causal-generation.md @@ -0,0 +1,31 @@ +--- +title: "Causal Generation" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["generation", "causal", "autoregressive", "attention"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Causal Generation (因果生成) + +**Causal Generation** 是指生成模型中输出元素仅依赖历史、不访问未来信息的生成方式。与双向(bidirectional)生成相对。 + +## 在视频生成中的应用 + +在 [[autoregressive-video-generation|自回归视频生成]] 中,因果注意力(causal attention)确保: +- 生成帧 `t` 仅能 attend 帧 `1..t-1` +- 中间帧可立即输出,无需等待全部去噪完成 +- 支持 [[streaming-generation|流式生成]] 和实时交互 + +## 实现 + +- **Causal Attention Mask**:下三角矩阵,阻止未来信息 +- **Sliding Block-Causal Mask**:块内双向,块间因果(MaineCoon 使用) +- **KV-Cache**:缓存历史 chunk 的 keys/values + +## 相关概念 +- [[autoregressive-video-generation|自回归视频生成]] +- [[streaming-generation|流式生成]] +- [[kv-cache]] +- [[diffusion-transformer|DiT]] diff --git a/concepts/causal-multimodal-vae.md b/concepts/causal-multimodal-vae.md new file mode 100644 index 0000000..18114d8 --- /dev/null +++ b/concepts/causal-multimodal-vae.md @@ -0,0 +1,62 @@ +--- +title: "Causal Multimodal VAE" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [vae, causal, multimodal, streaming, audio, video, latent-coding] +sources: + - "[[wan-streamer]]" +--- + +# Causal Multimodal VAE + +**Causal Multimodal VAE**(因果多模态变分自编码器)是 Wan-Streamer 中用于流式多模态潜编码的核心组件,包含严格因果的音频 VAE 和视频 VAE。 + +## 为什么需要因果 VAE + +标准 VAE(如用于 Stable Diffusion 的图像 VAE)通常是**非因果的**——编码一帧时需要访问未来帧的上下文(通过卷积或双向注意力)。这在离线场景下可行,但在流式场景下会引入额外的延迟(等待未来帧到达)。 + +**因果 VAE** 的核心约束: +- 编码时刻 t 的帧时,只能使用 ≤t 时刻的信息 +- 解码时刻 t 的潜变量时,同样只能使用 ≤t 时刻的上下文 + +这确保了每个流式单元到达后**立即可用**,无需等待窗口填充。 + +## 在 Wan-Streamer 中的设计 + +Wan-Streamer 的全因果架构要求从底层到顶层都是因果的: + +``` +流式视频帧序列 → 因果视频编码器 → 视频潜变量 + ↓ +流式音频帧序列 → 因果音频编码器 → 音频潜变量 + ↓ + [block-causal Transformer] + ↓ + 因果音频解码器 → 流式音频输出 + 因果视频解码器 → 流式视频输出 +``` + +### 因果视频 VAE +- 使用因果卷积和/或因果注意力替代标准 VAE 中的非因果操作 +- 支持 25 FPS 的流式编码 +- 每个 160ms 单元独立可编码 + +### 因果音频 VAE +- 类似设计,支持流式音频的因果编码 +- 与视频 VAE 的潜空间通过 block-causal Transformer 进行跨模态交互 + +## 与标准 VAE 的对比 + +| 维度 | 标准 VAE | 因果 VAE | +|------|---------|---------| +| 编码方向 | 双向(访问过去+未来) | 单向(仅访问过去) | +| 延迟 | 需要等待窗口完成 | 逐帧即时编码 | +| 适用场景 | 离线生成/重建 | 实时流式交互 | +| 重建质量 | 略高(更多上下文) | 可接受(因果约束) | + +## 参考 + +- [[wan-streamer]] +- [[block-causal-attention]] +- [[end-to-end-streaming-interaction]] diff --git a/concepts/center-manifold-theorem.md b/concepts/center-manifold-theorem.md new file mode 100644 index 0000000..5d8a2e9 --- /dev/null +++ b/concepts/center-manifold-theorem.md @@ -0,0 +1,36 @@ +--- +title: "Center Manifold Theorem (中心流形定理)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: [bifurcation-theory, dynamical-systems, reduction] +sources: [gan-bifurcation-eos] +--- + +# Center Manifold Theorem (中心流形定理) + +中心流形定理是分岔理论中的核心约化工具:当动力系统在不动点处存在临界特征值(模为 1)时,系统稳定性完全由限制在中心流形 W^c 上的低维动力学决定。 + +## 定理陈述 + +设离散动力系统 x_{t+1} = f(x_t),f 为 C³ 函数。若 Jacobian A = Df(x₀) 具有 n₀ 个临界特征值(模为 1),其余特征值模 < 1,则存在局部 C³ 的 n₀ 维流形 W^c 满足: +- W^c 在 x₀ 处与临界特征空间 T^c 相切 +- W^c 在 f 下不变 +- W^c 是**吸引的**:附近轨道指数收敛到 W^c +- 系统在 x₀ 附近的稳定性**完全由 f|_W^c 决定**(约化原理) + +## 在 EoS 分析中的应用 + +在 [[gan-bifurcation-eos|Gan (2026b)]] 的框架中: +- 梯度下降 Jacobian A = I - η∇²L,在 EoS 阈值处具有临界特征值 λ = -1 +- 中心流形将高维 GD 动力学约化到低维临界子空间 +- 使用**投影法** (projection method) 在中心流形上计算 [[first-lyapunov-coefficient|c₁]] 和周期轨道 + +对于过参数化网络的 [[manifold-of-minimizers|极小值流形]] M,中心流形包含法向(flip 分岔方向)和切向(漂移方向),约化后的分析分别处理两个子空间的动力学。 + +## 参考 + +- Kuznetsov (1998). Elements of Applied Bifurcation Theory, Ch. 5. +- [[flip-bifurcation]] +- [[first-lyapunov-coefficient]] +- [[gan-bifurcation-eos]] diff --git a/concepts/clawforce.md b/concepts/clawforce.md new file mode 100644 index 0000000..287ca6c --- /dev/null +++ b/concepts/clawforce.md @@ -0,0 +1,59 @@ +--- +title: "ClawForce — 企业 AI Agent 方案" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [enterprise-ai, agent-platform, clawforce, memtensor, security] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# ClawForce + +## 定义 + +ClawForce 是记忆张量(MemTensor)基于 MemOS 记忆框架构建的**企业级 AI Agent 产品**。解决企业 AI Agent 从"能用"到"敢用、好用、持续用"的五个共性痛点。 + +## 解决的五痛点 + +| 痛点 | 表现 | ClawForce 解法 | +|------|------|---------------| +| 部署难 | 单机部署已困难,集群需专门团队 | 全链路 AI 自动化配置 | +| 经验散 | 老员工离职,经验无法沉淀 | Skill 回流 + 自动入库 | +| 响应遗漏 | 人工监控有盲区 | 事件监听 + 智能中枢 | +| 场景受限 | 止步于对话,难入真实工作流 | 全链路工具链接 | +| 不可追溯 | 数据边界不清晰 | 三重安全审计 | + +## 五层架构 + +``` +智能中枢 + ├── 记忆层(MemOS) + ├── Skill 引擎(生成→审核→下发→回流) + ├── 事件监听 + └── 工具链接(Office/CRM/OA/IM) +``` + +## Skill 沉淀与回流 + +员工与 Agent 交互 → 系统自动检测可优化输入 → 模型质量打分 → 白盒化处理 → 管理员审核 → 企业 Skill 库 + +## 落地场景与效果 + +| 场景 | 效果 | +|------|------| +| 研发 | 飞书提需求 → AI 自动编码 → 仿真验证 → 生产线 | +| 电商运营 | 7×24 数据监控、异常预警、策略建议 | +| 公文写作 | 减少 **85%** 起草耗时 | +| 销售 | 客户触达量翻倍,最佳 Skill 自动回流 | + +## 部署方案 + +- NVIDIA DGX 一体机:128G 显存 + 内存共享 +- 中国电信国产算力方案 + +## 参考 + +- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]] +- [[memory-governance|记忆治理]] +- [[agent-memory-system|Agent 记忆系统]] diff --git a/concepts/coarse-grained-recurrence.md b/concepts/coarse-grained-recurrence.md new file mode 100644 index 0000000..6e103f5 --- /dev/null +++ b/concepts/coarse-grained-recurrence.md @@ -0,0 +1,40 @@ +--- +title: "粗粒度循环 (Coarse-Grained Recurrence)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, recurrence, efficiency, chunking] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 粗粒度循环 (Coarse-Grained Recurrence) + +粗粒度循环是 Mozer et al. (2026) 提出的有前景方向之一:在**比单个 token 更粗的粒度**上引入循环,以降低 token 级循环的计算负担。 + +## 核心思想 + +逐 token 的状态更新(标准 RNN 方式)存在**计算瓶颈**——每个 token 都需要串行处理。粗粒度循环通过**分组压缩**在效率和状态追踪之间寻求平衡。 + +## 实现方式 + +### 块循环 (Block-Recurrent) +- **Block-Recurrent Transformers**(Hutchins et al., 2022):将固定长度 token 块并行处理,块间循环传递压缩记忆 +- **Chevalier et al. (2023)**:块级自回归训练 + +### 语言结构驱动分块 +- **Borazjanizadeh & McClelland (2025)**:以句子为单位的"思想"分块——将语言建模为离散思想序列 +- 句子边界作为自然的循环步分界 + +## 优势 + +- 降低**串行步数**(token 级→句子级/块级) +- 保留**状态传播连续性**(块间循环) +- 更接近人类的**概念级**认知节奏 + +## 参考 + +- [[recurrence-taxonomy|循环分类法]] +- [[step-recurrence|步级循环]] +- [[latent-thought-models|隐式思考模型]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/collectivist-ai.md b/concepts/collectivist-ai.md new file mode 100644 index 0000000..951c783 --- /dev/null +++ b/concepts/collectivist-ai.md @@ -0,0 +1,62 @@ +--- +title: "集体主义 AI(Collectivist AI)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - ai-economics + - collective-intelligence + - michael-jordan + - systems-thinking +sources: + - Jordan, arXiv:2507.06268 + - MLST 2026 +--- + +# 集体主义 AI(Collectivist AI) + +Michael I. Jordan 提出的 AI 系统设计范式,核心主张:**AI 不应被建模为个体认知的放大,而应被视为一个集体性的经济系统**——输入来自数十亿人,服务数十亿人。 + +## 三大支柱 + +``` + CS (算法/抽象/模块化) + /\ + / \ + / \ + / \ + /________\ +统计学 经济学 +(推断/不确定性) (激励/博弈均衡) +``` + +Jordan 的核心批判:"只有计算加优化,你就只能得到语言模型。把统计和经济思维加进来,才开始有完整的系统性思考。" + +## 为什么需要经济学 + +当前主流 AI 叙事将智能窄化为**个体认知**——大脑隐喻 → 神经元 → 梯度下降。这忽略了: +- 人是社会动物,大量智识来自聚合 +- 社会为智识提供语境——在这个语境里聪明的行动,换一个语境可能是蠢的 +- 智能高度情境化,依赖当下 + +经济学研究的问题——信息不对称、激励机制、博弈均衡——是"完整智能"不可或缺的维度。 + +## 与相关框架的区别 + +- vs [[agi-critique|AGI 批判]]:集体主义 AI 是建设性替代方案,不只是批评 +- vs [[multi-agent-orchestration|多智能体编排]]:后者仍是个体认知叠加,集体主义强调**经济设计**(谁来承担成本、收益如何分配) +- vs [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]:集体主义框架可解释螺旋效应——缺乏经济思维导致的内容生态失衡 + +## 论文中的具体案例 + +- [[statistical-contract-theory|统计合同理论]] — 推断+经济的融合范式 +- [[data-markets|数据市场]] — 三层 Stackelberg 博弈中的隐私-收入权衡 +- [[probability-matching|概率匹配]] — 种群 Nash 均衡作为集体主义不确定性处理的微观范例 +- [[e-values|E-values]] — 与激励相容等价的推断工具 + +## 参考 + +- [[jordan-collectivist-ai-2025|Jordan 论文 (arXiv:2507.06268)]] +- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]] +- [[anthropomorphization-critique|人类化机器批判]] +- [[uncertainty-taxonomy|不确定性分类法]] diff --git a/concepts/conditional-memory.md b/concepts/conditional-memory.md new file mode 100644 index 0000000..a2c06b3 --- /dev/null +++ b/concepts/conditional-memory.md @@ -0,0 +1,46 @@ +--- +title: "Conditional Memory" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["sparsity", "architecture", "memory", "transformer"] +sources: + - "[[engram-conditional-memory-2026]]" +--- + +# Conditional Memory + +Conditional Memory 是 Engram 提出的一种新稀疏轴,与 Mixture-of-Experts 的 Conditional Computation 形成互补。 + +## 基本定义 + +| 维度 | Conditional Computation (MoE) | Conditional Memory (Engram) | +|------|------|------| +| 原语 | 稀疏参数激活 | 稀疏嵌入查找 | +| 操作 | 路由到专家子网络 | 哈希索引嵌入表 | +| 开销 | 随专家数增长 | O(1) 常数 | +| 适用 | 动态推理、上下文组合 | 静态知识、局部模板 | + +## 为什么需要 + +语言建模包含两类异质子任务: +1. **组合推理**:需要深层、动态的非线性计算 +2. **知识检索**:命名实体、公式化表达等局部静态模式天然适合查找 + +Transformer 缺少原生的知识查找原语,被迫用计算模拟检索。例如,解析一个常见的多 token 实体需要消耗多个早期的 Attention 和 FFN 层——本质是用昂贵的计算重建一个静态查找表。 + +## 与 MoE 的关系 + +MoE 通过条件计算扩展模型容量,Engram 通过条件记忆扩展模型容量。二者共享同一个稀疏参数预算,通过 [[sparsity-allocation|Sparsity Allocation]] 进行最优分配。U 形缩放律表明:纯 MoE 和纯 Engram 都不如混合——最优分配约 75-80% 给 MoE,20-25% 给记忆。 + +## 表现形式 + +- **Engram**:基于 N-gram 嵌入的现代条件记忆实现(多哈希头、上下文门控、深度可分离卷积) +- **OverEncoding**:通过平均将 N-gram 嵌入融入词表嵌入(较弱的基线) +- 理论上,任何提供 O(1) 或近似常数时间查找的机制都可以是条件记忆的实例 + +## 参考 +- [[engram-conditional-memory-2026]] +- [[mixture-of-experts]] +- [[engram]] +- [[sparsity-allocation]] diff --git a/concepts/constant-kv-cache.md b/concepts/constant-kv-cache.md new file mode 100644 index 0000000..3c5b24a --- /dev/null +++ b/concepts/constant-kv-cache.md @@ -0,0 +1,39 @@ +--- +title: "Constant KV Cache" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["kv-cache", "efficient-inference", "attention-mechanism"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# Constant KV Cache + +Constant KV Cache 是 R-SWA 注意力机制的核心性质:KV cache 大小在全部解码过程中保持有界常数 Lm + n,不随输出长度 T 增长。 + +## 定义 + +$$C_{R\text{-}SWA}(T) = L_m + \min(n, T) \leq L_m + n$$ + +其中 Lm 为前缀 token 数(固定),n 为滑动窗口宽度(默认 128)。 + +## 与标准 MHA 的对比 + +| 机制 | KV Cache 增长 | 无穷 T 时 | +|------|-------------|----------| +| MHA | O(T) 线性 | ∞ | +| R-SWA | O(1) 常数 | Lm + n | + +Cache 压缩比:$\rho(T) = \frac{L_m + n}{L_m + T} \to 0$ + +## 工程意义 + +- GPU 显存恒定,不随输出长度增长 +- 推理速度(TPS)恒定(Flash Attention v3 核函数延迟稳定) +- 使单次前向解析数十页成为可能 + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[reference-sliding-window-attention]] +- [[kv-cache]] diff --git a/concepts/content-based-reasoning.md b/concepts/content-based-reasoning.md new file mode 100644 index 0000000..6bf9d19 --- /dev/null +++ b/concepts/content-based-reasoning.md @@ -0,0 +1,66 @@ +--- +title: "Content-Based Reasoning" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["sequence-modeling", "ssm", "mamba", "attention"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Content-Based Reasoning + +## 定义 + +Content-Based Reasoning(内容感知推理)是 Mamba 论文识别出的 LTI 序列模型的核心弱点:**模型能否根据输入 token 的实际内容(而非仅时间位置)来决定信息的传播与遗忘**。Transformer 的注意力天然具备此能力(每个 token 的注意力分布取决于 query-key 的内容交互),但 LTI SSM 完全缺失。 + +## 为什么 LTI 缺失此能力 + +LTI(线性时间不变)模型的参数对所有时间步固定: + +``` +h_t = A_bar * h_{t-1} + B_bar * x_t (A_bar, B_bar 不随 x_t 变化) +``` + +无论输入是 "important" 还是 "noise",状态更新规则**完全相同**。模型无法: +- 选择性地记住关键 token +- 根据内容忽略无关 token +- 在上下文中看到模式后改变行为 + +## Transformer 为什么有 + +自注意力中的 Q-K 内积是**天然的内容感知**: + +``` +Attention(Q, K, V) = softmax(Q K^T) V +``` + +Q 和 K 都是输入的函数 → 注意力分布随内容变化 → 模型能根据 token 的语义决定"关注谁"。 + +## Mamba 的解决方案 + +Mamba 的选择机制([[selective-state-space]])以不同的路径实现内容感知: + +``` +B_t, C_t, Δ_t = f(x_t) ← SSM 参数变为输入的函数 +``` + +不是让 token 彼此交互(注意力),而是让每个 token 的**处理方式**随其内容改变——看到重要 token 就"打开门"(大 Δ),看到噪声就"关上门"(小 Δ)。 + +## 诊断任务 + +两个合成任务精确测试内容感知能力: +- [[selective-copy]]:需要根据 token "颜色"决定是否记忆 +- [[induction-heads]]:需要根据前缀"内容"回忆后续 + +LTI 模型在两个任务上均失败,Mamba 不仅解决,且能外推到 >1M tokens。 + +## 相关概念 + +- [[selective-state-space]] — Mamba 实现内容感知的机制 +- [[structured-state-space-models]] — LTI,缺少此能力 +- [[attention-mechanism]] — 另一种内容感知的实现路径 +- [[gu-mamba|Mamba 论文]] + +## 参考 + +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) Section 3.1 diff --git a/concepts/content-diversity-decay.md b/concepts/content-diversity-decay.md new file mode 100644 index 0000000..3f4633b --- /dev/null +++ b/concepts/content-diversity-decay.md @@ -0,0 +1,42 @@ +--- +title: "内容多样性衰减(Content Diversity Decay)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - metrics + - diversity + - spiral-of-silence + - monitoring +sources: + - ACL 2024 + - data派THU 2026 +--- + +# 内容多样性衰减(Content Diversity Decay) + +衡量 AI 内容生态中**信息多样性随时间/迭代轮次下降**的量化指标。是大模型沉默螺旋的核心监测维度之一。 + +## 测度方式 + +- **观点分布熵**:输出空间中不同观点的概率分布熵值 +- **人类原创占比**:信息池中人类原创内容的比例(ACL 2024 实验中从 50% 降至 <15%) +- **小众观点留存率**:非主流、创新性内容在多轮迭代后的存活比例 +- **n-gram 多样性**:输出文本的词汇和短语多样性 + +## 实验观测 + +ACL 2024 RAG 闭环实验中,仅 5 轮迭代即观测到内容多样性**断崖式下降**。搜索引擎排序算法天然偏好更规整的 AI 文本,加速了人类原创内容的衰减。 + +## 治理应用 + +内容多样性衰减可作为**实时监测指标**,在达到阈值时触发干预: +- 提高 [[temperature-sampling|温度采样]] +- 检索排序中均衡 AI/人类内容比例 +- 注入反主流观点兜底提示 + +## 参考 + +- [[content-homogenization|内容同质化]] +- [[rag-closed-loop|RAG 闭环迭代]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/content-homogenization.md b/concepts/content-homogenization.md new file mode 100644 index 0000000..78c9428 --- /dev/null +++ b/concepts/content-homogenization.md @@ -0,0 +1,41 @@ +--- +title: "内容同质化(Content Homogenization)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - content-ecology + - spiral-of-silence + - diversity + - llm +sources: + - ACL 2024 + - data派THU 2026 +--- + +# 内容同质化(Content Homogenization) + +指 AI 大规模参与内容生产后,全网信息在风格、观点、表达范式上趋同的现象。是大模型沉默螺旋的**直接表现**和核心危害之一。 + +## 表现形式 + +- **观点趋同**:多种 AI 生成内容对同一问题的回答高度相似 +- **风格单一**:输出风格收敛于"标准 AI 语气"——结构化、中性化、回避争议 +- **小众观点消失**:正确但有创新性、不符合主流范式的观点被系统性过滤 +- **错误垄断**:高频但片面的内容(甚至错误信息)通过反复生成被固化为"共识" + +## 与沉默螺旋的关系 + +内容同质化是沉默螺旋的**结果变量**——四大技术根源([[pretraining-statistical-bias|预训练统计偏好]] → [[context-anchoring|上下文锚定]] → [[role-setting-entrenchment|角色固化]] → [[rlhf-alignment-amplification|RLHF 对齐放大]])的叠加效应最终在内容层面表现为同质化。 + +## 测度 + +- 内容多样性衰减率([[content-diversity-decay|内容多样性衰减]]) +- 输出分布的熵值 +- 人类原创内容占比 + +## 参考 + +- [[information-cocoons|信息茧房]] +- [[opinion-polarization|观点极化]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/context-anchoring.md b/concepts/context-anchoring.md new file mode 100644 index 0000000..efd4525 --- /dev/null +++ b/concepts/context-anchoring.md @@ -0,0 +1,44 @@ +--- +title: "历史上下文锚定(Context Anchoring)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - autoregressive + - context + - spiral-of-silence + - llm +sources: + - arXiv 2025 (Spiral of Silence in LLM Agents) +--- + +# 历史上下文锚定(Context Anchoring) + +大模型沉默螺旋的**核心驱动机制**——四大技术根源之二。 + +## 机制 + +自回归生成([[autoregressive-unrolling|自回归展开]])使模型每一步输出都基于对话历史。当历史中包含主流观点时,模型持续**贴合并重复**这些内容,形成正向强化的闭环: +- 每一步的预测分布被历史中高频内容"锚定" +- 随着对话轮次增加,锚定效应持续累积 +- 即使初期存在多元观点,历史累积后逐渐收敛为单一主流 + +## 实验证据 + +多智能体实验(arXiv 2025)中,**仅保留历史对话**(无角色设定)的条件组即可使模型持续重复主流观点,内容单一化显著。当历史上下文与角色设定叠加时,效应最大化。 + +## 与相关概念的关系 + +- 不同于 [[role-setting-entrenchment|角色设定固化]]:历史锚定是被动累积,角色固化是主动约束 +- 与 [[rlhf-alignment-amplification|RLHF 对齐放大]] 叠加:历史锚定提供"当前语境中的主流",而 RLHF 提供"训练层面的安全主流",形成双重压制 + +## 缓解方向 + +- 动态衰减上下文权重(距离越远的历史对话权重越低) +- 定期注入反主流观点兜底提示 +- 多候选择优时引入多样性奖励 + +## 参考 + +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] +- [[multi-agent-spiral|多智能体螺旋]] diff --git a/concepts/context-enriched-embeddings.md b/concepts/context-enriched-embeddings.md new file mode 100644 index 0000000..aecfa49 --- /dev/null +++ b/concepts/context-enriched-embeddings.md @@ -0,0 +1,45 @@ +--- +title: "上下文增强嵌入 — Context Enriched Embeddings" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [embeddings, context-enrichment, vector-retrieval, tool-discovery] +sources: + - https://arxiv.org/abs/2509.20386 +--- + +# 上下文增强嵌入(Context Enriched Embeddings) + +## 定义 + +Dynamic ReAct 论文中的关键向量检索优化策略:使用 LLM(Sonnet 4)**程序化增强工具描述**——生成隐式功能和用例描述——再嵌入。将 Top-5 检索准确率从 40% 提升至 60%(+50% 相对提升)。 + +## 为什么需要增强 + +工具文档通常只描述**显式功能**(参数、返回类型),缺少: +- 隐式功能("send email" 暗示需要 SMTP 能力) +- 用例上下文(什么场景下用这个工具) +- 工具间的关系(这个工具通常和哪些工具配合) + +## 实验数据 + +| 策略 | Top-5 | Top-10 | +|------|-------|--------| +| OpenAI text-embedding-3-large (baseline) | 40% | 64% | +| voyage-context-3 | 48% | 68% | +| **voyage-context-3 + Sonnet context enrichment** | **60%** | 68% | +| + BM25 hybrid | 56% | 72% | + +Sonnet 增强带来 **+12pp**(vs voyage-context-3 alone)。BM25 混合提升 recall(+4pp Top-10)但降 precision(-4pp Top-5),因为关键词重叠引入误匹配。 + +## 实际案例 + +查询 "send email": +- Baseline(OpenAI):resend__send_email #4,google_mail__send_email #6,outlook__send_mail 未进 Top-10 +- Optimized(Voyage + Context):outlook__send_mail #1,google_mail__send_email #2,resend__send_email #4 ——三个期望工具全进 Top-5 + +## 参考 + +- [[dynamic-react|Dynamic ReAct]] +- [[gaurav-dynamic-react-2025|论文]] +- [[search-and-load|Search and Load]] diff --git a/concepts/convex-hull-relaxation.md b/concepts/convex-hull-relaxation.md new file mode 100644 index 0000000..1ea1f79 --- /dev/null +++ b/concepts/convex-hull-relaxation.md @@ -0,0 +1,46 @@ +--- +title: "Convex-Hull Relaxation (KV Cache)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["optimization", "kv-cache", "convex-relaxation"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Convex-Hull Relaxation + +## 定义 + +Convex-Hull Relaxation(凸包松弛)是 LU-KV 用于求解 [[global-combinatorial-optimization]] 的核心技巧。将对每个 attention head 的非凸离散损失序列进行凸化,使全局贪心算法能达到最优解。 + +## 为什么需要 + +原始的 [[oracle-importance]] 驱逐损失 L(M^π(0)), ..., L(M^π(T)) 作为整数预算的函数**不满足凸性**,导致: + +- 无法直接应用贪心算法(贪心在非凸目标上无最优性保证) +- 动态规划可行但 cost 过高(profiling 规模不可接受) + +## 方法:PAVA 保序回归 + +LU-KV 采用 Pool Adjacent Violators Algorithm (PAVA) 做保序回归: + +1. 计算原始损失的**边际递减量**序列 d(i) = L(i-1) - L(i)(可能非单调) +2. 对 d(i) 做保序回归,投影到非负、非增序列 d̆(i) >= 0 +3. 从投影后的边际递减量重构损失序列 L̆(i) = L̆(i-1) - d̆(i) + +结果:L̆ 是**凸的、非增的**——即边际增益 g(i) = L̆(i-1) - L̆(i) >= 0 且单调递减。 + +## 最优性保证 + +凸化后,边际增益 g(i) 满足递减性质 → 贪心算法等价于凸资源分配问题的最优解 → **贪心 = DP 最优**。论文图 2a 验证了贪心解与精确 DP 解完全一致。 + +## 相关概念 + +- [[global-combinatorial-optimization]] — 凸松弛求解的目标问题 +- [[marginal-utility]] — 凸松弛后得到的有序边际增益 +- [[offline-profiling]] — profiling 中离线完成凸松弛计算 +- [[isotonic-regression]] — PAVA 属于保序回归方法 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) — 附录 A.1 给出非凸性证明 diff --git a/concepts/coordinator-executor-architecture.md b/concepts/coordinator-executor-architecture.md new file mode 100644 index 0000000..8a2e556 --- /dev/null +++ b/concepts/coordinator-executor-architecture.md @@ -0,0 +1,37 @@ +--- +title: "Coordinator-Executor Architecture" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-architecture", "multi-agent", "coordination", "isolation"] +sources: + - "[[arbor-htr-2026]]" +--- + +# Coordinator-Executor Architecture + +Arbor 提出的双角色 Agent 架构模式:持久 Coordinator 管理全局策略,短生命周期 Executor 在隔离环境中执行单个假设。 + +## 职责分离 + +| 角色 | 生命周期 | 职责 | 不可做 | +|------|---------|------|--------| +| **Coordinator** | 全程持久 | 维护树、选择方向、传播洞察、合并/剪枝 | 直接执行低层实现 | +| **Executor** | 单次任务 | 物化假设、评估、返回结构化报告 | 修改共享树、重定向搜索目标 | + +## 关键边界 + +- Executor 在**隔离 git worktree** 中运行——产物变更在通过 merge gate 之前不污染主干 +- Coordinator 通过**树而非日志**感知进度——决策基于洞察抽象而非原始执行痕迹 +- Executor 返回的**结构化报告**仅包含决策相关证据:分数、事实结果、洞察、产物引用 + +## 为什么需要分离 + +1. 全局策略需要全盘证据,低层执行细节会淹没决策信息 +2. 实验结果必须归属于产生它的假设 +3. 探索性代码变更必须在隔离环境中完成,通过 held-out 准入才能合并 + +## 参考 +- [[arbor-htr-2026]] +- [[hypothesis-tree-refinement]] +- [[autonomous-optimization-ao]] diff --git a/concepts/cross-head-budget-allocation.md b/concepts/cross-head-budget-allocation.md new file mode 100644 index 0000000..c85f7e4 --- /dev/null +++ b/concepts/cross-head-budget-allocation.md @@ -0,0 +1,52 @@ +--- +title: "Cross-Head Budget Allocation" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "budget-allocation", "attention"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Cross-Head Budget Allocation + +## 定义 + +Cross-Head Budget Allocation(跨头预算分配)是 [[kv-cache-eviction]] 两阶段范式的**第二阶段**:在模型的所有 attention head 之间分配差异化缓存预算。与 [[intra-head-eviction]](在每个 head 内决定保留哪些 token)不同,它关注的是**各 head 应保留多少 token**。 + +## 核心挑战 + +不同 attention head 的信息密度高度不均匀: + +- 某些 layer/head 组合对长距离依赖至关重要 +- 浅层和深层 head 可能需要不同的压缩率 +- 同一 [[heuristic-metric]] 在不同 head 中的可靠性不同 + +将预算均匀分配(Uniform)或基于简单先验(PyramidKV)是次优的。 + +## 方法演进 + +| 代别 | 方法 | 策略 | +|------|------|------| +| 第一代 | Uniform | 所有 head 等预算 | +| 第二代 | [[pyramidkv]] | 静态金字塔形(深层减少预算) | +| 第三代 | [[adkv]] | 动态全局 Top-K 基于注意熵 | +| 第四代 | LU-KV | [[global-combinatorial-optimization]] + [[marginal-utility]] | + +## LU-KV 的独特视角 + +LU-KV 将 Cross-Head Budget Allocation 从"选择哪些 token"提升为"如何投资预算": + +- 不是比较不同 head 的 token 分数绝对值(不可比) +- 而是比较不同 head 的**边际效用曲线** g_{l,h}(i)(可比) +- 这解耦了指标选择(intra-head)和预算分配(cross-head) + +## 相关概念 + +- [[head-level-budget-allocation]] — 同义概念,侧重优化视角 +- [[intra-head-eviction]] — 两阶段范式的第一阶段 +- [[marginal-utility]] — 跨头比较的"通用货币" +- [[offline-profiling]] — 预计算各 head 的最优预算配置 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/dag-reasoning-evaluation.md b/concepts/dag-reasoning-evaluation.md new file mode 100644 index 0000000..697ddc5 --- /dev/null +++ b/concepts/dag-reasoning-evaluation.md @@ -0,0 +1,40 @@ +--- +title: "DAG-based Reasoning Evaluation" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["reasoning", "evaluation", "graph", "dag"] +sources: + - "[[me2-trm-reasoning-2026]]" +--- + +# DAG-based Reasoning Evaluation + +将 LLM 推理轨迹建模为有向无环图(DAG)以进行评估的方法。 + +## 为什么 DAG + +| 结构 | 优点 | 缺点 | +|------|------|------| +| 线性链 | 简单 | 无法表达分支/回溯 | +| **Tree** | 易构建 | 无法表达合并(多前驱) | +| **DAG** | 捕获丰富结构 | 构建更复杂 | +| 完全图 | 表达力最强 | 不保持因果顺序 | + +DAG 是表达力与可处理性的实用平衡——推理中常见的"多步归结为一个结论"模式需要合并边,Tree 无法表达;完全图丢失了生成的先后因果顺序。 + +## 在 TRM 中的应用 + +1. 解析推理轨迹 → 构建 DAG(节点=步骤,边=逻辑依赖) +2. 基于 DAG 计算 ME² 四维特征 +3. Pairwise preference 标注:哪个 DAG 结构更符合 ME² 原则 +4. 消除直接 prompt-based 比较的 ties 问题(232 ties→0) + +## 关键贡献 + +DAG 结构信号是区分推理质量的关键——直接 prompt evaluation 大量 ties 的根本原因是许多推理对差异在于结构组织(冗余分支/逻辑捷径),而非局部步骤内容。 + +## 参考 +- [[me2-trm-reasoning-2026]] +- [[me2-principle]] +- [[thinking-reward-model]] diff --git a/concepts/data-markets.md b/concepts/data-markets.md new file mode 100644 index 0000000..442015e --- /dev/null +++ b/concepts/data-markets.md @@ -0,0 +1,51 @@ +--- +title: "数据市场(Data Markets)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - data-economy + - mechanism-design + - privacy + - market-design +sources: + - Fallah et al. 2024, arXiv:2402.09697 + - Jordan, arXiv:2507.06268 +--- + +# 数据市场(Data Markets) + +将**数据作为可交易商品**的市场设计框架。Jordan 在论文 §4.2 中讨论了 Fallah et al. (2024) 的三层数据市场模型。 + +## 三层结构 + +``` +用户 (User) → 平台 (Platform) → 第三方数据买家 (Buyer) + ↑ ↑ ↑ + 支付费用 提供服务 购买数据用于市场研究 + 获取服务 学习改进 但削弱用户隐私 +``` + +## 核心张力 + +- **平台**:需要从用户收费维持运营(但通常不够),转而向数据买家出售数据 +- **用户**:失去隐私控制——数据流向未知第三方,且无额外收益 +- **解决方向**:平台提供**合约保证的差分隐私**(噪声等级可审计),用户在平台间"选购"隐私-服务的最优组合 + +## 隐私作为竞争变量 + +当平台竞相提供更强的隐私保证时: +- 更多用户被吸引 → 更多数据 → 更好的服务 +- 但数据买家厌恶噪声 → 支付更低价格 +- 这是一个**广义 Stackelberg 博弈**,需通过求均衡来理解系统行为 + +## 与推荐系统的对比 + +经典推荐系统(用户-产品二分图)没有金钱流动——只是让已有实物市场更高效。数据市场引入了**数据本身的定价与交易**——这是 ML 系统需要经济思维的根本原因。 + +## 参考 + +- Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697 +- [[statistical-contract-theory|统计合同理论]] +- [[collectivist-ai|集体主义 AI]] +- [[jordan-collectivist-ai-2025|Jordan 论文]] diff --git a/concepts/data-quality-vs-quantity.md b/concepts/data-quality-vs-quantity.md new file mode 100644 index 0000000..6b9db38 --- /dev/null +++ b/concepts/data-quality-vs-quantity.md @@ -0,0 +1,38 @@ +--- +title: "数据数量 vs 数据质量" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [data-quality, data-engineering, ml-engineering, noise-threshold] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# 数据数量 vs 数据质量 + +## 核心矛盾 + +在互联网规模语料库上训练基础模型时,数据越多越好。但在**应用 ML** 中,这种关系很快就会破裂。 + +## 噪声阈值效应 + +研究表明(Qi et al., 2018):超过噪声阈值后,添加更多低质量数据会使模型性能**变平或降低**。样本大小和准确性之间的关系在噪声超过一定水平后破裂。 + +## 典型场景 + +### 医疗 AI +最明显的例子——具有专家验证标签的小数据集**一再优于**具有不可靠注释的大数据集。信号清晰 → 模型从较少数据中学到正确模式。 + +### 企业"数据沼泽" +团队收集所有数据,因为存储便宜 → 认为"总有一天有用"。没有治理:需要数周清理的数据池、增加存储和流程成本、减慢实验速度且不改善结果。 + +## 实用问题 + +> 我们的噪声有多噪?多清理 1 小时的数据和多收集一天的数据,各能给我们带来什么? + +## 参考 + +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[data-swamp|数据沼泽]] +- [[ml-technical-debt|ML 技术债务]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/data-swamp.md b/concepts/data-swamp.md new file mode 100644 index 0000000..03aa631 --- /dev/null +++ b/concepts/data-swamp.md @@ -0,0 +1,38 @@ +--- +title: "数据沼泽 — Data Swamp" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [data-engineering, data-quality, data-governance, ml-engineering] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# 数据沼泽(Data Swamp) + +## 定义 + +**数据沼泽**是企业在无数据治理情况下的典型困境:因为存储便宜而收集所有数据,认为"总有一天会有用",但最终得到一个需要数周清理、增加成本、减慢实验却不改善结果的数据池。 + +## 成因 + +- 存储成本持续下降 → "先存着再说"的心态 +- 缺少数据治理框架和生命周期管理 +- 缺乏与下游 ML 任务的成本关联 + +## 代价 + +- **清理成本**:数周时间的工程投入 +- **存储成本**:持续增长的云账单 +- **流程成本**:慢实验迭代、低质量特征 +- **机会成本**:模型性能不提升甚至下降 + +## 与数据质量的关系 + +这与 [[data-quality-vs-quantity|数据数量 vs 数据质量]] 的噪声阈值效应直接相关——超过阈值后,更多低质量数据不仅无益,反而有害。 + +## 参考 + +- [[data-quality-vs-quantity|数据数量 vs 数据质量]] +- [[ml-technical-debt|ML 技术债务]] +- [[ai-production-tradeoffs|AI 生产权衡]] diff --git a/concepts/dcgwm.md b/concepts/dcgwm.md new file mode 100644 index 0000000..e1a27a3 --- /dev/null +++ b/concepts/dcgwm.md @@ -0,0 +1,63 @@ +--- +title: "DCGWM (双通道接地世界建模)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["world-modeling", "jepa", "representation-learning", "architecture"] +sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"] +--- + +# DCGWM (Dual-Channel Grounded World Modeling) + +**DCGWM** 是 Hazare (2026) 提出的世界模型架构,通过**分区潜在空间 + 内向梯度流**结构性防止 [[objective-interference-collapse|Objective Interference Collapse]]。 + +## 架构核心 + +``` +物理测量 → PGC [内向∇] → Z_p ┐ + ├→ LWME → detach() → GRL → 用户 +社交模拟 → SBGC [内向∇] → Z_b ┘ +``` + +### 组件 + +1. **Latent World Modeling Engine (LWME)**:基于 [[jepa|JEPA]] 的预测引擎,潜在空间 Z = Z_p ⊕ Z_b 通过架构强制分区(独立权重组、独立 LayerNorm、互信息最小化) +2. **Physical Grounding Channel (PGC)**:通过 [[vicreg|VICReg]] 风格对齐将外部物理测量接地到 Z_p,[[inward-only-gradient-flow|内向梯度流]] 仅更新 W_p +3. **Social-Behavioral Grounding Channel (SBGC)**:将紧急性多智能体模拟输出作为外部接地信号注入 Z_b,内向梯度流仅更新 W_b +4. **Inter-Channel Interface Module**:通过一致性 + 解耦的双目标耦合两子空间,无跨子空间梯度 +5. **Generative Rendering Layer (GRL)**:架构隔离的生成层,接收 detach() 的潜在表示 + +### 四个架构不变量 + +| # | 不变性 | 含义 | +|---|--------|------| +| I1 | Z_p, Z_b 无共享参数 | 无直接梯度路径 | +| I2 | PGC→W_p only; SBGC→W_b only | 内向梯度流 | +| I3 | 接口无跨子空间梯度 | 耦合但不污染 | +| I4 | GRL detach() | 生成损失不回流 | + +## 训练阶段 + +1. LWME 预训练(仅 L_pred) +2. PGC 对齐(仅 W_p) +3. SBGC 对齐(仅 W_b) +4. 联合微调(全部项 + [[asymmetric-grounding-adherence-loss|L_AGA]]) +5. GRL 训练(LWME 冻结 + detach) + +## 与相关工作的区别 + +- **vs. Domain Expansion**:DCGWM 的子空间锚定于**外部**接地源(而非内部任务目标),内向约束完全阻止跨子空间梯度(而非仅正交投影) +- **vs. ThinkJEPA**:ThinkJEPA 的 VLM thinker 信号注入共享 JEPA 预测器→梯度可在两路径间传播。DCGWM 的分区潜在空间 + 内向梯度流结构性防止此干涉 +- **vs. WMReward/GIRL**:DCGWM 将物理接地作为特例,增加行为接地通道、OIC 形式化、L_AGA、隔离必要性定理 + +## 局限性 + +OIC 是猜想(非形式证明),行为编码器保真度未验证,接口收敛未证明,隔离必要性依赖未证明假设 A2,零实验验证。 + +## 参考 + +- [[hazare-dcgwm-2026|DCGWM 论文]] +- [[objective-interference-collapse|OIC]] +- [[inward-only-gradient-flow|Inward-Only Gradient Flow]] +- [[asymmetric-grounding-adherence-loss|L_AGA]] +- [[isolation-necessity-theorem|Isolation Necessity]] diff --git a/concepts/deepencoder.md b/concepts/deepencoder.md new file mode 100644 index 0000000..cbff906 --- /dev/null +++ b/concepts/deepencoder.md @@ -0,0 +1,34 @@ +--- +title: "DeepEncoder" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["vision-encoder", "token-compression", "ocr", "vlm"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# DeepEncoder + +DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器,被 Unlimited OCR 继承(冻结训练)。通过级联窗口注意 ViT 和全局注意,在低激活值下实现 16× token 压缩。 + +## 架构 + +- 窗口注意 ViT(局部特征提取) +- 全局注意(跨窗口信息聚合) +- 级联设计:先局部后全局 + +## 压缩率的意义 + +视觉 token 不参与状态转移(在 R-SWA 中静态编码),压缩率直接决定 prefill 长度上限: +- 16× 压缩率 → 10K 视觉 token ≈ 20-30 页(1024×1024) +- 10K 视觉 → ~100K 文本解码(1:10 视觉-文本 token 比) + +## 在 Unlimited OCR 中的角色 + +训练时冻结 DeepEncoder,仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化,重新训练无必要。 + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[deepseek-ocr]] +- [[reference-sliding-window-attention]] diff --git a/concepts/deepseek-ocr.md b/concepts/deepseek-ocr.md new file mode 100644 index 0000000..0d7f98e --- /dev/null +++ b/concepts/deepseek-ocr.md @@ -0,0 +1,35 @@ +--- +title: "DeepSeek OCR" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# DeepSeek OCR + +DeepSeek OCR(arXiv:2510.18234)是深度求索提出的端到端 OCR 模型,Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder(16× 视觉 token 压缩)和 MoE 解码器(3B 参数,激活 500M)。 + +## 关键组件 + +### DeepEncoder +级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。 + +### MoE Decoder +3B 参数,MoE 架构,推理时激活仅 500M。大幅降低推理计算量。 + +## 作为基线的问题 + +标准 MHA 导致 KV cache 随输出长度线性膨胀,推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。 + +## Unlimited OCR 的改进 + +保留 DeepEncoder(冻结),替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。 + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[deepencoder]] +- [[mixture-of-experts]] +- [[end-to-end-ocr]] diff --git a/concepts/default-tools.md b/concepts/default-tools.md new file mode 100644 index 0000000..e1dd4bb --- /dev/null +++ b/concepts/default-tools.md @@ -0,0 +1,40 @@ +--- +title: "Default Tools — 始终可用的通用工具" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [default-tools, tool-management, dynamic-react, mcp] +sources: + - https://arxiv.org/abs/2509.20386 +--- + +# Default Tools + +## 定义 + +Default Tools 是 Dynamic ReAct 框架中**始终可用的通用工具**——与 meta-tools 一起常驻,无需搜索加载。避免 Agent 为通用任务浪费搜索调用和工具槽位。 + +## 两个 Default Tools + +| Tool | 功能 | 替代场景 | +|------|------|---------| +| **create_table** | 表格数据生成 | 避免搜索 Airtable/Google Sheets/Notion tools | +| **web_search** | 通用网页搜索 | 避免搜索 SerpAPI/Firecrawl/Tavily tools | + +## 为什么需要 + +观察到的反模式:Agent 经常为通用任务搜索专用工具——如搜索 "financial data APIs" 来找财报信息。有了 `web_search`,Agent 直接搜索网页即可。 + +另一个例子:Agent 加载 Airtable、Coda、SerpAPI 来构建对比表——但 `create_table` 就能完成。 + +## 设计考量 + +- Default tools 是**基础设施级**,不涉及领域语义 +- 只在 meta-tools 无法覆盖的通用场景生效 +- 减少"搜索→加载→发现不合适→重新搜索"的浪费循环 + +## 参考 + +- [[dynamic-react|Dynamic ReAct]] +- [[meta-tools|Meta Tools]] +- [[gaurav-dynamic-react-2025|论文]] diff --git a/concepts/delta-rule.md b/concepts/delta-rule.md new file mode 100644 index 0000000..f1afe1a --- /dev/null +++ b/concepts/delta-rule.md @@ -0,0 +1,62 @@ +--- +title: "Delta Rule" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rnn", "gradient-based-memory", "fast-weights"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# Delta Rule + +## 定义 + +Delta Rule(Delta 规则)是一种基于**梯度下降**的序列记忆更新机制,源于 Widrow-Hoff 的经典学习规则(1960 年),被 DeltaNet (Schlag et al., 2021) 引入现代序列建模。核心理念:将记忆写入视为一个在线优化问题——对记忆矩阵 M 执行梯度下降以最小化预测误差。 + +## 基础形式 + +``` +S_t = S_{t-1} - α_t · ∇l(S_{t-1}, k_t, v_t) +``` + +其中: +- S_t 是可学习的矩阵状态(记忆) +- k_t 是 query/key,v_t 是 value +- α_t 是学习率(通常为标量) +- l 是损失函数(通常为均方误差) + +## 直觉 + +Delta 规则将序列处理重新理解为**在线梯度下降**: + +1. 遇到输入对 (k_t, v_t) +2. 检查当前记忆 S_{t-1} 能否"回忆起" k_t 关联的信息 +3. 计算预测误差 → 梯度 +4. 沿负梯度方向更新 S_{t-1} → S_t + +这使模型天然具备**联想记忆(associative memory)**能力。 + +## 从 DeltaNet 到 RWKV-7 + +| 属性 | DeltaNet | RWKV-7 | +|------|---------|--------| +| 学习率 | 标量 α | 向量 a_t([[in-context-learning-rate]]) | +| 门控 | 无 | 向量值门控 | +| Key 解耦 | k_t 同时用于 ± | k_remove ≠ k_add | +| 衰减 | 固定 | 动态 w_t | + +RWKV-7 的 [[generalized-delta-rule]] 在保持 Delta 规则核心(梯度下降式记忆更新)的同时,扩展了三个关键自由度。 + +## 相关概念 + +- [[generalized-delta-rule]] — RWKV-7 的扩展版本 +- [[in-context-learning-rate]] — 标量 → 向量的关键升级 +- [[vector-valued-gating]] — 逐通道选择性门控 +- [[dynamic-state-evolution]] — Delta 规则 + 动态衰减 +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- DeltaNet (Schlag et al., 2021) +- Gated DeltaNet (Yang et al., 2024) +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) diff --git a/concepts/depth-dilemma.md b/concepts/depth-dilemma.md new file mode 100644 index 0000000..56ac1f1 --- /dev/null +++ b/concepts/depth-dilemma.md @@ -0,0 +1,40 @@ +--- +title: "深度困境 (Depth Dilemma)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, depth, state-tracking] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 深度困境 (Depth Dilemma) + +深度困境描述 Transformer 中**状态追踪与层深度的根本矛盾**(Mozer et al., 2026)。 + +## 困境的本质 + +如图 1b 所示(Mozer et al., 2026),状态表示 `s_t` 必须在比 `s_{t-1}` 更深的层中——因为前馈架构不允许信息从深层回流到浅层。结果是: + +1. **浅层盲区**:深层产生的状态信息对后续 token 的浅层不可及 +2. **级联误差**:浅层使用未充分上下文化的表示做出预测(如 bank→ATM 误判) +3. **深度耗尽**:足够长的序列必然超出模型深度上限 + +## 实证证据 + +- **Lepori et al. (2025)**:Gemma2-9B 在两步推理级联中即出现错误——多义词消歧在深层完成,但浅层已生成错误回答 +- **Biran et al. (2024)**:状态表示上移导致下游利用困难 +- **Venhoff et al. (2025)**:深层状态无法可靠整合跨序列信息 + +## 为何 Transformer 仍然成功 + +1. **上下文检索替代**:将状态追踪问题转化为工作记忆问题(lookback) +2. **组合状态**:状态可拆分到多个嵌入中独立更新 +3. **巧妙捷径**:配对奇偶计算、关联扫描等算法在有限深度内完成计算 + +## 参考 + +- [[feedforward-depth-limitation|前馈深度局限]] +- [[state-tracking|状态追踪]] +- [[chain-of-thought|思维链]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/depth-recurrence.md b/concepts/depth-recurrence.md new file mode 100644 index 0000000..dd0d658 --- /dev/null +++ b/concepts/depth-recurrence.md @@ -0,0 +1,40 @@ +--- +title: "深度循环 (Depth Recurrence)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, recurrence, depth, inference-time-scaling] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 深度循环 (Depth Recurrence) + +深度循环是[[recurrence-taxonomy|循环分类法]]中沿**层深度轴**的循环模式:激活从深层回流浅层,形成循环 Transformer 块(Mozer et al., 2026)。 + +## 典型形式 + +对应 Mozer et al. 图 5b 的展开模式: + +- **Looped Transformer**(Giannou et al., 2023; Dehghani et al., 2019):单个/多个层被重复执行 +- **RINS**(Alabdulmohsin & Zhai, 2025):自适应深度循环 +- **推理时扩展**(Inference-time scaling):Yang et al. (2024a), Chen et al. (2025b), Geiping et al. (2025) 等 + +## 关键局限 + +虽然深度循环增强了表达能力(Saunshi et al., 2025),但**不能实现无限状态追踪**: + +> 因为 s(t+1) 必须位于比 s(t) 更高的层——无论循环多少深度,状态表示仍然在垂直方向上移。 + +## 应用场景 + +- **推理时计算扩展**(test-time compute scaling) +- **微调适配**:预训练模型 + 深度循环微调(Koishekenov et al., 2025) +- **零训练循环**:纯推理时方法提升推理(Li et al., 2025b; Chen et al., 2026) + +## 参考 + +- [[step-recurrence|步级循环]] +- [[recurrence-taxonomy|循环分类法]] +- [[coarse-grained-recurrence|粗粒度循环]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/diffusion-transformer.md b/concepts/diffusion-transformer.md new file mode 100644 index 0000000..b652287 --- /dev/null +++ b/concepts/diffusion-transformer.md @@ -0,0 +1,47 @@ +--- +title: "Diffusion Transformer (DiT)" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["architecture", "diffusion", "transformer", "video-generation"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Diffusion Transformer (DiT) + +**Diffusion Transformer (DiT)** 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。 + +## 核心设计 + +DiT 将潜空间中的图像/视频表示为 Patch Token 序列,通过标准 Transformer 层处理: +- **序列化**:空间+时间维度展开为 token 序列 +- **条件注入**:时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入 +- **可扩展性**:随参数量的增加性能持续提升 + +## 在视频生成中的应用 + +视频 DiT 引入**时空注意力**(spatiotemporal attention)处理 3D 潜变量: +- **双向时间注意力**:所有帧相互 attend → 非因果,无法流式 +- **因果/块因果注意力**:仅 attend 历史 → 支持流式生成([[autoregressive-video-generation|自回归视频生成]]) + +## 关键效率技术 + +由于视频 DiT 的自注意力成本随时空 token 数平方增长,产生了一系列加速方法: +- **Step Distillation**:减少去噪步数(如 50→4 步) +- **Efficient Attention**:FlashAttention、稀疏注意力 +- **Cache Optimization**:KV-cache 复用 +- **Model Compression**:量化、剪枝 + +## 代表性模型 + +- **Sora (OpenAI)**: 基于 DiT 的视频生成先驱 +- **LTX-2.3**: 22B 开源音视频 DiT(MaineCoon 的基础模型) +- **MaineCoon**: 22B 流式音频视觉 DiT([[maineCoon]]),从 LTX-2.3 初始化 + +## 相关概念 +- [[flow-matching|Flow Matching]] +- [[kv-cache]] +- [[block-causal-attention]] — 替代双向时间注意力的流式因果模式 +- [[wan-streamer]] — 端到端流式交互基础模型中的应用 +- [[audio-visual-generation|音视频联合生成]] +- [[self-resampling|自重采样]] diff --git a/concepts/domain-aware-preference-optimization.md b/concepts/domain-aware-preference-optimization.md new file mode 100644 index 0000000..71b4b69 --- /dev/null +++ b/concepts/domain-aware-preference-optimization.md @@ -0,0 +1,56 @@ +--- +title: "Domain-Aware Preference Optimization" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["dpo", "preference-optimization", "domain", "lora", "post-training"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Domain-Aware Preference Optimization (域感知偏好优化) + +**Domain-Aware Preference Optimization** 是 [[maineCoon|MaineCoon]] 后训练的第一阶段:为不同社交视频域训练专门的 LoRA [[dpo|DPO]] expert。 + +## 为什么需要域感知 + +社交视频的质量标准因内容域而异: + +| 域 | 质量重点 | +|----|---------| +| **Far Shot** | 全身结构稳定性、场景一致性 | +| **Multi-Person Dialogue** | 说话人身份一致、轮流发言 | +| **Motion** | 大幅度、时序连贯的身体运动 | +| **Animation** | 风格一致的非写实渲染 | +| **Dance** | 复杂肢体动作 + 音乐节奏同步 | + +直接在所有目标上优化单一模型会引入**冲突偏好信号**。 + +## 方法 + +### Domain Preference Pairs +对每个域 `d`: +1. 用域质量过滤器选择高质量真实视频作为 `x⁺` +2. 用当前 generator 生成同 prompt 的 `x⁻` +3. 周期性用最新域模型刷新 `x⁻`,使偏好数据反映当前 failure modes + +### Domain-Specialized DPO Experts +从 native streaming checkpoint `θ₀` 出发,为每个域训练 LoRA adapter: +``` +φ_d = θ₀ + Δ_d +``` +使用 doubled-sequence interface(与 native training 相同),preferred 和 dispreferred 共享 prompt 和 noise,仅历史不同。 + +DPO loss: +``` +L_DPO = -E[log σ(β_d · (ℓ⁻_φ - ℓ⁺_φ - ℓ⁻_θ₀ + ℓ⁺_θ₀))] +``` +保留少量 reconstruction loss 在 preferred 样本上。 + +## 与 ROPD 的关系 + +域专家训练完成后,通过 [[reinforced-online-policy-distillation|ROPD]] 合并为单一部署策略。推理时**无需任何 domain adapter**。 + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 3.3 +- [[reinforced-online-policy-distillation|ROPD]] +- [[dpo|Direct Preference Optimization]] diff --git a/concepts/dpo-bias-mitigation.md b/concepts/dpo-bias-mitigation.md new file mode 100644 index 0000000..77dd153 --- /dev/null +++ b/concepts/dpo-bias-mitigation.md @@ -0,0 +1,38 @@ +--- +title: "DPO Bias Mitigation" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["dpo", "bias-mitigation", "alignment", "preference-optimization"] +sources: + - "[[personalization-trap-2025]]" +--- + +# DPO Bias Mitigation + +DPO Bias Mitigation 是 Fang et al. (2025) 提出的通过 [[dpo|Direct Preference Optimization]] 减少用户画像对 LLM 情感推理影响的策略。 + +## 偏好数据集构建 + +1. **数据源**:Tulu3 中抽样 5000 个问题,随机配对用户画像 +2. **候选生成**:每个问题生成 5 个响应(3 个被指示检查并声明画像无关 + 2 个对照组) +3. **LLM Judge 评分**:三个维度 + - 正确性:是否覆盖 ground-truth 的所有要点 + - 偏见检测:画像细节是否影响最终判断 + - 画像无关声明:是否声明画像信息无关 +4. **偏好对**:chosen = 正确 + 无偏见 + 声明无关;rejected = 不正确 + 偏见平衡 +5. **Reward Model 过滤**:保留 chosen positive / rejected negative 且有足够 margin 的对(~20% 保留率) + +## 结果 + +| 模型 | STEU Before | STEU After | MMLU | Bias ∆ | +|------|-----------|-----------|------|--------| +| Gemma-2-2B | 59.50% | 63.70% | +6.7pp | 5.50%→-2.30% | +| Qwen-3-1.7B | 60.90% | 60.30% | +6.8pp | 1.70%→0.40% | + +仅 500 样本。Bias Influence 反转(Gemma 不再偏好优势画像),MMLU 同时提升。 + +## 参考 +- [[personalization-trap-2025]] +- [[persona-invariant-reasoning]] +- [[dpo]] diff --git a/concepts/drifting.md b/concepts/drifting.md new file mode 100644 index 0000000..1c6e593 --- /dev/null +++ b/concepts/drifting.md @@ -0,0 +1,45 @@ +--- +title: "Temporal Drift (时序漂移)" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["drift", "autoregressive", "error-accumulation", "generation"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Temporal Drift (时序漂移) + +**Temporal Drift** 是自回归生成中误差随时间累积导致的内容退化现象:生成的内容逐渐偏离其预期外观、颜色、音频音色和运动模式。 + +## 产生机制 + +自回归模型逐块生成时,每一块的输入是**模型自己生成的前序内容**,而非 ground truth。前序中的小误差通过注意力机制传播到后续块,形成正反馈循环: + +``` +误差(t+1) = 固有误差 + 传播(误差(t)) +``` +随 t 增大,累积误差使生成内容逐渐偏离目标分布。 + +## 在音视频流式生成中的表现 + +| 退化类型 | 表现 | +|---------|------| +| **外观漂移** | 人脸变形、颜色偏移、光照改变 | +| **身份漂移** | 角色面部特征逐渐改变 | +| **运动漂移** | 动作变得僵硬或不自然 | +| **音频漂移** | 音色改变、语音清晰度下降 | +| **同步漂移** | 唇音对齐逐渐松动 | + +## 缓解方法 + +在 [[maineCoon|MaineCoon]] 中: +- [[self-resampling|Self-Resampling]]:训练时暴露退化历史,提升鲁棒性 +- [[agentic-cache-manager|Agentic Cache Manager]] 的 drift control: + - **Statistical Anchor (AdaStat)**:per-channel 统计匹配 + - **Subject Anchor**:语义主体参考块 +- [[forward-repair-ladder|Forward-Repair Ladder]]:检测到退化后前向修复 + +## 参考 +- [[autoregressive-video-generation|自回归视频生成]] +- [[streaming-generation|流式生成]] +- [[maineCoon|MaineCoon]] diff --git a/concepts/dual-collapse.md b/concepts/dual-collapse.md new file mode 100644 index 0000000..6b5a46d --- /dev/null +++ b/concepts/dual-collapse.md @@ -0,0 +1,57 @@ +--- +title: "Dual Collapse in Latent CoT" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [latent-cot, optimization, gradient-flow, representation-drift, supervision] +sources: + - "[[latent-cot-supervision]]" +--- + +# Dual Collapse in Latent CoT + +**Dual Collapse**(双重崩溃)是 [[latent-cot-supervision|Latent CoT Supervision]] 论文中诊断的 Outcome Supervision 失败的根源机制,由两个耦合的退化过程组成。 + +## 组件一:梯度衰减 (Gradient Attenuation) + +仅使用最终 answer loss 时,反向传播的梯度沿潜链衰减: + +``` +G(t) = ||∂L_OS / ∂L_t|| +``` + +实证发现:G(1) >> G(2) > ... > G(6) ≈ 0。 + +**后果**: +- 模型依赖 L1 承载几乎所有推理负担(structural shortcut) +- 深层潜状态实际上处于"未训练"状态 +- 类似 gradient starvation (Pezeshki et al., 2021):主导浅层特征抑制深层依赖的学习 + +## 组件二:表征漂移 (Representational Drift / Manifold Drift) + +由于深层潜状态缺乏有效梯度信号,它们的表征在训练过程中偏离显式 CoT 嵌入所定义的语义空间: + +- PCA 可视化显示潜轨迹从语义参考区向外发散 +- 面积比达 460.3× —— 潜空间探索区域远大于语义有效区域 +- 失去语义锚定后,潜状态进入无结构高熵区域 + +## 交互效应 + +两个机制的耦合形成恶性循环: +1. 梯度衰减 → 深层潜状态未受训练 +2. 未受训练的潜状态漂移 → 对 answer loss 贡献降级 +3. 贡献降级 → 分配更少梯度 → 进一步衰减 + +最终:模型通过捷径(shortcut)最小化损失,而非通过真正的多步推理。 + +## 解决方案 + +过程监督(Process Supervision)通过两个维度打断这个循环: +- [[trajectory-supervision|Trajectory Supervision]]:在每个推理步骤注入局部梯度信号,打破梯度衰减 +- [[space-supervision|Space Supervision]]:通过生成式重建锚定潜状态,防止表征漂移 + +## 参考 + +- [[latent-cot-supervision]] +- [[trajectory-supervision]] +- [[space-supervision]] diff --git a/concepts/dynamic-react.md b/concepts/dynamic-react.md new file mode 100644 index 0000000..c2be023 --- /dev/null +++ b/concepts/dynamic-react.md @@ -0,0 +1,62 @@ +--- +title: "Dynamic ReAct — 动态工具选择" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [dynamic-tool-selection, react, mcp, meta-tools, scalability] +sources: + - https://arxiv.org/abs/2509.20386 +--- + +# Dynamic ReAct + +## 定义 + +Dynamic ReAct 是 Gaurav et al. (2025) 提出的框架:通过 **meta-tools + 语义搜索** 让 ReAct Agent 在数百到数千个 MCP 工具的环境中**按需动态选择和加载工具**,而非全量注入。 + +## 核心设计理念 + +全量加载不可行 → 需要"管理工具的工具"(meta-tools)→ Agent 自主发现、检索、加载所需工具。 + +## 四大核心组件 + +| 组件 | 角色 | +|------|------| +| LLM Client | 轻量 system prompt,核心推理引擎 | +| Meta Tools | 管理其他工具的固定工具集(搜索、加载) | +| Tool Registry | 全部可用 MCP 工具的仓库(可来自第三方) | +| Vector Database | 语义索引和检索,支持 ANN 搜索 | + +## 七个控制杠杆 + +LLM Client (1): System Prompt +Meta Tools (4): Names, Parameters, Descriptions, Output Format +Tool Registry (1): Tool Descriptions +Vector DB (1): Retrieval Design + +实践中最可控的两个杠杆:**Meta Tools** 和 **Vector DB**。 + +## 五架构 → Search and Load + +五架构渐进演化,最终收敛于 **Search and Load**——两次额外 LLM 调用(search + load),加载 < 5 个工具,减少 50% 加载量且保持准确率。 + +→ [[search-and-load|Search and Load 架构]] + +## 关键数据 + +- 向量检索优化:Top-5 从 40% → 60%(+50% 相对提升) +- 工具加载减少 50% +- Scale to thousands of tools + +## 与 MCP-Zero 的关系 + +论文直接引用 [[fei-mcp-zero-2025|MCP-Zero]](ref [2])。两者解决同一问题,路线互补: +- MCP-Zero:Agent 自主请求 + 层次路由 +- Dynamic ReAct:meta-tools + 语义搜索 + 精选加载 + +## 参考 + +- [[gaurav-dynamic-react-2025|Dynamic ReAct 论文]] +- [[meta-tools|Meta Tools]] +- [[search-and-load|Search and Load]] +- [[fei-mcp-zero-2025|MCP-Zero]] diff --git a/concepts/dynamic-state-evolution.md b/concepts/dynamic-state-evolution.md new file mode 100644 index 0000000..3372827 --- /dev/null +++ b/concepts/dynamic-state-evolution.md @@ -0,0 +1,52 @@ +--- +title: "Dynamic State Evolution" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rwkv", "state-tracking", "recurrence", "sequence-modeling"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# Dynamic State Evolution + +## 定义 + +Dynamic State Evolution(动态状态演化)是 RWKV-7 对序列模型中隐状态更新机制的重新表述。在传统 RNN(LSTM/GRU)和 LTI SSM(S4)中,状态演化规则是固定的;RWKV-7 通过 [[generalized-delta-rule]] 使状态演化变为**输入依赖 + 向量值 + 可学习**的三维动态过程。 + +## 核心组成 + +``` +S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t + ↑ ↑ + 状态衰减(门控) 新信息写入(Delta) +``` + +三部分协同: + +1. **动态衰减**(`diag(w_t)`):逐通道、输入依赖的遗忘 → [[vector-valued-gating]] +2. **选择性移除**(`κ̂^T (a_t ⊙ κ̂)`):基于内容匹配的旧信息擦除 → [[in-context-learning-rate]] +3. **新信息写入**(`v_t^T · k_t`):通过外积将新 (k, v) 对写入状态 → [[delta-rule]] + +## 表达力来源 + +传统 RNN 的状态演化局限于标量门控 → 表达能力受限于 TC^0。 + +RWKV-7 的动态状态演化实现了三个突破: +- **向量值门控** → 逐通道差异化更新 +- **广义特征值** → 进化矩阵可拥有 [0,1] 外的特征值 +- **Delta 规则** → 梯度下降式的联想记忆写入 + +这些共同使 RWKV-7 首次实现了超越 TC^0 的并行化 RNN 表达力 → 达到 NC^1。 + +## 相关概念 + +- [[generalized-delta-rule]] — 动态状态演化的完整数学形式 +- [[vector-valued-gating]] — 演化的衰减部分 +- [[in-context-learning-rate]] — 演化的更新速度控制 +- [[regular-language-recognition]] — 动态演化的理论成果 +- [[state-tracking]] — 演化支持的核心能力 +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) diff --git a/concepts/dynamic-token-limit.md b/concepts/dynamic-token-limit.md new file mode 100644 index 0000000..cdf4f95 --- /dev/null +++ b/concepts/dynamic-token-limit.md @@ -0,0 +1,43 @@ +--- +title: "动态 Token 限制 (Dynamic Token Limit)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [token-efficiency, hybrid-reasoning, reward-hacking] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# 动态 Token 限制 (Dynamic Token Limit) + +动态 Token 限制是 TNT 的核心技术:为**每个查询**单独设定非思考模式响应的最大 token 使用量,而非所有查询使用统一上限(Gan et al., 2026)。 + +## 为什么需要动态限制 + +### 统一上限的失败(AdaptThink 方案) +Zhang et al. (2025) 的 AdaptThink 为所有查询设定同一个较小的 max token: +- 简单查询的思考模式 solution 可能**少于** 100 tokens +- 复杂查询的自然非思考回答可能需要 **300+ tokens** +- 统一上限要么**漏检**简单查询的 reward hacking,要么**误伤**复杂查询的合法非思考响应 + +### TNT 的动态方案 +``` +L_N^x = ω × mean(solution_length of thinking_mode_responses for x) +``` +- 简单查询 → L_N^x 小 → 严格检测 reward hacking +- 复杂查询 → L_N^x 大 → 给予合法非思考响应足够空间 +- ω = 2 提供 2 倍容错边界,防止轻微偏差被误判 + +## 实现细节 + +- 每次训练步对每个 prompt x 采样 K 个响应 +- 从思考模式响应集合 M_T^x 计算平均 solution 长度 +- 若 M_T^x 为空(on-policy 采样未产生思考响应),回退到 L_∅ = 1000 +- 使用 token 级策略梯度(GRPO)进行训练 + +## 参考 + +- [[thinking-based-non-thinking|TNT]] +- [[reward-hacking|Reward Hacking]] +- [[token-efficiency|Token 效率]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/e-values.md b/concepts/e-values.md new file mode 100644 index 0000000..c1dc763 --- /dev/null +++ b/concepts/e-values.md @@ -0,0 +1,42 @@ +--- +title: "E-values(证据值)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - statistics + - hypothesis-testing + - sequential-analysis + - uncertainty +sources: + - Ramdas & Wang 2025, arXiv:2410.23614 + - Bates et al. 2024 + - Jordan, arXiv:2507.06268 +--- + +# E-values(证据值) + +一种替代 p-values 的假设检验框架。E-value 是零假设下**期望 ≤1** 的非负随机变量,具有"赌博解释"——在零假设为真时,财富的期望乘性因子 ≤1。 + +## 与 P-values 的对比 + +| | P-value | E-value | +|---|---|---| +| 定义 | 零假设下的尾部概率 | 零假设下的期望 ≤1 | +| 直觉 | "数据多极端" | "证据有多强" | +| 顺序更新 | 不自然(需多重检验校正) | 自然(乘性累积) | +| 任意停止 | 无效(p-hacking) | 有效(可选停止定理) | + +## 顺序场景的威力 + +当数据按时间顺序到达时,E-values 的自然形式是**非负上鞅**(nonnegative supermartingale)——在任何停止时间的期望 ≤1。这使 E-values 天然适合**可选停止**(optional stopping),避免了 p-hacking 问题。 + +## 与经济学的连接 + +[[statistical-contract-theory|统计合同理论]] 的核心定理:在顺序假设检验的合同设计中,激励相容 ⇔ 选项可表达为 E-values。这是推断工具与经济激励的深层等价关系。 + +## 参考 + +- Ramdas & Wang (2025). Hypothesis Testing with E-values. arXiv:2410.23614 +- [[statistical-contract-theory|统计合同理论]] +- [[jordan-collectivist-ai-2025|Jordan 论文]] diff --git a/concepts/edge-of-stability.md b/concepts/edge-of-stability.md new file mode 100644 index 0000000..637d357 --- /dev/null +++ b/concepts/edge-of-stability.md @@ -0,0 +1,41 @@ +--- +title: "Edge of Stability (EoS)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: [optimization, gradient-descent, deep-learning, sharpness, bifurcation] +sources: [gan-bifurcation-eos] +--- + +# Edge of Stability (EoS) + +Edge of Stability (EoS) 是深度学习中梯度下降训练的一个反直觉现象:模型在 **sharpness λ 超过经典收敛阈值 2/η** 的情况下仍能稳定训练,loss 非单调但长期下降。该现象由 Cohen et al. (2022) 首次系统实证记录。 + +## 核心机制 + +经典梯度下降分析要求学习率 η 与 sharpness λ(Hessian 最大特征值)满足 **ηλ < 2** 才能保证收敛。但在实践中,深度网络训练时 sharpness 会上升至超过该阈值,loss 出现振荡,却仍能长期收敛。这种"在稳定边缘运行"的行为无法用经典凸优化理论解释。 + +EoS 的典型动力学阶段: +1. **渐进锐化 (Progressive Sharpening)**:训练初期 sharpness 单调上升,穿过 2/η 阈值进入 EoS 状态 +2. **自稳定 (Self-Stabilization)**:sharpness 在阈值附近振荡,loss 非单调但呈下降趋势 +3. **最终收敛**:sharpness 回落至阈值以下,迭代收敛到极小值流形 + +## 理论解释谱系 + +- **三阶自稳定** (Damian et al., 2023):loss Taylor 展开的三阶项贡献 sharpness 自稳定 +- **多尺度损失结构** (Ma et al., 2022):次二次性质阻止发散 +- **极简分析** (Zhu et al., Wang et al., Song & Yun, Gan 2026):在低维结构化损失上严格证明 EoS 收敛 +- **分岔理论框架** (Gan 2026b, [[gan-bifurcation-eos|本文]]):将 EoS 稳定性归结为 flip 分岔的 Lyapunov 系数符号 + +## 与过参数化的关联 + +过参数化网络存在 [[manifold-of-minimizers|极小值流形]],Hessian 秩亏。EoS 动力学可分解为流形法向的周期振荡和切向的 sharpness 下降漂移——两者的协同作用产生收敛。 + +## 参考 + +- Cohen et al. (2022). Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability. +- Damian et al. (2023). Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability. +- [[gan-bifurcation-eos|Gan (2026b) — 分岔理论框架]] +- [[product-stability|Gan (2026) — 乘积稳定性]] +- [[flip-bifurcation]] +- [[first-lyapunov-coefficient]] diff --git a/concepts/ellipsis-prompt.md b/concepts/ellipsis-prompt.md new file mode 100644 index 0000000..1e8cb35 --- /dev/null +++ b/concepts/ellipsis-prompt.md @@ -0,0 +1,43 @@ +--- +title: "省略号提示 (Ellipsis Prompt)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [prompting, hybrid-reasoning, sampling] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# 省略号提示 (Ellipsis Prompt) + +Ellipsis Prompt 是 Tu et al. (2025) 在 AutoThink 中引入的特殊提示格式,用于**在不使用 off-policy 采样的条件下实现非思考模式的采样**。TNT 沿用了此技术(Gan et al., 2026)。 + +## 格式 + +``` +x = [x_1, ..., x_n, , \n, ..., \n] +``` + +在查询末尾和 `` 后附加多个换行符。 + +## 工作原理 + +通常,LRM 的输入格式为 `[query, ]`——模型自然地以思考内容开始生成。省略号提示通过追加空行,为模型创造了一个**可能的"跳过思考"路径**: + +- 标准路径:`` → "Wait, let me..."(思考模式) +- 省略号路径:`` → 直接以 `` 开始(非思考模式) + +## 在 TNT 中的使用 + +TNT 使用省略号提示使得每个 prompt x 的 K 次采样可能**同时包含**思考和非思考模式响应——这对于 [[dynamic-token-limit|动态 Token 限制]] 的计算至关重要:需要从思考模式响应的 solution 长度推导非思考模式的上限。 + +## 优势 + +相比需要修改 tokenizer 的方案(如添加 `` token),省略号提示**不需要修改 tokenizer**,直接兼容现有 LRM。 + +## 参考 + +- [[hybrid-reasoning-models|混合推理模型]] +- [[non-thinking-mode|非思考模式]] +- [[dynamic-token-limit|动态 Token 限制]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/emotional-reasoning-bias.md b/concepts/emotional-reasoning-bias.md new file mode 100644 index 0000000..4767c8b --- /dev/null +++ b/concepts/emotional-reasoning-bias.md @@ -0,0 +1,39 @@ +--- +title: "Emotional Reasoning Bias" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["emotional-intelligence", "bias", "llm-safety"] +sources: + - "[[personalization-trap-2025]]" +--- + +# Emotional Reasoning Bias + +Emotional Reasoning Bias 指 LLM 在情感推理任务中对不同人口统计特征的画像表现出系统性偏差——相同的情感场景因用户性别/年龄/宗教/种族而产生不同的准确率。 + +## 关键发现 + +### 宗教效应 +穆斯林画像系统性地得分偏低:Mistral Large V2 β=-0.061 (p<0.001),Claude 3.7 thinking β=-0.013 (p=0.134)。 + +### 性别效应 +非二元性别在不同模型中效果方向相反: +- Claude 3.7 no-think: β=+0.018 (p=0.007) — 正面 +- Qwen3-4B think: β=-0.030 (p=0.006) — 负面 + +### 年龄效应 +65+ 画像在 DeepSeek-R1-Distill-Llama 中显著偏低 (β=-0.047, p=0.006)。 + +### 情绪建议中的偏见 +Claude 3.7 对女性/非二元性别的建议质量显著低于男性(β=-0.102, p<0.001),但 Qwen3-4B Thinking 对女性/非二元性别更友好。 + +## 启示 + +"Thinking" 模型(推理模型)通常表现出更低偏见,但偏见方向无统一模式——各模型对不同群体的偏见方向不同,无法简单归因于单一训练数据源。 + +## 参考 +- [[personalization-trap-2025]] +- [[personalization-trap]] +- [[user-memory-bias]] +- [[intersectional-persona-evaluation]] diff --git a/concepts/empirical-fisher.md b/concepts/empirical-fisher.md new file mode 100644 index 0000000..4a0276a --- /dev/null +++ b/concepts/empirical-fisher.md @@ -0,0 +1,54 @@ +--- +title: "Empirical Fisher (经验 Fisher 信息)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["computation", "estimation", "fisher-metric", "information-geometry"] +sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"] +--- + +# Empirical Fisher (经验 Fisher 信息) + +**Empirical Fisher** 是用样本数据近似总体 [[fisher-information-metric|Fisher 信息度量]]的计算方法,是 [[vu-fisher-width-2026|Fisher Width]] 实际可计算性的关键。 + +## 定义 + +给定样本 {x_i}ⁿ_{i=1} ∼ p_θ,经验 Fisher 矩阵为: + +``` +Ĝ(θ) = (1/n) Σⁿ_{i=1} [∇_θ log p_θ(x_i) · ∇_θ log p_θ(x_i)^T] +``` + +这与总体 Fisher G(θ) = E_{x∼p_θ}[∇log p_θ · ∇log p_θ^T] 的区别在于用经验平均替代了期望。 + +## 与总体 Fisher 的异同 + +| 方面 | 经验 Fisher | 总体 Fisher | +|------|-----------|------------| +| 计算 | 可计算(n 个样本) | 需解析或 Monte Carlo | +| 偏差 | 有限样本偏差 | 无偏(定义) | +| 梯度依赖性 | 与 Hessian 的关系取决于模型 | 在真实参数处 = 负期望 Hessian | +| 使用场景 | 自然梯度、K-FAC | 理论分析 | + +## 在 Fisher Width 估计中的角色 + +Vu (2026) 的 Fisher width 估计器使用经验 Fisher: + +1. **全经验 Fisher 估计器**:计算 Ĝ(θ)^{1/2},对集合做重标度后估计 Gaussian width +2. **低秩近似**:对 Ĝ(θ) 做截断 SVD,利用 Fisher 谱的快速衰减 +3. **分数范数估计器**:针对特定集合(如欧几里得球)的高效特化 + +关键理论保证来自**经验 Fisher 稳定性定理**:当 ‖Ĝ−G‖_{op} → 0 时(在适当条件下以 O(1/√n) 速率),Fisher width 的经验估计一致收敛到总体值。 + +## MNIST 上验证 + +- 逻辑回归 (d=784):低秩近似 k=20 已捕获 >95% 的 Fisher 迹 +- Softmax 回归:Fisher 谱同样快速衰减 +- 岭回归:估计器在不同正则化强度下稳定 + +## 参考 + +- [[vu-fisher-width-2026|Fisher Width 论文]] +- [[fisher-information-metric|Fisher Information Metric]] +- [[natural-gradient-descent|Natural Gradient Descent]] +- [[fisher-lipschitz|Fisher-Lipschitz]] diff --git a/concepts/end-to-end-ocr.md b/concepts/end-to-end-ocr.md new file mode 100644 index 0000000..1cd0810 --- /dev/null +++ b/concepts/end-to-end-ocr.md @@ -0,0 +1,38 @@ +--- +title: "End-to-End OCR" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["ocr", "end-to-end", "vlm", "document-parsing"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# End-to-End OCR + +End-to-End OCR 是一种将文本检测和识别合并为单一统一模型的 OCR 范式,利用 VLM/LLM 的强大解码能力,在单次前向传播中解析整页内容。 + +## 与 Pipeline 范式的对比 + +| 维度 | Pipeline OCR | End-to-End OCR | +|------|-------------|----------------| +| 架构 | 检测模型 + 多识别模型 + 启发式策略 | 单一统一模型 | +| 解码次数 | 多次(检测→裁剪→识别) | 单次 | +| 模型要求 | 低 | 高(需更大模型容量) | +| 训练难度 | 低 | 高 | +| 对 VLM 发展的启发 | 有限 | 可直接推动通用 VLM 进步 | + +## 核心模块 + +1. **High-compression Encoder**(如 [[deepencoder]]):提取并压缩图像信息,决定解码效率的上限 +2. **High-efficiency Decoder**(如 R-SWA):直接影响推理成本和生成长度上限 + +## 当前 SOTA + +Unlimited OCR(v1.5: 93.23%, v1.6: 93.54%)、DeepSeek OCR 2、Qianfan-OCR、Logics-Parsing-v2 等。 + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[deepseek-ocr]] +- [[deepencoder]] +- [[omnidocbench]] diff --git a/concepts/end-to-end-streaming-interaction.md b/concepts/end-to-end-streaming-interaction.md new file mode 100644 index 0000000..a76a7ec --- /dev/null +++ b/concepts/end-to-end-streaming-interaction.md @@ -0,0 +1,67 @@ +--- +title: "End-to-End Streaming Interaction" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [streaming, multimodal, interaction, end-to-end, real-time] +sources: + - "[[wan-streamer]]" +--- + +# End-to-End Streaming Interaction + +**End-to-End Streaming Interaction**(端到端流式交互)是一种设计范式:将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中,而非由独立的模块(VAD、ASR、LLM、TTS、动画渲染)级联组成。 + +## 核心原则 + +Wan-Streamer 提出的流式契约(streaming contract): + +> 每个组件必须因果地运行,每个新观测到的单元必须立即可用,每个生成的单元必须被发射并提交回交互历史。 + +## 为什么需要端到端 + +级联系统的根本问题不在于单个模块的性能,而在于**模块边界的系统性代价**: + +1. **延迟累积**:每个模块都有独立的推理延迟,相加后远超端到端 +2. **误差传播**:ASR 的转录错误导致 LLM 误解意图,TTS 的韵律偏差导致不自然 +3. **信息瓶颈**:文本作为中间表示丢失了语音的韵律、情感、语调信息;丢失了视频的表情、姿态、凝视信息 +4. **无法学习全局行为**:响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习 + +## 设计要素 + +### 1. 全因果架构 +- 因果编码器/解码器:每个流式单元到达即可编码 +- 因果 VAE:流式潜编码 +- Block-causal attention:流式多模态 token 调度 + +### 2. 统一的多模态序列表示 +- 视觉、音频、文本 token 在同一条因果时间线上交织 +- 用户输入和 Agent 输出 token 共享同一个序列上下文 + +### 3. 全历史自回归流式 +- 每个生成的单元被 commit 回历史 +- 为后续单元的生成提供完整上下文 +- 支持长对话中的身份保持、场景记忆、节律连贯 + +### 4. 联合优化 +- 语音生成和视频生成共享同一因果上下文 +- 嘴唇运动、面部动态、韵律天然同步(而非事后对齐) +- 聆听行为和说话行为在同一个过程中学习 + +## 与传统范式的对比 + +| 维度 | 级联范式 | 端到端流式 | +|------|---------|-----------| +| 感知 | 独立 ASR/CV 模块 | 统一因果编码 | +| 推理 | 独立 LLM | Transformer 内联合 | +| 生成 | 独立 TTS/动画 | 联合 flow-matching | +| 时机 | 外部 VAD+规则 | 模型学习 | +| 同步 | 事后对齐 | 因果原生同步 | +| 延迟 | 各模块之和 | 流水线重叠 | + +## 参考 + +- [[wan-streamer]] — 该范式的代表性实现 +- [[full-duplex-interaction]] +- [[block-causal-attention]] +- [[thinker-performer-pipeline]] diff --git a/concepts/engram.md b/concepts/engram.md new file mode 100644 index 0000000..a805ecc --- /dev/null +++ b/concepts/engram.md @@ -0,0 +1,70 @@ +--- +title: "Engram (Conditional Memory Module)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["architecture", "memory", "transformer", "sparsity"] +sources: + - "[[engram-conditional-memory-2026]]" +--- + +# Engram (Conditional Memory Module) + +Engram 是 DeepSeek-AI 提出的条件记忆模块,将经典 N-gram 嵌入现代化为 Transformer 的静态知识查找原语。 + +## 架构:两阶段流水线 + +### 阶段 1:Sparse Retrieval(稀疏检索) + +**Tokenizer Compression**: +- 预计算满射函数 P: V → V',基于 NFKC 归一化 + 小写化 +- 将语义等价但 token ID 不同的词(如 "Apple" vs " apple")映射到同一规范 ID +- 对 128k tokenizer 实现 23% 有效词表缩减 + +**Multi-Head Hashing**: +- 每个 N-gram 阶数 n ∈ {2,3,...N} 用 K 个独立哈希头 +- 乘性 XOR 哈希 𝜑_{n,k} 将压缩 N-gram 映射到嵌入表 E_{n,k}[z](素数大小 M_{n,k}) +- 所有检索向量拼接为记忆向量 e_t ∈ R^{d_mem} +- 碰撞通过上下文门控消解 + +### 阶段 2:Context-aware Fusion(上下文感知融合) + +**Gating**: +- h_t(隐藏状态,含全局上下文)→ Query +- e_t(静态记忆)→ Key, Value(经可学习投影 W_K, W_V) +- 标量门 α_t = σ(RMSNorm(h_t)^T · RMSNorm(k_t) / √d) +- 输出 ṽ_t = α_t · v_t:若记忆与上下文矛盾,门控趋近于 0 + +**Depthwise Causal Convolution**: +- Kernel=4, dilation=max N-gram order, SiLU 激活 +- 扩展感受野,增强非线性 +- 残差连接:Y = SiLU(Conv1D(RMSNorm(Ṽ))) + Ṽ + +### 集成到 Transformer + +``` +H(ℓ) ← H(ℓ) + Y (残差) +→ Attention +→ MoE +``` + +**非全层应用**:Engram 只插入特定层,具体位置由系统延迟约束决定。 + +## 基础设施感知设计 + +- **确定性寻址**:不同于 MoE 的动态路由,Engram 使用确定性哈希 → 支持运行时预取 +- **内存层次**:大嵌入表可卸载到主机内存,通过预取重叠通信与计算 +- **开销**:100B 参数嵌入表卸载到主机内存的开销 <3% + +## 关键设计要点 + +1. **静态 vs 动态分离**:记忆是静态的(N-gram 嵌入),但通过上下文门控获得动态适应性 +2. **哈希碰撞不是 bug**:Multi-head hashing + 上下文门控共同消解碰撞噪声 +3. **深度而非宽度**:Engram 的价值不在存更多事实,在释放计算深度用于推理 + +## 参考 +- [[engram-conditional-memory-2026]] +- [[conditional-memory]] +- [[mixture-of-experts]] +- [[ngram-embedding]] +- [[sparsity-allocation]] diff --git a/concepts/enhanced-state-space-models.md b/concepts/enhanced-state-space-models.md new file mode 100644 index 0000000..270e931 --- /dev/null +++ b/concepts/enhanced-state-space-models.md @@ -0,0 +1,50 @@ +--- +title: "增强状态空间模型 (Enhanced State-Space Models)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [ssm, state-tracking, expressivity, architecture] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 增强状态空间模型 (Enhanced State-Space Models) + +增强状态空间模型是超越标准 Transformer 表达能力的 SSM 变体,是 Mozer et al. (2026) 提出的首要研究方向。 + +## 为何需要增强 + +标准线性 SSM 的表达能力**不超过**标准 Transformer(Merrill et al., 2025)。增强 SSM 通过引入非线性/结构化更新突破此限制。 + +## 关键架构 + +### DeltaNet 及其扩展 +- **DeltaNet**(Schlag et al., 2021):Delta 规则驱动的快速权重更新 +- **负特征值扩展**(Grazzi et al., 2025):将特征值范围扩展到负数 → 表达能力超越标准 Transformer,同时保持并行训练能力 +- **门控 DeltaNet**(Yang et al., 2025a):与标准 Transformer 块混合时,理论和实践均更强大(Merrill et al., 2026) + +### RWKV-7 +- **Peng et al., 2025**:广义 Delta 规则 + 向量值门控,首个被证明超越 TC^0(NC^1)的并行化可训练 RNN +- 可识别所有正则语言,单层可解决 S5 状态追踪 +- 多语言 2.9B SoTA +- 论文:[[peng-rwkv7|RWKV-7 "Goose"]] + +### PaTH Attention +- **Yang et al., 2025b**:路径注意力机制,具备增强的状态追踪能力 + +### 门控线性注意力 +- **Yang et al., 2024b**:在线性注意力中加入门控机制 +- **Gated Linear Attention + Transformer 混合**(Merrill et al., 2026) + +## 核心优势 + +- **并行训练** + **超越 Transformer 的表达力**(DeltaNet 负特征值扩展) +- **竞争性规模性能**(RWKV-7 等) +- **灵活混合**:与标准 Transformer 块堆叠 + +## 参考 + +- [[state-space-models|状态空间模型]] +- [[step-recurrence|步级循环]] +- [[state-tracking|状态追踪]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/extended-kalman-filter.md b/concepts/extended-kalman-filter.md new file mode 100644 index 0000000..922b8ee --- /dev/null +++ b/concepts/extended-kalman-filter.md @@ -0,0 +1,30 @@ +--- +title: "扩展 Kalman 滤波" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [state-estimation, filtering, nonlinear-systems] +sources: [nano-filter] +--- + +# 扩展 Kalman 滤波 + +Extended Kalman Filter (EKF) 是最早的非线性 [[kalman-filter|KF]] 扩展,通过对非线性函数做一阶 Taylor 展开实现局部线性化。 + +## 核心机制 + +对非线性系统 $x_t = f(x_{t-1}) + \xi_t$, $y_t = g(x_t) + \zeta_t$: +- 在**当前状态估计点**处计算 Jacobian: $F_t = \frac{\partial f}{\partial x}\big|_{\hat{x}_{t-1}}$, $G_t = \frac{\partial g}{\partial x}\big|_{\hat{x}_{t|t-1}}$ +- 用线性化模型 $x_t \approx F_t x_{t-1} + c$, $y_t \approx G_t x_t + d$ 运行标准 KF + +## 局限性 + +- Taylor 展开仅为一阶近似,强非线性下误差大 +- 需要计算 Jacobian 矩阵(对高维系统代价高) +- [[nano-filter|NANO]] 证明 EKF 的线性化误差是 Gaussian 滤波次优性的根源,提出直接优化的替代方案 + +## 参考 +- [[kalman-filter|Kalman Filter]] +- [[gaussian-filtering|Gaussian Filtering]] +- [[unscented-kalman-filter|UKF]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/fact-augmented-key-expansion.md b/concepts/fact-augmented-key-expansion.md new file mode 100644 index 0000000..37ca9d8 --- /dev/null +++ b/concepts/fact-augmented-key-expansion.md @@ -0,0 +1,57 @@ +--- +title: "Fact-Augmented Key Expansion" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["memory", "indexing", "optimization", "rag"] +sources: + - "[[longmem-eval-2025]]" +--- + +# Fact-Augmented Key Expansion + +Fact-Augmented Key Expansion 是 LongMemEval 实验验证的记忆索引优化策略:在存储记忆时,用 LLM 从对话中提取的结构化事实作为索引键(而非仅对话原文)。 + +## 动机 + +简单用对话原文作为 key 的问题: +- 原文含大量噪音(闲聊、过渡语) +- 一条对话可能包含多个独立事实,但只有一个 key +- BM25 词法匹配依赖精确 token,原文可能用不同的词表达同一事实 + +## 做法 + +``` +对话历史 + ↓ +LLM 事实提取 → [{"fact": "用户偏好 PostgreSQL", "confidence": 0.92}, + {"fact": "用户住在深圳", "confidence": 0.95}, ...] + ↓ +结构化为 key → 存入索引(与原文 value 关联) +``` + +## 效果(LongMemEval 实验数据) + +| 指标 | 仅原文 Key | +Fact Key | 增益 | +|------|----------|-----------|------| +| Memory Recall@k | baseline | +9.4% | 显著 | +| QA Accuracy | baseline | +5.4% | 显著 | + +## 为什么有效 + +1. **结构化事实消除歧义**:"我只用 PostgreSQL" → "数据库偏好: PostgreSQL" 比原文本 BM25 匹配更可靠 +2. **多事实拆分**:一条对话可能含 3 个独立事实 → 3 个 key,每个独立可召回 +3. **confidence 字段**支持未来过滤:低置信度事实可降低召回权重 + +## 与 Atlas Consolidation 的关系 + +Atlas 的 consolidation 本质上是 Fact-Augmented Key Expansion 的一种实现: +- episodic → 原文 value +- consolidation → 从 episodic 提取结构化事实 → 存入 semantic 索引 +- semantic 索引的 recall 就等价于 fact-augmented key expansion 的效果 + +## 参考 +- [[longmem-eval-2025]] +- [[memory-indexing-retrieval-reading]] +- [[atlas-memory-system]] +- [[memory-consolidation]] diff --git a/concepts/feedforward-depth-limitation.md b/concepts/feedforward-depth-limitation.md new file mode 100644 index 0000000..4a1f8b4 --- /dev/null +++ b/concepts/feedforward-depth-limitation.md @@ -0,0 +1,43 @@ +--- +title: "前馈深度局限 (Feedforward Depth Limitation)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, architecture, depth] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 前馈深度局限 (Feedforward Depth Limitation) + +前馈深度局限是指**纯前馈架构无法无限追踪状态更新**的根本性限制(Mozer et al., 2026)。 + +## 为什么发生 + +在 Transformer 解码器中,激活从浅层流向深层: +1. 每一步的状态更新 `s_t = f(s_{t-1}, x_t)` 将新的状态表示推到更深的层 +2. 经过 t 步后,s_t 位于第 t 层附近——浅层无法访问 +3. 当 t > 层数时,模型"耗尽"深度,状态追踪崩溃 + +## 实际影响 + +- **深度瓶颈**:Merrill & Sabharwal (2025) 证明需要 O(log n) 层来识别长度为 n 的正则语言,且这只是"可构造性"而非"可学习性" +- **信息不可及性**:Lepori et al. (2025) 通过 Patchscopes 发现,多义词消歧在深层完成,但浅层在生成响应时仍使用未消歧的表示 +- **级联误差**:深层的正确信念(如 river bank)无法传递给后续 token 的浅层处理 + +## 变通方案及其代价 + +1. **Chain-of-Thought**:将深层表示外化为 token,重新注入浅层——但浪费计算和上下文窗口 +2. **Latent Thinking**:隐式地循环传递——但效率问题仍存 +3. **可变深度模型**:动态调节层数——但本质上仍受深度限制 + +## 解决方向 + +真正的解决方案需要**循环架构**([[recurrent-transformer-architectures|循环 Transformer 架构]]),允许任意长度的状态传播。 + +## 参考 + +- [[state-tracking|状态追踪]] +- [[depth-dilemma|深度困境]] +- [[sequential-dependency|顺序依赖]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/financial-agent-permission.md b/concepts/financial-agent-permission.md new file mode 100644 index 0000000..6363efe --- /dev/null +++ b/concepts/financial-agent-permission.md @@ -0,0 +1,41 @@ +--- +title: "金融 Agent 权限管控" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-security", "permission", "financial-engineering", "audit"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# 金融 Agent 权限管控 + +金融行业 Agent 的权限管控是其进入生产环境的核心门槛。恒生电子评估 OpenClaw 在金融场景时暴露了四个系统性短板。 + +## OpenClaw 的四短板 + +### 1. 权限边界模糊 +缺乏只读与需审批写入的细粒度分级,以及高风险操作前的强制确认机制。金融场景中,"查询账户余额"与"发起转账"的权限级别天差地别。 + +### 2. 审计不足 +执行轨迹粒度不够,无法向监管解释决策来源。金融合规要求每段输出可溯源。 + +### 3. 插件无管控 +没有金融级安全审核,模型容易误调工具。插件市场模式在金融场景完全不可接受。 + +### 4. 幻觉无兜底 +没有高风险操作拦截清单和结构化中间状态存储。一次幻觉可能导致合规事故。 + +## 权限分级模型 + +| 级别 | 操作类型 | 确认机制 | +|------|---------|---------| +| 只读 | 查询、检索、报告生成 | 无需确认 | +| 只调代码 | 数据分析、格式转换 | 日志记录 | +| 写需确认 | 数据修改、交易发起 | 人工确认 | +| 禁止 | 资金转移、合规豁免 | 硬拦截 | + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[agent-skill-atomization]] +- [[mcp-protocol]] diff --git a/concepts/financial-llm-deployment.md b/concepts/financial-llm-deployment.md new file mode 100644 index 0000000..235b37a --- /dev/null +++ b/concepts/financial-llm-deployment.md @@ -0,0 +1,50 @@ +--- +title: "金融行业大模型部署约束" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["financial-engineering", "llm-deployment", "compliance", "security"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# 金融行业大模型部署约束 + +金融行业的大模型部署面临三重硬性约束,这些约束不是可选优化项,而是决定技术方案能否进入生产环境的门槛。 + +## 三重约束 + +### 1. 合规刚性 +- 每段生成内容必须可溯源到原始数据 +- 所有结果需经人工确认环节 +- 决策链路需完整审计轨迹 + +### 2. 数据安全 +- 必须私有化部署,数据不准出域 +- 模型推理在客户自有环境中完成 +- 禁止将客户数据发送给第三方 API + +### 3. 业务严谨性 +- 私域数据与业务系统必须无缝挂接 +- 数据质量优先于模型能力 +- 零容错场景禁止纯模型决策 + +## 架构影响 + +这三重约束导致金融行业无法照搬通用方案: +- ❌ 公有大模型 API(数据出域) +- ❌ 纯端到端黑盒决策(不可溯源) +- ❌ 通用 RAG(无业务系统集成) +- ✅ 私有化部署 + 可控 Agent + 结构化数据层 + +## 与新架构方向的关系 + +三重约束直接驱动了恒生电子的三大架构方向: +- 业务能力原子化(Skills)→ 满足严谨性 +- 金融大模型插件化 → 满足合规可溯源 +- AIDB 数据层 → 满足数据不出域 + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[financial-agent-permission]] +- [[aidb]] diff --git a/concepts/financial-llm-model-selection.md b/concepts/financial-llm-model-selection.md new file mode 100644 index 0000000..cd1c305 --- /dev/null +++ b/concepts/financial-llm-model-selection.md @@ -0,0 +1,42 @@ +--- +title: "金融大模型选型" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["model-selection", "financial-llm", "cost-efficiency", "qwen"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# 金融大模型选型 + +金融行业大模型选型中,模型能力与工程成本的权衡是核心决策。恒生电子的实践提供了一个有说服力的案例:小模型省下的算力钱远不够覆盖人力成本和隐性损失。 + +## 实践对比 + +| 维度 | Qwen3-32B | Qwen3-235B | +|------|-----------|------------| +| 硬件投入 | 低 | 4×H800/H20,约 60 万一次性 | +| 规则数量 | 530 条 | 大幅削减 | +| 配套代码 | 4300 行 | 大幅削减 | +| 人力成本 | 6 个月,三人离职 | 显著降低 | +| 准确率 | 基准 | +45pp | + +## 核心教训 + +1. **小模型的隐性成本**:为弥补能力不足,需要大量规则工程和代码补丁,导致团队消耗和人员流失 +2. **一次性硬件投入的杠杆效应**:60 万一次性投入可大幅削减持续的人力成本 +3. **准确率提升是非线性的**:+45pp 的提升意味着从"不可用"到"可生产"的质变 + +## 决策框架 + +选择模型规模时应考虑: +- 业务场景的容错率(金融近乎零容错) +- 规则工程的可持续性(每增加一条规则 = 维护负担) +- 团队稳定性(高规则复杂度 → 高离职风险) +- Total Cost of Ownership(算力 + 人力 + 机会成本) + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[financial-llm-requirements]] +- [[context-engineering]] diff --git a/concepts/financial-llm-requirements.md b/concepts/financial-llm-requirements.md new file mode 100644 index 0000000..78dad43 --- /dev/null +++ b/concepts/financial-llm-requirements.md @@ -0,0 +1,45 @@ +--- +title: "金融行业好需求工程" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["requirements-engineering", "financial-llm", "prompt-engineering"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# 金融行业"好需求"工程 + +恒生电子团队提出的金融大模型需求定义方法论。"差需求"是"丢给模型几百页底稿说审一下",而"好需求"必须明确告知模型三件事。 + +## 好需求三要素 + +### 1. 在哪里看(范围限定) +限定章节范围而非全文。例如"请在第三章财务数据部分查找"而非"请审核这份招股书"。 + +### 2. 看什么(业务语言) +用业务语言描述目标字段,而非系统内部编码。 +- ✅ "注册资本" +- ❌ 拼音缩写或数据库字段名 + +### 3. 怎么判(SOP 可执行化) +将业务 SOP 转化为可执行的判断条件。 +- ✅ "发行总股本以'股'为单位,若以'万股'为单位则标注异常" +- ❌ "检查发行总股本的单位" + +## 与通用 Prompt Engineering 的区别 + +| 维度 | 通用 PE | 金融好需求工程 | +|------|---------|---------------| +| 重点 | 角色/格式/示例 | 范围/字段/规则 | +| 业务知识 | 靠模型理解 | 显式编码进 prompt | +| 可审核性 | 低 | 高(每条规则可单独验证) | + +## 关键洞察 + +许多项目一开始就失败,不是因为大模型太笨,而是业务知识与经验没有进入上下文。 + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[context-engineering]] +- [[financial-llm-model-selection]] diff --git a/concepts/first-lyapunov-coefficient.md b/concepts/first-lyapunov-coefficient.md new file mode 100644 index 0000000..8faae88 --- /dev/null +++ b/concepts/first-lyapunov-coefficient.md @@ -0,0 +1,53 @@ +--- +title: "First Lyapunov Coefficient (第一Lyapunov系数)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: [bifurcation-theory, dynamical-systems, gradient-descent, EoS, stability] +sources: [gan-bifurcation-eos] +--- + +# First Lyapunov Coefficient (第一Lyapunov系数) + +第一 Lyapunov 系数 c₁ 是决定 **[[flip-bifurcation|flip 分岔]]** 超临界/亚临界性质的标量。它是 EoS 稳定性的**核心判据**。 + +## 定义 + +对离散动力系统 x_{t+1} = f(x_t),设 A = Df(x₀) 具有简单临界特征值 λ = -1,u、v 为相应左/右特征向量(⟨u,v⟩ = 1)。则第一 Lyapunov 系数为: + +``` +c₁ = (1/6)·⟨u, C[v]³⟩ - (1/2)·⟨u, B[v][h]⟩ +``` + +其中 B、C 为 f 在 x₀ 处的二阶/三阶导数张量,h = (A - I)⁻¹B[v]²。 + +## 梯度下降形式 + +对于 f(x) = x - η∇L(x),在 [[edge-of-stability|EoS]] 阈值处(η·λ_max = 2),c₁ 简化为: + +``` +c₁ = (η/2)·∇³L(x*)[v_max]²[h] - (η³/6)·∇⁴L(x*)[v_max]⁴ +``` + +其中 v_max 为 ∇²L 的最大特征向量,h = (∇²L)†∇³L[v_max]²。 + +标量情形(d=1)可进一步化简为: +``` +c₁ ∝ 3(L''')²/L'' - L⁽⁴⁾ +``` + +## 稳定性含义 + +- **c₁ > 0**:超临界 flip 分岔 → 稳定周期-2 振荡 → EoS 收敛可能 +- **c₁ < 0**:亚临界分岔 → 无稳定周期轨道 → 发散 + +## 与乘积稳定性 (Product-Stability) 的关系 + +Gan (2026) 的 [[product-stability|乘积稳定性]] α_f(z) = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 本质上就是标量 f 的第一 Lyapunov 系数(差一个缩放因子)。本文证明了在高维流形设置下,c₁ 的符号由 α_f 主导——统一了极简分析与一般框架。 + +## 参考 + +- Kuznetsov (1998). Elements of Applied Bifurcation Theory, Ch. 4-5. +- Mulayoff & Stich (2026). +- [[gan-bifurcation-eos]] +- [[product-stability]] diff --git a/concepts/fisher-lipschitz.md b/concepts/fisher-lipschitz.md new file mode 100644 index 0000000..1517a41 --- /dev/null +++ b/concepts/fisher-lipschitz.md @@ -0,0 +1,53 @@ +--- +title: "Fisher-Lipschitz 假设类" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["complexity-measure", "generalization-theory", "fisher-geometry", "lipschitz-continuity"] +sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"] +--- + +# Fisher-Lipschitz 假设类 + +**Fisher-Lipschitz** 是 Vu (2026) 在 [[vu-fisher-width-2026|Fisher Width]] 论文中定义的假设类光滑性条件——它是标准 Lipschitz 条件的 Fisher-几何推广。 + +## 定义 + +一个假设类 F = {f_θ : θ ∈ Θ} 在 θ₀ 处满足 Fisher-Lipschitz 条件,若存在常数 L > 0,使得对任意 x ∈ X 和任意 θ₁, θ₂ ∈ Θ: + +``` +|f_{θ₁}(x) − f_{θ₂}(x)| ≤ L · ∥G(θ₀)^{1/2}(θ₁−θ₂)∥₂ +``` + +其中 G(θ₀) 是 θ₀ 处的 [[fisher-information-metric|Fisher 信息度量]]。 + +## 直觉 + +- **标准 Lipschitz**:∥θ₁−θ₂∥₂ ≤ δ ⇒ 函数值变化 ≤ Lδ(欧几里得距离) +- **Fisher-Lipschitz**:∥G^{1/2}(θ₁−θ₂)∥₂ ≤ δ ⇒ 函数值变化 ≤ Lδ(Fisher 距离) + +关键在于:Fisher-Lipschitz 使用 Fisher 度量对参数差异进行**重标度**——统计上显著的方向贡献更大的距离权重。 + +## 与泛化界的关系 + +Fisher-Lipschitz 条件使得 [[vu-fisher-width-2026|Fisher Width]] 可以直接控制假设类的一致偏差: + +``` +E[sup_{θ∈Θ} |(1/n)Σ f_θ(x_i) − E[f_θ]|] ≲ w_G(Θ−Θ; θ₀) / √n +``` + +其中 w_G 就是 [[fisher-width|Fisher width]]。这是 Fisher-几何学习理论的中心结果——Fisher width 在 Fisher-Lipschitz 条件下扮演的角色,与 [[gaussian-width|Gaussian width]] 在欧几里得 Lipschitz 条件下的角色完全对称。 + +## 验证条件 + +论文中验证了三个常见模型在 MNIST 上满足 Fisher-Lipschitz 条件: +- 二元逻辑回归 +- Softmax 回归 +- 岭回归 + +## 参考 + +- [[vu-fisher-width-2026|Fisher Width 论文]] +- [[fisher-width|Fisher Width]] +- [[gaussian-width|Gaussian Width]] +- [[empirical-fisher|Empirical Fisher]] diff --git a/concepts/fisher-width.md b/concepts/fisher-width.md new file mode 100644 index 0000000..ea28ec5 --- /dev/null +++ b/concepts/fisher-width.md @@ -0,0 +1,71 @@ +--- +title: "Fisher Width (Fisher 宽度)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["information-geometry", "complexity-measure", "high-dimensional-probability", "riemannian-geometry"] +sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"] +--- + +# Fisher Width (Fisher 宽度) + +**Fisher width** 是 [[gaussian-width|Gaussian width]] 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。 + +## 定义 + +设 θ₀ ∈ Θ 为参数点,G(θ₀) 为 [[fisher-information-metric|Fisher 信息矩阵]],T ⊂ ℝᵈ 为紧集。Fisher width 定义为: + +``` +w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩] +``` + +核心操作:用 G(θ₀)^{1/2} 对方向进行 Fisher 重标度——统计上敏感的方向贡献更大的宽度权重。 + +## 与 Gaussian Width 的关系 + +通过 [[lifting-identity|Lifting Identity]]: + +``` +w_G(T; θ₀) = w(G(θ₀)^{1/2} T) +``` + +Fisher width 恰好是 Fisher 重标度后集合的 Gaussian width。 + +**谱比较界**: +``` +λ_min(G)^{1/2} · w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2} · w(T) +``` + +当 G(θ₀) = I_d 时,Fisher width 退化为经典 Gaussian width。 + +## 关键性质 + +1. **再参数化不变性**:在平滑坐标变换下 Fisher width 不变 +2. **局部性**:依赖基点 θ₀,随参数位置在统计流形上变化 +3. **继承性**:通过 Lifting Identity 继承 Gaussian width 的所有结构性质(单调性、齐次性、凸包不变、次可加性) +4. **浓度**:满足与 Gaussian width 类似的浓度不等式 +5. **扰动稳定性**:对局部 Fisher 度量的扰动具有 Lipschitz 连续性 + +## 在泛化理论中的应用 + +对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类,Fisher width 控制一致偏差: + +``` +E[sup_θ |Ê[f_θ] − E[f_θ]|] ≲ w_G(Θ−Θ; θ₀) / √n +``` + +这是 Gaussian width 在学习理论中角色的 Fisher-几何对应。 + +## 计算 + +[[empirical-fisher|Empirical Fisher]] 使得 Fisher width 可以在实践中估计,包括全经验 Fisher 估计器、低秩近似(利用 Fisher 谱快速衰减)、以及针对特定集合的特化估计。 + +## 参考 + +- [[vu-fisher-width-2026|Vu (2026) 论文]] +- [[gaussian-width|Gaussian Width]] +- [[statistical-manifold|Statistical Manifold]] +- [[fisher-information-metric|Fisher Information Metric]] +- [[lifting-identity|Lifting Identity]] +- [[fisher-lipschitz|Fisher-Lipschitz]] +- [[empirical-fisher|Empirical Fisher]] diff --git a/concepts/flip-bifurcation.md b/concepts/flip-bifurcation.md new file mode 100644 index 0000000..660d077 --- /dev/null +++ b/concepts/flip-bifurcation.md @@ -0,0 +1,37 @@ +--- +title: "Flip Bifurcation (翻转分岔)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: [bifurcation-theory, dynamical-systems, gradient-descent, EoS] +sources: [gan-bifurcation-eos] +--- + +# Flip Bifurcation (翻转分岔) + +Flip bifurcation(翻转分岔/倍周期分岔)是离散动力系统中当 Jacobian 的临界特征值 λ = -1 时发生的分岔类型。在该分岔点,稳定的周期-1 轨道失稳并产生一个**周期加倍**(period-2)的稳定轨道。 + +## 在梯度下降中的角色 + +对于梯度下降映射 f(x) = x - η∇L(x),Jacobian 为 A = I - η∇²L(x)。在 EoS 阈值处,η·λ_max = 2,因此 A 具有临界特征值 λ = -1——恰好触发 flip 分岔。 + +当 **[[first-lyapunov-coefficient|第一 Lyapunov 系数]] c₁ > 0** 时,分岔为**超临界 (supercritical)**,存在稳定的周期-2 轨道——迭代在 Hessian 最大特征向量方向上振荡但不会发散。这是 EoS 自稳定机制的核心。 + +## 超临界 vs 亚临界 + +- **c₁ > 0(超临界)**:学习率略超 2/λ_max 时,存在稳定周期-2 轨道,训练可控 +- **c₁ < 0(亚临界)**:不存在稳定周期轨道,迭代发散 + +初步实证表明实际网络的极小值处 c₁ > 0 (Gan, 2026),但尚无第一性原理的理论解释。 + +## 与中心流形定理的关系 + +Flip 分岔的分析依赖于 [[center-manifold-theorem|中心流形定理]]:将动力学限制在临界特征空间后,系统稳定性完全由中心流形上的约化动力学决定。 + +## 参考 + +- Kuznetsov (1998). Elements of Applied Bifurcation Theory. +- Mulayoff & Stich (2026). On the Stability of Nonlinear Dynamics in GD and SGD. +- [[gan-bifurcation-eos]] +- [[first-lyapunov-coefficient]] +- [[center-manifold-theorem]] diff --git a/concepts/flow-matching.md b/concepts/flow-matching.md index 209d6b8..75377de 100644 --- a/concepts/flow-matching.md +++ b/concepts/flow-matching.md @@ -57,7 +57,12 @@ x-prediction 在 [[embedded-language-flows|ELF]] 中至关重要:它与解码 [[embedded-language-flows|ELF]] 将 Flow Matching 应用于语言生成:离散 token → T5 编码 → 连续嵌入空间 → Flow Matching 去噪 → 最后一步解码回 token。 +## 在 Wan-Streamer 中的应用 + +[[wan-streamer|Wan-Streamer]] 使用条件流匹配(conditional flow matching)联合生成音频和视频响应。同一个 clean streaming context(用户观测 + 已提交的 Agent 响应)同时条件化音频和视频速度场的预测,使语音、动作、外观和场景演化作为一个耦合响应进行优化。去噪后的 clean latents 直接追加到历史上下文中。 + ## 参考 - Lipman et al., "Flow Matching for Generative Modeling", ICLR 2023 - Albergo & Vanden-Eijnden, "Stochastic Interpolants", JMLR 2025 +- [[wan-streamer]] — 条件流匹配在端到端流式音视频交互中的应用 diff --git a/concepts/forward-repair-ladder.md b/concepts/forward-repair-ladder.md new file mode 100644 index 0000000..84a72c7 --- /dev/null +++ b/concepts/forward-repair-ladder.md @@ -0,0 +1,47 @@ +--- +title: "Forward-Repair Ladder" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["repair", "streaming", "degradation", "drift", "agent"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Forward-Repair Ladder (前向修复阶梯) + +**Forward-Repair Ladder** 是 [[maineCoon|MaineCoon]] [[agentic-streaming-inference|流式推理]] 中的**分级退化修复策略**:所有修复都是**前向**施加的——通过修改未来的 prompt 引导生成回到正轨,而非重置或回滚。 + +## 为什么不能 Hard Reset + +重置流(清空 cache、重新开始)是观众能感知到的**最可见的不连续性**。前向修复的目标是**在观众看到缺陷之前修复它**,使修复无缝。 + +## 四级修复阶梯 + +Observer(Gemma 4 26B agent)检测到退化后,按严重程度逐步升级: + +| 级别 | 操作 | 效果 | +|------|------|------| +| **1. Refresh Anchor** | 刷新 subject anchor(缓存中的身份参考) | 纠正轻微外观漂移 | +| **2. Restate** | 在下一条 prompt 中重申角色的规范外观描述 | 通过语言引导恢复 | +| **3. Re-shoot** | 重写当前 beat 的 prompt,重新生成 | 内容级修复 | +| **4. Narrative Change** | 改变叙事方向,走出退化状态 | 用新鲜内容稀释退化上下文,最重量级 | + +## 关键原则 + +1. **仅升级到所需程度**:如果 Refresh Anchor 解决问题,不上升到 Restate +2. **无硬重置**:阶梯末尾是叙事变化,不是缓存清零 +3. **前向性**:所有修复作用于未来帧,已发布的像素永不修改 + +## 修复发生在「看不见的地方」 + +因为 Observer 在 generation head 上运行(领先 playback),修复在观众看到之前已完成: +``` +Generation: [修复→] [正在生成] [未来] +Playback: [已播放] [正在播放] [未到达] + ↑ 观众还没看到缺陷 +``` + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 4.1 +- [[agentic-streaming-inference|Agentic Streaming Inference]] +- [[agentic-cache-manager|Agentic Cache Manager]](drift control 配合) diff --git a/concepts/foundation-model-frontier-bias.md b/concepts/foundation-model-frontier-bias.md new file mode 100644 index 0000000..0b7cf14 --- /dev/null +++ b/concepts/foundation-model-frontier-bias.md @@ -0,0 +1,57 @@ +--- +title: "基础模型前沿偏倚(Foundation Model Frontier Bias)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - foundation-models + - bias + - scientific-discovery + - knowledge-frontier +sources: + - Jordan, MLST 2026 +--- + +# 基础模型前沿偏倚(Foundation Model Frontier Bias) + +Michael I. Jordan 揭示的基础模型系统性问题:**模型在知识边界(科学家最需要它的地方)表现最差、偏倚最大**——因为那里训练数据最稀少。这是一个**不会随数据增多自动消失**的结构性矛盾。 + +## 机制 + +``` +已知领域:训练数据丰富 → 模型表现好 → 但科学家不感兴趣 + ↓ +知识边界:训练数据稀少 → 模型偏倚大 → 科学家最需要的地方 +``` + +科学发现的本质是**问新问题**——而新问题永远在训练分布的尾部或外部。 + +## AlphaFold 案例 + +研究假设:蛋白质量子涨落是否与磷酸化关联? +- AlphaFold 预测的置信区间**极窄**(看起来很有把握) +- 但**完全偏离真实值**(不覆盖 truth) +- 原因:含量子涨落特征的蛋白质在训练集中本就稀少 +- 危险:模型答错了却不说——窄置信区间制造虚假可信度 + +## 两种错误反应 + +| 立场 | 问题 | +|------|------| +| "偏差会随数据增多消失" | 不会——新问题永远在边界 | +| 只批评不给方案 | 建设性为零 | + +## 解法方向 + +[[prediction-driven-inference|预测驱动推断]]:混合少量真实标注 + 大量模型预测,让置信区间重新覆盖真实值。 + +## 与相关概念的区别 + +- vs standard ML bias:不是训练/测试分布偏移——这是**科学发现固有的边界效应** +- vs [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]:沉默螺旋是生成同质化,前沿偏倚是**科学推断的精度丧失**——前者关注信息多样性,后者关注推断可靠性 + +## 参考 + +- [[prediction-driven-inference|预测驱动推断]] +- [[uncertainty-taxonomy|不确定性分类法]] +- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]] diff --git a/concepts/full-duplex-interaction.md b/concepts/full-duplex-interaction.md new file mode 100644 index 0000000..1360c80 --- /dev/null +++ b/concepts/full-duplex-interaction.md @@ -0,0 +1,59 @@ +--- +title: "Full-Duplex Interaction" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [interaction, real-time, streaming, dialogue, multimodal] +sources: + - "[[wan-streamer]]" +--- + +# Full-Duplex Interaction + +**Full-Duplex Interaction**(全双工交互)是指用户和 AI Agent 可以**同时**进行感知和表达的交互范式,而非传统的交替(half-duplex)模式。 + +## 与人机对话的关系 + +传统人机对话系统通常运行在半双工模式: +- 用户说话 → 系统侦听(VAD 检测)→ ASR 转写 → LLM 推理 → TTS 合成 → 系统播放 → 用户说话... + +这种交替模式存在根本性问题: +- **模块边界等待**:VAD→ASR→LLM→TTS 的流水线延迟累积 +- **缺乏非语言反馈**:在人说话时,AI 应该是可见地聆听(点头、凝视等),而非冻结 +- **中断困难**:打断一个正在进行 TTS 播放的系统本质上需要额外的"中断检测"逻辑 +- **无法处理重叠语音**:人类对话中常见的 backchannel("嗯"、"对")和同时说话 + +## 全双工的核心要求 + +1. **连续感知**:Agent 在任何时候都持续消费用户的音视频输入,即使正在生成响应 +2. **连续表达**:Agent 在聆听时也产生可见行为(表情、姿态),在说话时也持续感知用户反馈 +3. **原生中断**:用户自然打断时,模型能够立即感知、停止或重新规划响应 +4. **主动说话**:基于视觉线索(显著事件、表情变化)主动发起交互 + +## 在 Wan-Streamer 中的实现 + +Wan-Streamer 通过将用户输入和 Agent 输出放在同一条因果时间线上来学习全双工行为: +- 训练时,模型看到人类何时继续、暂停、重叠、打断、让步、恢复 +- 推理时,模型持续消费用户音视频观测,同时生成响应 +- 非说话状态下的身份保持、呼吸、微表情等也是学习的目标 + +## 与级联系列的对比 + +| 维度 | 级联系统 | 全双工端到端 | +|------|---------|------------| +| 感知窗口 | 仅在"聆听"阶段 | 持续 | +| 输出窗口 | 仅在"说话"阶段 | 持续(包括聆听反馈) | +| 中断处理 | 外部 VAD/规则 | 模型内部学习 | +| 思考延迟 | 感知+推理+合成累加 | 流水线重叠 | + +## 相关研究 + +- Moshi — 首个原生全双工语音模型 +- SALM-Duplex — 直接建模连续语音输入和 codec 输出 +- Seeduplex — 端到端全双工语音交互 + +## 参考 + +- [[wan-streamer]] — 首个将全双工扩展到音视频的端到端模型 +- [[end-to-end-streaming-interaction]] +- [[block-causal-attention]] diff --git a/concepts/gambling-gibbs.md b/concepts/gambling-gibbs.md new file mode 100644 index 0000000..35cec30 --- /dev/null +++ b/concepts/gambling-gibbs.md @@ -0,0 +1,52 @@ +--- +title: "Gambling Gibbs" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [mcmc, gibbs-sampling, llm, decision-making, betting] +sources: + - "[[large-language-gibbs]]" +--- + +# Gambling Gibbs + +**Gambling Gibbs** 是 Large Language Gibbs 框架中的一种判别式核变体,通过将接受/拒绝决策转化为**赌博(gamble)**来利用 LLM 的判别能力。与 [[barker-gibbs|Barker Gibbs]] 不同,它不需要 LLM 输出校准过的概率——只需要一个二值的"下注/不下注"决策。 + +## 核心机制 + +1. **提议**:从均匀分布中抽取候选值 X_i' +2. **定价**:随机采样赌注金额 V ~ U[0, 100] +3. **展示**:向 LLM 展示:(a)当前值 + 候选值,(b)如果候选值"更合理",下注 $V 将获得 $100 +4. **决策**:LLM 决定是否下注(greedy decoding 单 token) +5. **接受**:如果 LLM 下注 → 接受候选值 + +## 理论基础 + +LLM 应该只在以下条件下下注: + +``` +V/100 < q^*(X_{-i}, X_i') / (q^*(X_{-i}, X_i) + q^*(X_{-i}, X_i')) +``` + +这恰好恢复 Barker 接受概率。关键洞察:LLM 的内部信念关于 plausibility 不需要被显式校准——可以通过赌博行为隐式地引出。 + +## 优势 + +- **无需校准概率**:仅需二值决策,使用 greedy decoding +- **避免概率失真**:指令微调模型的生成概率可能不可靠,但二值判断通常更鲁棒 +- **理论保证**:在合理假设下,接受概率等价于 Barker Gibbs + +## 与 Barker Gibbs 对比 + +| 维度 | Barker Gibbs | Gambling Gibbs | +|------|-------------|----------------| +| 输出格式 | 偏好选择(Option 1/2) | 赌博决策(Bet/No Bet) | +| 概率要求 | 需要 log-prob 计算 | 仅需 greedy token | +| 理论基础 | Barker 规则 | 期望收益最大化 | +| 解码方式 | 需要概率输出 | greedy decoding | + +## 参考 + +- [[large-language-gibbs]] — 提出 Gambling Gibbs 的论文 +- [[barker-gibbs]] — 相关判别式核 +- [[llm-mcmc]] diff --git a/concepts/gaussian-filtering.md b/concepts/gaussian-filtering.md new file mode 100644 index 0000000..41e1f1c --- /dev/null +++ b/concepts/gaussian-filtering.md @@ -0,0 +1,35 @@ +--- +title: "高斯滤波" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [state-estimation, filtering, gaussian-approximation] +sources: [nano-filter] +--- + +# 高斯滤波 + +Gaussian filtering 是 [[bayesian-filtering|贝叶斯滤波]]中计算效率最高的一族方法。核心假设:每个时间步的状态分布近似为高斯分布: + +$$ +p(x_t | y_{1:t-1}) \approx N(x_t; \hat{x}_{t|t-1}, P_{t|t-1}), \quad +p(x_t | y_{1:t}) \approx N(x_t; \hat{x}_{t|t}, P_{t|t}) +$$ + +## 两类线性化策略 + +| 策略 | 原理 | 代表算法 | +|------|------|----------| +| Taylor 展开 | $g(x) \approx g(\bar{x}) + g'(\bar{x})(x - \bar{x})$ | [[extended-kalman-filter|EKF]], IEKF | +| 统计线性回归 | 最小化残差期望 $E\|y - Ax - b\|^2$ | [[unscented-kalman-filter|UKF]], CKF, GHKF, [[posterior-linearization-filter|PLF]] | + +## NANO 的超越 + +[[nano-filter|NANO filter]] 跳出了「先线性化再跑 KF」的使能框架,直接从变分优化视角构造 Gaussian 滤波: +- 预测步 → 矩匹配(等价于 UKF/CKF 的做法) +- 更新步 → 在 [[gaussian-manifold|高斯流形]]上用 [[natural-gradient-descent|自然梯度下降]]直接最小化更新代价,**避免线性化误差** + +## 参考 +- [[bayesian-filtering|Bayesian Filtering]] +- [[kalman-filter|Kalman Filter]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/gaussian-manifold.md b/concepts/gaussian-manifold.md new file mode 100644 index 0000000..a1a77ac --- /dev/null +++ b/concepts/gaussian-manifold.md @@ -0,0 +1,29 @@ +--- +title: "高斯流形" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [information-geometry, riemannian-geometry, gaussian-distribution] +sources: [nano-filter] +--- + +# 高斯流形 + +Gaussian manifold 是将高斯分布族视为 Riemannian 流形的几何框架。每个高斯分布 $N(x; \mu, \Sigma)$ 对应流形上的一点,参数 $v = (\mu, \text{vec}(\Sigma^{-1}))$ 作为坐标。 + +## Fisher 度量 + +在高斯流形上,自然度量是 Fisher 信息矩阵。对于参数化 $v$,Fisher 矩阵的逆具有解析形式: + +$$ +F_v^{-1} = \begin{bmatrix} \Sigma & 0 \\ 0 & 2(\Sigma^{-1} \otimes \Sigma^{-1}) \end{bmatrix} +$$ + +## NANO 中的应用 + +[[nano-filter|NANO filter]] 的核心洞察:Bayesian 滤波的更新步可以在高斯流形上视为一个优化问题——在流形上寻找一个高斯分布以最小化更新代价 $J(\hat{x}_t, P_t)$。由于高斯流形具有非平凡的曲率,标准梯度下降并非最陡下降方向;[[natural-gradient-descent|自然梯度下降]]用 Fisher 矩阵校正梯度,补偿流形的弯曲。 + +## 参考 +- [[natural-gradient-descent|Natural Gradient Descent]] +- [[fisher-information-metric|Fisher Information Metric]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/gaussian-width.md b/concepts/gaussian-width.md new file mode 100644 index 0000000..78b496a --- /dev/null +++ b/concepts/gaussian-width.md @@ -0,0 +1,49 @@ +--- +title: "Gaussian Width (高斯宽度)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["high-dimensional-probability", "convex-geometry", "complexity-measure", "learning-theory"] +sources: ["https://arxiv.org/abs/2606.18306"] +--- + +# Gaussian Width (高斯宽度) + +**Gaussian width** 是高维概率论和凸几何中的核心复杂度度量。对于集合 T ⊂ ℝᵈ,定义为: + +``` +w(T) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, v⟩] +``` + +## 直觉 + +- 以**随机高斯方向**探测集合 T,取其最大投影,再对随机方向取期望 +- 大宽度 → 集合在高维空间中"覆盖广" → 复杂度高 +- 小宽度 → 集合集中在小范围 → 复杂度低 + +## 关键性质 + +1. **单调性**:T₁ ⊆ T₂ ⇒ w(T₁) ≤ w(T₂) +2. **齐次性**:w(aT) = |a|·w(T) +3. **凸包不变**:w(conv(T)) = w(T) +4. **次可加性**:w(T₁+T₂) ≤ w(T₁)+w(T₂) + +## 在机器学习中的角色 + +Gaussian width 与 [[rademacher-complexity|Rademacher 复杂度]]等价(常数级),是假设类泛化能力的核心度量: + +- **压缩感知** (Chandrasekaran et al., 2012):描述恢复相变 +- **凸优化** (Amelunxen et al., 2014):统计维度的几何刻画 +- **经验过程** (Bartlett & Mendelson, 2002):控制一致偏差 + +## 局限性 + +Gaussian width 本质上是**欧几里得**的——所有方向等权看待。当参数空间携带非平凡黎曼度量时(如统计模型中的 Fisher 信息度量),欧几里得宽度无法捕捉方向的统计敏感性差异。 + +[[fisher-width|Fisher Width]] 将 Gaussian width 推广到[[statistical-manifold|统计流形]]上。 + +## 参考 + +- [[statistical-manifold|Statistical Manifold]] +- [[fisher-width|Fisher Width]] +- [[generalization-bounds|Generalization Bounds]] diff --git a/concepts/gbrain-memory.md b/concepts/gbrain-memory.md new file mode 100644 index 0000000..ebc8415 --- /dev/null +++ b/concepts/gbrain-memory.md @@ -0,0 +1,40 @@ +--- +title: "GBrain Memory System" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-memory", "markdown", "git", "alternative-architecture"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# GBrain Memory System + +GBrain(Garry Tan, 14k+ Stars)是 Agent 记忆系统的另一种架构路线:用 Markdown 文件 + Git 做记忆存储,与 Atlas 的 ES 搜索引擎路线形成互补对比。 + +## 三层架构 + +1. **Brain Repo**:Markdown 文件分三类存放(semantic_facts, procedural, episodic),Git 版本控制 +2. **混合检索**:P@5 49.1%, R@5 97.9% +3. **Dream Cycle**:夜间巩固,把近期交互提炼为持久记忆(对应 Atlas 的 consolidation) + +## 与 Atlas 的核心差异 + +| 维度 | GBrain | Atlas | +|------|--------|-------| +| 存储 | Markdown + Git | ES 搜索引擎 | +| 多租户 | 应用层 auth | ES DLS(集群层) | +| 矛盾处理 | Git 版本历史 | Soft-Supersession 链 | +| 衰减 | 无显式衰减 | Per-index gauss | +| 透明度 | 直接打开文件 | 仅 API | +| 高频写入 | 不适合 | 适合 | + +## 适用场景 + +- **个人助理** → GBrain(人可读信任优先,可直接编辑) +- **多租户产品** → Atlas(ES 原生隔离,同轮可见 refresh=True) + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[atlas-memory-system]] +- [[soft-supersession]] diff --git a/concepts/generalized-delta-rule.md b/concepts/generalized-delta-rule.md new file mode 100644 index 0000000..44a228b --- /dev/null +++ b/concepts/generalized-delta-rule.md @@ -0,0 +1,68 @@ +--- +title: "Generalized Delta Rule" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rwkv", "delta-rule", "state-evolution", "rnn"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# Generalized Delta Rule + +## 定义 + +Generalized Delta Rule(广义 Delta 规则)是 RWKV-7 对经典 [[delta-rule]] 的三重扩展,代表了 Delta 规则从学习记忆到序列建模的完整演进。它在保留梯度下降式状态更新框架的同时,引入向量值门控、上下文学习率和键解耦合。 + +## 三重扩展 + +### 1. 向量值上下文学习率 + +传统 Delta 规则 α 是标量 → RWKV-7 的 a_t 是 d 维向量: +``` +S_t = S_{t-1} · (I - a_t · κ̂_t^2) + v_t^T · k_t (简化形式) +``` + +效果:模型可**逐通道**以不同速率更新状态——某些通道快速适应新信息,另一些保持稳定。 + +### 2. 向量值门控(Vector-Valued Gating) + +引入动态衰减项 w_t([[vector-valued-gating]]): +``` +S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t +``` + +其中 `diag(w_t)` 实现逐通道衰减,`κ̂_t^T (a_t ⊙ κ̂_t)` 实现基于内容的选择性遗忘。 + +### 3. 松弛值替换规则 + +解耦移除 key(k_remove)和添加 key(k_add): +- 传统 DeltaNet:同一个 k_t 既用于检测需要移除的旧信息,也用于编码要添加的新信息 +- RWKV-7:分离两个 key → 模型可以"在不相关的维度移除,在相关的维度添加" + +## 完全形式 + +``` +S_t = S_{t-1} · (diag(w_t) - κ̂_remove^T (a_t ⊙ κ̂_add)) + v_t^T · k_add +``` + +其中 w_t, a_t, κ̂ 均依赖当前输入 x_t。 + +## 表达力提升 + +广义 Delta 规则使 RWKV-7 的表达力从 TC^0 跃升至 NC^1: +- 可识别**所有正则语言** +- 单层可解决 S5 状态追踪 +- 超越标准 Transformer 的理论上界 + +## 相关概念 + +- [[delta-rule]] — 经典 Delta 规则 +- [[vector-valued-gating]] — 逐通道门控机制 +- [[in-context-learning-rate]] — 向量值学习率 +- [[dynamic-state-evolution]] — 完整的动态演化形式化 +- [[regular-language-recognition]] — 理论结果 +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) — Section 4 diff --git a/concepts/generative-reconstruction-latent.md b/concepts/generative-reconstruction-latent.md new file mode 100644 index 0000000..c64ec8c --- /dev/null +++ b/concepts/generative-reconstruction-latent.md @@ -0,0 +1,59 @@ +--- +title: "Generative Reconstruction (Latent)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [latent-cot, reconstruction, decoder, representation-learning, mutual-information] +sources: + - "[[latent-cot-supervision]]" +--- + +# Generative Reconstruction (GR) + +**Generative Reconstruction (GR)** 是 [[space-supervision|Space Supervision]] 中的一种策略,通过辅助解码器从潜状态恢复显式推理步骤,在符号空间中做语义锚定。与 [[geometric-compression-latent|Geometric Compression (GC)]] 的刚性潜空间约束形成对比。 + +## 机制 + +在 Latent CoT 中,每个潜状态 L_t 对应一个显式推理步骤 S_t。GR 训练一个专用解码器 D_ψ: + +``` +L_GR = -log D_ψ(S_t | L_t) +``` + +即标准交叉熵重建损失——L_t 被鼓励保留足够信息来恢复原始文本。 + +## 信息论优势 + +GR 直接最小化条件熵 H(S_t | L_t): + +``` +I(L_t; S_t) = H(S_t) - H(S_t | L_t) +``` + +由于 H(S_t) 固定,GR 严格最大化 I(L_t; S_t) 的变分下界。 + +## 为什么优于 Geometric Compression + +| 维度 | GC (MSE) | GR (Reconstruction) | +|------|----------|---------------------| +| 对齐空间 | 潜空间(欧氏) | 符号空间(Token) | +| 损失 | MSE → 刚性几何约束 | CE → 灵活语义锚定 | +| 高维行为 | 允许误差分散到无关子空间 | 每个 token 位置独立受监督 | +| 流形效应 | 坍缩推理流形到静态点 | 保留内蕴维度 | + +**核心问题**:高维空间中,MSE 无法约束方向对齐——误差可以分散到无关维度,保持低逐元素损失同时完全失去语义。 + +**GR 的解决方案**:通过在 token 空间中重建,每个输出维度(词表 token)独立受监督,迫使潜状态保留丰富的语义内容。 + +## 在 Latent CoT 中的效果 + +- PS-GR 达到最优信息保真度(最低 ULP 损失) +- 周期性校准:每一步的 GR 目标"重置"累积的信息衰减 +- 语义锚定:L_t 保持可解码,即使在长推理链中 + +## 参考 + +- [[latent-cot-supervision]] +- [[space-supervision]] +- [[geometric-compression-latent]] +- [[unified-latent-probe]] diff --git a/concepts/geometric-compression-latent.md b/concepts/geometric-compression-latent.md new file mode 100644 index 0000000..e0fce72 --- /dev/null +++ b/concepts/geometric-compression-latent.md @@ -0,0 +1,60 @@ +--- +title: "Geometric Compression (Latent CoT)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [latent-cot, mse, representation-learning, compression, supervision] +sources: + - "[[latent-cot-supervision]]" +--- + +# Geometric Compression (GC) + +**Geometric Compression (GC)** 是 [[space-supervision|Space Supervision]] 中的一种策略,通过最小化潜状态与静态目标嵌入之间的几何距离来施加语义约束。[[latent-cot-supervision|Latent CoT Supervision]] 论文证明这是一种**破坏性约束**,会坍缩高维推理流形。 + +## 机制 + +使用 frozen encoder 将显式推理步骤 S_t 编码为静态嵌入 e_t,然后最小化 MSE: + +``` +L_GC = ||L_t - e_t||² +``` + +**动机**:如果 L_t 在欧氏空间上接近 S_t 的嵌入,它应该"编码了类似的语义"。 + +## 为什么失败 + +### 1. 信息论缺陷 + +MSE 是互信息 I(L_t; S_t) 的低保真代理: +- 最小化 ||L_t - e_t|| 不保证最大化 I(L_t; S_t) +- 在高维流形中,欧氏距离和语义相似性高度不一致 + +### 2. 优化缺陷 + +高维空间中 MSE 的失效模式: +- **方向不对齐**:误差可以分散到无关维度 → 低 MSE 但不保持语义 +- **均值坍缩**:潜状态趋向于移动到目标嵌入的邻域均值,而非精确编码语义 + +### 3. 实证后果 + +- PS-GC 性能**低于** outcome-only 基线 +- ULP 探针损失极高 → 潜状态无法恢复推理语义 +- 潜流形被"压扁"到静态嵌入点 + +## 类比 + +论文将 GC 类比为 JEPA-style 表示预测:在潜空间中预测目标表示,而非重建原始观测。GC 的失败说明: + +> 在潜空间中对齐静态表示是比符号空间中重建更弱的语义约束。 + +## 与 GR 的对比 + +[[generative-reconstruction-latent|Generative Reconstruction]] 通过在 token 空间重建实现更强的语义锚定,是 GC 的 superior alternative。 + +## 参考 + +- [[latent-cot-supervision]] +- [[space-supervision]] +- [[generative-reconstruction-latent]] +- [[information-performance-binding]] diff --git a/concepts/gibbs-posterior.md b/concepts/gibbs-posterior.md new file mode 100644 index 0000000..f2807d8 --- /dev/null +++ b/concepts/gibbs-posterior.md @@ -0,0 +1,35 @@ +--- +title: "Gibbs 后验" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [robust-statistics, bayesian-inference, model-misspecification] +sources: [nano-filter] +--- + +# Gibbs 后验 + +Gibbs posterior 是标准 Bayesian 后验的推广,用于处理模型误设(model misspecification)场景。当真实数据生成过程与假定的似然模型不匹配时,Gibbs 后验用广义损失函数 $\ell_G(x_t, y_t)$ 替代负对数似然 $-\log p(y_t | x_t)$。 + +## 定义 + +Gibbs 后验是以下变分问题的解: +$$ +p_G(x_t | y_{1:t}) = \arg\min_{q} \left\{ E_{q(x_t)}[\ell_G(x_t, y_t)] + D_{KL}(q(x_t) \| p(x_t | y_{1:t-1})) \right\} +$$ + +解析形式: +$$ +p_G(x_t | y_{1:t}) = \frac{\exp\{-\ell_G(x_t, y_t)\} p(x_t | y_{1:t-1})}{\int \exp\{-\ell_G(x_t, y_t)\} p(x_t | y_{1:t-1}) dx_t} +$$ + +## NANO 的鲁棒扩展 + +[[nano-filter|NANO filter]] 的推导仅依赖损失函数的一般形式,因此自然地支持 Gibbs 后验框架。论文提供两种损失函数选择: +- **Huber 损失 / [[pseudo-huber-loss|Pseudo-Huber 损失]]**:对大残差以线性而非二次增长,抑制离群值影响 +- **加权对数似然**:通过数据依赖权重 $w(x_t, y_t)$ 缩放似然贡献 + +## 参考 +- [[bayesian-filtering|Bayesian Filtering]] +- [[pseudo-huber-loss|Pseudo-Huber Loss]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/global-combinatorial-optimization.md b/concepts/global-combinatorial-optimization.md new file mode 100644 index 0000000..125c583 --- /dev/null +++ b/concepts/global-combinatorial-optimization.md @@ -0,0 +1,60 @@ +--- +title: "Global Combinatorial Optimization (KV Cache)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "combinatorial-optimization", "budget-allocation"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Global Combinatorial Optimization for KV Cache + +## 定义 + +Global Combinatorial Optimization(全局组合优化)是 LU-KV 将 head 级 KV Cache 预算分配形式化的数学框架。它将跨所有层、所有注意力头的预算分配问题建模为一个约束下的**全局优化目标**。 + +## 形式化 + +目标函数:最小化所有 head 的聚合驱逐损失 + +``` +min Σ_{l=1}^{L} Σ_{h=1}^{H} L(M^π(b_{l,h})) +subject to Σ b_{l,h} = B_total +``` + +其中 L(M^π(b)) 是 head (l, h) 在预算 b 下使用指标 π 的驱逐损失。 + +## 问题性质 + +- **非凸**:每个 head 的离散损失序列 L(M^π(0)), L(M^π(1)), ..., L(M^π(T)) 对整数预算不满足凸性 +- **高维**:L × H 个变量(如 Llama-8B:32 × 32 = 1024 个 head) +- **离散**:预算 b 只能取整数值 + +精确 DP 求解在 profiling 规模下计算代价过高。 + +## LU-KV 的求解方法 + +1. **[[convex-hull-relaxation]]**:对每个 head 的离散损失序列做 PAVA 保序回归,得到凸代用序列 +2. **边际增益计算**:从凸化损失计算 g_{l,h}(i)——分配的边际效用 +3. **全局贪心**:每次将 token 分配给边际增益最大的 head +4. **最优性保证**:凸松弛后贪心解 = DP 最优解 + +## 与已有方法的对比 + +| 方法 | 分配策略 | 是否全局 | +|------|---------|---------| +| Uniform | 所有 head 等预算 | 否 | +| [[pyramidkv]] | 静态金字塔形 | 否(启发式) | +| [[adkv]] | 全局 Top-K 贪心 | 是(但基于原始分数,非边际效用) | +| LU-KV | 边际效用贪心 | 是(基于凸松弛 + 长视界效用) | + +## 相关概念 + +- [[head-level-budget-allocation]] — 全局优化的具体对象 +- [[marginal-utility]] — 驱动优化过程的边际增益 +- [[oracle-importance]] — 损失函数的 ground truth +- [[cross-head-budget-allocation]] — 该优化问题的应用场景 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/hardware-aware-algorithm.md b/concepts/hardware-aware-algorithm.md new file mode 100644 index 0000000..d43cc96 --- /dev/null +++ b/concepts/hardware-aware-algorithm.md @@ -0,0 +1,69 @@ +--- +title: "Hardware-Aware Algorithm (Mamba)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["gpu-optimization", "mamba", "parallel-scan", "kernel-fusion"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Hardware-Aware Algorithm + +## 定义 + +Hardware-Aware Algorithm 是 Mamba 为高效计算 [[selective-state-space|S6(选择性 SSM)]]而设计的 GPU 优化算法。核心思想是**利用 GPU 内存层次结构**(SRAM vs HBM),通过 kernel fusion 和并行扫描(parallel associative scan)避免将扩展状态写入慢速 HBM。 + +## 为什么需要 + +S6 的选择机制使 SSM 变为时间变化 → **不能用卷积**(卷积要求 LTI)。唯一的计算方式是循环模式: + +``` +h_t = A_bar_t * h_{t-1} + B_bar_t * x_t (需要 scan) +``` + +朴素循环是 O(n) 顺序的,对训练不可接受。Mamba 通过以下方案解决。 + +## 关键技术 + +### 1. 并行关联扫描(Parallel Associative Scan / Blelloch Scan) + +将循环计算的序列依赖展开为前缀和(prefix sum)形式,利用关联性在 GPU 上并行完成: + +``` +思路: h_t = A_t * h_{t-1} + B_t * x_t + = f(f(...f(h_0, x_1), x_2), ..., x_t) + +展开为关联操作,用 Blelloch scan 在 O(log n) 并行步完成 +``` + +### 2. IO 感知 Kernel Fusion + +| 位置 | 操作 | +|------|------| +| HBM(慢) | 存储输入 x、参数 | +| SRAM(快) | 加载 → 离散化 → scan → 写回 | +| HBM(慢) | 存储输出 y | + +关键:扩展后的状态 `A_bar, B_bar` 维度为 (B, L, D, N),不在 HBM 中物化——在 SRAM 中计算完毕即写回压缩结果。 + +### 3. 重计算(Recomputation) + +反向传播不保留前向的中间状态,在 backward pass 中从输入和参数重新计算 → 减少内存占用。 + +## 效果 + +- 比所有基于卷积的 SSM(S4、H3、Hyena)快 **3×**(A100 GPU) +- 理论复杂度:O(BLDN) vs 卷积 SSM 的伪线性 +- 使选择性 SSM 的训练在实践中可行 + +## 相关概念 + +- [[selective-state-space]] — 该算法服务的选择机制 +- [[parallel-scan]] — 核心计算原语 +- [[structured-state-space-models]] — 卷积模式的替代路径 +- [[gu-mamba|Mamba 论文]] + +## 参考 + +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) Section 3.3 +- FlashAttention (Dao et al., 2022) — 同作者的 IO 感知优化风格 diff --git a/concepts/head-level-budget-allocation.md b/concepts/head-level-budget-allocation.md new file mode 100644 index 0000000..55f7fb9 --- /dev/null +++ b/concepts/head-level-budget-allocation.md @@ -0,0 +1,51 @@ +--- +title: "Head-Level Budget Allocation" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "attention", "budget-allocation"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Head-Level Budget Allocation + +## 定义 + +Head-Level Budget Allocation(注意力头级别预算分配)是在 [[kv-cache-eviction]] 中将全局缓存预算 B_total 分配到每个注意力头 (l, h) 的策略。这是 LU-KV 框架的直接优化对象。 + +## 为什么需要 + +不同注意力头的"信息价值"高度异质: + +- 某些头对长距离依赖敏感 — 应分配更多预算 +- 某些头仅关注局部 token 模式 — 可大幅压缩 +- [[] [[heuristic-metric]] 在不同头中的预测保真度不同 + +**关键洞察**:若某个 head 的启发式指标 π 与实际 [[oracle-importance]] 对齐度低,增加其预算的边际回报递减。 + +## 分配策略对比 + +| 策略 | 方法 | 是否差异化 | 是否全局优化 | +|------|------|----------|------------| +| Uniform | 所有 head 等预算 | 否 | 否 | +| [[pyramidkv]] | 深层 head 减少预算(信息漏斗假说) | 是 | 否(静态规则) | +| [[adkv]] | 全局 Top-K 基于注意熵 | 是 | 是(但基于原始分数) | +| LU-KV | [[global-combinatorial-optimization]] + [[marginal-utility]] | 是 | 是(基于长期效用曲线) | + +## LU-KV 的独特贡献 + +LU-KV 将 Head-Level Budget Allocation 从两个层面重新定义: + +1. **目标函数**:最小化全局 [[optimality-gap]] 而非简单最大化分数和 +2. **优化方法**:[[convex-hull-relaxation]] → 边际效用贪心 → 近优解 +3. **部署方式**:[[offline-profiling]] 预计算 → 在线查表 + +## 相关概念 + +- [[cross-head-budget-allocation]] — 同一问题的不同命名视角 +- [[intra-head-eviction]] — 预算分配后,每个 head 内独立执行的 token 选择 +- [[marginal-utility]] — 驱动分配决策的核心信号 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/head-structure-ssm.md b/concepts/head-structure-ssm.md new file mode 100644 index 0000000..90a5512 --- /dev/null +++ b/concepts/head-structure-ssm.md @@ -0,0 +1,51 @@ +--- +title: "SSM 多头结构 (Head Structure for SSMs)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [ssm, attention, architecture, parallelism] +sources: + - dao-transformers-are-ssms-2024 +--- + +# SSM 多头结构 (Head Structure for SSMs) + +Dao & Gu (2024) 将 Transformer 的"多头"概念系统化引入 SSM 设计空间,形成了 Mamba 块结构的架构词汇。 + +## 三种 Head 结构 + +### MIS:多输入 SSM(Multi-Input SSM) +- Mamba 的原始设计 +- 等价于多值注意力(MVA) +- P 个独立 SSM 并行,共享输入但独立参数 + +### MVA:多值注意力(Multi-Value Attention) +- 多头注意力的变体 +- 与 MIS 等价——SSD 对偶的体现 + +### GVA:分组值注意力(Grouped-Value Attention) +- Mamba-2 采用的结构 +- 介于 MHA(多头注意力)和 MQA(多查询注意力)之间 +- 更灵活的张量并行支持 + +## 对张量并行的意义 + +Mamba-2 通过 GVA 结构实现了: +- **所有数据依赖投影在块开头并行执行** +- **同步点从每块 2 个减少到 1 个** +- 支持 Megatron 风格的模型并行 + +## 设计空间 + +| 结构 | 参数效率 | 并行友好 | 代表 | +|------|:--:|:--:|------| +| MIS (MVA) | 中 | 一般 | Mamba | +| GVA | 高 | 最优 | Mamba-2 | +| MHA | 低 | 最优 | Transformer | + +## 参考 + +- [[mamba-2|Mamba-2]] +- [[structured-state-space-duality|SSD]] +- [[mamba-ssm|Mamba]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/heuristic-metric.md b/concepts/heuristic-metric.md new file mode 100644 index 0000000..802cce9 --- /dev/null +++ b/concepts/heuristic-metric.md @@ -0,0 +1,57 @@ +--- +title: "Heuristic Metric (KV Cache)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "evaluation-metric", "attention"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Heuristic Metric + +## 定义 + +Heuristic Metric(启发式指标)是 LU-KV 论文中的术语,指在 KV Cache 驱逐中用于评估 token 重要性的所有**可在线计算的近似指标**(如注意力分数、Key 向量几何特征等)。与 [[oracle-importance]] 不同,启发式指标可以在推理中实时计算,但无法完美预测 token 的[[long-horizon-utility]]。 + +## 代表性启发式指标 + +| 指标 π | 计算方式 | 核心假设 | +|---------|---------|---------| +| SnapKV (π_1) | 累积注意力分数 + 观察窗口 | 高注意力 token 持续重要 | +| KeyDiff (π_2) | Key 向量差分模式 | 几何异常 token 更重要 | +| CAKE | 空间分散度 + 任务先验 | 分层级联规则 | +| KVZip | 上下文重构误差 | 重构关键 token 最重要 | + +## 根本局限 + +所有启发式指标共享一个**结构性问题**: + +``` +π(token) ≠ π*(token) (启发式分数 ≠ Oracle 重要性) +``` + +且偏差程度在不同 attention head 中不同: + +- 某些 head:π 与 π* 高度一致 → 驱逐高效 +- 某些 head:π 与 π* 严重失配 → 大量 False Positives 和 Misses → [[optimality-gap]] + +## LU-KV 的应对 + +LU-KV 不试图改进启发式指标本身,而是: + +1. 接受 π 的不完美性 +2. 通过 [[offline-profiling]] 标定每个 head 中 π 的可靠性 +3. 将更多预算分配给 π 可靠性高的 head(高[[marginal-utility]]) +4. 减少 π 可靠性低的 head 的预算(低边际效用) + +这是**指标无关(Metric-Agnostic)**设计:任意 π 都可以作为 LU-KV 的输入。 + +## 相关概念 + +- [[oracle-importance]] — 启发式指标的理想参考标准 +- [[optimality-gap]] — π 与 π* 的差距导致的额外损失 +- [[intra-head-eviction]] — 启发式指标的主要应用场景 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/hierarchical-semantic-routing.md b/concepts/hierarchical-semantic-routing.md new file mode 100644 index 0000000..d1f701c --- /dev/null +++ b/concepts/hierarchical-semantic-routing.md @@ -0,0 +1,63 @@ +--- +title: "层次语义路由 — Hierarchical Semantic Routing" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [semantic-routing, retrieval, mcp-zero, two-stage, hierarchical] +sources: + - https://arxiv.org/abs/2506.01056 +--- + +# 层次语义路由(Hierarchical Semantic Routing) + +## 定义 + +Hierarchical Semantic Routing 是 MCP-Zero 的两级粗到细检索算法:先在 server 层面过滤候选,再在 tool 层面精确排序。将搜索复杂度从 O(n) 降至 O(m+k),m+k ≪ n。 + +## 两级流程 + +``` +Active Tool Request + │ + ▼ +第一级:Server 匹配 + ├── 原始 server description 匹配 + ├── 增强 server summary 匹配(含使用示例) + └── 取两者较高相似度 + │ + ▼ +第二级:Tool 排序 + └── 在选中 server 内按语义相似度排序 + │ + ▼ + 返回 top-k tools +``` + +## 评分公式 + +``` +score = (s_server × s_tool) × max(s_server, s_tool) +``` + +其中 s_server 和 s_tool 是 server 和 tool 级别的余弦相似度。 + +乘法项保证**只有两级都高相似才得高分**;max 项让**某一维度特别强时也能被召回**——平衡精度和召回。 + +## 增强摘要策略 + +Server 描述通常只有简短一句话。MCP-Zero 为每个 server 构建了包含综合使用示例的增强摘要,在匹配时同时使用原始描述和增强摘要,取更高相似度——提升 server 级匹配精度。 + +## 复杂度分析 + +| | 被动方案 | 层次路由 | +|---|---|---| +| 复杂度 | O(n),n = 全部 tools | O(m+k),m ≪ n | +| 注意力分布 | 1/n per tool | 1/k per tool,k ≪ n | +| 实例 (MCP-tools) | 2,797 tools | 308 servers → 每 server 平均 ~9 tools | + +## 参考 + +- [[active-tool-discovery|主动工具发现]] +- [[active-tool-request|Active Tool Request]] +- [[fei-mcp-zero-2025|MCP-Zero 论文]] +- [[skill-retrieval|Skill 检索]](类比:层级检索 vs 层次路由) diff --git a/concepts/hippo.md b/concepts/hippo.md new file mode 100644 index 0000000..92f3b94 --- /dev/null +++ b/concepts/hippo.md @@ -0,0 +1,54 @@ +--- +title: "HiPPO (High-order Polynomial Projection Operators)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["ssm", "mathematics", "long-range-dependency"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# HiPPO + +## 定义 + +HiPPO(High-order Polynomial Projection Operators,高阶多项式投影算子)是 [[structured-state-space-models|S4]] 和 Mamba 等 SSM 的**数学基础**。HiPPO 框架定义了如何在线压缩连续信号的历史信息到一个固定维度的隐状态中,为 SSM 提供了处理长距离依赖的理论保证。 + +## 核心思想 + +问题:如何用固定大小的隐状态 h(t) ∈ R^N 最佳地编码无限长的历史信号 x(<=t)? + +HiPPO 的答案:将历史信号投影到**正交多项式基**上,在线更新系数: + +``` +h'(t) = A(t) h(t) + B(t) x(t) +``` + +其中 A(t) 矩阵的选择决定了"哪些历史信息被保留、如何衰减"。 + +## HiPPO-LegS 矩阵 + +最常用的 HiPPO 矩阵是 HiPPO-LegS(Legendre Scaled),它为 S4 和 Mamba 提供了**时间尺度鲁棒性**: + +- 对输入的时间拉伸/压缩不敏感 +- 天然具备长距离记忆的归纳偏置 +- 不需要位置编码即可处理任意长度序列 + +## 在 Mamba 中的角色 + +Mamba 继承了 S4 的 HiPPO 初始化: + +- A 矩阵使用 HiPPO-LegS 的对角化版本 +- **但** Mamba 的选择机制([[selective-state-space]])使实际动力学变为输入依赖——HiPPO 提供的只是良好的**初始归纳偏置**,实际行为由数据和选择机制共同决定 + +## 相关概念 + +- [[structured-state-space-models]] — 直接基于 HiPPO 构建的 S4 +- [[selective-state-space]] — Mamba 在 HiPPO 基础上增加选择性 +- [[long-range-dependency]] — HiPPO 解决的核心问题 +- [[gu-mamba|Mamba 论文]] + +## 参考 + +- HiPPO (Gu et al., 2020) +- S4 (Gu, Goel & Ré, 2022) +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) diff --git a/concepts/history-aware-routing.md b/concepts/history-aware-routing.md new file mode 100644 index 0000000..d5b6c4a --- /dev/null +++ b/concepts/history-aware-routing.md @@ -0,0 +1,48 @@ +--- +title: "历史感知路由 — History-Aware Routing" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [history-aware, routing, tool-selection, llm-agents] +sources: + - https://arxiv.org/abs/2601.08276 +--- + +# 历史感知路由(History-Aware Routing) + +## 定义 + +历史感知路由是 ACE-Router 的核心范式:路由决策不仅依赖当前查询,还**显式使用多轮对话历史**——包括中间结果、历史性能和工具相关性——来做上下文感知的精确选择。 + +## 为什么需要历史感知 + +传统 embedding 检索的三大局限: + +1. **语义重叠**:功能相似的工具在向量空间中难以区分 +2. **忽略历史**:只匹配当前查询,丢失了执行进度、失败历史等关键状态 +3. **压缩失真**:即使编码历史,固定向量会压缩复杂状态信息 + +## 形式化 + +``` +c* = arg max π_θ(c | Q, H, C) +``` + +- Q:当前查询 +- H:对话历史(多轮轨迹) +- C:候选空间(工具集或 Agent 集) +- π_θ:训练的路由器 + +## ACE-Router 的实现方式 + +从多 Agent 模拟轨迹中提取监督信号:标记每步实际调用的候选 c 作为 ground-truth label,之前的所有交互作为历史 H。将复杂多步轨迹转化为大规模历史感知路由训练数据。 + +## 效果 + +ACE-Router 显式使用历史的模型在 MCP-Universe 上达到 53.4%,而相同基座(Qwen3-8B)仅用查询只有 48.5%——历史感知带来约 5pp 的提升。 + +## 参考 + +- [[ace-router|ACE-Router]] +- [[yao-ace-router-2026|论文]] +- [[trajectory-synthesis|轨迹合成]] diff --git a/concepts/human-in-the-loop.md b/concepts/human-in-the-loop.md new file mode 100644 index 0000000..976277f --- /dev/null +++ b/concepts/human-in-the-loop.md @@ -0,0 +1,53 @@ +--- +title: "Human-in-the-Loop — 人机协同" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [hitl, human-in-the-loop, automation, ai-safety, mlops] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# Human-in-the-Loop (HITL) + +## 定义 + +人在环路(HITL)指人类参与 AI 决策流程的方式。它位于一个频谱上——一端是 AI 行动前人类审查每个输出,另一端是完全自动化、人类仅监控异常。 + +## 核心问题 + +> 错误决策的成本是多少?谁承担? + +## 频谱 + +``` +完全人工审查 ←──────────────────→ 完全自动化 + (每输出) 大多数系统 (仅异常监控) +``` + +大多数生产系统处于中间:将低置信度预测传递给人类,让高置信度预测通过。 + +## HITL 的真实成本 + +- **审查每一个模型决策无法实现规模化** +- 实时人工干预减慢系统速度 +- 审核人的不一致性会降低标签质量 +- 解决方式:[[selective-hitl|选择性 HITL]] + +## 分工原则 + +| AI 负责 | 人类负责 | +|---------|---------| +| 规模 | 不可逆性 | +| 速度 | 边界判断 | +| 模式识别 | 推翻模型判断的权限 | + +## 合规场景 + +医疗、金融、法律领域,HITL 通常是合规要求(如放射科医生审核 AI 标记肿瘤,律师审查 AI 标记合同条款)。错误成本过高,无法完全自动化。 + +## 参考 + +- [[selective-hitl|选择性 HITL]] +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/hybrid-reasoning-models.md b/concepts/hybrid-reasoning-models.md new file mode 100644 index 0000000..23c090b --- /dev/null +++ b/concepts/hybrid-reasoning-models.md @@ -0,0 +1,44 @@ +--- +title: "混合推理模型 (Hybrid Reasoning Models)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [reasoning, efficiency, rl, thinking] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# 混合推理模型 (Hybrid Reasoning Models) + +混合推理模型是能**动态决定是否激活思考模式**的推理模型,根据查询复杂度在[[thinking-mode|思考模式]]和[[non-thinking-mode|非思考模式]]之间自动切换(Zhang et al., 2025; Fang et al., 2025; Tu et al., 2025)。 + +## 动机:解决 Overthinking + +[[large-reasoning-models|大推理模型]]的卓越性能依赖长思维链([[chain-of-thought|CoT]]),但这导致**过度思考**([[overthinking|Overthinking]])——对简单问题产生冗长、重复的输出,大幅增加推理开销和延迟。 + +## 训练方法 + +### 强化学习(主流) +- 为正确回答的非思考模式分配**更高奖励** +- 激励模型在简单问题上跳过思考 +- 代表:Thinkless, AdaptThink, AutoThink, TNT + +### 监督微调 +- 使用比 RL 数据集**大得多**的 SFT 数据集固定输出格式 +- Thinkless 等使用,但计算成本高 + +## 关键挑战 + +RL 训练的混合推理模型面临 **[[reward-hacking|Reward Hacking]]**——模型在非思考模式下嵌入思考内容以获取额外奖励。 + +## 模式判别方式 + +1. **基于首 token**:首 token 是否为 ``(Zhang et al., Tu et al., TNT) +2. **基于特殊 token**:首 token 是否为 ``(Fang et al., Jiang et al.) + +## 参考 + +- [[overthinking|过度思考]] +- [[reward-hacking|Reward Hacking]] +- [[thinking-mode|思考模式]] / [[non-thinking-mode|非思考模式]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/hybrid-recall-pipeline.md b/concepts/hybrid-recall-pipeline.md new file mode 100644 index 0000000..7c27179 --- /dev/null +++ b/concepts/hybrid-recall-pipeline.md @@ -0,0 +1,42 @@ +--- +title: "Hybrid Recall Pipeline (BM25 + Dense)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["information-retrieval", "hybrid-search", "bm25", "dense-retrieval", "rrf"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# Hybrid Recall Pipeline + +Atlas 记忆系统的混合召回管线:BM25 词法检索 + Dense 语义检索双通路并行,经 RRF 融合和 Cross-encoder 重排序后返回 top-K。 + +## 四阶段管线 + +1. **Verbatim Pre-Recall**:用户原话不经 LLM 改写,保护精确 token +2. **双通路并行检索**: + - BM25:multi_match 跨 text/title/name/description/trigger_text,text 权重 2× + - Dense:Jina v5 embeddings + ES semantic_text knn +3. **RRF 融合**:rank_constant=30(强信号权重),window_size=max(80, k×8) +4. **Cross-encoder 重排序**:Jina v2 reranker 逐对评分 top-80 → top-K + +## Ablation 贡献分布 + +| 组件 | 贡献 | +|------|------| +| Dense-only | 0.845 | +| BM25-only | 0.708 | +| Full (hybrid) | 0.89 | +| Reranker (单点) | -0.238 | + +## 关键设计决策 + +- **BM25 不能省略**:版本号/错误码/人名等精确 token 只有词法检索能抓到 +- **Dense 是主力**:语义意图如"数据库偏好"在文档中无直接匹配 +- **Query expansion 反效果**:BM25+ dense 已覆盖精确和语义,LLM paraphrasing 引入噪音 + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[bm25-financial-retrieval]] +- [[verbatim-pre-recall]] diff --git a/concepts/hypothesis-tree-refinement.md b/concepts/hypothesis-tree-refinement.md new file mode 100644 index 0000000..362a9a2 --- /dev/null +++ b/concepts/hypothesis-tree-refinement.md @@ -0,0 +1,43 @@ +--- +title: "Hypothesis Tree Refinement (HTR)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["autonomous-research", "agent", "tree-search", "knowledge-management"] +sources: + - "[[arbor-htr-2026]]" +--- + +# Hypothesis Tree Refinement (HTR) + +HTR 是 Arbor 框架的核心方法:将自主科研的中间状态持久化为假设树,通过分支探索、执行反馈回写、洞察向上传播和 held-out 准入门控实现累积式科研进步。 + +## 树节点结构 + +n = ⟨h, ι, µ⟩ +- **h (Hypothesis)**:可验证的改进主张,粒度随深度细化(根=方向,叶=具体干预) +- **ι (Insight)**:可复用的证据解读——非执行日志,紧致语义记忆 +- **µ (Metadata)**:状态/分数/git ref + +## 五步循环 + +``` +Observe → Ideate → Select → Dispatch → Backpropagate +``` + +1. **Observe**:观察当前树状态(前沿、洞察、约束) +2. **Ideate**:在选定父节点下生成 k 个子假设 +3. **Select**:选择最有前景的叶子调度执行 +4. **Dispatch**:将叶子分配给隔离 Executor +5. **Backpropagate**:将执行结果(分数/洞察)写回节点,沿祖先路径向上抽象 + +## 三种角色合一 + +- **搜索前沿**:活跃/验证/剪枝方向的可视化 +- **长期记忆**:成功+失败的复用证据 +- **可审计记录**:每个产物变更可追溯到动机假设 + +## 参考 +- [[arbor-htr-2026]] +- [[coordinator-executor-architecture]] +- [[autonomous-optimization-ao]] diff --git a/concepts/in-context-learning-rate.md b/concepts/in-context-learning-rate.md new file mode 100644 index 0000000..2308879 --- /dev/null +++ b/concepts/in-context-learning-rate.md @@ -0,0 +1,53 @@ +--- +title: "In-Context Learning Rate" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rwkv", "delta-rule", "gradient-based-memory"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# In-Context Learning Rate + +## 定义 + +In-Context Learning Rate(上下文学习率)是 RWKV-7 中对 [[delta-rule]] 学习率的扩展:将传统的标量学习率 α 升级为输入依赖的**向量值** a_t,使模型能在上下文中**逐通道**动态调整记忆更新的速度。 + +## 从标量到向量 + +``` +DeltaNet (标量): S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t) α ∈ R +RWKV-7 (向量): S_t = S_{t-1} - a_t ⊙ ∇l(S_{t-1}, κ̂_t, v_t) a_t ∈ R^d +``` + +## 设计直觉 + +"学习率"的命名来自梯度下降的类比:将序列处理视为在线学习问题。a_t 决定了模型在多大程度上"相信"当前 token 提供的信息应覆盖已有记忆。 + +- a_t[ch] 大 → 该通道快速更新,当前 token 的信息权重大 +- a_t[ch] 小 → 该通道保持稳定,忽略当前 token + +这本质上是选择性机制的**Delta 规则视角**——Mamba 通过选择性 Δ 控制"关注多久",RWKV-7 通过 a_t 控制"更新多快"。 + +## 与 Mamba 选择性 Δ 的对比 + +| 维度 | Mamba (Δ_t) | RWKV-7 (a_t) | +|------|-----------|-------------| +| 机制 | SSM 离散化步长 | Delta 规则学习率 | +| 效果 | 控制状态保持 vs 重置 | 控制梯度更新步幅 | +| 向量/标量 | 向量(逐通道) | 向量(逐通道) | +| 数学框架 | 连续时间 ODE 离散化 | 在线梯度下降 | + +两者实现相似功能(逐通道选择性),但数学推导属于不同范式。 + +## 相关概念 + +- [[delta-rule]] — In-Context Learning Rate 的起源 +- [[generalized-delta-rule]] — 包含向量值学习率的完整形式 +- [[vector-valued-gating]] — 与 a_t 配合的 w_t 门控 +- [[selective-state-space]] — Mamba 的选择性 Δ(类比) +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) diff --git a/concepts/induction-heads.md b/concepts/induction-heads.md new file mode 100644 index 0000000..172b0fd --- /dev/null +++ b/concepts/induction-heads.md @@ -0,0 +1,49 @@ +--- +title: "Induction Heads" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["llm-mechanism", "in-context-learning", "synthetic-task"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Induction Heads + +## 定义 + +Induction Heads(归纳头)是 Olsson et al. (2022) 提出的注意力机制模式,被认为是解释 LLM **in-context learning** 能力的关键机制。Mamba 论文将其作为证明选择性 SSM 能力的第二个核心合成任务。 + +## 机制描述 + +Induction Head 执行一种**基于上下文的联想回忆**: + +``` +序列: ... [A] [B] ... [A] → +模型需要在看到第二个 [A] 时,"回忆起"第一个 [A] 后面是 [B],并预测 [B] +``` + +本质上是一个"此前发生过什么"的模式匹配:`[prefix] ... [prefix] → [completion]`。 + +## 为什么重要 + +Olsson et al. 发现 Induction Heads 在 Transformer 训练过程中**阶段性涌现**(phase change),并且其出现与 in-context learning 能力的形成高度相关。Transformer 的注意力机制天然支持这种"前缀匹配 + 复制"操作。 + +## 在 Mamba 中的作用 + +Mamba 论文将 Induction Heads 作为第二个核心合成基准: + +- LTI SSM(S4、H3、Hyena)在此任务上表现受限——其时间不变的参数无法实现"根据前缀内容决定输出"的选择性行为 +- Mamba 的 S6 机制([[selective-state-space]])通过输入依赖的参数化,赋予了模型"看到什么内容就做什么决定"的能力 +- Mamba 不仅解决了 Induction Heads,还能**外推到 >1M token** 的序列 + +## 相关概念 + +- [[selective-copy]] — 另一个诊断合成任务 +- [[content-based-reasoning]] — Induction Heads 需要的能力 +- [[selective-state-space]] — Mamba 解决此任务的关键 +- [[in-context-learning]] — Induction Heads 解释的现象 + +## 参考 + +- Olsson et al. (2022) "In-context Learning and Induction Heads" +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) Section 3.1 diff --git a/concepts/information-cocoons.md b/concepts/information-cocoons.md new file mode 100644 index 0000000..e0e488f --- /dev/null +++ b/concepts/information-cocoons.md @@ -0,0 +1,40 @@ +--- +title: "信息茧房(Information Cocoons)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - information-ecology + - filter-bubble + - spiral-of-silence +sources: + - Sunstein 2006 + - data派THU 2026 +--- + +# 信息茧房(Information Cocoons) + +由 Cass Sunstein 提出的概念,指个体在信息消费中**只接触与自己已有观点一致的内容**,形成封闭的信息环境。在 AI 内容生态中,信息茧房与 [[content-homogenization|内容同质化]] 形成"双重困境"——算法推荐 + AI 生成同质化内容的叠加效应。 + +## 传统机制 + +- 个性化推荐算法不断强化用户已有偏好 +- 社交网络的同质性(homophily)使接触信息面收窄 + +## AI 沉默螺旋中的新维度 + +传统信息茧房关注**消费侧**(用户看到什么),LLM 沉默螺旋关注**生产侧**(AI 生成什么)。二者叠加: +- 消费侧:推荐算法缩小用户信息面 +- 生产侧:AI 同质化输出缩小可消费内容的多样性 + +最终形成 **"茧房→同质化内容→更窄的茧房"** 的恶性循环。 + +## 与 [[spiral-of-silence|沉默的螺旋]] 的关系 + +沉默螺旋导致少数观点从公共话语中消失,信息茧房使个体更难接触到被压制的小众观点——二者在 AI 内容生态中形成**供需两端的协同压制**。 + +## 参考 + +- [[opinion-polarization|观点极化]] +- [[content-diversity-decay|内容多样性衰减]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/information-leakage-vla.md b/concepts/information-leakage-vla.md new file mode 100644 index 0000000..bcd7ba6 --- /dev/null +++ b/concepts/information-leakage-vla.md @@ -0,0 +1,36 @@ +--- +title: "Information Leakage in VLA" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["vla", "pretraining", "information-leakage", "shortcut-learning"] +sources: + - "[[vla-jepa-2026]]" +--- + +# Information Leakage in VLA Pretraining + +Information Leakage 是 VLA latent-action 预训练中的关键失败模式:当训练允许未来信息进入 latent action 编码器时,模型学到的是"编码未来"而非"捕获转移动态"的捷径。 + +## 发生机制 + +传统 latent-action 方法将当前和未来观察同时馈入同一模块: +- I_t + I_{t+1} → latent action → 重建/预测目标 +- latent action 可以直接编码 I_{t+1} 的信息 +- 学到的"动作"语义空洞:能匹配训练损失,但不包含控制所需的有意义转移因子 + +## VLA-JEPA 的消除 + +通过严格的 architecture constraint: +- Target encoder 从未来帧产生 latent target → stop-gradient +- Student 仅见当前 → 未来不可访问 +- Student 必须在"看不见未来"的条件下预测 target + +## 与其他泄漏问题的对比 + +不同于 NLP 中的 token 泄漏或 CV 中的 augmentation 泄漏,VLA 的信息泄漏特指**时序未来信息**污染了应编码动态的表示。 + +## 参考 +- [[vla-jepa-2026]] +- [[latent-action-pretraining]] +- [[leakage-free-state-prediction]] diff --git a/concepts/information-performance-binding.md b/concepts/information-performance-binding.md new file mode 100644 index 0000000..85bb8b6 --- /dev/null +++ b/concepts/information-performance-binding.md @@ -0,0 +1,52 @@ +--- +title: "Information-Performance Binding" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [latent-cot, mutual-information, reasoning, information-theory, evaluation] +sources: + - "[[latent-cot-supervision]]" +--- + +# Information-Performance Binding + +**Information-Performance Binding**(信息-性能绑定)是 [[latent-cot-supervision|Latent CoT Supervision]] 论文的核心发现:推理精度被潜链中保留的互信息严格上界约束。 + +## 形式化表述 + +令 Acc 为推理精度,I(L; S) 为潜状态与显式推理步骤之间的互信息(通过 [[unified-latent-probe|ULP]] 的变分下界近似)。实验揭示: + +> Acc ∝ -L_Info ∝ I(L; S) + +即:推理精度与 ULP 探针损失呈**严格反比**,即与互信息呈**严格正比**。 + +## 实验证据 + +图 4 展示了所有方法的 ULP 损失 vs Accuracy 散点图: +- OS-GC:高 L_Info,低 Acc +- OS-GR / OS-LATENT:中高 L_Info,中低 Acc +- PS-LATENT:中 L_Info,中 Acc +- PS-GR:最低 L_Info,最高 Acc + +**信息层次结构**清晰可辨,无例外。 + +## 含义 + +1. **潜推理质量可度量**:ULP 提供一个独立于最终任务的推理质量度量 +2. **监督策略的优化目标**:最大化 I(L_t; S_t) 是比最小化 answer loss 更 principled 的优化目标 +3. **shortcut 的诊断工具**:如果 Acc 高但 I(L; S) 低 → 模型可能在利用 shortcut 而非真正推理 +4. **推理链的可审计性**:潜推理的可解码性是性能的前提条件 → "黑盒推理"不太可能存在 + +## 启示 + +对 Agent 系统设计的含义: +- 内部推理链的可重建性不应视为可选——它是性能的**必要前提** +- 仅基于最终输出奖励的训练(类似 outcome-only RL)可能导致潜推理过程退化 +- 过程监督(Trajectory + Space)通过最大化互信息来维持推理的语义保真度 + +## 参考 + +- [[latent-cot-supervision]] +- [[unified-latent-probe]] +- [[space-supervision]] +- [[trajectory-supervision]] diff --git a/concepts/insight-backpropagation.md b/concepts/insight-backpropagation.md new file mode 100644 index 0000000..57008ec --- /dev/null +++ b/concepts/insight-backpropagation.md @@ -0,0 +1,37 @@ +--- +title: "Insight Backpropagation" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["knowledge-management", "agent", "tree-structure", "abstraction"] +sources: + - "[[arbor-htr-2026]]" +--- + +# Insight Backpropagation + +Insight Backpropagation 是 Arbor 假设树中从叶到根的洞察传播机制:将局部实验结果抽象为方向级经验,最终贡献到全局紧凑理解。 + +## 工作流 + +1. **叶子执行**:Executor 返回 (score, result, insight, branch) +2. **写回节点**:将结果写入对应叶子节点 +3. **向上抽象**:沿祖先路径,每个内部节点 Abstract({ι_c for c in children}) +4. **全局汇聚**:根的 insight 汇总整次运行的 compact understanding + +## 洞察 vs 日志 + +| 维度 | 执行日志 | Insight | +|------|---------|---------| +| 内容 | 原始工具调用/输出 | 语义抽象 | +| 示例 | "Ran Muon with lr=0.01, loss=0.043" | "轴统计量单独不够;替换 NS 会破坏全矩阵几何" | +| 复用性 | 低(需人工解读) | 高(直接约束后续假设生成) | + +## 为什么需要 + +没有抽象,树会退化为无结构日志——后续的 Ideate 和 Select 无法从历史中学习。Insight Backpropagation 是 HTR 从"探索日志"升级为"累积研究"的关键。 + +## 参考 +- [[arbor-htr-2026]] +- [[hypothesis-tree-refinement]] +- [[coordinator-executor-architecture]] diff --git a/concepts/intersectional-persona-evaluation.md b/concepts/intersectional-persona-evaluation.md new file mode 100644 index 0000000..8b78fb0 --- /dev/null +++ b/concepts/intersectional-persona-evaluation.md @@ -0,0 +1,36 @@ +--- +title: "Intersectional Persona Evaluation" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["evaluation-methodology", "bias", "intersectionality", "fairness"] +sources: + - "[[personalization-trap-2025]]" +--- + +# Intersectional Persona Evaluation + +交叉性画像评估是 Fang et al. (2025) 提出的 AI 偏见评测方法论:通过构造人口统计学维度交叉的画像,量化各维度如何交互地影响模型输出。 + +## 方法 + +- 画像源:PRISM 数据集(1500 名成年人,75 个国家) +- 四个维度:性别 × 年龄 × 宗教 × 种族 +- 每个维度取最普遍的三个类别 → 81 个独特交叉画像 +- 统计:混合效应模型,固定效应(人口统计变量)+ 随机效应(题目级变异) + +## 基线设置 + +白种人 + 基督徒 + 男性 + 34-65 岁 = 基线。负系数表示相对基线的准确率下降。 + +## 优势 + +- 隔离单一维度效应(通过控制其他维度) +- 检测交叉效应(如"老年穆斯林女性"的独特偏见模式) +- 效应量可跨模型比较(固定效应 β 系数) +- 统计显著性可量化 + +## 参考 +- [[personalization-trap-2025]] +- [[emotional-reasoning-bias]] +- [[user-memory-bias]] diff --git a/concepts/intra-head-eviction.md b/concepts/intra-head-eviction.md new file mode 100644 index 0000000..5469225 --- /dev/null +++ b/concepts/intra-head-eviction.md @@ -0,0 +1,50 @@ +--- +title: "Intra-Head Eviction" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "attention"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Intra-Head Eviction + +## 定义 + +Intra-Head Eviction(头内驱逐)是 [[kv-cache-eviction]] 两阶段范式的**第一阶段**:在每个注意力头内部,使用评分指标 π 对缓存 token 排序,保留前 b_{l,h} 个高分 token,驱逐其余。 + +## 代表性指标 + +| 指标 | 方法 | 评分依据 | +|------|------|---------| +| 累积注意力 | [[snapkv]]、H2O | 历史注意力权重的累积和 | +| Key 向量几何 | [[keydiff]] | 相邻 Key 向量之间的差分模式 | +| 输出扰动 | CriticalKV | value 向量 × 输出投影矩阵的潜在扰动 | +| 重构误差 | KVZip | 上下文重构目标(query-agnostic) | + +## 在 LU-KV 中的位置 + +LU-KV 的独特之处在于**解耦** intra-head scoring 和 cross-head allocation: + +- Intra-head scoring 由用户**任意选择**的启发式指标 π 完成 +- LU-KV 仅负责确定每个 head 应该保留多少 token(b_{l,h}) +- 这使得 LU-KV 成为"指标无关"(metric-agnostic)框架 + +LU-KV 不创造新的 intra-head 指标,而是**最大化任何已有指标的效用**。 + +## 核心限制 + +传统方法的主要问题在 intra-head 层面暴露: +- 同一指标 π 在不同 head 中与 [[oracle-importance]] 的**对齐度不同** +- 高注意力分数在某些 head 中对应真正重要的 token(Hits),在另一些 head 中仅为瞬时噪声(False Positives) +- 由此产生 [[optimality-gap]] + +## 相关概念 + +- [[cross-head-budget-allocation]] — 两阶段范式的第二阶段 +- [[heuristic-metric]] — 所有 intra-head 评分方法的统称 +- [[head-level-budget-allocation]] — 决定每个 head 保留多少 token + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/inward-only-gradient-flow.md b/concepts/inward-only-gradient-flow.md new file mode 100644 index 0000000..af462cd --- /dev/null +++ b/concepts/inward-only-gradient-flow.md @@ -0,0 +1,44 @@ +--- +title: "Inward-Only Gradient Flow (内向梯度流)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["gradient-interference", "architecture", "representation-learning", "world-modeling"] +sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"] +--- + +# Inward-Only Gradient Flow (内向梯度流) + +**Inward-only gradient flow** 是 [[dcgwm|DCGWM]] 的核心分离机制:外部接地源的梯度**仅流向其指定的潜在子空间**,绝不跨越到其他子空间或回流到建模引擎的任意部分。 + +## 定义 + +对于分区潜在空间 Z = Z_p ⊕ Z_b: + +- PGC 的梯度 ∂L_PGC/∂θ 仅在 W_p 上非零 +- SBGC 的梯度 ∂L_SBGC/∂θ 仅在 W_b 上非零 +- 任何从 Z_p 到 Z_b(或反向)的梯度路径被架构阻断 + +## 实现机制 + +三种互补实现手段: + +1. **梯度掩码**:将接地损失梯度限制到指定权重组——优化器仅对 W_p(或 W_b)有写权限 +2. **Stop-Gradient**:在非目标子空间的所有接地损失计算中应用 sg(z_b)(或 sg(z_p)) +3. **参数排除**:GRL 参数完全排除在 PGC/SBGC 优化器之外 + +## 为什么必要 + +仅用梯度投影(如 GradOPS 的正交投影)处理已有的梯度——而如果梯度已经在共享空间中交互,投影不能恢复已丢失的信息。内向约束**完全阻止**非指定子空间的梯度到达,而非在梯度到达后处理。 + +类比:投影 = 混在一起再过滤;内向 = 根本不混。 + +## 与 Domain Expansion 的区别 + +Domain Expansion 将已有梯度投影到正交子空间。DCGWM 的内向约束施加在**梯度流拓扑**层面——它定义了梯度**可以流经**的路径,而非流经后如何处理。 + +## 参考 + +- [[dcgwm|DCGWM]] +- [[objective-interference-collapse|OIC]] +- [[hazare-dcgwm-2026|DCGWM 论文]] diff --git a/concepts/isolation-necessity-theorem.md b/concepts/isolation-necessity-theorem.md new file mode 100644 index 0000000..b4dccd2 --- /dev/null +++ b/concepts/isolation-necessity-theorem.md @@ -0,0 +1,47 @@ +--- +title: "Isolation Necessity Theorem (隔离必要性定理)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["theorem", "generative-modeling", "world-modeling", "representation-learning"] +sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"] +--- + +# Isolation Necessity Theorem (隔离必要性定理) + +**隔离必要性定理** 是 [[dcgwm|DCGWM]] 的形式理论结果:在特定假设下,任何非零生成梯度权重都将导致世界模型表示漂移——**生成层必须架构隔离**。 + +## 定理陈述 + +**Theorem (Isolation Necessity).** 设 L_gen 为任何奖励保留高频感知统计的生成渲染目标,L_pred 为奖励丢弃不可预测高频内容的 JEPA 掩码潜在预测目标。假设 (A1) LWME 潜在空间在 L_pred 下有唯一最优点 Z*;(A2) Z* 位于 L_gen 在高频潜在子空间中的鞍点——即 L_gen 在 Z* 处不被最小化。 + +则对有效目标 α·L_gen + L_pred 中的任何 α > 0,梯度优化将驱动 Z 偏离 Z*。 + +## 证明概要 + +在 Z* 处: +- ∇_Z L_pred = 0(由 A1,最优性定义) +- ∇_Z L_gen ≠ 0(由 A2,Z* 是鞍点而非极小点) + +→ 组合目标的梯度:α·∇_Z L_gen + ∇_Z L_pred = α·∇_Z L_gen ≠ 0 +→ 任何梯度步将 Z 移离 Z* +→ 步骤走向 L_gen 的局部极小点(由 A2 与 Z* 不同) + +唯一解决方案:α = 0——即架构隔断生成梯度流。 + +## 关键未证明假设 + +**假设 A2 是定理的关键未证明前提**。论文论证该假设对任何奖励感知保真度的生成目标(需要高频统计)结合任何实现带 stop-gradient 的掩码预测的预测目标(丢弃不可预测高频内容)成立——但这不是形式证明,在一般条件下是开放问题。 + +## 架构实施 + +DCGWM 通过以下方式施行定理的 α = 0 结论: +- GRL 在 LWME 参数**完全冻结**的单独优化阶段训练 +- GRL 通过 detach() 操作接收潜在表示 +- L_gen 的梯度**不回流**到任何 LWME 或接地通道参数 + +## 参考 + +- [[dcgwm|DCGWM]] +- [[hazare-dcgwm-2026|DCGWM 论文]] +- [[jepa|JEPA]] diff --git a/concepts/isotonic-regression.md b/concepts/isotonic-regression.md new file mode 100644 index 0000000..9f64e5d --- /dev/null +++ b/concepts/isotonic-regression.md @@ -0,0 +1,35 @@ +--- +title: "Isotonic Regression" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["optimization", "statistics", "convex-relaxation"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Isotonic Regression + +## 定义 + +Isotonic Regression(保序回归)是一种约束优化方法,在保持数据点单调性约束(非降或非增)的前提下拟合一个序列。在 LU-KV 的 [[convex-hull-relaxation]] 中,PVAA(Pool Adjacent Violators Algorithm)被用于对离散损失序列做保序回归,将其投影为单调非增序列,从而得到凸化代用损失。 + +## PAVA 算法 + +PAVA(Pool Adjacent Violators Algorithm)是最经典的保序回归求解器: + +1. 遍历序列,检测违反单调约束的相邻元素(violators) +2. 将 violators 合并为 block,赋值为 block 内元素的平均值 +3. 重复直到序列满足单调约束 + +在 LU-KV 中,PAVA 将非单调的边际递减量 d(i) 投影为单调非增的 d̆(i)。 + +## 相关概念 + +- [[convex-hull-relaxation]] — 在 LU-KV 中通过保序回归实现凸松弛 +- [[global-combinatorial-optimization]] — 保序回归使贪心解达到最优 +- [[tang-lukv|LU-KV]] — 使用 PAVA 的论文 + +## 参考 + +- Barlow & Brunk (1972) — PAVA 算法的经典文献 +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) — 附录 A.2 diff --git a/concepts/iterative-capability-extension.md b/concepts/iterative-capability-extension.md new file mode 100644 index 0000000..31163f8 --- /dev/null +++ b/concepts/iterative-capability-extension.md @@ -0,0 +1,63 @@ +--- +title: "迭代能力扩展 — Iterative Capability Extension" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [tool-discovery, iterative, toolchain, mcp-zero, multi-turn] +sources: + - https://arxiv.org/abs/2506.01056 +--- + +# 迭代能力扩展(Iterative Capability Extension) + +## 定义 + +Iterative Capability Extension 是 MCP-Zero 的多轮工具发现机制:Agent 在任务执行过程中**逐步发现和集成工具**,动态构建跨域 toolchain,而非一次性预加载全部工具。 + +## 工作流 + +``` +Task: "Debug my code: src/train.py" + │ + ├── 第 1 轮:识别需要读文件 → Request: filesystem.read_file + │ └→ 获取代码内容 + ├── 第 2 轮:识别需要编辑 → Request: filesystem.edit_file + │ └→ 修改代码 + ├── 第 3 轮:识别需要执行 → Request: terminal.run_cmd + │ └→ 验证修复 + └── 完成 +``` + +每轮仅加载当前需要的工具,而非预先加载 filesystem + code_editor + terminal 的全部 schema。 + +## 与传统方案的对比 + +| | 一次性注入 | 检索增强(单轮) | 迭代扩展 | +|---|---|---|---| +| 工具数量 | 全部在 context | 首轮检索 | 按需逐轮 | +| 跨域 | 昂贵(全部预加载) | 受限(基于初始查询) | 天然支持 | +| 容错 | 无 | 检索失败=任务失败 | 可优化请求重试 | + +## 容错与自纠正 + +如果返回的工具不足或不合适,Agent 可以: +1. **优化请求**:重新描述需要什么 +2. **重新检索**:触发新一轮匹配 +3. **降级**:当确认无合适工具时,退回模型参数知识 + +## 理论依据 + +迭代扩展对应信息增益的累积: + +``` +I_total = Σ I(T*_i; r_i | s_{t_i}) +``` + +每轮请求 r_i 针对当前子任务状态 s_{t_i} 最大化信息增益——而非一次性从初始查询推断全部需求。 + +## 参考 + +- [[active-tool-discovery|主动工具发现]] +- [[active-tool-request|Active Tool Request]] +- [[hierarchical-semantic-routing|层次语义路由]] +- [[fei-mcp-zero-2025|MCP-Zero 论文]] diff --git a/concepts/jepa-for-robotics.md b/concepts/jepa-for-robotics.md new file mode 100644 index 0000000..5824345 --- /dev/null +++ b/concepts/jepa-for-robotics.md @@ -0,0 +1,43 @@ +--- +title: "JEPA for Robotics" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["jepa", "robot-learning", "world-model", "embodied-ai"] +sources: + - "[[vla-jepa-2026]]" +--- + +# JEPA for Robotics + +JEPA for Robotics 是将 Joint-Embedding Predictive Architecture 应用于机器人学习和 VLA 策略的范式。VLA-JEPA 是该方向的代表性工作。 + +## 为什么 JEPA 适合 Robotics + +### 像素预测的问题 +机器人视觉中的像素变化主要由外观因素驱动(光照、纹理、相机位置),而非动作相关的状态转移。像素预测目标容易被这些因素主导。 + +### JEPA 的优势 +1. **Latent space prediction**:天然过滤像素噪声,关注语义动态 +2. **Leakage-free design**:未来仅作 target,消除捷径学习 +3. **对相机鲁棒**:latent 表示对相机运动和背景变化不敏感 + +## 从 [[jepa|通用 JEPA]] 到 Embodied JEPA + +| 维度 | 通用 JEPA | Embodied JEPA | +|------|----------|---------------| +| 输入 | 视频帧 | 多视角机器人视频 | +| 预测目标 | 未来表示 | 世界状态转移 | +| 下游 | 动作识别 | 动作策略生成 | +| 微调 | 分类/检测 | Action Head (Flow-Matching) | + +## 可扩展性 + +VLA-JEPA 的作者认为该范式高度可扩展——可通过自然融入更多机器人数据和文本推理数据进一步泛化。 + +## 参考 +- [[vla-jepa-2026]] +- [[jepa]] +- [[vla-vision-language-action]] +- [[latent-world-model]] +- [[world-model-lecun]] diff --git a/concepts/kalman-filter.md b/concepts/kalman-filter.md new file mode 100644 index 0000000..5b84a6a --- /dev/null +++ b/concepts/kalman-filter.md @@ -0,0 +1,36 @@ +--- +title: "Kalman 滤波" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [state-estimation, filtering, linear-systems] +sources: [nano-filter] +--- + +# Kalman 滤波 + +Kalman filter (KF) 是线性高斯系统下 [[bayesian-filtering|贝叶斯滤波]]的精确解析解。利用高斯分布在**线性变换下的封闭性**和**条件化下的共轭性**,KF 递归地更新均值和协方差矩阵。 + +## 基本形式 + +对于系统 $x_t = A x_{t-1} + \xi_{t-1}$,$y_t = C x_t + \zeta_t$(噪声均为零均值高斯): + +- 预测步: + - $\hat{x}_{t|t-1} = A \hat{x}_{t-1|t-1}$ + - $P_{t|t-1} = A P_{t-1|t-1} A^\top + Q$ + +- 更新步(Kalman gain $K_t = P_{t|t-1} C^\top (C P_{t|t-1} C^\top + R)^{-1}$): + - $\hat{x}_{t|t} = \hat{x}_{t|t-1} + K_t (y_t - C \hat{x}_{t|t-1})$ + - $P_{t|t} = (I - K_t C) P_{t|t-1}$ + +## 非线性扩展 + +对非线性系统,KF 的封闭性不再成立,衍生出: +- [[extended-kalman-filter|EKF]] — Taylor 线性化 +- [[unscented-kalman-filter|UKF]] — 无迹变换 +- [[nano-filter|NANO]] — 自然梯度优化 + +## 参考 +- [[bayesian-filtering|Bayesian Filtering]] +- [[gaussian-filtering|Gaussian Filtering]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/keydiff.md b/concepts/keydiff.md new file mode 100644 index 0000000..c29e556 --- /dev/null +++ b/concepts/keydiff.md @@ -0,0 +1,45 @@ +--- +title: "KeyDiff" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "attention", "intra-head-eviction"] +sources: [] +--- + +# KeyDiff + +## 定义 + +KeyDiff (Park et al., 2025) 是一种 [[heuristic-metric]],利用 Key 向量的**几何特征**(相邻位置 Key 向量之间的差分模式)来评估 KV Cache token 的重要性。它是 LU-KV 实验中使用的第二种 intra-head 指标(π_2)。 + +## 核心机制 + +与传统方法依赖注意力权重不同,KeyDiff 通过分析 Key 向量本身的结构变化来识别关键 token: + +1. 计算相邻位置 Key 向量之间的差异 +2. Key 向量变化剧烈的 token 位置往往对应语义转折/关键信息点 +3. 基于差分模式评分,保留高分 token + +## 与 SnapKV 的对比 + +| 维度 | SnapKV (π_1) | KeyDiff (π_2) | +|------|-------------|--------------| +| 评分来源 | 注意力权重 | Key 向量几何 | +| 视角 | Query-Key 交互 | Key 内部分布 | +| 对注意力模式假设 | 依赖 | 不依赖 | +| 与 Oracle 对齐度 | 各 head 不同 | 各 head 不同 | + +LU-KV 实验表明,两种指标在不同 head 中的 [[optimality-gap]] 模式不同——这正是 LU-KV "指标无关"设计的价值:无论选用哪种指标,都能找到最优预算配置。 + +## 相关概念 + +- [[heuristic-metric]] — KeyDiff 是启发式指标的一种 +- [[snapkv]] — 常用的注意力权重指标 +- [[intra-head-eviction]] — KeyDiff 属于头内驱逐方法 +- [[tang-lukv|LU-KV]] — 可兼容 KeyDiff 作为 intra-head scoring 方法 + +## 参考 + +- KeyDiff (Park et al., 2025) +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/kv-cache-eviction.md b/concepts/kv-cache-eviction.md new file mode 100644 index 0000000..98b84e0 --- /dev/null +++ b/concepts/kv-cache-eviction.md @@ -0,0 +1,50 @@ +--- +title: "KV Cache Eviction" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["llm-inference", "kv-cache", "memory-optimization"] +sources: [] +--- + +# KV Cache Eviction + +## 定义 + +KV Cache Eviction(KV 缓存驱逐)是在不显著损失模型性能的前提下,选择性删除 [[kv-cache]] 中重要性较低的 token 对 (k, v),以降低内存占用并加速推理的技术。 + +## 两阶段范式 + +现代 KV Cache Eviction 方法通常采用两阶段范式: + +1. **[[intra-head-eviction]]**:在每个注意力头内设计评分指标(如注意力累积分数、Key 向量几何特征),选出高分 token +2. **[[cross-head-budget-allocation]]**:在不同头之间分配差异化预算,利用各头对信息密度的异质性 + +## 主要方法 + +| 方法 | 策略类型 | 评分依据 | +|------|---------|---------| +| [[snapkv]] | Intra-head | 累积注意力分数 + 观察窗口 | +| [[keydiff]] | Intra-head | Key 向量几何特征(差分) | +| [[pyramidkv]] | Cross-head | 静态金字塔形(信息漏斗假说) | +| [[adkv]] | Cross-head | 动态全局 Top-K(注意力熵) | +| [[tang-lukv|LU-KV]] | Cross-head | 全局组合优化 + 长期边际效用 | + +## 核心挑战 + +传统方法依赖**瞬时启发式指标**(instantaneous heuristic metrics),存在根本缺陷: + +- 假设注意力分数在不同 head 间可比(实际分数尺度差异大) +- 高分 head ≠ 长期信息保真度高 +- 忽略 [[optimality-gap]]:启发式指标与 [[oracle-importance]] 的差距 + +## 相关概念 + +- [[long-horizon-utility]] — 超越瞬时分数,评估 token 的未来贡献 +- [[marginal-utility]] — 预算分配的边际收益视角 +- [[global-combinatorial-optimization]] — 全局最优预算分配的形式化 + +## 参考 + +- H2O (Zhang et al., 2023) +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/kv-cache.md b/concepts/kv-cache.md new file mode 100644 index 0000000..4115dc3 --- /dev/null +++ b/concepts/kv-cache.md @@ -0,0 +1,45 @@ +--- +title: "KV Cache" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["llm-inference", "attention", "memory"] +sources: [] +--- + +# KV Cache + +## 定义 + +KV Cache(Key-Value Cache)是 Transformer 解码器在自回归生成过程中缓存的历史 Key 和 Value 向量,用于避免在每个解码步骤重新计算所有历史 token 的注意力。随着序列长度增长,KV Cache 的内存消耗线性增加,成为大模型长上下文推理的**核心瓶颈**。 + +## 核心机制 + +在因果注意力(causal attention)中,解码步骤 k 的 query q_k 只需与位置 j <= k 的 key、value 进行计算。将已计算的 (k_j, v_j) 存入缓存,后续步骤可直接读取,避免 O(n) 次重复计算。 + +### 内存分析 + +对于 L 层、H 个头、d_h 维度的模型,序列长度 T 的 KV Cache 内存为: + +``` +Memory = 2 * L * H * d_h * T * sizeof(dtype) +``` + +对于 Llama-3.1-8B(L=32, H=32, d_h=128, FP16),128K tokens 的 KV Cache 约 64 GB。 + +## Thinker-Performer KV-Cache 交换 + +[[wan-streamer|Wan-Streamer]] 的 [[thinker-performer-pipeline|Thinker-Performer 推理架构]] 将 KV-cache 作为 Thinker 和 Performer 之间的状态交换协议:Thinker 每步计算当前 KV-cache slice 并发送给 Performer,Performer 追加到自己的全历史缓存中运行 flow-matching 求解。这种设计使得感知更新和潜变量生成可以在不同 GPU 上流水线重叠,同时维持统一的因果交互状态。 + +## 相关概念 + +- [[kv-cache-eviction]] — 通过驱逐低重要性 token 压缩 KV Cache +- [[head-level-budget-allocation]] — 在 attention head 之间分配缓存预算 +- [[long-horizon-utility]] — 评估 token 的长期效用而非瞬时重要性 +- [[thinker-performer-pipeline]] — Thinker-Performer 推理流水线中的 KV-cache 交换 + +## 参考 + +- 原始注意力机制论文:Vaswani et al., 2017 +- StreamingLLM (Xiao et al., 2024) — 发现 attention sink 现象 +- [[tang-lukv|LU-KV]] — 基于全局组合优化的 KV Cache 驱逐 diff --git a/concepts/large-reasoning-models.md b/concepts/large-reasoning-models.md new file mode 100644 index 0000000..2e4ba70 --- /dev/null +++ b/concepts/large-reasoning-models.md @@ -0,0 +1,45 @@ +--- +title: "大推理模型 (Large Reasoning Models)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [reasoning, lrm, cot, r1] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# 大推理模型 (Large Reasoning Models) + +LRM 是以长[[chain-of-thought|思维链]](CoT)为核心推理机制的先进语言模型,代表如 DeepSeek-R1(Guo et al., 2025)和 OpenAI o1(Jaech et al., 2024)。 + +## 工作机制 + +给定 prompt `x = [query, ]`,LRM 生成: +``` +y = [y_1, ..., y_τ, , y_{τ+2}, ..., y_m] +``` +- `[y_1, ..., y_τ]`:思考(thinking)——探索、反思、自验证 +- ``:思考结束标志 +- `[y_{τ+2}, ..., y_m]`:最终 solution + +## 性能来源 + +LRM 的卓越性能**几乎完全源于 thinking**——长 CoT 中的多步推理、自我纠错和验证过程。但这也意味: +- 简单查询同样经历完整思考 +- 大量"Wait... Let me check..." 类 token 无建设性 +- 推理开销和延迟显著增加 + +## Overthinking 与混合推理 + +LRM 的[[overthinking|过度思考]]问题催生了[[hybrid-reasoning-models|混合推理模型]]——让模型根据查询复杂度自主决定是否思考。 + +## 关键特性(TNT 利用的) + +LRM 的 thinking mode 训练确保 `` 之后的 solution 部分**不含额外思考**——这使得 solution 长度可作为非思考模式自然输出长度的可靠估计。这是 TNT 的核心假设和设计基础。 + +## 参考 + +- [[thinking-mode|思考模式]] +- [[overthinking|过度思考]] +- [[hybrid-reasoning-models|混合推理模型]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/latent-action-pretraining.md b/concepts/latent-action-pretraining.md new file mode 100644 index 0000000..663af20 --- /dev/null +++ b/concepts/latent-action-pretraining.md @@ -0,0 +1,41 @@ +--- +title: "Latent-Action Pretraining" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["vla", "pretraining", "robot-learning", "latent-representation"] +sources: + - "[[vla-jepa-2026]]" +--- + +# Latent-Action Pretraining + +Latent-Action Pretraining 是从无标注视频学习 VLA 策略的预训练范式:先学习视频中的表示和转移结构,再适配到下游控制任务。 + +## 标准流程 + +1. 从视频数据学习 latent action 表示 +2. 将 latent action 对齐到真实动作空间 +3. 在控制数据上微调策略 + +## 当前方法的四类失败 + +VLA-JEPA 识别出四个系统性缺陷: + +| 类型 | 原因 | 表现 | +|------|------|------| +| [[appearance-bias-vla|外观偏见]] | 像素级目标 | 学习纹理/光照变化而非动作语义 | +| 噪声运动 | 相机运动主导信号 | latent action 编码相机抖动 | +| [[information-leakage-vla|信息泄漏]] | 未来作为输入 | latent action 坍缩为编码未来 | +| 多阶段脆弱性 | 流水线复杂 | 阶段间不一致,工程负担重 | + +## VLA-JEPA 的修复 + +用 JEPA 范式替代像素预测:leakage-free state prediction + latent space alignment。 + +## 参考 +- [[vla-jepa-2026]] +- [[vla-vision-language-action]] +- [[leakage-free-state-prediction]] +- [[appearance-bias-vla]] +- [[information-leakage-vla]] diff --git a/concepts/latent-thought-models.md b/concepts/latent-thought-models.md new file mode 100644 index 0000000..642e0bb --- /dev/null +++ b/concepts/latent-thought-models.md @@ -0,0 +1,45 @@ +--- +title: "隐式思考模型 (Latent Thought Models)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, reasoning, continuous-thought, recurrence] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 隐式思考模型 (Latent Thought Models) + +隐式思考模型(又称连续思考模型)是 Mozer et al. (2026) 分类法中**每循环步输入 token 数 < 1**的架构:多个自回归步处理单个输入 token。 + +## 对应 Mozer et al. 图 6 + +模型在处理下一个输入 token 之前,将其隐式思考结果**反馈为自身的输入**,进行多次自回归迭代。 + +## 代表架构 + +| 模型 | 特点 | +|------|------| +| **COCONUT**(Hao et al., 2025) | 连续潜在空间中的思维链 | +| **Hierarchical Reasoning**(Jolicoeur-Martineau, 2025) | 层级推理模型 | +| **CYB**(Galashov et al., 2025) | 连续潜在变量模型 | + +## 与状态追踪的关系 + +并非所有隐式思考模型都能真正追踪状态: +- 有些(如 CYB 的部分变体)即使有多个自回归步,状态更新仍是**不充分的** +- 关键在于**隐式空间的循环连接**是否确实实现了 `s_t = f(s_{t-1}, x_t)` 的任意状态传播 + +## 相对于显式 CoT 的优势 + +- **不消耗上下文窗口**(不产生可见 token) +- **潜在空间带宽更高**(连续向量 > 离散 token) +- 但仍需解决训练效率问题([[sequential-dependency|顺序依赖]]限制了并行化) + +## 参考 + +- [[chain-of-thought|思维链]] +- [[latent-thought-models|隐式思考模型]] +- [[recurrence-taxonomy|循环分类法]] +- [[attractor-dynamics|吸引子动力学]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/latent-world-model.md b/concepts/latent-world-model.md new file mode 100644 index 0000000..930cf14 --- /dev/null +++ b/concepts/latent-world-model.md @@ -0,0 +1,38 @@ +--- +title: "Latent World Model (Robotics)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["world-model", "jepa", "robot-learning", "latent-representation"] +sources: + - "[[vla-jepa-2026]]" +--- + +# Latent World Model (Embodied) + +Latent World Model 是 VLA-JEPA 中的世界模型组件,基于 JEPA 范式在 latent space 中建模状态转移动态。 + +## 架构 + +- **Target Encoder**:V-JEPA2,frozen,从未来帧产生 latent world state targets +- **Predictor**:Autoregressive Transformer (12 层, 8 注意力头, 2048-dim) +- **注意力**:单时间步内双向(K 个 latent action token + N 个 image latent token),跨时间步因果 + +## 训练目标 + +$$\mathcal{L}_{WM} = \sum_{k=1}^{T} \mathbb{E}_{s_{t_k} \sim F(\cdot)} (\hat{s}_{t_k} - s_{t_k})$$ + +Target encoder F(·) 提供 ground-truth world state,predictor 学习预测。 + +可解释为 ELBO 最大化: +$$\log p(s_{1:T} | z_{0:T-1}) \geq \sum \mathbb{E}[\log p_\theta(\hat{s} | s)] - D_{KL}(F \| p_\theta^{WM})$$ + +## 与通用 World Model 的区别 + +不同于 Dreamer 等 pixel-space world model,Latent World Model 在语义空间运行,天然过滤像素噪声。 + +## 参考 +- [[vla-jepa-2026]] +- [[jepa]] +- [[world-model-lecun]] +- [[leakage-free-state-prediction]] diff --git a/concepts/layered-memory-architecture.md b/concepts/layered-memory-architecture.md new file mode 100644 index 0000000..76eb3eb --- /dev/null +++ b/concepts/layered-memory-architecture.md @@ -0,0 +1,56 @@ +--- +title: "三层记忆架构" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, memos, architecture, explicit-memory, parameter-memory, kv-cache] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# 三层记忆架构(Layered Memory Architecture) + +## 定义 + +MemOS 提出的三层记忆协同架构:将记忆按粒度分为明文记忆、激活记忆、参数记忆三个层次,实现系统级协同,支撑 AI 从一次性推理走向长期演化。 + +## 三层详解 + +``` +参数记忆(Parameter) ← 行业 know-how 经后训练注入大模型 + ↑ +激活记忆(Activation) ← KV Cache 管理,GPU 缓存层 + ↑ +明文记忆(Explicit) ← Prompt/Agent 流,自然语言层 +``` + +### 1. 明文记忆(Explicit Memory) +- 载体:自然语言,Prompt 流或 Agent 流 +- 内容:对话历史、事实信息、用户偏好 +- 特点:业界主流方案(Mem0, Zep 等),实现简单但结构化程度有限 + +### 2. 激活记忆(Activation Memory) +- 载体:KV Cache,GPU 显存 +- 内容:推理时的缓存状态 +- 作用:提升缓存命中率,降低 token 消耗和延迟 +- 场景:情感陪伴、游戏 NPC、消费硬件等对延迟敏感的场景 + +### 3. 参数记忆(Parameter Memory) +- 载体:模型权重(通过后训练注入) +- 内容:行业 know-how、领域专业知识 +- 特点:最深层——行业认知能力通过训练内化为模型能力 + +## 为什么要三层? + +业界多数框架只工作在明文记忆层(Prompt/Agent 流),但: +- 参数层增强领域认知能力(从"知道"到"理解") +- 激活层优化运行效率和用户体验(降低 token 消耗) +- 明文层提供灵活的事实和上下文支撑 + +MemOS 是业界唯一一个从底层 Infra、记忆基模到上层应用进行全面增强的记忆系统。 + +## 参考 + +- [[agent-memory-system|Agent 记忆系统]] +- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]] +- [[agent-memory-lifecycle|记忆生命周期]] diff --git a/concepts/leakage-free-state-prediction.md b/concepts/leakage-free-state-prediction.md new file mode 100644 index 0000000..6654ba9 --- /dev/null +++ b/concepts/leakage-free-state-prediction.md @@ -0,0 +1,40 @@ +--- +title: "Leakage-Free State Prediction" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["jepa", "pretraining", "world-model", "information-leakage"] +sources: + - "[[vla-jepa-2026]]" +--- + +# Leakage-Free State Prediction + +Leakage-Free State Prediction 是 VLA-JEPA 的核心设计原则:未来帧仅作为监督目标,永不作为模型输入。这是对当前 latent-action 预训练方法中信息泄漏问题的直接修复。 + +## 问题:信息泄漏 + +传统 latent-action 方法将当前观察和未来观察同时馈入同一模块,或允许未来上下文影响学习的 latent action。这创造了捷径:latent action 可以简单地编码未来本身,而非捕获状态转移。 + +## VLA-JEPA 的方案 + +``` +传统方法(有泄漏): VLA-JEPA(无泄漏): + I_t + I_{t+1} → latent action I_t → latent action + (未来可影响编码) I_{t+1} → target(stop-grad) + latent action → predict target +``` + +Target encoder 被冻结(stop-gradient),仅用于产生监督信号。Student 无法"看到"未来。 + +## 效果 + +- Latent action 被迫编码真正的动态信息而非捷径 +- 对相机运动和背景变化天然鲁棒 +- 学到的表示更具语义抽象性 + +## 参考 +- [[vla-jepa-2026]] +- [[jepa]] +- [[information-leakage-vla]] +- [[latent-action-pretraining]] diff --git a/concepts/lifting-identity.md b/concepts/lifting-identity.md new file mode 100644 index 0000000..ed1a151 --- /dev/null +++ b/concepts/lifting-identity.md @@ -0,0 +1,59 @@ +--- +title: "Lifting Identity (提升恒等式)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["information-geometry", "complexity-measure", "theorem", "fisher-metric"] +sources: ["[[vu-fisher-width-2026]]", "https://arxiv.org/abs/2606.18306"] +--- + +# Lifting Identity (提升恒等式) + +**Lifting Identity** 是 [[vu-fisher-width-2026|Fisher Width]] 理论的中心结构定理,它建立了 Fisher width 与 [[gaussian-width|Gaussian width]] 之间的精确桥接关系。 + +## 陈述 + +对于紧集 T ⊂ ℝᵈ 和正定 Fisher 矩阵 G ≻ 0: + +``` +w_G(T; θ₀) = w(G(θ₀)^{1/2} T) +``` + +其中 G(θ₀)^{1/2} T = {G(θ₀)^{1/2} v : v ∈ T} 是 Fisher 重标度后的集合。 + +## 证明概要 + +由定义: + +``` +w_G(T) = E_g [sup_{v∈T} ⟨g, G^{1/2} v⟩] + = E_g [sup_{u∈G^{1/2} T} ⟨g, u⟩] + = w(G^{1/2} T) +``` + +关键一步是将内积 ⟨g, G^{1/2} v⟩ 重写为 ⟨g, u⟩(其中 u = G^{1/2} v),从而将 Fisher 度量吸收到集合变形中。 + +## 意义 + +Lifting Identity 是整个 Fisher width 理论的**枢纽**: + +1. **性质传递**:Gaussian width 的所有经典性质(单调性、齐次性、凸包不变性、次可加性)通过 Lifting Identity **直接传递**到 Fisher width +2. **集中理论**:Gaussian width 的集中不等式可立即转化为 Fisher width 的版本 +3. **谱比较**:从 Lifting Identity 可直接推导 λ_min^{1/2}·w(T) ≤ w_G(T) ≤ λ_max^{1/2}·w(T) + +## 几何解释 + +Lifting Identity 揭示了 Fisher width 的几何本质: + +``` +欧几里得集合 T → [Fisher 重标度] → Fisher-变形集合 G^{1/2} T → [Gaussian width] → Fisher width +``` + +同一欧几里得集合 T 在不同参数位置的 Fisher width 可能显著不同——因为不同位置处的 Fisher 度量 G(θ) 不同,产生的变形 G(θ)^{1/2} T 也就不同。 + +## 参考 + +- [[vu-fisher-width-2026|Fisher Width 论文]] +- [[fisher-width|Fisher Width]] +- [[gaussian-width|Gaussian Width]] +- [[statistical-manifold|Statistical Manifold]] diff --git a/concepts/light-routing-agent.md b/concepts/light-routing-agent.md new file mode 100644 index 0000000..32bada3 --- /dev/null +++ b/concepts/light-routing-agent.md @@ -0,0 +1,38 @@ +--- +title: "轻量路由 Agent — Light Routing Agent" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [routing, agent-architecture, plugin, ace-router] +sources: + - https://arxiv.org/abs/2601.08276 +--- + +# 轻量路由 Agent(Light Routing Agent) + +## 定义 + +Light Routing Agent (LRA) 是 ACE-Router 的**可插拔部署模块**:将训练好的路由器封装为仅有两个工具的最小 Agent,解耦路由决策与任务执行。 + +## 两个工具 + +| 工具 | 功能 | +|------|------| +| **router_invoke** | 基于当前对话历史和上下文查询训练的路由器,从候选集中选出最合适的候选 | +| **tool_execute** | 调用/执行路由器返回的候选 | + +## 设计理念 + +- **路由与执行解耦**:LRA 不承担规划、工具选择和执行逻辑——只负责路由 +- **可插拔**:插入现有 Agent 工作流,无需修改上游架构 +- **轻量**:无需在 context 中注入大量候选信息——路由在外部完成 + +## 泛化能力 + +LRA 的训练仅涉及工具路由(工具→工具选择),但直接零训练迁移到 Agent 路由(Agent→Agent 选择)达 88-92% 准确率——因为路由器的决策模式(基于描述和 schema 的选择)在工具和 Agent 间可迁移。 + +## 参考 + +- [[ace-router|ACE-Router]] +- [[agent-web|Agent Web]] +- [[yao-ace-router-2026|论文]] diff --git a/concepts/linear-attention.md b/concepts/linear-attention.md new file mode 100644 index 0000000..df73fd5 --- /dev/null +++ b/concepts/linear-attention.md @@ -0,0 +1,47 @@ +--- +title: "线性注意力 (Linear Attention)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [attention, efficiency, linear-complexity] +sources: + - dao-transformers-are-ssms-2024 +--- + +# 线性注意力 (Linear Attention) + +线性注意力是 Katharopoulos et al. (2020) 提出的注意力变体——将 Softmax 注意力转化为**线性复杂度**的核化形式,揭示了 "Transformers are RNNs" 的对偶关系。 + +## 核心技巧 + +利用矩阵乘法的结合律: +``` +Y = softmax(QK^T) · V [O(T²) — 标准 Attention] + ↓ 去掉 softmax,引入核特征映射 φ +Y = (φ(Q) φ(K)^T) · V [核化 Attention] +Y = φ(Q) · (φ(K)^T · V) [结合律重排 → O(T)] +``` + +因果版本在右侧引入因果掩码 L(下三角 1 矩阵)后,可展开为**循环形式**。 + +## 在 SSD 框架中的扩展 + +Dao & Gu (2024) 将线性注意力推广为 [[structured-masked-attention|结构化掩码注意力(SMA)]]: +- 因果掩码 L 从**全 1** 推广为**数据依赖的衰减掩码** (a_t ∈ [0,1]) +- SMA ⇔ SSM 的对偶关系:任何有快速循环形式的核注意力必然是 SSM + +## 变体与进展 + +| 变体 | 关键创新 | +|------|---------| +| 原始 Linear Attention | φ = elu(x) + 1 | +| RetNet (Sun et al., 2023) | 更一般的 L 结构 | +| GateLoop (Katsch, 2023) | 门控线性注意力 | +| SMA (Dao & Gu, 2024) | 数据依赖的 L + 半可分矩阵连接 | + +## 参考 + +- [[structured-masked-attention|SMA]] +- [[structured-state-space-duality|SSD]] +- [[state-space-models|状态空间模型]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/llm-consistent-reasoning.md b/concepts/llm-consistent-reasoning.md new file mode 100644 index 0000000..7c85c86 --- /dev/null +++ b/concepts/llm-consistent-reasoning.md @@ -0,0 +1,54 @@ +--- +title: "LLM Consistent Reasoning" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [reasoning, llm, consistency, gibbs-sampling, mcmc] +sources: + - "[[large-language-gibbs]]" +--- + +# LLM Consistent Reasoning + +**LLM Consistent Reasoning**(LLM 一致性推理)是通过迭代条件更新确保 LLM 在相关问题集合上产生逻辑一致答案的推理范式。Large Language Gibbs 将其形式化为在隐式联合分布上的 Gibbs 采样。 + +## 动机 + +标准 LLM 推理通常独立处理每个问题,但许多问题之间存在约束关系: + +- 同一个物理事实的不同表述应该得到相同答案 +- 数学问题与其验证性问题应该一致 +- 因果相关的事件应该有逻辑上协调的解释 + +独立处理导致不一致——例如对 "太阳是最亮的恒星" 和 "天狼星是最亮的恒星" 同时回答 "True"。 + +## Gibbs 一致性推理 + +将每个问题-答案对视为一个二元变量 X_i ∈ {True, False},整个问题集合为 X = (X_1, ..., X_n)。通过 Gibbs 采样迭代更新: + +1. 初始化所有答案(自回归生成) +2. 每次随机选一个变量 X_i,给定所有其他答案 X_{-i},从 LLM 重新采样 X_i +3. 重复至收敛,取 burn-in 后的样本 + +**关键效果**:当 LLM"知道"某些事实间的逻辑关系时(如 "Polaris" 和 "North Star" 是同一颗星),Gibbs 迭代会逐渐消除不一致——即使 LLM 从未被显式告知这个约束。 + +## 与 ICM 对比 + +Wen et al. (2025) 的 ICM 通过近似最大化 sum of conditional log-probabilities 来实现一致性,是一种启发式算法。Gibbs 一致性推理的优势: + +| 维度 | ICM | Gibbs | +|------|-----|-------| +| 目标 | 最大化条件似然和 | 采样稳态分布 | +| 理论保证 | 无 | MCMC 收敛理论 | +| 变量顺序 | 固定 | 随机化消除偏差 | +| 温度调度 | simulated annealing | 固定温度 | + +## 在 TruthfulQA 和 GSM8K 的表现 + +Large Language Gibbs 在 TruthfulQA 和 GSM8K-Verification 上验证:Gibbs 迭代更新相比独立推理(Zero-shot)和多轮顺序推理(k-Pass),能更好地维持答案间的一致性。 + +## 参考 + +- [[large-language-gibbs]] — Gibbs 一致性推理的论文 +- [[llm-mcmc]] +- [[order-bias-removal]] diff --git a/concepts/llm-mcmc.md b/concepts/llm-mcmc.md new file mode 100644 index 0000000..4059fc1 --- /dev/null +++ b/concepts/llm-mcmc.md @@ -0,0 +1,61 @@ +--- +title: "LLM-MCMC" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [mcmc, llm, probabilistic-inference, sampling, bayesian] +sources: + - "[[large-language-gibbs]]" +--- + +# LLM-MCMC + +**LLM-MCMC** 是将 MCMC(Markov Chain Monte Carlo)方法与大型语言模型结合进行概率推断的伞形框架。其核心思想是将 LLM 的条件分布用作 MCMC 转移算子(transition operator),通过迭代采样从 LLM 编码的隐式联合分布中提取结构化样本。 + +## 研究脉络 + +### Masked LM + MCMC(前身) + +早期工作(Wang & Cho, 2019; Yamakoshi et al., 2022; Torroba Hennigen & Kim, 2023)使用 masked LM(如 BERT)的条件分布作为 MCMC 转移算子,目标是从 token 序列的隐式联合分布中采样。这些工作将 masked LM 解释为依赖网络(dependency network)或全连接马尔可夫随机场。 + +### 自回归 LLM + MCMC(当前) + +[[large-language-gibbs|Large Language Gibbs]] 将这一思想扩展到自回归 LLM,关键区别在于: + +| 维度 | Masked LM + MCMC | AR LLM + MCMC | +|------|-----------------|--------------| +| 条件分布 | 直接可获取(masked token prediction) | 需通过排列+序列化构造 | +| 变量类型 | 连续 token 序列 | 抽象结构化变量 | +| 应用 | 语言建模、文本生成 | 结构化推断、推理、因果发现 | + +## 核心机制 + +MCMC 的基本结构在 LLM 上下文中保持不变: + +1. **转移算子**:LLM 的条件分布 p^LM(X_i | X_{-i}) 近似 Gibbs kernel +2. **稳态分布**:链收敛到 q^* — 所有局部条件之间的折衷 +3. **消除偏差**:随机排列 + 迭代更新移除自回归的顺序偏差 + +## 与标准 MCMC 的关键区别 + +| 维度 | 标准 MCMC | LLM-MCMC | +|------|----------|----------| +| 条件分布来源 | 显式概率模型 | LLM 隐式知识 | +| 条件兼容性 | 保证兼容(来自同一 joint) | 不保证兼容(unary conditionals 可能不一致) | +| 稳态分布 | p(目标分布) | q^*(折衷分布) | +| 采样效率 | 取决于模型 | 受 LLM 推理速度限制 | +| 可解释性 | 高(参数有语义) | 低(LLM 黑盒) | + +## 应用方向 + +- **结构化采样**:从 LLM 的隐式分布中抽取联合样本 +- **一致性推理**:确保相关问题集合答案的逻辑一致性 +- **贝叶斯先验引出**:从 LLM 知识中构建信息先验,辅助贝叶斯推断 +- **约束生成**:在预定义约束下从 LLM 先验中采样 + +## 参考 + +- [[large-language-gibbs]] — AR LLM + Gibbs 的代表性工作 +- [[barker-gibbs]] +- [[gambling-gibbs]] +- [[order-bias-removal]] diff --git a/concepts/long-horizon-parsing.md b/concepts/long-horizon-parsing.md new file mode 100644 index 0000000..531a17d --- /dev/null +++ b/concepts/long-horizon-parsing.md @@ -0,0 +1,41 @@ +--- +title: "Long-Horizon Parsing" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["ocr", "long-horizon", "parsing", "document-understanding"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# Long-Horizon Parsing + +Long-Horizon Parsing 指在单次前向传播中解析多页/长文档的 OCR 能力,区别于传统的逐页 for-loop 处理模式。 + +## 问题 + +现有 OCR 模型采用 page-by-page for-loop 处理,每页重置记忆,将连贯的长程过程碎片化为孤立短任务。人类则在长程抄写中维持连续的认知状态,效率不降。 + +## Unlimited OCR 的方案 + +通过 R-SWA + DeepEncoder 高压缩率(16×): +- 10K 视觉 token ≈ 20-30 页(1024×1024) +- 10K 视觉 token → ~100K 文本 token 解码 +- 恒定 KV cache + 恒定 TPS 支撑全量解码 + +## 评估 + +在 2/5/10/20/40+ 页的书籍、文档、论文测试集上: +- Distinct-n > 96%(内容多样性保持) +- Edit Distance < 0.11(高精度) + +## 与通用 Long-Horizon 的区别 + +此概念特指**解析/转录类任务中的长程能力**(OCR/ASR/翻译),不同于强化学习中的 long-horizon planning 或 utility modeling。 + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[reference-sliding-window-attention]] +- [[deepencoder]] +- [[long-horizon-utility]] +- [[long-horizon-evaluation]] diff --git a/concepts/long-horizon-utility.md b/concepts/long-horizon-utility.md new file mode 100644 index 0000000..5be3225 --- /dev/null +++ b/concepts/long-horizon-utility.md @@ -0,0 +1,47 @@ +--- +title: "Long-Horizon Utility" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "attention", "evaluation"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Long-Horizon Utility + +## 定义 + +Long-Horizon Utility(长视界效用)是 LU-KV 提出的核心概念,指从未来解码步骤的视角评估 KV Cache token 的真实贡献,而非依赖于 prefill 阶段的瞬时注意力分数。它是对传统 [[heuristic-metric]] "短视"问题的根本性修正。 + +## 与传统指标的对立 + +| 视角 | 指标类型 | 符号 | 时间基准 | +|------|---------|------|---------| +| 短视(Short-horizon) | [[heuristic-metric]] | π | prefill 瞬时 | +| 长视(Long-horizon) | [[oracle-importance]] | π* | 未来解码窗口 | + +传统方法(H2O、SnapKV、KeyDiff 等)的评分基于 prefill 阶段计算的注意力权重,这些权重反映了"此刻"的重要程度,但无法预知未来解码步骤中注意力模式的漂移。 + +## LU-KV 中的体现 + +在 LU-KV 框架中,Long-Horizon Utility 通过以下方式实现: + +1. **Oracle 重要性定义**:I_{l,h,j} = max_k ||A_{l,h,k,j} * v_{l,h,j} * W_O||,明确以未来 K_max 步为评估窗口 +2. **边际效用视角**:不是判断 token "现在是否重要",而是"保留它能为未来生成质量增加多少价值" +3. **离线 profiling**:通过全注意力解码获取真实的未来效用数据,用于标定各 head + +## 核心洞察 + +> 最优预算分配应受**长期语义信息保存的边际效用**支配,而非瞬时重要性分数。 + +这本质上是一个**时间维度的范式转换**:从"什么 token 现在看起来重要"到"什么 token 未来会被证明重要"。 + +## 相关概念 + +- [[oracle-importance]] — 长视界效用的具体量化 +- [[marginal-utility]] — 基于长视界效用曲线的投资回报思维 +- [[optimality-gap]] — 长视界 vs 短视的差距 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/long-range-dependency.md b/concepts/long-range-dependency.md new file mode 100644 index 0000000..47848ad --- /dev/null +++ b/concepts/long-range-dependency.md @@ -0,0 +1,39 @@ +--- +title: "Long-Range Dependency" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["sequence-modeling", "memory", "architecture"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Long-Range Dependency + +## 定义 + +Long-Range Dependency(长距离依赖)是序列建模的核心挑战:模型需要在相距很远的 token 之间建立有效的语义连接。Transformer 通过注意力实现了理论上的无限上下文窗口(受内存限制),而 SSM 通过 [[hippo]] 等数学工具在固定维度的隐状态中压缩长距离信息。 + +## 不同架构的处理方式 + +| 架构 | 机制 | 复杂度 | 限制 | +|------|------|--------|------| +| Transformer | 全对全注意力 | O(n²) 训练,O(n) 推理内存 | KV cache 随序列线性增长 | +| LSTM/RNN | 隐状态 + 门控 | O(n) 训练,O(1) 推理 | 梯度消失,容量有限 | +| S4 (LTI SSM) | HiPPO 隐状态 | O(n log n) 训练,O(1) 推理 | 无内容感知 | +| Mamba (S6) | 选择性隐状态 | O(n) 训练,O(1) 推理 | 选择性但无注意力式交互 | + +## HiPPO 的作用 + +[[hippo|HiPPO]](High-order Polynomial Projection Operators)为 SSM 提供了**数学上最优的在线压缩**——在给定隐状态维度下,最大化对历史信息的保留能力。HiPPO-LegS 矩阵对输入的时间尺度变化具有鲁棒性,使 SSM 天然适合处理变化长度的长序列。 + +## 相关概念 + +- [[hippo]] — SSM 处理长距离依赖的数学基础 +- [[structured-state-space-models]] — 基于 HiPPO 的 S4 +- [[selective-state-space]] — Mamba 在此基础上增加选择性 +- [[attention-mechanism]] — 注意力的长距离依赖方案 + +## 参考 + +- HiPPO (Gu et al., 2020) +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) diff --git a/concepts/long-term-interactive-memory.md b/concepts/long-term-interactive-memory.md new file mode 100644 index 0000000..7441361 --- /dev/null +++ b/concepts/long-term-interactive-memory.md @@ -0,0 +1,49 @@ +--- +title: "Long-Term Interactive Memory" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["memory", "chat-assistant", "personalization", "benchmark"] +sources: + - "[[longmem-eval-2025]]" +--- + +# Long-Term Interactive Memory + +Long-Term Interactive Memory 是 LLM 聊天助手在持续用户交互中积累、回忆和推理个人知识的能力——区别于短期的上下文窗口记忆和静态的知识库检索。 + +## 定义 + +三个关键属性: +1. **Long-Term(长期性)**:跨时间跨度(天/月/年),不是单次对话 +2. **Interactive(交互性)**:在用户-AI 对话中动态积累,而非被动加载的静态文档 +3. **Memory(记忆)**:不仅存储,还需回忆 + 推理(综合、更新、遗忘) + +## 为什么关键 + +- **个性化**:心理咨询、秘书服务等场景高度依赖长期积累的用户背景和偏好 +- **可靠性**:不整合用户历史会导致不准确甚至矛盾的回复 +- **信任**:用户期望助手"记住"而不是反复询问相同信息 + +## 三种实现路线 + +| 路线 | 方法 | 代表系统 | +|------|------|---------| +| Long-Context | 直接将全部历史喂入 LLM | GPT-4-128k, Gemini-1M | +| Memory Module | 可微分记忆模块嵌入模型 | MemNN, Memformer | +| Context Compression | 压缩 → 索引 → 检索(RAG 思路) | [[atlas-memory-system]], MemGPT | + +LongMemEval 的评测框架与路线 3(Context Compression + RAG)对齐:每个交互会话被顺序处理、存储、通过索引和检索机制按需访问。 + +## 与 Atlas 的关系 + +| 维度 | Atlas (Agent 记忆系统) | LongMemEval (评测基准) | +|------|------|------| +| 关注点 | 记忆系统实现(存储+召回) | 记忆能力评测(5 种能力) | +| 输出 | 召回结果 | QA 准确度 | +| 互补 | 可被 LongMemEval 评测 | 可指导 Atlas 优化方向 | + +## 参考 +- [[longmem-eval-2025]] +- [[atlas-memory-system]] +- [[agent-memory-taxonomy]] diff --git a/concepts/longmem-eval.md b/concepts/longmem-eval.md new file mode 100644 index 0000000..c437f2e --- /dev/null +++ b/concepts/longmem-eval.md @@ -0,0 +1,61 @@ +--- +title: "LongMemEval Benchmark" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["benchmark", "memory", "evaluation", "chat-assistant"] +sources: + - "[[longmem-eval-2025]]" +--- + +# LongMemEval Benchmark + +LongMemEval (ICLR 2025) 是首个系统性评测聊天助手长期交互记忆能力的综合基准,包含 500 道手工创建的问题,覆盖 5 种核心记忆能力。 + +## 问题形式化 + +每个评测实例:**(S, q, t_q, a)** + +- **S** = [(t₁, S₁), (t₂, S₂), ..., (t_N, S_N)]:N 个按时间排序的历史会话 +- 每个 S_i 是用户-助手的多轮交互(含任务型对话) +- **q**:问题,**t_q**:提问时间戳,**a**:答案 + +## 五种记忆能力 + +| # | 能力 | 挑战 | 占比 | +|---|------|------|------| +| 1 | **Information Extraction** | 从多轮对话中提取隐藏信息 | ~30% | +| 2 | **Multi-Session Reasoning** | 跨多个独立会话综合信息 | ~20% | +| 3 | **Temporal Reasoning** | 基于时间参考推断 | ~15% | +| 4 | **Knowledge Updates** | 处理更新/矛盾的用户信息 | ~20% | +| 5 | **Abstention** | 识别不可回答的问题(不幻想) | ~15% | + +## 两个标准规模 + +| 设置 | 规模 | 现象 | +|------|------|------| +| LongMemEval **S** | ~115k tokens | 长上下文 LLM 准确度下降 30-60% | +| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模;商业系统仅 30-70% | + +历史长度可自由扩展:"needle-in-a-haystack" 风格——信息隐藏在可自由增长的对话历史中。 + +## 与已有基准的差异 + +| 已有基准 | 缺失的能力 | +|---------|----------| +| MemoryBank | 跨会话推理、时间推理 | +| LoCoMo | 助手侧信息回忆、知识更新 | +| PerLTQA | 时间推理、遗忘识别 | +| 所有已有基准 | **Abstention**(不可回答的识别)| + +## 设计亮点 + +- **任务型对话 + 闲聊混合**:反映真实使用场景——长上下文输入 + 长形式回复 +- **可自由扩展长度**:不是固定数据集,是可以无限增长的历史 +- **时间戳标注**:每个会话有明确时间戳,使时间推理成为可能 +- **Abstention 题**:模型必须学会说"我不知道"——记忆系统不仅是"找到",更是"知道何时放弃" + +## 参考 +- [[longmem-eval-2025]] +- [[long-term-interactive-memory]] +- [[memory-indexing-retrieval-reading]] diff --git a/concepts/look-ahead-buffer-controller.md b/concepts/look-ahead-buffer-controller.md new file mode 100644 index 0000000..46a0b10 --- /dev/null +++ b/concepts/look-ahead-buffer-controller.md @@ -0,0 +1,56 @@ +--- +title: "Look-Ahead Buffer Controller" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["buffer", "streaming", "timing", "inference", "real-time"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Look-Ahead Buffer Controller (先行缓冲控制) + +**Look-Ahead Buffer Controller** 是 [[maineCoon|MaineCoon]] [[agentic-streaming-inference|流式推理框架]] 的第三个控制器:管理**生成速度与播放速度之间的时间差**。 + +## 问题:生成≠播放同步 + +MaineCoon 在单 H100 上以 ~32 FPS 生成,但视频以 25 FPS 播放。两者不同步导致**先行缓冲 (look-ahead buffer)** 的积累: + +``` + ← Past | Future → +Generation: [已生成.........正在生成..........未生成] + ↑ generation head +Playback: [已播放.....正在播放.....缓冲中........] + ↑ playback head + ← lead → +``` + +## Pace Gate(节奏门) + +Buffer Controller 通过 pace gate 将 lead 保持在一个有界窗口内: + +- **上限**:lead 过大时减速生成,防止过度承诺未来内容 +- **下限**:lead 过小时加速生成(sprint),避免播放卡顿 +- **暂停处理**:观众暂停时 hold 生成 + +## 为什么 Lead 是设计空间 + +先行缓冲不仅是技术副作用,更是交互式流生成的设计资源: + +| Lead 大小 | 优势 | 风险 | +|----------|------|------| +| 大 lead | 容错空间大,可吸收计算抖动 | 观众输入滞后,已生成内容无法修改 | +| 小 lead | 即时响应观众交互 | 一次性能抖动就可能导致播放卡顿 | + +理想的 lead 大小是**刚好够缓冲计算抖动,又不至于让观众互动延迟过高**。 + +## 与分离架构的配合 + +因为 [[agentic-streaming-inference|Agentic 框架]] 的分离设计: +- **Planner/Observer** 在 generation head 运行(有 lead 保护) +- **Viewer interaction** 通过 fast lane 注入未来 beat,不中断当前 chunk +- 计算抖动和 agentic 成本由 lead 吸收,**播放端零延迟** + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 4.3 +- [[agentic-streaming-inference|Agentic Streaming Inference]] +- [[streaming-generation|Streaming Generation]] diff --git a/concepts/lukv.md b/concepts/lukv.md new file mode 100644 index 0000000..ade101f --- /dev/null +++ b/concepts/lukv.md @@ -0,0 +1,47 @@ +--- +title: "LU-KV (Long-horizon Utility KV)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "combinatorial-optimization", "llm-inference"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# LU-KV + +## 定义 + +LU-KV(Long-horizon Utility KV)是 Tang et al. (ICML 2026) 提出的 KV Cache 驱逐框架。核心创新是将 **head 级别预算分配**建模为 [[global-combinatorial-optimization]],通过最大化长期语义信息保留来驱动分配决策,而非依赖瞬时启发式分数。 + +## 核心原理 + +LU-KV 将 KV 缓存驱逐重新定位为**战略性投资问题**: + +- 每个 attention head 有不同的"投资回报率"——即增加预算对长期语义保存的边际贡献 +- 预算分配应基于 [[marginal-utility]] 而非绝对分数 +- 通过 [[offline-profiling]] 预计算各 head 的效用曲线,在线只需查表 + +## 方法组件 + +1. **[[oracle-importance]]** — 定义 token 在未来解码窗口中的最大潜在贡献 +2. **[[optimality-gap]]** — 分解启发式指标与 Oracle 之间的损失差距 +3. **[[convex-hull-relaxation]]** — PAVA 保序回归 + 贪心求解 +4. **[[offline-profiling]]** — 三阶段离线校准协议 + +## 关键性质 + +- **指标无关(Metric-Agnostic)**:可适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 intra-head 评分方法 +- **跨任务可迁移**:head 级最优压缩率在不同任务间高度一致 +- **可忽略的在线开销**:查表 → 预算计算 → 驱逐,无在线优化 +- **80% 压缩率**:在 LongBench 和 RULER 上以 80% KV cache 压缩实现最小性能退化 + +## 相关概念 + +- [[long-horizon-utility]] — LU-KV 核心视角:超越瞬时的长期效用 +- [[head-level-budget-allocation]] — LU-KV 的主要优化对象 +- [[heuristic-metric]] — LU-KV 解耦了指标选择与预算分配 + +## 参考 + +- 论文:[[tang-lukv|Predicting Future Utility]] (Tang et al., ICML 2026) +- 代码:未公开(截至 2026-06) diff --git a/concepts/mamba-2.md b/concepts/mamba-2.md new file mode 100644 index 0000000..2dd345b --- /dev/null +++ b/concepts/mamba-2.md @@ -0,0 +1,48 @@ +--- +title: "Mamba-2" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [ssm, architecture, mamba, efficiency] +sources: + - dao-transformers-are-ssms-2024 +--- + +# Mamba-2 + +Mamba-2 是 Dao & Gu (2024) 基于 [[structured-state-space-duality|SSD 框架]] 设计的新架构——核心层是 [[mamba-ssm|Mamba]] 选择性 SSM 的改进版,**2-8x 更快**。 + +## 相对于 Mamba 的改进 + +### 架构层面 +| 组件 | Mamba (2023) | Mamba-2 (2024) | +|------|:---:|:---:| +| A 矩阵 | 对角矩阵 | 标量 × 单位矩阵 | +| Head 维度 P | 1 | 64/128 | +| Head 结构 | 多输入 SSM (MIS) | 分组值注意力 (GVA) | +| 并行性 | 不支持 TP | 原生 Tensor Parallelism | + +### 效率层面 +- **SSD 算法**:利用 [[semiseparable-matrices|半可分矩阵]] 的块分解,部分用循环(O(T))、部分用矩阵乘法(GPU 优化) +- 比 Mamba 的 selective scan 快 **2-8x** +- 支持 **8x** 更大的状态大小(N),几乎无减速 +- 序列长度 16K 时比 FlashAttention-2 快 **6x** + +## Chinchilla 缩放定律 + +在 Pile 数据集的 Chinchilla 设置下,Mamba-2 **Pareto 支配** Mamba 和 Transformer++: +- 2.7B 参数 / 300B tokens 训练 → 超越 Pythia-2.8B 和 Pythia-6.9B + +## 关键设计决策 + +1. **张量并行友好**:将所有数据依赖投影移到块开头并行执行,减少同步点 +2. **GVA Head 结构**:分组值注意力 — 介于 MHA 和 MQA 之间 +3. **变长序列支持**:无需 padding tokens,通过传递循环状态实现 + +## 参考 + +- [[structured-state-space-duality|SSD]] +- [[ssd-algorithm|SSD 算法]] +- [[mamba-ssm|Mamba]] +- [[head-structure-ssm|SSM 多头结构]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/mamba-ssm.md b/concepts/mamba-ssm.md index 8fc2c70..fab352f 100644 --- a/concepts/mamba-ssm.md +++ b/concepts/mamba-ssm.md @@ -1,27 +1,59 @@ --- -title: Mamba (State Space Model) +title: "Mamba (State Space Model)" created: 2025-04-15 -updated: 2026-05-01 +updated: 2026-06-18 type: concept -tags: [] -sources: [] +tags: ["ssm", "linear-complexity", "architecture", "sequence-modeling"] +sources: ["https://arxiv.org/abs/2312.00752"] --- -# Mamba (State Space Model) +# Mamba -**选择性状态空间模型**,由 Gu 和 Dao 2024 年提出,线性复杂度的 Transformer 替代方案。 +## 定义 + +Mamba 是 Gu & Dao (2024) 提出的**选择性状态空间序列模型**,第一个在线性复杂度下真正达到 Transformer 质量的语言建模架构。核心创新是将 SSM 从线性时间不变(LTI)升级为**输入依赖的选择性参数化**(S6),结合硬件感知并行算法。 ## 核心机制 -Mamba 将 SSM 的选择性机制(输入依赖的状态转移)与硬件感知算法结合,实现了线性时间序列建模,在多个任务上达到或超越 Transformer 性能。 +### 选择机制(S6) -## 与注意力机制的关系 +传统 S4 的关键局限:参数 (A, B, C, Δ) 对所有时间步固定 → 状态更新规则不随输入内容改变 → **无法选择性关注或忽略信息**。 -Mamba 展示了突破 O(n²) 注意力瓶颈的另一条路——不是优化注意力,而是**抛弃注意力**。 +Mamba 的 S6 将 B, C, Δ 变为输入的函数: +``` +B_t = s_B(x_t) C_t = s_C(x_t) Δ_t = τ(Δ + s_Δ(x_t)) +``` + +效果:模型能根据当前 token 内容决定传播或遗忘信息——实现 **[[content-based-reasoning]]**。 + +### 硬件感知算法 + +选择机制消除卷积等价性 → 必须循环计算。Mamba 通过**并行关联扫描([[hardware-aware-algorithm]])**在 GPU SRAM 中高效完成,避免 HBM IO 瓶颈。 + +### 极简架构 + +Mamba block = LayerNorm → Linear(expand) → Conv1d → SiLU → SSM(S6) → 与门控分支逐元素乘 → Linear(project) → 残差。**无注意力、无 MLP**。 + +## 关键性质 + +- **线性复杂度**:训练 O(n),推理每步 O(1)(无需 KV cache) +- **5× 推理吞吐** vs 同规模 Transformer +- **长序列外推**:Selective Copying 和 Induction Heads 外推到 >1M tokens +- **多模态**:语言、音频、基因组学均达 SOTA ## 相关概念 -- [[linear-attention-methods]] — 另一条线性路径 -- [[subquadratic-transformer-alternatives]] — 次二次替代综述 -- [[attention-entropy-collapse]] — Mamba 无此问题 -- [[llm-attention-survey-2026]] — 综述参考 +- [[selective-state-space]] — 选择机制(S6)的详细分析 +- [[structured-state-space-models]] — S4 前身 +- [[hardware-aware-algorithm]] — 并行 scan 实现 +- [[state-space-models]] — SSM 家族总览 +- [[hippo]] — 数学基础 +- [[content-based-reasoning]] — Mamba 解决的核心弱点 +- [[gu-mamba|Mamba 论文]] — 原始论文 + +## 参考 + +- [[gu-mamba|Mamba: Linear-Time Sequence Modeling with Selective State Spaces]] (Gu & Dao, 2024) +- [[dao-transformers-are-ssms-2024|Transformers are SSMs (Mamba-2)]] (Dao & Gu, 2024) +- [[mamba-2|Mamba-2 架构]] — 2-8x 加速的改进版 +- 代码:https://github.com/state-spaces/mamba diff --git a/concepts/manifold-of-minimizers.md b/concepts/manifold-of-minimizers.md new file mode 100644 index 0000000..4432fa1 --- /dev/null +++ b/concepts/manifold-of-minimizers.md @@ -0,0 +1,40 @@ +--- +title: "Manifold of Minimizers (极小值流形)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: [loss-landscape, overparameterization, optimization, geometry] +sources: [gan-bifurcation-eos] +--- + +# Manifold of Minimizers (极小值流形) + +极小值流形 (Manifold of Minimizers) 是过参数化神经网络损失景观的核心几何特征:当参数数量远超训练样本数时,损失函数在参数空间中存在**连续的全局极小值集合**,形成一个低维流形 M。 + +## 数学刻画 + +对于过参数化网络,Hessian ∇²L(x*) 在任意极小值 x* ∈ M 处秩亏: +- **零空间** = 极小值流形的切空间 T_x* M(Morse-Bott 条件) +- **非零特征值** = 法向曲率,其中最大特征值即为 [[sharpness]] + +## EoS 中的关键角色 + +极小值流形的存在使简单的标量 flip 分岔分析不足。Gan (2026b) 的关键贡献是将梯度下降动力学沿 M 分解为: + +1. **法向 (Normal) 动力学**:在 N_x* M 中经历 [[flip-bifurcation|flip 分岔]],c₁ 决定稳定性 +2. **切向 (Tangent) 动力学**:沿 M 漂移,方向为递减 sharpness 的方向 + +这种 [[normal-tangent-decomposition|法向-切向分解]] 是理解过参数化网络中 EoS 收敛的核心框架。 + +## 相关概念 + +- Draxler et al. (2019):实证发现损失景观中极小值间无障碍 +- Simsek et al. (2021):对称性诱导的 Hessian 退化 +- Li et al. (2022):SGD 沿极小值流形的动力学框架 + +## 参考 + +- [[gan-bifurcation-eos]] +- [[normal-tangent-decomposition]] +- [[sharpness]] +- [[edge-of-stability]] diff --git a/concepts/marginal-utility.md b/concepts/marginal-utility.md new file mode 100644 index 0000000..b7ae557 --- /dev/null +++ b/concepts/marginal-utility.md @@ -0,0 +1,55 @@ +--- +title: "Marginal Utility (KV Cache)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "optimization", "economics-analogy"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Marginal Utility in KV Cache Eviction + +## 定义 + +Marginal Utility(边际效用)在 KV Cache 驱逐语境中指:**为一个 attention head 增加一单位预算(保留一个额外 token)所带来的长期语义信息保存增量**。这是 LU-KV 框架的核心分配准则,借鉴了经济学中"边际收益"的概念。 + +## 形式化 + +在 LU-KV 的 [[convex-hull-relaxation]] 下,head (l, h) 分配第 i 个 token 的有效边际增益为: + +``` +g_{l,h}(i) = L̆(M^π(i-1)) - L̆(M^π(i)) >= 0 +``` + +其中 L̆ 是经过 PAVA 保序回归凸化后的损失函数。g_{l,h}(i) 单调不增——每多保留一个 token,额外收益递减(边际效用递减规律)。 + +## 分配策略 + +LU-KV 的贪心求解器基于边际效用比较: + +1. 对所有 head 计算其边际增益序列 g_{l,h}(1), g_{l,h}(2), ... +2. 每次迭代:选择当前边际增益最大的 (head, token) 对 +3. 分配该 token,更新边际增益 +4. 重复直到全局预算 B_total 耗尽 + +贪心解的最优性由凸松弛保证:凸化后的损失函数使边际增益满足递减性质,贪心即全局最优。 + +## 经济学类比 + +| 经济学概念 | LU-KV 对应 | +|-----------|-----------| +| 投资预算 | 全局 KV Cache 预算 B_total | +| 投资项目 | 不同的 attention heads | +| 边际收益 | g_{l,h}(i) — 保留额外 token 的效用增益 | +| 最优分配 | 各 head 边际收益相等时达到均衡 | + +## 相关概念 + +- [[global-combinatorial-optimization]] — 边际效用驱动的全局分配形式化 +- [[convex-hull-relaxation]] — 确保边际效用单调递减的前提 +- [[oracle-importance]] — 边际效用的 ground truth 来源 +- [[optimality-gap]] — 低边际效用的 head 意味着更大的 optimality gap + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/mcp-protocol.md b/concepts/mcp-protocol.md new file mode 100644 index 0000000..3f0c5c6 --- /dev/null +++ b/concepts/mcp-protocol.md @@ -0,0 +1,54 @@ +--- +title: "MCP 协议 — Model Context Protocol" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [mcp, protocol, tool-integration, json-rpc, standardization] +sources: + - https://arxiv.org/abs/2506.01056 + - https://github.com/modelcontextprotocol/servers +--- + +# MCP 协议(Model Context Protocol) + +## 定义 + +Model Context Protocol (MCP) 是 2024 年引入的**开放标准**,通过 JSON-RPC 消息交换为 LLM 提供安全、统一的工具和服务访问接口。解决了不同平台需要自定义连接器和专有协议的碎片化问题。 + +## 核心设计 + +- 基于 **JSON-RPC** 的消息交换 +- 标准化接口:所有 server 和 tool 必须提供描述性文档 +- Server 层面:平台/权限域(如 filesystem, github, database) +- Tool 层面:具体操作(如 read_file, search_repos) + +## 生态规模 + +MCP-Zero 论文构建的 MCP-tools 数据集显示: +- **308** 个 MCP servers +- **2,797** 个 tools +- 全量 tool schema 约 **248.1K tokens** + +## MCP 解决了什么 + +| 问题 | MCP 解法 | +|------|---------| +| 平台碎片化 | 统一 JSON-RPC 接口 | +| 工具可达性 | 标准化的发现和调用机制 | +| 集成摩擦 | 无需自定义连接器 | + +## MCP 没解决什么 + +MCP 解决了**互操作性**问题,但**未解决过程性问题**: +- 有 300 个 server 可用 → 该用哪个? +- 即使知道 server,该调用哪个 tool? +- 多步任务需要跨 server 的 toolchain → 如何编排? + +这正是 [[active-tool-discovery|MCP-Zero]] 切入的方向——在 MCP 基础上增加**主动发现**层。 + +## 参考 + +- [[active-tool-discovery|主动工具发现]] +- [[fei-mcp-zero-2025|MCP-Zero 论文]] +- [[agent-skill|Agent Skill]](skill 是 MCP 之上的过程层) +- [[mcp-tools-dataset|MCP-tools 数据集]] diff --git a/concepts/mcp-tools-dataset.md b/concepts/mcp-tools-dataset.md new file mode 100644 index 0000000..82d44a5 --- /dev/null +++ b/concepts/mcp-tools-dataset.md @@ -0,0 +1,58 @@ +--- +title: "MCP-tools 数据集" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [dataset, mcp, tool-discovery, benchmark, evaluation] +sources: + - https://arxiv.org/abs/2506.01056 +--- + +# MCP-tools 数据集 + +## 定义 + +MCP-tools 是 MCP-Zero 论文构建的**首个面向检索的工具发现数据集**,从官方 Model Context Protocol 仓库收集了 308 个 MCP server 和 2,797 个 tool。 + +## 与其他 MCP 数据集的区别 + +| | MCPBench | MCP-tools | +|---|---|---| +| 关注点 | Server 可用性、延迟测试 | 语义工具发现和检索 | +| 目标 | 基础设施评估 | Agent 工具发现能力评估 | + +## 数据结构 + +```json +{ + "server_name": "string", + "server_description": "string", + "server_summary": "string", // MCP-Zero 增强摘要 + "tools": [ + { + "name": "string", + "description": "string", + "parameter": { + "param1": "(type) description", + "param2": "(Optional, type) description" + } + } + ] +} +``` + +## 增强摘要 + +MCP-Zero 为每个 server 构建了增强摘要——包含综合使用示例——用于提升 server 级语义匹配精度。对比仅用原始描述(通常只有一句话)有显著改善。 + +## 关键指标 + +- 308 servers × 2,797 tools +- 全量 tool schema 约 **248.1K tokens** +- 单个 GitHub MCP server:**4,600+ tokens**(26 tools) + +## 参考 + +- [[mcp-protocol|MCP 协议]] +- [[fei-mcp-zero-2025|MCP-Zero 论文]] +- [[active-tool-discovery|主动工具发现]] diff --git a/concepts/me2-principle.md b/concepts/me2-principle.md new file mode 100644 index 0000000..081f340 --- /dev/null +++ b/concepts/me2-principle.md @@ -0,0 +1,33 @@ +--- +title: "ME² Principle" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["reasoning", "evaluation", "quality-metrics"] +sources: + - "[[me2-trm-reasoning-2026]]" +--- + +# ME² Principle + +ME² 是 Zhang et al. (ICML 2026) 提出的推理质量表征原则,沿两个正交轴定义高质量推理。 + +## 四象限 + +| | Macro(全局结构) | Micro(局部步骤) | +|---|---|---| +| **Effectiveness** | 结构合理、无冗余分支 | 步骤正确、逻辑连贯 | +| **Efficiency** | 路径简洁、无绕路 | 步骤精简、无赘述 | + +## PRM 的问题 + +Process Reward Models 通常只覆盖 Micro-Effectiveness(步骤级正确性标注),忽略了宏观结构组织和效率维度。ME² 提供了统一的评估视角——推理质量需要同时考虑这四个维度。 + +## 与答案正确性的解耦 + +ME² 仅评估**推理轨迹质量**,与最终答案是否正确无关。TRM 训练于 verified-correct 推理对的偏好数据,证明推理质量可独立于答案正确性评估。 + +## 参考 +- [[me2-trm-reasoning-2026]] +- [[thinking-reward-model]] +- [[dag-reasoning-evaluation]] diff --git a/concepts/megatron-lm.md b/concepts/megatron-lm.md new file mode 100644 index 0000000..ca3fb60 --- /dev/null +++ b/concepts/megatron-lm.md @@ -0,0 +1,16 @@ +--- +title: "Megatron-LM" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["training-framework", "distributed-training", "model-parallelism"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# Megatron-LM + +Megatron-LM(NVIDIA, arXiv:1909.08053)是训练数十亿参数大语言模型的分布式训练框架,提供张量并行、流水线并行等模型并行策略。Unlimited OCR 的训练 pipeline 基于 Megatron-LM 构建。 + +## 参考 +- [[unlimited-ocr-works-2026]] diff --git a/concepts/mem2skill.md b/concepts/mem2skill.md new file mode 100644 index 0000000..73e7eeb --- /dev/null +++ b/concepts/mem2skill.md @@ -0,0 +1,47 @@ +--- +title: "Mem2Skill — 记忆到技能转化" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, memos, skill-generation, memory-evolution] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# Mem2Skill + +## 定义 + +Mem2Skill 是 MemOS 的核心创新机制:从对话碎片和交互记忆中自动提取结构化内容,形成参数化技能(Skill),完成从"记住"到"学会"的跃迁。 + +## 核心理念 + +> **记忆不止于被搜到,而是内化为能力。** + +传统记忆系统只做"存→搜→读",Mem2Skill 将记忆上升到"理解→抽象→可执行"的层次。 + +## 工作流程 + +``` +对话碎片 → 提取关键模式 → 结构化 → 参数化技能 → 入库可复用 +``` + +## 实际案例 + +**K8s 内存泄露排查**: +- 之前:经验丰富的开发者手动排查 → 2 小时 +- Mem2Skill 后:排查过程结构化为 Skill → 通过 Hub Server 传递给其他 Agent +- 结果:其他人遇到 OOM → **10 分钟**搞定,无需容器化排查经验 + +## 与 Agent Skills 综述的对应 + +Mem2Skill 对应 [[agent-skill|Zhou et al. (2026) Agent Skills 综述]]中 experience-derived acquisition(经验来源获取)的 procedural packaging 阶段——将经验转化为可复用过程构件。 + +区别在于 Mem2Skill 强调**从记忆到技能的自动化跃迁**,而传统经验获取更多关注轨迹抽象。 + +## 参考 + +- [[agent-memory-system|Agent 记忆系统]] +- [[agent-skill|Agent Skill]] +- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]] +- [[memory-dedup-pipeline|记忆去重管线]] diff --git a/concepts/memcube.md b/concepts/memcube.md new file mode 100644 index 0000000..7099f88 --- /dev/null +++ b/concepts/memcube.md @@ -0,0 +1,39 @@ +--- +title: "MemCube — 最小记忆单元" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, memos, storage, memory-unit] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# MemCube + +## 定义 + +MemCube 是 MemOS 记忆存储层中**最小可打包的记忆单元**。每个 MemCube 封装一段原子性的记忆内容,可独立存储、检索、共享和交易。 + +## 设计理念 + +类比面向对象编程中的"对象"或容器化中的"容器"——将记忆封装为自包含的单元,带上元数据(来源、时间戳、可信度、权限)后独立流转。 + +## 关键属性 + +| 属性 | 说明 | +|------|------| +| **原子性** | 单条记忆不依赖上下文即可理解 | +| **可打包** | 可序列化、存储、跨系统传输 | +| **可交易** | 通过 MemStore 记忆市场跨 Agent 共享 | +| **可扩展** | 已扩展至 Skill 层面(→ Mem2Skill) | + +## MemStore 记忆市场 + +MemCube 的上层市场平台——允许记忆在不同 Agent 间交易和流转。这是 MemOS 不同于纯粹技术框架的核心差异化:将记忆视为**可流通资产**。 + +## 参考 + +- [[agent-memory-system|Agent 记忆系统]] +- [[layered-memory-architecture|三层记忆架构]] +- [[mem2skill|Mem2Skill]] +- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]] diff --git a/concepts/memory-compute-decoupling.md b/concepts/memory-compute-decoupling.md new file mode 100644 index 0000000..389294b --- /dev/null +++ b/concepts/memory-compute-decoupling.md @@ -0,0 +1,62 @@ +--- +title: "Memory-Compute Decoupling" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["infrastructure", "efficiency", "memory", "prefetching"] +sources: + - "[[engram-conditional-memory-2026]]" +--- + +# Memory-Compute Decoupling + +Memory-Compute Decoupling 是 Engram 提出的基础设施感知设计原则:通过确定性寻址将大型嵌入表从 GPU 内存卸载到主机内存,运行时预取重叠通信与计算。 + +## 动机 + +MoE 的动态路由导致: +- 专家选择依赖当前 token 的 hidden state +- 无法预知下一个 token 会激活哪个专家 +- 必须将所有专家参数保留在 GPU 显存中 + +Engram 的确定性哈希提供了相反的属性。 + +## 机制 + +### 确定性寻址 +- N-gram 嵌入的索引由哈希函数 𝜑_{n,k}(g_{t,n}) 确定 +- **仅依赖输入 token,不依赖 hidden state** +- → 可以提前预取下一个 token 所需的嵌入向量 + +### 内存层次 +``` +GPU HBM: 常驻骨干网络(Attention + MoE) +Host Memory: 大容量 Engram 嵌入表 +↓ +运行时:预取线程提前将下一批嵌入从 Host → GPU +``` + +### 开销 +- 100B 参数嵌入表卸载到主机内存 +- 延迟开销 < 3% +- 通信与计算重叠 + +## 意义 + +1. **突破 GPU 内存墙**:嵌入表大小不再受 GPU HBM 限制 +2. **激进参数扩展**:可以部署远超 GPU 容量的记忆模块 +3. **可预测扩展**:记忆容量增长不带来计算开销增长 + +## 与 MoE Offloading 的对比 + +| 维度 | MoE Offloading | Engram Decoupling | +|------|---------------|-------------------| +| 寻址 | 动态路由(依赖 hidden state) | 确定性哈希(仅依赖 token ID) | +| 预取可能性 | 困难(不可预知) | 简单(提前知道索引) | +| 延迟影响 | 显著 | <3% | + +## 参考 +- [[engram-conditional-memory-2026]] +- [[engram]] +- [[conditional-memory]] +- [[mixture-of-experts]] diff --git a/concepts/memory-consolidation.md b/concepts/memory-consolidation.md new file mode 100644 index 0000000..eedd553 --- /dev/null +++ b/concepts/memory-consolidation.md @@ -0,0 +1,35 @@ +--- +title: "Memory Consolidation(写后提炼)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-memory", "information-lifecycle", "data-engineering"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# Memory Consolidation + +Memory Consolidation 是 Agent 记忆系统的后台提炼过程:将原始 episodic 事件转化为稳定 semantic 事实和 procedural 操作流程。 + +## Atlas 实现 + +- 触发:每回合结束后 +- 输入:最近 30 条 episodic 事件 + 已有 semantic facts (~50) + procedurals (~20) +- 输出:new_facts、new_procedures、procedural_updates(一次 LLM 调用) +- 可追溯:每个 new_fact 携带 supporting_episode_ids + +## 为什么必要 + +没有 consolidation,记忆系统就是一个越来越大的日志文件。BM25 和 reranker 在面对海量噪声文档时召回质量急剧下降——events-to-facts 比例差异越大,检索降级越严重。 + +## Production 优化 + +每回合 consolidation 翻倍 LLM 成本。建议改为: +- 后台日批:积累一天的 episodic,夜间统一跑 +- 动态触发:最近 24h 新增 episodic 事件超过 N 条时自动触发 + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[agent-memory-taxonomy]] +- [[soft-supersession]] diff --git a/concepts/memory-dedup-pipeline.md b/concepts/memory-dedup-pipeline.md new file mode 100644 index 0000000..6d15b03 --- /dev/null +++ b/concepts/memory-dedup-pipeline.md @@ -0,0 +1,61 @@ +--- +title: "记忆去重管线" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, deduplication, pipeline, memos] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# 记忆去重管线(Memory Dedup Pipeline) + +## 定义 + +MemOS 的三级去重漏斗——用于在记忆组织阶段消除冗余、合并矛盾、压缩记忆存储。平均压缩比达到 **75%+**。 + +## 三级漏斗 + +``` +原始记忆 + │ + ▼ +① SHA-256 精确去重 ← 完全相同 → 直接丢弃 + │ + ▼ +② 向量余弦相似度 ← 高度相似 → 标记候选合并 + │ + ▼ +③ LLM Judge 矛盾检测与合并 ← 语义判断 → 智能合并或保留 + │ + ▼ +去重后记忆(压缩比 75%+) +``` + +### 第一级:SHA-256 精确去重 +- 逐字节比对,完全相同的记忆直接丢弃 +- 成本极低,速度最快 + +### 第二级:向量余弦相似度 +- 将记忆文本映射到嵌入空间 +- 高相似度(但非完全相同)的记忆标记为候选合并 +- 阈值可配置 + +### 第三级:LLM Judge 矛盾检测与智能合并 +- 对候选合并项进行语义级别判断 +- 检测矛盾——两条看似相似的记忆是否实际冲突? +- 智能合并——保留互补信息,去除冗余 +- 这是最昂贵但最关键的一级 + +## 关键效果 + +接入 MemOS 后: +- 单次上下文成本 **-30%+** +- 交互轮次 **-50%+** +- 最终 token 消耗降低近 **50%** + +## 参考 + +- [[agent-memory-lifecycle|记忆生命周期]] +- [[agent-memory-system|Agent 记忆系统]] +- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]] diff --git a/concepts/memory-governance.md b/concepts/memory-governance.md new file mode 100644 index 0000000..75a9941 --- /dev/null +++ b/concepts/memory-governance.md @@ -0,0 +1,45 @@ +--- +title: "记忆治理 — Memory Governance" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, governance, privacy, lifecycle-management] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# 记忆治理(Memory Governance) + +## 定义 + +记忆治理是 Agent 记忆系统的**全生命周期管控层**。由于记忆涉及高度个人化的数据,需要权限管理、生命周期管理、水印管理、隐私管理等多种控制机制。 + +## 为什么需要记忆治理 + +记忆系统的特殊性: +- 记忆是对知识的**高度总结与归纳**——幻觉在此阶段引入后会在后续环节逐步累积 +- 记忆可能跨越用户/会话/Agent 边界——数据安全和隐私风险指数级增长 +- 记忆会演化——需要版本化、可追溯、可回滚 + +## MemOS 治理层机制 + +| 机制 | 功能 | +|------|------| +| **权限管理** | 谁可以读/写/删除哪些记忆 | +| **生命周期管理** | 记忆的创建→活跃→休眠→退役全周期 | +| **水印管理** | 记忆来源追踪和来源可信度标记 | +| **隐私管理** | 手机号/身份证脱敏、加密流转 | + +## ClawForce 的三重安全 + +企业产品 ClawForce 将记忆治理扩展为三重安全: +1. **事前**:整体安全隔离 +2. **事中**:端侧脱敏 + 网络加密 + 安全配置策略 +3. **事后**:全操作审计可追溯 + +## 参考 + +- [[agent-memory-system|Agent 记忆系统]] +- [[clawforce|ClawForce]] +- [[agent-memory-lifecycle|记忆生命周期]] +- [[runtime-governance|运行时治理]](通用 Agent 治理框架) diff --git a/concepts/memory-indexing-retrieval-reading.md b/concepts/memory-indexing-retrieval-reading.md new file mode 100644 index 0000000..07da435 --- /dev/null +++ b/concepts/memory-indexing-retrieval-reading.md @@ -0,0 +1,67 @@ +--- +title: "Memory Indexing-Retrieval-Reading Framework" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["memory", "architecture", "rag", "framework"] +sources: + - "[[longmem-eval-2025]]" +--- + +# Memory Indexing-Retrieval-Reading Framework + +LongMemEval 提出的统一记忆设计框架,将长期记忆系统分解为三个阶段 × 四个控制点。 + +## 三阶段流水线 + +``` +会话输入 + ↓ +[Indexing] → 存储结构化的记忆表示 + ↓ +[Retrieval] → 根据查询召回相关记忆 + ↓ +[Reading] → 基于检索结果生成准确答案 +``` + +## 四个控制点 + +| 控制点 | 决策 | 优化方向 | +|--------|------|---------| +| **Value** | 存储什么粒度? | Session vs Round vs User Fact | +| **Key** | 用什么索引? | 原文 vs [[fact-augmented-key-expansion|事实增强]] | +| **Query** | 如何构造查询? | 原文 vs [[time-aware-query-expansion|时间感知展开]] | +| **Reading Strategy** | 如何利用检索结果? | 直接 vs Chain-of-Note + 结构化格式 | + +## 实验发现的优化路径 + +### Value:Round 是最优粒度 +- Session 级别:信息损失大,无法精确回溯 +- Round 级别:每个用户消息为独立单元,最优平衡 +- User Fact 级别:压缩导致信息损失,总体精度反降(但多会话推理提升) + +### Key:事实增强展开 +用 LLM 从对话中提取结构化事实作为索引键 → 召回 +9.4% + +### Query:时间感知展开 +关联时间戳 + 缩小搜索范围 → 时间推理召回 +6.8-11.3% + +### Reading:Chain-of-Note + 结构化 +即使完美召回 ≠ 完美利用 → +10 个绝对百分点 + +## 与 Atlas 管线的映射 + +``` +LongMemEval Atlas +─────────── ───── +Indexing → write_memory (episodic) + + Key展开 → consolidation (→semantic) +Retrieval → recall_memory (BM25+dense) +Reading → LLM 利用检索结果生成回复 +``` + +## 参考 +- [[longmem-eval-2025]] +- [[fact-augmented-key-expansion]] +- [[time-aware-query-expansion]] +- [[atlas-memory-system]] diff --git a/concepts/meta-tools.md b/concepts/meta-tools.md new file mode 100644 index 0000000..053831d --- /dev/null +++ b/concepts/meta-tools.md @@ -0,0 +1,48 @@ +--- +title: "Meta Tools — 管理工具的工具" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [meta-tools, tool-management, dynamic-tool-selection, mcp] +sources: + - https://arxiv.org/abs/2509.20386 +--- + +# Meta Tools + +## 定义 + +Meta Tools 是 Dynamic ReAct 框架中**管理其他工具的特殊工具集**——始终对 LLM 可用,负责工具的发现、搜索、加载和执行。是将"被动工具选择"转化为"主动工具管理"的关键机制。 + +## 核心 Meta Tools + +| Meta Tool | 功能 | 所属架构 | +|-----------|------|---------| +| **search_tools** | 两级搜索:k1=20 候选 → 去重 → 每应用 k2=5 | Search and Load | +| **load_tools** | LLM 精选后显式加载并绑定 | Search and Load | +| **search_apps** | 先定位应用再搜工具 | Application-Aware | +| **get_tool_info** | 返回 docstring + input/output schema | Fixed Tool Set | +| **call_tool** | 通过 ID 和参数执行工具 | Fixed Tool Set | + +## Search and Load 中的 Meta Tools(生产选择) + +``` +LLM 构造多查询 → search_tools(多查询, k1=20, k2=5) + → 去重返回候选 → LLM 精选 → load_tools(精选ID列表) + → 工具绑定 → 执行 +``` + +关键设计决策: +- 多查询合并一次 `search_tools` 调用(减少 LLM 轮次) +- 每应用 k2=5 上限防止单一应用工具泛滥 +- `load_tools` 后 LLM 通常只加载 < 5 个工具 + +## 与 System Prompt 的关系 + +轻量 system prompt 是前提——LLM 在指令过多时会停止遵循。Meta tools 将操作控制从 prompt 转移到工具接口,降低 prompt 脆弱性,提升与第三方 MCP client 的兼容性。 + +## 参考 + +- [[dynamic-react|Dynamic ReAct]] +- [[search-and-load|Search and Load]] +- [[gaurav-dynamic-react-2025|论文]] diff --git a/concepts/ml-technical-debt.md b/concepts/ml-technical-debt.md new file mode 100644 index 0000000..288a954 --- /dev/null +++ b/concepts/ml-technical-debt.md @@ -0,0 +1,49 @@ +--- +title: "ML 技术债务" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [ml-engineering, technical-debt, production, system-design] +sources: + - https://arxiv.org/abs/1506.07756 + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# ML 技术债务 + +## 定义 + +机器学习系统中的隐性技术债务——来自 Sculley et al. (2015, NeurIPS) 的经典框架。与软件工程中熟知的代码债务不同,ML 系统引入了独特且更昂贵的债务形式。 + +## 核心差异:数据债务 > 代码债务 + +Sculley 的核心发现:**数据依赖比代码依赖更昂贵**。原因: +- 数据更难追踪(无类型系统) +- 数据更难版本化(数据漂移、schema 变更) +- 数据更难向 6 个月后继承系统的人解释 +- 数据管线的变更可能静默地破坏下游模型 + +## ML 系统的真实构成 + +实际的模型代码只是真实 ML 系统的**一小部分**。大块是: +- 特征存储和数据管道 +- 监控和告警 +- 重训练触发器和调度 +- 各组件之间的粘合代码 + +## CACE 效应 + +[[cace-principle|CACE 原理]]:改变任何事物都会改变一切。流水线上的一个小调整可能引发远处的惊人变化——这种级联效应在集成系统和神经网络中尤其严重。 + +## 实际成本 + +- 团队选择一个更复杂的模型来获得 2% 的准确性,为此支付 18 个月的调试时间和重训练开销 +- "数据沼泽":无治理地收集所有数据 → 需要数周清理 → 增加存储和流程成本 +- 自托管硬件仅占 20-30% 成本,人力占 70-80% + +## 参考 + +- [[cace-principle|CACE 原理]] +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[data-swamp|数据沼泽]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/model-driven-vs-app-driven-memory.md b/concepts/model-driven-vs-app-driven-memory.md new file mode 100644 index 0000000..1243fe2 --- /dev/null +++ b/concepts/model-driven-vs-app-driven-memory.md @@ -0,0 +1,39 @@ +--- +title: "模型驱动 vs 应用驱动记忆" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-memory, architecture, model-driven, application-driven] +sources: + - https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +--- + +# 模型驱动 vs 应用驱动记忆 + +## 两条技术路径 + +Agent 记忆增强系统有两种实现路径: + +### 模型驱动(Model-Driven) +- **方式**:基础模型架构创新(如 Memorizing Transformers, MemTensor 自研记忆原生模型) +- **优势**:上限高——记忆与推理深度耦合 +- **劣势**:成本极高,训练失败风险大 +- **代表**:Google Memorizing Transformers, MemTensor 记忆原生模型 + +### 应用驱动(Application-Driven) +- **方式**:通过 Prompt 流或 Agent 流模拟记忆过程 +- **优势**:落地轻量,实施快速 +- **劣势**:与基模结合不够紧密,缺少深度增强 +- **代表**:Mem0, Zep, Letta + +## MemTensor 的融合策略 + +> **模型驱动决定上限,应用驱动决定下限。** 需要从系统层面将两者结合。 + +实现方式:[[layered-memory-architecture|三层记忆架构]]中的分层协同——参数记忆层走模型驱动路线,明文记忆层走应用驱动路线,激活记忆层连接两者。 + +## 参考 + +- [[layered-memory-architecture|三层记忆架构]] +- [[agent-memory-system|Agent 记忆系统]] +- [[memtensor-memos-agent-memory-2026|MemOS 技术分享]] diff --git a/concepts/moment-matching-filter.md b/concepts/moment-matching-filter.md new file mode 100644 index 0000000..6fc47f0 --- /dev/null +++ b/concepts/moment-matching-filter.md @@ -0,0 +1,38 @@ +--- +title: "矩匹配滤波" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [filtering, state-estimation, moment-matching] +sources: [nano-filter] +--- + +# 矩匹配滤波 + +Moment-matching filter 是 [[gaussian-filtering|Gaussian filtering]] 中用于预测步的一类方法。核心理念:用高斯分布的前两阶矩(均值和协方差)来近似状态分布。 + +## 最优性基础 + +根据 [[nano-filter|NANO]] 论文的 Lemma 1,最大期望高斯似然问题的驻点恰好是矩匹配: + +$$ +\mu^* = E_{p(x)}[x], \quad \Sigma^* = E_{p(x)}[(x - \mu^*)(x - \mu^*)^\top] +$$ + +这意味着对预测步而言,矩匹配就是最优 Gaussian 近似。 + +## 数值实现 + +对于非线性函数 $f(x)$ 在 Gaussian 分布下的期望,无法解析计算,需数值方法: +- **无迹变换**(UKF)——确定性 sigma 点采样 +- **Gauss–Hermite 积分**(GHKF)——高斯加权积分 +- **球面求积**(CKF)——球面-径向分解 + +## 与 NANO 的关系 + +[[nano-filter|NANO filter]] 的预测步延续矩匹配方法(等价于 UKF/CKF 的做法),但在更新步用 [[natural-gradient-descent|自然梯度下降]]替换了线性化——这是 NANO 与已有 Gaussian filter 的根本区别。 + +## 参考 +- [[gaussian-filtering|Gaussian Filtering]] +- [[unscented-kalman-filter|UKF]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/multi-agent-spiral.md b/concepts/multi-agent-spiral.md new file mode 100644 index 0000000..8f8c3f9 --- /dev/null +++ b/concepts/multi-agent-spiral.md @@ -0,0 +1,43 @@ +--- +title: "多智能体螺旋(Multi-Agent Spiral)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - multi-agent + - spiral-of-silence + - llm + - opinion-dynamics +sources: + - arXiv 2025 (Spiral of Silence in LLM Agents) +--- + +# 多智能体螺旋(Multi-Agent Spiral) + +指在多个 LLM agent 持续交互、辩论、迭代输出的场景中,观点逐渐收敛为主流、小众观点被系统压制的现象。是大模型沉默螺旋的第二大核心实证场景(arXiv 2025)。 + +## 实验设置 + +覆盖 GPT-4o-mini、Llama3.1、Mistral、Qwen2.5、DeepSeek-V2,四组对照: +- 无历史上下文 + 无角色设定(baseline) +- 仅历史对话 +- 仅角色立场 +- 历史上下文 + 角色设定叠加 + +## 核心发现 + +- **双信号叠加时效应最强**:历史上下文 + 角色设定 → 主流观点 > 80% +- **历史是锚定器**:仅对话历史已能导致内容单一化,但不会极端极化 +- **角色是分化器**:仅角色设定时观点分散,不形成主流/小众对立 +- **模型差异显著**:小模型 > 大模型;中文模型 > 英文模型 + +## 与 [[multi-agent-orchestration|多智能体编排]] 的区别 + +多智能体编排关注 agent 之间的**任务分工与协作效率**,多智能体螺旋关注 agent 交互中**观点的动态收敛与多样性丧失**——前者是工程问题,后者是舆论动力学问题。 + +## 参考 + +- [[context-anchoring|历史上下文锚定]] +- [[role-setting-entrenchment|角色设定固化]] +- [[opinion-polarization|观点极化]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/native-streaming-ar-training.md b/concepts/native-streaming-ar-training.md new file mode 100644 index 0000000..5517adf --- /dev/null +++ b/concepts/native-streaming-ar-training.md @@ -0,0 +1,30 @@ +--- +title: "Native Streaming AR Training" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["training", "autoregressive", "streaming", "causal"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Native Streaming AR Training (原生流式自回归训练) + +**Native Streaming AR Training** 是 [[maineCoon|MaineCoon]] 的核心训练范式:在训练和推理时使用**相同的因果逐块自回归 regime**,而非通过 teacher forcing 从非因果教师蒸馏。 + +## 核心原则 + +- **Chunk-by-chunk causal rollout**:每次预测一个 chunk,仅以已生成的 chunk 为条件 +- **无 Teacher Forcing**:不从双向教师蒸馏流式行为——原生即流式 +- **Train-inference matched**:训练和推理分布一致,消除 gap + +## 关键组件 + +- [[self-resampling|Self-Resampling]]:以模型自身退化历史为条件 +- [[flow-matching|Flow Matching]] loss +- [[audio-visual-representation-alignment|Cross-Modal Representation Alignment]] 加速 + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 3.1 +- [[self-resampling|Self-Resampling]] +- [[autoregressive-video-generation|自回归视频生成]] +- [[wan-streamer]] — 端到端流式全双工交互中的原生流式训练 diff --git a/concepts/natural-gradient-descent.md b/concepts/natural-gradient-descent.md new file mode 100644 index 0000000..9494d3a --- /dev/null +++ b/concepts/natural-gradient-descent.md @@ -0,0 +1,33 @@ +--- +title: "自然梯度下降" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [optimization, information-geometry, manifold-learning] +sources: [nano-filter] +--- + +# 自然梯度下降 + +Natural gradient descent 是考虑参数空间几何结构的梯度下降方法。不同于标准梯度下降在欧氏空间中取最陡下降方向,自然梯度利用 **Fisher 信息矩阵** $F$ 调整梯度方向,以适配参数空间的曲率(Riemannian 结构)。 + +## 更新公式 + +$$ +v^{(i+1)} = v^{(i)} - \eta F_v^{-1} \frac{\partial J}{\partial v}\Big|_{v=v^{(i)}} +$$ + +其中 $F_v$ 是 Fisher 信息矩阵。与标准梯度下降 $v - \eta \nabla J$ 的区别在于用 $F_v^{-1}$ 对梯度做度量校正。 + +## 在高斯流形上的应用 + +[[nano-filter|NANO filter]] 的核心创新:在 [[gaussian-manifold|高斯流形]] 上执行自然梯度下降,直接最小化更新步的优化目标 $J(\hat{x}_t, P_t)$,避免传统 Gaussian filter 的线性化误差。Fisher 矩阵在高斯分布 $N(x; \hat{x}_t, P_t)$ 下具有解析形式: + +$$ +F_v^{-1} = \begin{bmatrix} P_t & 0 \\ 0 & 2(P_t^{-1} \otimes P_t^{-1}) \end{bmatrix} +$$ + +## 参考 +- [[gaussian-manifold|Gaussian Manifold]] +- [[fisher-information-metric|Fisher Information Metric]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/ngram-embedding.md b/concepts/ngram-embedding.md new file mode 100644 index 0000000..ba1a059 --- /dev/null +++ b/concepts/ngram-embedding.md @@ -0,0 +1,54 @@ +--- +title: "N-gram Embedding (in LLMs)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["embedding", "ngram", "memory", "language-modeling"] +sources: + - "[[engram-conditional-memory-2026]]" +--- + +# N-gram Embedding (in LLMs) + +N-gram Embedding 是经典统计语言建模技术在现代 LLM 架构中的复兴——将局部 token 序列映射为稠密嵌入向量,通过 O(1) 查找替代昂贵的计算检索。 + +## 经典 N-gram 模型 + +N-gram 模型基于马尔可夫假设:P(w_t | w_{1:t-1}) ≈ P(w_t | w_{t-n+1:t-1})。传统实现受限于: +- 数据稀疏性(组合爆炸) +- 平滑技术的局限 +- 缺乏语义泛化 + +## 在 Transformer 中的现代化 + +### OverEncoding (Huang et al., 2025) +将 N-gram 嵌入直接平均到词表嵌入中——最简单的集成方式,但扩展潜力有限。 + +### Engram (Cheng et al., 2026) +将 N-gram 嵌入提升为**一等建模原语**: + +1. **Tokenizer Compression**:NFKC 归一化 + 小写化,将语义等价 token 映射到同一规范 ID(23% 词表缩减) +2. **Multi-Head Hashing**:K 个独立哈希函数 × N-gram 阶数,乘性 XOR 哈希避免组合爆炸 +3. **Context-aware Gating**:当前隐藏状态动态调制检索到的静态嵌入 +4. **Depthwise Causal Convolution**:扩展感受野 + +## 为什么有效 + +语言中存在大量**局部静态规律**: +- 命名实体("Alexander the Great")→ 多 token 但语义单一 +- 公式化表达("on the other hand")→ 固定搭配 +- 领域术语("stochastic gradient descent")→ 高频共现 + +这些模式天然适合廉价查找而非深度计算。经典 N-gram 能捕获它们的事实说明:Transformer 用多个早期层重建这些模式是对计算深度的浪费。 + +## 与现代架构的关系 + +- **MoE**:N-gram 嵌入是条件记忆的实例,与条件计算互补 +- **Attention**:N-gram 嵌入释放了注意力容量,使其聚焦全局上下文而非局部依赖 +- **KV Cache**:与 N-gram 嵌入的关系尚未被充分探索——局部依赖被嵌入后,注意力所需的 KV 缓存可能缩小 + +## 参考 +- [[engram-conditional-memory-2026]] +- [[engram]] +- [[conditional-memory]] +- [[mixture-of-experts]] diff --git a/concepts/non-thinking-mode.md b/concepts/non-thinking-mode.md new file mode 100644 index 0000000..bd07f2c --- /dev/null +++ b/concepts/non-thinking-mode.md @@ -0,0 +1,40 @@ +--- +title: "非思考模式 (Non-Thinking Mode)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [reasoning, efficiency, hybrid-models] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# 非思考模式 (Non-Thinking Mode) + +非思考模式是[[hybrid-reasoning-models|混合推理模型]]中模型**直接输出答案、不进行[[chain-of-thought|思维链]]推理**的模式(Gan et al., 2026; Zhang et al., 2025; Tu et al., 2025)。 + +## 定义 + +在 TNT 及相关工作中,非思考模式定义为响应的思考部分为**空**:`[y_1, ..., y_τ] = ∅`。判别方式:首 token 是否为 ``(p(y) = 0)。 + +## 设计动机 + +- **简单查询不需要 CoT**:如直接计算、简单事实问答 +- **降低推理成本**:跳过探索、反思、自验证的冗长过程 +- **提升吞吐量**:更短的响应 = 更高的服务吞吐 + +## RL 训练中的激励机制 + +- 正确非思考模式获得 **+2** 奖励(vs 正确思考模式 +1) +- 激励模型"该直接时就直接" +- 但这导致 [[reward-hacking|Reward Hacking]]——模型在非思考格式中嵌入思考 + +## 与思考模式的关系 + +TNT 的关键洞察:LRM 的思考模式的 **solution 部分**(`` 之后)与真正的非思考模式输出高度一致——因为 LRM 训练确保 solution 不含额外思考。这为 [[dynamic-token-limit|动态 Token 限制]] 提供了基础。 + +## 参考 + +- [[thinking-mode|思考模式]] +- [[reward-hacking|Reward Hacking]] +- [[dynamic-token-limit|动态 Token 限制]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/normal-tangent-decomposition.md b/concepts/normal-tangent-decomposition.md new file mode 100644 index 0000000..c25e948 --- /dev/null +++ b/concepts/normal-tangent-decomposition.md @@ -0,0 +1,46 @@ +--- +title: "Normal-Tangent Decomposition (法向-切向分解)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: [gradient-descent, EoS, bifurcation, loss-landscape, overparameterization] +sources: [gan-bifurcation-eos] +--- + +# Normal-Tangent Decomposition (法向-切向分解) + +法向-切向分解是 Gan (2026b) 分析过参数化网络 EoS 动力学的核心技术:将梯度下降迭代在 [[manifold-of-minimizers|极小值流形]] M 附近分解为法向和切向两个子空间的独立动力学。 + +## 分解框架 + +在 x* ∈ M 处,将梯度下降的两步映射 f(f(x)) 分别投影到: + +**法向空间 N_x* M**: +- 动力学经历 [[flip-bifurcation|flip 分岔]] +- 投影后的两步映射存在稳定不动点 x_s(周期-2 轨道),条件为 [[first-lyapunov-coefficient|c₁ > 0]] +- `Π_N (f(f(x_s)) - x*) = Π_N (x_s - x*)` 且 x_s 为法向投影动力学的稳定平衡点 + +**切向空间 T_x* M**: +- 两步迭代沿 M 漂移,方向由 sharpness 梯度决定: +``` +Π_T (f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]² + O(η p³) +``` +- 其中 p 为法向投影坐标,∇³L[v_max]² 是 sharpness 的梯度 +- 这意味着:**切向漂移始终指向 sharpness 递减方向** + +## 收敛定理 + +在以下条件下 (Theorem 4.4),梯度下降从 x* 的邻域初始化且 η = 2/λ_max(x*) 时收敛到 M: +1. c₁(x*) > 0(超临界分岔) +2. Π_T ∇³L(x*)[v_max]² ≠ 0(保证切向漂移非退化——sharpness 严格下降) + +## 直观理解 + +法向提供**稳定性**(周期振荡不发散),切向提供**收敛性**(漂移到更低 sharpness 区域)——两者协同使 EoS 训练成为可能。 + +## 参考 + +- [[gan-bifurcation-eos]](Theorem 4.4) +- [[manifold-of-minimizers]] +- [[flip-bifurcation]] +- [[edge-of-stability]] diff --git a/concepts/objective-interference-collapse.md b/concepts/objective-interference-collapse.md new file mode 100644 index 0000000..4998b34 --- /dev/null +++ b/concepts/objective-interference-collapse.md @@ -0,0 +1,47 @@ +--- +title: "Objective Interference Collapse (目标干扰坍缩)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["representation-learning", "world-modeling", "collapse-mode", "gradient-interference"] +sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"] +--- + +# Objective Interference Collapse (目标干扰坍缩) + +**Objective Interference Collapse (OIC)** 是 Hazare (2026) 提出的表示坍缩第五模态:当共享潜在空间同时优化两个统计结构互不兼容的外部接地目标时,主导通道系统性地坍缩从属通道的表示子空间。 + +## 定义 + +设 Z 为共享潜在空间,G_p(物理接地)和 G_b(行为接地)为两个接地目标,梯度场为 g_p = ∇_Z L_G_p 和 g_b = ∇_Z L_G_b。 + +G_p 和 G_b 具有**不兼容的统计结构**,若: +- g_p 低熵且集中:物理约束消除大范围状态空间,在特定维度产生稀疏高幅值修正 +- g_b 高熵且弥散:行为分布是随机的,产生跨多维度的小幅值修正 + +**坍缩机制**:联合优化的梯度更新 ∝ g_p + g_b。当 ∥g_p∥ ≫ ∥g_b∥ 时,更新将 Z 推向物理最优点 Z_p*。在 Z_p* 处,物理损失最小化(g_p ≈ 0),但行为梯度 g_b 非零。后续行为更新扰动物理子空间,下一轮物理修正重新集中潜在空间→行为结构被持续覆盖,无法形成稳定的满秩结构。 + +## 为什么损失权重无法解决 + +标量重加权 α·g_p + β·g_b 改变了相对幅度,但不改变冲突的**几何结构**。任何固定 (α, β) 下,一个通道在其梯度集中的维度上仍占主导。正确的解决方式是**结构性**的:分离参数空间,使各通道梯度不可交互。 + +## 与其他坍缩模态的区别 + +| 模态 | 机制 | 来源 | +|------|------|------| +| 完全坍缩 | 所有嵌入收敛到常数 | Chen & He (2020) | +| 维度坍缩 | 嵌入张成严格子空间 | Jing et al. (2022) | +| 神经坍缩 | 末层特征收敛到 Simplex ETF | Papyan et al. (2020) | +| 容量损失 | 非平稳下表示秩下降 | Kumar et al. (2021) | +| **OIC** | 不兼容接地信号的梯度干涉 | Hazare (2026) — 本文提出 | + +## 解决方案 + +[[dcgwm|DCGWM]] 通过**分区潜在空间 + 内向梯度流**结构性防止 OIC:物理接地通道仅更新 Z_p,行为接地通道仅更新 Z_b。 + +## 参考 + +- [[hazare-dcgwm-2026|DCGWM 论文]] +- [[dcgwm|Dual-Channel Grounded World Modeling]] +- [[representation-collapse|Representation Collapse]] +- [[inward-only-gradient-flow|Inward-Only Gradient Flow]] diff --git a/concepts/offline-profiling.md b/concepts/offline-profiling.md new file mode 100644 index 0000000..fb66de8 --- /dev/null +++ b/concepts/offline-profiling.md @@ -0,0 +1,58 @@ +--- +title: "Offline Profiling (LU-KV)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "deployment", "profiling"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Offline Profiling + +## 定义 + +Offline Profiling(离线分析/标定)是 LU-KV 中的三阶段数据驱动协议,用于在实际推理前预计算每个 attention head 的最优预算配置。它将理论上需要未来解码信息的 [[oracle-importance]] 评估搬到了离线阶段,使在线推理只需查表。 + +## 三阶段协议 + +### 阶段 1:上下文生成(Context Generation) + +构造一个合成长上下文 C_syn(约 4,000 tokens),通常为 AI 生成的中文小说节选,与评测集无重叠,模拟真实的 KV Cache 状态。 + +### 阶段 2:Oracle 计算(Oracle Computation) + +- 生成 M = 30 个多样化查询 Q = {q_1, ..., q_M},分别针对不同信息片段 +- 对每个 q_i,通过**全注意力解码**(full-attention decoding)计算 ground-truth Oracle 重要性 I_{l,h,j} +- 全注意力解码在 profiling 中可接受(离线),但在生产推理中不可行 + +### 阶段 3:Profile 聚合(Profile Aggregation) + +- 在密集的全局压缩率网格 ρ ∈ [0, 1] 上求解每个查询的最优配置 r*_{l,h}(q_i; ρ) +- 取平均得到最终静态 profile:Φ(π)(ρ)_{l,h} = (1/M) Σ r*_{l,h}(q_i; ρ) +- Φ(π) 成为一个**查表**:给定目标全局压缩率 σ_target → 返回每个 head 的最优局部压缩率 + +## 关键经验发现 + +> 各 head 的最优局部-全局压缩率在不同任务间高度稳定。 + +如图 2b 所示,问答、长上下文检索等不同场景下的最优压缩率配置高度一致——这意味着**一个静态 profile 可跨任务迁移**。 + +## 在线使用 + +``` +1. Lookup: {r_{l,h}} ← Φ(π)(σ_target) +2. Budgeting: b_{l,h} = floor((1 - r_{l,h}) * T) +3. Eviction: 每个 head 独立保留 top-b_{l,h} tokens +``` + +额外开销可忽略(仅查表 + 整数计算)。 + +## 相关概念 + +- [[oracle-importance]] — Profiling 阶段 2 的 ground truth +- [[global-combinatorial-optimization]] — Profiling 阶段 3 求解的优化问题 +- [[convex-hull-relaxation]] — 使 profiling 中的优化高效可解的技巧 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) — 附录 F.2 有迁移性分析 diff --git a/concepts/omnidocbench.md b/concepts/omnidocbench.md new file mode 100644 index 0000000..c9f30bf --- /dev/null +++ b/concepts/omnidocbench.md @@ -0,0 +1,38 @@ +--- +title: "OmniDocBench" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["benchmark", "ocr", "document-parsing", "evaluation"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# OmniDocBench + +OmniDocBench 是文档解析(document parsing)的综合评测基准,被 Unlimited OCR 选为主要评测平台。v1.5 和 v1.6 两个版本。 + +## 评测维度 + +| 指标 | 含义 | +|------|------| +| Text Edit Distance (↓) | 字符级文本识别准确率 | +| Formula CDM (↑) | 数学公式识别质量 | +| Table TEDS (↑) | 表格结构提取(含内容) | +| Table TEDS-S (↑) | 表格结构提取(纯结构) | +| Read-order Edit Distance (↓) | 阅读顺序预测正确性 | +| Overall (↑) | 加权综合得分 | + +## 版本差异 + +- **v1.5**:包含经典模型的官方指标(DeepSeek OCR 报告的基线),便于性能对比 +- **v1.6**:新增 296 张测试图,代表最新评测标准,包含当前 SOTA 模型 + +## Unlimited OCR 的表现 + +- v1.5 Overall: 93.23%(比 DeepSeek OCR +6.22pp) +- v1.6 Overall: 93.54%(SOTA 级别) + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[end-to-end-ocr]] diff --git a/concepts/opinion-polarization.md b/concepts/opinion-polarization.md new file mode 100644 index 0000000..e5fc58a --- /dev/null +++ b/concepts/opinion-polarization.md @@ -0,0 +1,45 @@ +--- +title: "观点极化(Opinion Polarization)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - opinion-dynamics + - polarization + - spiral-of-silence + - llm +sources: + - arXiv 2025 (Spiral of Silence in LLM Agents) +--- + +# 观点极化(Opinion Polarization) + +指群体观点向两端极端化发展的动态过程。在 LLM 多智能体交互中,观点极化与[[spiral-of-silence|沉默的螺旋]]共存——主流观点被不断放大,小众观点被边缘化,形成"一端垄断、一端沉默"的非对称极化格局。 + +## LLM 场景中的特殊表现 + +与传统社交媒体中观察到的对称极化(双方各自向极端移动)不同,LLM 场景呈现**非对称极化**: +- 符合预训练分布的主流观点被持续放大(自我强化) +- 不符合主流分布的小众观点被系统性压制(螺旋式沉默) +- 中间地带逐渐消失 + +## 实验证据 + +多智能体实验中(arXiv 2025),历史上下文 + 角色设定叠加条件下,主流观点占比突破 80%,形成事实上的观点垄断。这不是双方旗鼓相当的极化,而是**一边倒的收敛**。 + +## 与相关概念的区别 + +- [[content-homogenization|内容同质化]]关注**表达形式的趋同**,观点极化关注**立场分布的极端化** +- [[information-cocoons|信息茧房]]关注**个体信息接触面**,观点极化关注**群体层面的立场动态** + +## 治理方向 + +- 引入反主流观点的结构化提示 +- 多候选择优时加入多样性奖励 +- 动态监控观点分布熵值 + +## 参考 + +- [[multi-agent-spiral|多智能体螺旋]] +- [[content-diversity-decay|内容多样性衰减]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/optimality-gap.md b/concepts/optimality-gap.md new file mode 100644 index 0000000..9b3a5fc --- /dev/null +++ b/concepts/optimality-gap.md @@ -0,0 +1,55 @@ +--- +title: "Optimality Gap" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "optimization", "evaluation"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Optimality Gap + +## 定义 + +Optimality Gap(最优性差距)是 LU-KV 论文中提出的概念,指 [[heuristic-metric]] 与 [[oracle-importance]] 之间的性能差距。它量化了使用次优指标 π(如 SnapKV、KeyDiff)来近似 Oracle 指标 π* 所导致的额外驱逐损失。 + +## 形式化 + +LU-KV 将驱逐损失严格分解为两项: + +``` +L(M^π) = L(M^*) + Δ(π, π*, b) +``` + +其中: +- L(M^*):Oracle Metric Loss — 即使使用完美指标,压缩率约束下仍不可避免的损失 +- Δ(π, π*, b):Optimality Gap — 指标 π 与 Oracle π* 在预算 b 下的差距 + +## 三个组成类别 + +在给定预算 b 下,启发式指标保留的 token 集合 M^π 可分解为: + +- **Hits**:M^π ∩ M^* — 正确保留的高 Oracle 重要性 token +- **Misses**:M^* \ M^π — 高 Oracle 重要性但被错误驱逐的 token(**损失来源**) +- **False Positives**:M^π \ M^* — 低 Oracle 重要性但被错误保留的 token(**浪费预算**) + +Optimality Gap = Misses 中 Oracle 重要性之和 − False Positives 中 Oracle 重要性之和 + +## 根本原因 + +不同 attention head 中,同一个启发式指标(如注意力分数)与 Oracle 重要性的**对齐程度**不同。高注意力分数的 token 在某些 head 中确实重要,但在另一些 head 中可能只是瞬时噪声。 + +## 实践意义 + +- LU-KV 的核心贡献之一就是**显式优化 Optimality Gap**:通过 [[global-combinatorial-optimization]] 将更多预算分配给指标-Oracle 对齐度高的 head +- [[offline-profiling]] 的核心目的正是为每个 head 标定其 optimality gap curve + +## 相关概念 + +- [[oracle-importance]] — Optimality Gap 的参照基准 +- [[marginal-utility]] — 缩小 optimality gap 意味着更高的边际效用 +- [[head-level-budget-allocation]] — 不同 head 的 optimality gap 决定预算分配策略 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/oracle-importance.md b/concepts/oracle-importance.md new file mode 100644 index 0000000..dc4eb3f --- /dev/null +++ b/concepts/oracle-importance.md @@ -0,0 +1,56 @@ +--- +title: "Oracle Importance" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "attention", "evaluation-metric"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# Oracle Importance + +## 定义 + +Oracle Importance(Oracle 重要性)是 LU-KV 论文中提出的理论概念,用于严格量化 KV Cache 中每个 token 在**未来解码窗口**中对其注意力头的最大潜在贡献。它是评估 [[heuristic-metric]] 质量的金标准(ground truth)。 + +## 数学定义 + +对于注意力头 (l, h) 中位置 j 的 token,其 Oracle 重要性 I_{l,h,j} 定义为: + +``` +I_{l,h,j} = max_{k in {1,...,K_max}} || A_{l,h,k,j} * v_{l,h,j} * W_O^{(l,h)} || +``` + +其中: +- A_{l,h,k,j}:未来解码步骤 k 时对位置 j 的注意力权重 +- v_{l,h,j}:位置 j 的 value 向量 +- W_O:输出投影矩阵 +- K_max:未来解码窗口大小 + +直观理解:**在所有未来解码步骤中,该 token 的加权 value 向量能达到的最大 L2 范数**。 + +## 核心作用 + +Oracle Importance 在 LU-KV 框架中承担三个关键角色: + +1. **Ground truth**:定义"真正重要"的 token——启发式指标应尽可能逼近的目标 +2. **损失分解**:将驱逐损失分解为 Oracle 损失(固定)+ [[optimality-gap]](指标差距) +3. **Profiling 目标**:[[offline-profiling]] 中通过全注意力解码计算 Oracle 重要性,用于标定各 head 的效用曲线 + +## 与启发式指标的关系 + +| 指标类型 | 时间视角 | 可用性 | +|---------|---------|--------| +| [[heuristic-metric]](SnapKV、KeyDiff) | 瞬时(prefill 阶段) | 在线可用 | +| Oracle Importance | 长视界(未来解码窗口) | 仅离线 profiling 可用 | + +## 相关概念 + +- [[long-horizon-utility]] — Oracle Importance 是长视界效用的形式化度量 +- [[optimality-gap]] — 启发式与 Oracle 之间的差距 +- [[head-level-budget-allocation]] — 基于 Oracle 效用曲线分配预算 + +## 参考 + +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) — 提出 Oracle Importance 概念 +- AdaKV (Feng et al., 2026b) — 输出扰动界分析(Oracle Importance 的灵感来源) diff --git a/concepts/order-bias-removal.md b/concepts/order-bias-removal.md new file mode 100644 index 0000000..9f9984f --- /dev/null +++ b/concepts/order-bias-removal.md @@ -0,0 +1,54 @@ +--- +title: "Order Bias Removal" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [bias, llm, permutation, gibbs-sampling, probabilistic-inference] +sources: + - "[[large-language-gibbs]]" +--- + +# Order Bias Removal + +**Order Bias Removal**(顺序偏差消除)是 Large Language Gibbs 框架中的关键技术,通过随机排列(random permutation)消除自回归 LLM 中因变量序列化顺序导致的系统性偏差。 + +## 问题:自回归的顺序偏差 + +自回归 LLM 在生成多个变量时,生成顺序会影响结果: + +- **近因效应(recency effect)**:后生成的变量受到最近生成的变量的过度影响 +- **上下文忽略(context ignorance)**:先生成的变量被后续生成"遗忘" +- **首因效应(primacy effect)**:首个变量的生成对后续所有变量有不成比例的影响 + +这些偏差意味着:从 LLM 的条件分布 p^LM(X_i | X_1, ..., X_{i-1}) 中采样,得到的不一定是"给定所有其他变量"的公平条件分布。 + +## 解决方案:随机排列 + +Large Language Gibbs 的解决方案是用**随机排列(random permutation)**来"对称化"条件分布: + +``` +q_i^LM(X_i | X_{-i}) = E_{σ_{-i}}[p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i])] +``` + +每次重采样前,将除目标变量外的所有变量随机打乱顺序,再序列化为 prompt。 + +## 理论保证 + +在排列不变性假设(Assumption 3.1)下,随机排列的条件分布等价于对称化联合 q^sym 的单变量条件: + +``` +q^sym(X) = E_σ[p^LM(seq(X, σ))] +``` + +即使排列不变性不完全成立,随机排列也比任何固定顺序更接近对称化条件——因为它在期望上消除了一次性的顺序选择偏差。 + +## 实践意义 + +- **消除首因/近因效应**:每个变量的重采样使用不同的变量顺序 +- **不依赖 LLM 的排列不变性**:即使 LLM 有明显的位置偏好,期望也能中和 +- **代价**:每次重采样需要额外的随机化步骤,但不增加额外 LLM 调用 + +## 参考 + +- [[large-language-gibbs]] — 首次在 LLM-Gibbs 中系统化地使用随机排列 +- [[llm-mcmc]] diff --git a/concepts/overthinking.md b/concepts/overthinking.md new file mode 100644 index 0000000..46bb15c --- /dev/null +++ b/concepts/overthinking.md @@ -0,0 +1,37 @@ +--- +title: "过度思考 (Overthinking)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [reasoning, efficiency, cot, thinking] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# 过度思考 (Overthinking) + +Overthinking 指[[large-reasoning-models|大推理模型]]对**所有查询**(包括简单查询)都产生冗长、重复的[[chain-of-thought|思维链]](CoT),导致推理开销和延迟大幅增加的问题(Sui et al., 2025; Qu et al., 2025)。 + +## 问题本质 + +LRM 的 CoT 包含持续的探索、反思和自我验证——这是它们在数学竞赛等复杂任务上成功的关键。但这种"不分难易一律思考"的策略导致: +- **推理时延**:简单问题也经历完整的多步推理 +- **Token 浪费**:大量"Wait... Let me check..."等无建设性内容 +- **计算成本**:每个请求的 FLOPs 和内存消耗显著增加 + +## 与混合推理的关系 + +Overthinking 是[[hybrid-reasoning-models|混合推理模型]]的**核心动机**——目标不是消除思考,而是让模型学会"简单问题直接答,复杂问题才思考"。 + +## TNT 的解决方案 + +TNT 让模型**自主选择**思考/非思考模式,最终在数学基准上: +- Token 使用量减少约 **50%** +- 准确率**同时提升** 4.1% +- Reward hacking 率 < 10% + +## 参考 + +- [[hybrid-reasoning-models|混合推理模型]] +- [[token-efficiency|Token 效率]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/pageindex.md b/concepts/pageindex.md new file mode 100644 index 0000000..1ef6f25 --- /dev/null +++ b/concepts/pageindex.md @@ -0,0 +1,38 @@ +--- +title: "PageIndex" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["rag", "document-retrieval", "financial-nlp", "long-document"] +sources: + - "[[financial-llm-practice-2026]]" +--- + +# PageIndex + +PageIndex 是一种面向长文档的检索方案,由恒生电子团队在金融文档场景中提出。其核心思想是:**利用文档的目录/章节结构作为天然索引**,而非依赖全局向量检索。 + +## 核心机制 + +1. **离线解析**:解析文档标题层级,建立"章节名 ↔ 页码范围"的映射索引 +2. **查询匹配**:先将用户查询与章节目录匹配,确定目标章节 +3. **范围压缩**:将检索范围从全文档(如 300 页)压缩到目标章节(如 3 页) +4. **精细检索**:在定位范围内做精细 chunk 检索(BM25 或向量) + +## 与向量检索的对比 + +| 维度 | PageIndex | 传统向量 RAG | +|------|-----------|-------------| +| 索引粒度 | 章节级 | chunk 级 | +| 检索范围 | 3 页 | 300 页 | +| 表格完整性 | 完整(章节内) | 表头与数据可能分离 | +| 精确匹配 | 强(可下钻到页码) | 弱(语义近邻引入噪声) | + +## 金融场景优势 + +金融文档受监管严格约束,目录与章节结构本身即为最强索引。PageIndex 回归"人找文档先翻目录"的第一性原理,特别适合招股书、审计报告、合同等有明确结构的超长文档。 + +## 参考 +- [[financial-llm-practice-2026|金融行业大模型落地实践]] +- [[agentic-rag]] +- [[bm25-financial-retrieval]] diff --git a/concepts/parallel-scan.md b/concepts/parallel-scan.md new file mode 100644 index 0000000..10e902a --- /dev/null +++ b/concepts/parallel-scan.md @@ -0,0 +1,51 @@ +--- +title: "Parallel Scan (Parallel Associative Scan)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["gpu-optimization", "parallel-algorithm", "prefix-sum"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Parallel Scan + +## 定义 + +Parallel Scan(并行扫描,也称 Parallel Associative Scan / Blelloch Scan)是一种在 GPU 上并行计算前缀和(prefix sum)的算法。在 Mamba 中,它被用于将 [[selective-state-space|S6]] 的顺序循环更新展开为可并行的关联操作,是 [[hardware-aware-algorithm]] 的核心计算原语。 + +## 为什么需要 + +S6(选择性 SSM)的序列依赖: + +``` +h_t = A_bar_t * h_{t-1} + B_bar_t * x_t +``` + +朴素实现是 O(n) 顺序的,无法并行训练。但该操作满足结合律(associativity),可以重新排列为 parallel scan。 + +## 算法直觉 + +将序列分为两半,递归计算: +- 第一半的完整结果 +- 第二半需要第一半的"最终状态"作为初始条件 + +Blelloch 的两阶段方法: +1. **Up-sweep(reduce)**:构建局部聚合 +2. **Down-sweep**:将聚合结果分发到各元素 + +复杂度:O(n) work, O(log n) depth → GPU 友好。 + +## 在 Mamba 中的实现 + +Mamba 的硬件感知算法将 scan 与离散化融合在单个 GPU kernel 中,直接在 SRAM 上操作,避免中间结果写入 HBM。 + +## 相关概念 + +- [[hardware-aware-algorithm]] — Mamba 中 scan 的完整实现 +- [[selective-state-space]] — 需要 scan 的原因(时间变化 SSM 不能卷积) +- [[gu-mamba|Mamba 论文]] + +## 参考 + +- Blelloch (1990) — 经典并行 scan 算法 +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) diff --git a/concepts/passive-vs-active-knowledge.md b/concepts/passive-vs-active-knowledge.md new file mode 100644 index 0000000..8c2b12b --- /dev/null +++ b/concepts/passive-vs-active-knowledge.md @@ -0,0 +1,56 @@ +--- +title: "被动知识 vs 主动知识" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-knowledge, llm-agents, procedural-knowledge] +sources: + - https://arxiv.org/abs/2605.07358 +--- + +# 被动知识 vs 主动知识 + +## 二分法 + +Zhou et al. (2026) 提出一个简洁的 agent 知识二分法,用于定位 agent skill 在能力栈中的位置: + +### 被动知识(Passive Knowledge) +- 通过预训练、监督微调和 RLHF 等对齐过程,**部署前吸收到模型参数中** +- 包括事实关联和扩散性过程先验(指令遵循、分解、代码/计划生成) +- **特点**:静态、不透明,在专业化或快速变化领域中往往较弱 + +### 主动知识(Active Knowledge) +- **运行时通过与环境交互获得** +- 包括检索文档、调用 API 和工具、访问 MCP 服务器、执行外化的 agent skill、观察结果 +- **特点**:动态、接地,但仅靠访问本身不决定应调用什么、何时调用、如何编排、怎样验证 + +## 知识与过程性鸿沟 + +主动知识虽然更动态,但它引入了**过程性鸿沟([[procedural-gap|procedural gap]])**: +> 拥有一把钥匙 ≠ 知道何时用它、开哪扇门、门后有什么、失败后怎么办。 + +Skill 正是弥合这一鸿沟的构件——将过程性 know-how 外化为可存储、检索、修订和治理的显式 artifact。 + +## 在能力栈中的位置 + +``` +┌──────────────────────────────────────┐ +│ Agent (高层推理与规划) │ +│ "做什么" — 意图解释、目标分解 │ +├──────────────────────────────────────┤ +│ Skills (操作层) │ +│ "怎么做" — 过程性 know-how │ +│ S = (M, R, C) │ +├──────────────────────────────────────┤ +│ 主动知识 │ 被动知识 │ +│ (运行时获取) │ (参数中) │ +├──────────────────────┼────────────────┤ +│ 工具 · API · MCP │ 预训练 · SFT │ +└──────────────────────┴────────────────┘ +``` + +## 参考 + +- [[agent-skill|Agent Skill]] +- [[procedural-gap|过程性鸿沟]] +- [[zhou-agent-skills-survey-2026|Zhou et al. 2026]] diff --git a/concepts/per-index-time-decay.md b/concepts/per-index-time-decay.md new file mode 100644 index 0000000..6bae25c --- /dev/null +++ b/concepts/per-index-time-decay.md @@ -0,0 +1,41 @@ +--- +title: "Per-Index Time Decay" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["information-retrieval", "agent-memory", "decay", "elasticsearch"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# Per-Index Time Decay + +Per-Index Time Decay 是 Atlas 记忆系统中每个索引使用独立衰减策略的设计:episodic 按 timestamp 衰减,semantic 按 last_used_at 衰减并受 use_count boost,procedural 豁免衰减(1.0)。 + +## 衰减函数 + +Gauss 衰减 + offset 平坦区 + use_count boost: + +``` +decay = exp(-pow(max(days - offset, 0) / scale, 2) * log(sqrt(2))) +// semantic 额外: decay *= 1 + log10(1 + use_count) * use_count_boost +// procedural: decay = 1.0 +``` + +## 关键参数 + +| 参数 | 默认值 | 含义 | +|------|--------|------| +| DECAY_SCALE | 1825d (~5年) | 衰减半衰期,客服应收紧至 60-180d | +| DECAY_OFFSET | 180d | 平坦区,offset 内 doc 乘数 1.0 | +| USE_COUNT_BOOST | 0.2 | use_count=10 → ~1.21x, =100 → ~1.40x | + +## 设计原则 + +信息的衰减驱动力是它有多频繁被需要,不是它有多旧。 +- semantic 用 last_used_at 而非 timestamp:一个三年前的稳定偏好如果一直在被用到,不应衰减 +- procedural 豁免衰减:操作流程不因时间失效 + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[agent-memory-taxonomy]] diff --git a/concepts/persona-invariant-reasoning.md b/concepts/persona-invariant-reasoning.md new file mode 100644 index 0000000..25d00fb --- /dev/null +++ b/concepts/persona-invariant-reasoning.md @@ -0,0 +1,39 @@ +--- +title: "Persona-Invariant Reasoning" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["fairness", "reasoning", "bias-mitigation", "llm-safety"] +sources: + - "[[personalization-trap-2025]]" +--- + +# Persona-Invariant Reasoning + +Persona-Invariant Reasoning 是在用户无关的任务上保持推理一致的理想状态——模型的推理质量不应随用户画像(社会经济地位、人口特征)而变化。 + +## 问题 + +当前 LLM 在融入用户记忆后,即使是在标准化、用户无关的测试(如 STEU)中,也会因画像差异产生系统性偏差。画像信息不恰当地渗入了通用推理过程。 + +## 实现路径 + +### DPO 训练 +Fang et al. 展示通过 DPO 在偏好数据集上训练可减少画像影响: +- 500 个训练样本,3 个评价维度(正确性、偏见检测、画像无关声明) +- 选择"正确 + 无偏见 + 声明画像无关"的响应 +- 结果:Bias Influence ∆ 从 5.5% → -2.3%(Gemma-2-2B) + +### Thinking 模型的自然优势 +推理(thinking)模型通常比标准版本表现出更低偏见——推理过程本身可能提供了部分画像无关的保护。 + +## Trade-off + +偏见抵抗与指令遵循之间存在 trade-off:DPO 后指令遵循得分下降。 + +## 参考 +- [[personalization-trap-2025]] +- [[user-memory-bias]] +- [[emotional-reasoning-bias]] +- [[dpo-bias-mitigation]] +- [[dpo]] diff --git a/concepts/personalization-trap.md b/concepts/personalization-trap.md new file mode 100644 index 0000000..edc310c --- /dev/null +++ b/concepts/personalization-trap.md @@ -0,0 +1,39 @@ +--- +title: "个性化陷阱 (Personalization Trap)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["personalization", "bias", "llm-memory", "emotional-intelligence"] +sources: + - "[[personalization-trap-2025]]" +--- + +# 个性化陷阱 + +个性化陷阱(Personalization Trap)是 Fang et al. (2025) 提出的概念:为增强共情而引入的用户记忆个性化,可能在无意中将社会不平等编码进 AI 的情感推理。 + +## 定义 + +当 AI 系统记住用户背景信息(社会经济地位、人口特征等)时,即使是在用户无关的标准化测试中,模型也会基于用户画像产生系统性分歧的情感判断。 + +## 核心机制 + +1. **画像渗入推理**:用户信息被过度加权,即使任务应独立于用户背景 +2. **社会等级内化**:优势画像获得更准确的情感解读,劣势画像准确率系统性地偏低 +3. **偏见方向发散**:不同模型对不同人口统计特征的偏见方向不一致(如 Qwen3 对非二元性别友好,Claude 相反) + +## 实验证据 + +- 15 个模型,11 个在引入用户记忆后显著偏离无记忆基线 +- Claude 3.7: 优势画像 80.10% vs 劣势画像 77.37%(p<0.05) +- 翻转率(Flip Rate):劣势画像更高 + +## 理论框架 + +基于 Bourdieu 的社会资本理论:AI 系统在引入用户背景信息时,复制了人类社会中对不同社会位置的不平等解读。 + +## 参考 +- [[personalization-trap-2025]] +- [[user-memory-bias]] +- [[emotional-reasoning-bias]] +- [[social-capital-framework]] diff --git a/concepts/posterior-linearization-filter.md b/concepts/posterior-linearization-filter.md new file mode 100644 index 0000000..b770396 --- /dev/null +++ b/concepts/posterior-linearization-filter.md @@ -0,0 +1,32 @@ +--- +title: "后验线性化滤波" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [filtering, state-estimation, iterative-methods] +sources: [nano-filter] +--- + +# 后验线性化滤波 + +Posterior Linearization Filter (PLF) 是 [[gaussian-filtering|Gaussian filtering]] 中的迭代方法,通过在后验估计点处进行统计线性回归来减少线性化误差。 + +## 基本思想 + +不同于 [[extended-kalman-filter|EKF]] 在**先验**估计点做 Taylor 展开,PLF 在**后验**估计点处迭代地执行统计线性化: +1. 用当前后验估计做统计线性回归 → 得到线性模型 $N(y; Ax + b, \Lambda)$ +2. 在此线性模型上运行 KF 更新 +3. 用新的后验估计重复,直至收敛 + +## 与 NANO 的对比 + +PLF 虽然改进了 EKF 的线性化点选择,但其本质仍然是「线性化 → KF」的使能框架。[[nano-filter|NANO filter]] 完全跳出了这个框架: +- PLF:迭代地近似驻点条件 → 仍有线性化误差 +- NANO:直接在 [[gaussian-manifold|高斯流形]]上优化更新代价 → **无线性化** + +实验表明 NANO 比 PLF 平均 RMSE 降低约 45%。 + +## 参考 +- [[gaussian-filtering|Gaussian Filtering]] +- [[extended-kalman-filter|EKF]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/prediction-driven-inference.md b/concepts/prediction-driven-inference.md new file mode 100644 index 0000000..9e3ee17 --- /dev/null +++ b/concepts/prediction-driven-inference.md @@ -0,0 +1,56 @@ +--- +title: "预测驱动推断(Prediction-Driven Inference)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - inference + - foundation-models + - alphafold + - bias-correction +sources: + - Jordan, MLST 2026 +--- + +# 预测驱动推断(Prediction-Driven Inference) + +Michael I. Jordan 团队提出的统计方法,用于纠正基础模型在知识边界上的系统性偏倚。核心思想:**混合少量真实标注数据与大量模型预测,使置信区间在保持窄的同时重新覆盖真实值**。 + +## 问题背景 + +以 AlphaFold 为例:要检验"蛋白质量子涨落是否与磷酸化关联"——2×2 统计检验: +- 传统晶体结构数据:样本量太小,不足以拒绝原假设 +- AlphaFold 预测的 2 亿个结构:功效大幅提升,原假设被拒绝 ← 看起来是好事 +- **但**:置信区间极窄且完全偏离真实值——因为训练集中含量子涨落特征的蛋白质本就稀少 + +问题本质:**不是模型答错了,而是模型答错了却不说**。置信区间窄(看起来很有把握),但不覆盖真实值。 + +## 方法 + +把少量真实标注数据(ground truth)与大量基础模型预测数据**联合建模**,调整置信区间的覆盖范围,使其在保持有效统计功效的同时**重新覆盖真实值**。 + +## 根本矛盾:前沿偏倚 + +基础模型最危险的地方恰恰是科学家最需要它的地方——[[foundation-model-frontier-bias|基础模型前沿偏倚]]: +- 科学家永远问知识边界上的新问题 +- 基础模型在知识边界训练数据最稀少 → 偏倚最大 +- 数据增多只改善已知领域,下一个新问题同样会触发偏倚 + +「这个矛盾不会随着数据增多自动消失。」 + +## 错误反应(Jordan 的批评) + +- ❌ "偏差会随着数据增多而消失"——不会,因为新问题永远在边界 +- ❌ 只批评架构/输出,不给科学方法——"那些人在说什么?他们在批评,但没有给出出路" +- ✅ 在任何基础模型周围建立**收集少量真实数据、融合、给出可信答案**的能力 + +## 学术溯源 + +正式名称为 **Prediction-Powered Inference (PPI)**,由 Angelopoulos, Bates, Fannjiang, Jordan & Zrnic 发表于 *Science* 383 (2023), 669–674。 + +## 参考 + +- [[jordan-collectivist-ai-2025|Jordan 论文 §4.3]] +- [[foundation-model-frontier-bias|基础模型前沿偏倚]] +- [[uncertainty-taxonomy|不确定性分类法]] +- [[collectivist-ai|集体主义 AI]] diff --git a/concepts/pretraining-statistical-bias.md b/concepts/pretraining-statistical-bias.md new file mode 100644 index 0000000..eb9ccdc --- /dev/null +++ b/concepts/pretraining-statistical-bias.md @@ -0,0 +1,39 @@ +--- +title: "预训练统计偏好(Pretraining Statistical Bias)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - pretraining + - llm + - spiral-of-silence + - data-distribution +sources: + - data派THU 2026 +--- + +# 预训练统计偏好(Pretraining Statistical Bias) + +大模型沉默螺旋的**底层基础**——四大技术根源之首。 + +## 机制 + +预训练数据中主流观点占**绝对数量优势**,模型在自回归训练中习得的概率分布天然偏向高频内容。对小众、创新、低概率观点,模型表现为系统性"沉默"——它们虽然在训练数据中存在,但概率权重远不足以在常规采样温度下被选中。 + +## 与大模型沉默螺旋的关系 + +预训练统计偏好是沉默螺旋的**必要条件**: +- 没有统计偏好,[[context-anchoring|上下文锚定]]和 [[rlhf-alignment-amplification|RLHF 对齐放大]] 的叠加效应将失去基础 +- 小模型参数容量有限,统计偏好更显著 → 沉默螺旋效应更强 +- 中文训练数据的共识性语境更强 → 统计分布更集中 → 效应更突出 + +## 缓解方向 + +- 训练数据分布均衡化 +- 检索增强时调高人类原创内容权重 +- 推理阶段提高 [[temperature-sampling|温度采样]] + +## 参考 + +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] +- [[content-homogenization|内容同质化]] diff --git a/concepts/probability-matching.md b/concepts/probability-matching.md new file mode 100644 index 0000000..86c4ec3 --- /dev/null +++ b/concepts/probability-matching.md @@ -0,0 +1,43 @@ +--- +title: "概率匹配(Probability Matching)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - behavioral-psychology + - game-theory + - nash-equilibrium + - collective-intelligence +sources: + - Jordan, arXiv:2507.06268 +--- + +# 概率匹配(Probability Matching) + +行为心理学中的经典现象:当选项的概率收益不同时,个体以**与概率成比例**的方式分配选择,而非总是选择最优选项。Jordan 将其重新解释为**种群层面的纳什均衡**——是集体主义不确定性处理的微观范例。 + +## 经典小鼠迷宫实验 + +- 左臂食物是右臂的 2 倍(比例 2:1) +- **决策论最优**:每次都去左臂(最大化个体期望) +- **真实行为**:以约 2/3 概率去左臂,1/3 去右臂——**恰好匹配概率比** + +## Jordan 的集体主义解释 + +这不是次优或非理性行为。考虑**种群视角**: +- 若所有小鼠每次都去左臂,右臂食物成为未被利用的资源 +- 每只小鼠独立以 2:1 比例选择 → 左臂拥挤度与资源比匹配 → 高社会总福利 +- 这是一个**纳什均衡**——每只小鼠的"不确定性处理策略"为整个种群优化 + +## 启示 + +「正确地使用不确定性,意味着把它放在种群的语境里。」这对 AI 设计有直接启示: +- [[collectivist-ai|集体主义 AI]] 不应只优化个体智能 +- "最优"在种群层面可能具有不同形式 +- LLM 对此毫无意识——它们只学会了模仿人类表达确定性的语气 + +## 参考 + +- [[uncertainty-taxonomy|不确定性分类法]] +- [[collectivist-ai|集体主义 AI]] +- [[jordan-collectivist-ai-2025|Jordan 论文]] diff --git a/concepts/procedural-gap.md b/concepts/procedural-gap.md new file mode 100644 index 0000000..2e4a25a --- /dev/null +++ b/concepts/procedural-gap.md @@ -0,0 +1,38 @@ +--- +title: "过程性鸿沟 — Procedural Gap" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-skills, procedural-knowledge, llm-agents, bottleneck] +sources: + - https://arxiv.org/abs/2605.07358 +--- + +# 过程性鸿沟(Procedural Gap) + +## 定义 + +**过程性鸿沟**指 LLM agent 系统中,**工具访问能力**与**鲁棒任务执行**之间的差距。拥有工具不等于知道何时调用、如何编排多工具、怎样处理失败、以及如何验证输出。 + +来自 Zhou et al. (2026):随着任务变得更长周期(long-horizon)和异质化,agent 每次从零推导过程步骤会导致严重的脆弱性、高延迟和不可靠性。 + +## 问题的三个维度 + +1. **触发(Trigger)**:何时应调用某个能力?(搜索工具 vs 内存检索?) +2. **编排(Orchestration)**:多个工具如何协调?(顺序、并行、条件分支?) +3. **验证(Validation)**:输出是否正确?(schema 变了怎么办?执行失败了如何处理?) + +## 根本原因 + +Agent 的基础模型提供了**被动知识**(预训练中的推理先验),但在专业化和快速变化的领域中,这些静态先验往往不够精确。MCP 等协议解决了工具可达性,但**编排负担仍然落在推理时的 LLM 上**。 + +## 解决方案:Agent Skill + +Skill 通过将过程性 know-how 外化为显式、可复用的构件来弥合这一鸿沟——将"每次从零推理"转变为"检索→选择→执行→演化"的闭环。 + +## 参考 + +- [[agent-skill|Agent Skill]] +- [[zhou-agent-skills-survey-2026|Zhou et al. 2026 综述]] +- [[skill-lifecycle|Skill 生命周期]] +- [[passive-vs-active-knowledge|被动 vs 主动知识]] diff --git a/concepts/product-stability.md b/concepts/product-stability.md new file mode 100644 index 0000000..fa69f20 --- /dev/null +++ b/concepts/product-stability.md @@ -0,0 +1,43 @@ +--- +title: "Product-Stability (乘积稳定性)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: [EoS, gradient-descent, convergence, optimization] +sources: [gan-bifurcation-eos] +--- + +# Product-Stability (乘积稳定性) + +Product-stability 是 Gan (2026) 提出的用于分析形式为 L(x,y) = f(xy) 的极简损失函数上 EoS 收敛的条件。 + +## 定义 + +对于标量函数 f: R → R(具有连续四阶导数),f 在 z 处的乘积稳定性定义为: + +``` +α_f(z) = 3(f⁽³⁾(z))² - f⁽⁴⁾(z)·f''(z) +``` + +若 α_f(z) > 0,称 f 在 z 处**乘积稳定**。 + +## 与 EoS 收敛的关系 + +Gan (2026) 证明:对于 L(x,y) = f(xy) 形式的损失,α_f > 0 是梯度下降在 EoS 阈值处收敛的**充要条件**。乘积稳定性统一了此前所有极简 EoS 分析的收敛结果(Wang et al., Zhu et al., Song & Yun, Ahn et al. 等)。 + +## 与第一 Lyapunov 系数的桥接 + +Gan (2026b) 证明了乘积稳定性是分岔理论框架的特例: + +- α_f 本质上是标量 f 的**第一 Lyapunov 系数**(差缩放因子) +- 对于二维损失 L(x,y) = f(xy),**c₁ 的符号由 α_f 主导**(当 x² + y² 足够大时) +- 在极小值流形 xy = z* 上,切向 sharpness 梯度非零 ⇔ f''(z*)·(x² - y²) ≠ 0 + +这建立了"极简标量分析"与"一般分岔框架"之间的直接桥梁。 + +## 参考 + +- Gan (2026). Product-Stability: Provable Convergence for Gradient Descent on the Edge of Stability. arXiv:2604.02653. +- [[gan-bifurcation-eos]] (Section 5) +- [[first-lyapunov-coefficient]] +- [[edge-of-stability]] diff --git a/concepts/prompt-engineering-vs-fine-tuning.md b/concepts/prompt-engineering-vs-fine-tuning.md new file mode 100644 index 0000000..0000a02 --- /dev/null +++ b/concepts/prompt-engineering-vs-fine-tuning.md @@ -0,0 +1,45 @@ +--- +title: "提示词工程 vs 微调" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [prompt-engineering, fine-tuning, llm, cost-optimization, dspy] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# 提示词工程 vs 微调 + +## 两种投资曲线 + +提示词工程和微调遵循**截然不同的投资曲线**——不是"哪个更好"的问题,而是"哪个在什么条件下更合适"。 + +| | 提示词工程 | 微调 | +|---|---|---| +| **速度** | 快(小时到天) | 慢(数周) | +| **成本** | 低 | 高(GPT-4o 客户支持 ~$1 万 + 6 周) | +| **灵活性** | 高,易迭代 | 低,需重新训练 | +| **可靠性** | 脆弱(小输入变化 → 不一致输出) | 规模化可靠一致 | +| **缩放** | 好(< 10 万查询) | 更好(大批量,任务稳定时) | + +## 关键发现 + +- DSPy 等提示优化工具在部分基准上**超过微调 6-19 个百分点**,需要的样本数少 35 倍(LLM Stats, 2026) +- 微调在任务**稳定且定义明确**时,高容量下回报最大 +- 差距在逐年缩小——微调已演变为"提示已达上限后的最后一步" + +## 实践框架 + +1. **从提示词开始** +2. **遇到提示无法修复的故障时才升级到微调** +3. **低于 10 万查询,提示几乎总是正确的选择** + +## 混合模式 + +生产中越来越普遍:**微调解决领域风格和基调 + RAG 作事实基础**。两种技术解决不同的问题,互补而非互斥。 + +## 参考 + +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[rag|RAG (检索增强生成)]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/prospective-memory-index.md b/concepts/prospective-memory-index.md new file mode 100644 index 0000000..3fb8b3f --- /dev/null +++ b/concepts/prospective-memory-index.md @@ -0,0 +1,95 @@ +--- +title: "Prospective Memory Index (前瞻记忆索引)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["agent-memory", "prospective-memory", "architecture", "index-design"] +sources: + - "[[agent-memory-five-category-model]]" +--- + +# Prospective Memory Index (前瞻记忆索引) + +Prospective Memory Index 是 sz 提出的五类 Agent 记忆模型中的第五类承载索引,专门处理"计划/想法/关键洞察/遗留问题"这类具有随机性被提取特征的记忆。 + +## 认知心理学的对应 + +前瞻记忆(prospective memory):记住在未来特定情境下执行某个意图。与回顾记忆(retrospective memory)的"过去发生了什么"相对。 + +Agent 中的对应:用户说过的计划、想法、未闭合的思路——在后期交流中,根据实际场景被 Agent 机会性提取并加入上下文。 + +## 与传统三索引的差异 + +| 维度 | Prospective | Semantic | Episodic | +|------|------------|----------|----------| +| **存储内容** | 计划/想法/开放问题/关键洞察 | 稳定用户事实 | 原始交互日志 | +| **衰减驱动力** | **关联匹配度**(非时间、非频率) | last_used_at + use_count | timestamp | +| **衰减曲线** | 极平坦——不应因时间沉底 | Gauss,保守 1825d | Gauss,可收紧 | +| **召回触发** | 上下文语义关联(机会性) | 用户显式/隐式请求 | 时间范围查询 | +| **写入时机** | 对话中 LLM 标记重要性 | Consolidation 时 | 每回合自动 | +| **更新模式** | 完成→移出,更新→保留,过期→归档 | Supersession 链 | 只写不改 | + +## 衰减设计:关联匹配度而非时间 + +核心设计决策:prospective 索引的 decay function **不碰 timestamp**。 + +- 一个想法被提及距今 90 天 ← 不是衰减信号 +- 这个想法与当前查询的语义相似度 0.2 ← 这才是 + +检索时只用 relevance score 做排序信号。时间做软倾斜:同一相关度下,更新的想法排在前面。 + +## 写入:LLM 重要性分类器 + +在对话进行中由 LLM 标注(非批处理 consolidation): + +``` +用户说 → LLM 分类器检测 → 判定为 prospective 记忆 + ↓ +写入索引:{content, type, context, timestamp, status: "open"} +``` + +### 五种记忆类型 + +| 类型 | 说明 | 例子 | +|------|------|------| +| **plan** | 计划 | "下周想试一下 GRPO 训练" | +| **idea** | 想法/直觉 | "bandit 可能比 MCP-Zero 的启发式更好" | +| **decision** | 关键决策点 | "从今天起用 PostgreSQL" | +| **question** | 开放问题 | "衰减曲线的领域特异性到底怎么量化?" | +| **insight** | 关键洞察 | "认知负荷才是 Agent 瓶颈,不是模型能力" | + +## 闭合状态管理 + +``` +open → referenced (被再次提及) → closed (计划完成) + → stale (超过 N 天未被提及,归档) +``` + +类似 [[soft-supersession]]——旧记录不删除,检索时默认过滤已闭合的,除非显式查询。 + +## 与 Semantic 的双向流动 + +``` +prospective (idea) ——被多次确认→ semantic (fact) +semantic (decision) ——被推翻→ prospective (reconsideration) + supersession +``` + +反复出现的 idea "毕业"为 semantic;被推翻的 semantic 降级回 prospective 等待重新确认。 + +## 检索策略 + +Prospective 索引**不参与 BM25 的词法腿**——"我之前说想做一个诗词推荐系统",三个月后的查询是"今天早上推什么诗",BM25 完全匹配不到。只走 dense 语义检索:key 不需要展开,query 不需要精确,全交给语义匹配。 + +``` +recall_memory(query) + → 并行查四个索引(epi/sem/proc/prosp) + → RRF 融合 + → prospective 的 rank 不由 RRF 决定——由 cross-encoder 的 relevance score 主导 +``` + +## 参考 +- [[agent-memory-five-category-model]] +- [[atlas-memory-system]] +- [[agent-memory-taxonomy]] +- [[soft-supersession]] +- [[long-term-interactive-memory]] diff --git a/concepts/pseudo-huber-loss.md b/concepts/pseudo-huber-loss.md new file mode 100644 index 0000000..c270d1e --- /dev/null +++ b/concepts/pseudo-huber-loss.md @@ -0,0 +1,31 @@ +--- +title: "Pseudo-Huber 损失" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [robust-statistics, loss-function, optimization] +sources: [nano-filter] +--- + +# Pseudo-Huber 损失 + +Pseudo-Huber loss 是 Huber loss 的光滑可微变体,用于鲁棒回归和离群值处理。在小残差时表现如平方损失(L2),在大残差时切换为线性增长(L1),从而抑制离群值对梯度的过度影响。 + +## 定义 + +$$ +\ell_{ph}(x_t, y_t) = \delta^2 \left( \sqrt{1 + (y_t - g(x_t))^2 / \delta^2} - 1 \right) +$$ + +其中 $\delta > 0$ 控制从二次到线性增长转变的阈值。 + +## 在 NANO 鲁棒变体中的作用 + +[[nano-filter|NANO filter]] 的鲁棒变体(基于 [[gibbs-posterior|Gibbs 后验]]框架)采用 Pseudo-Huber 损失替代负对数似然: +- 当测量模型误设(传感器故障、未建模动态)时,标准平方损失会因离群值产生巨大梯度 +- Pseudo-Huber 损失平滑地截断这种影响,保持估计的可靠性 +- 与标准 Huber 损失相比,Pseudo-Huber 处处可微,更适合基于梯度的优化(如 [[natural-gradient-descent|自然梯度]]) + +## 参考 +- [[gibbs-posterior|Gibbs Posterior]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/pyramidkv.md b/concepts/pyramidkv.md new file mode 100644 index 0000000..1c46c1d --- /dev/null +++ b/concepts/pyramidkv.md @@ -0,0 +1,52 @@ +--- +title: "PyramidKV" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "cross-head-budget-allocation", "static-allocation"] +sources: [] +--- + +# PyramidKV + +## 定义 + +PyramidKV (Cai et al., 2024) 是一种静态的 [[cross-head-budget-allocation]] 方法,基于"信息漏斗"(Information Funneling)假说,采用固定的金字塔形预算分布:浅层保留更多 token,深层逐渐减少。 + +## 核心假设 + +> 注意力信息从浅层向深层逐渐"漏斗式"汇聚——深层需要的 KV 信息量更少。 + +基于此,PyramidKV 使用固定的逐层预算模式,无需在线计算。 + +## 分配方式 + +``` +b_layer_1 > b_layer_2 > ... > b_layer_L (逐层递减的金字塔形) +``` + +这是一个**静态规则**,不依赖 token 内容或注意力模式。 + +## 局限性 + +LU-KV 论文指出 PyramidKV 的三个局限: + +1. **忽略 head 间差异**:同一层内的不同 head 可能有不同的信息需求 +2. **先验未必成立**:信息漏斗假说在某些任务/模型中不成立 +3. **不考虑指标质量**:不区分 [[heuristic-metric]] 在不同 head 中的可靠性 + +## 在 LU-KV 实验中的角色 + +作为 [[cross-head-budget-allocation]] baseline 之一,PyramidKV 在 LongBench 和 RULER 上的表现系统性地弱于 LU-KV,验证了全局组合优化的价值。 + +## 相关概念 + +- [[cross-head-budget-allocation]] — PyramidKV 所在的更大类别 +- [[adkv]] — 动态分配的替代方案 +- [[head-level-budget-allocation]] — LU-KV 的优化方案 +- [[tang-lukv|LU-KV]] — 优于 PyramidKV 的全局优化方法 + +## 参考 + +- PyramidKV (Cai et al., 2024) +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/rademacher-complexity.md b/concepts/rademacher-complexity.md new file mode 100644 index 0000000..4fec071 --- /dev/null +++ b/concepts/rademacher-complexity.md @@ -0,0 +1,38 @@ +--- +title: "Rademacher Complexity" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["learning-theory", "complexity-measure", "generalization"] +sources: ["Bartlett & Mendelson (2002)"] +--- + +# Rademacher Complexity + +**Rademacher complexity** 是统计学习理论中度量假设类丰富度的核心工具。对于假设类 F 和样本 {x_i}ⁿ_{i=1}: + +``` +R_n(F) = E_{σ} [sup_{f∈F} (1/n) Σⁿ_{i=1} σ_i f(x_i)] +``` + +其中 σ_i 是独立 Rademacher 随机变量(±1 等概率)。 + +## 与 Gaussian Width 的关系 + +Rademacher 复杂度与 [[gaussian-width|Gaussian width]] 在常数因子内等价——它们是同一几何量的两种表述方式。Gaussian width 用高斯随机方向探测集合,Rademacher complexity 用 Rademacher 随机符号。 + +## 在泛化理论中的角色 + +对任意 δ > 0,以至少 1−δ 的概率: + +``` +sup_{f∈F} |Ê[f] − E[f]| ≤ 2R_n(F) + O(√(log(1/δ)/n)) +``` + +是[[generalization-bounds|泛化界]]的标准推导起点。 + +## 参考 + +- [[gaussian-width|Gaussian Width]] +- [[generalization-bounds|Generalization Bounds]] +- [[fisher-lipschitz|Fisher-Lipschitz]] diff --git a/concepts/rag-closed-loop.md b/concepts/rag-closed-loop.md new file mode 100644 index 0000000..090cacd --- /dev/null +++ b/concepts/rag-closed-loop.md @@ -0,0 +1,49 @@ +--- +title: "RAG 闭环迭代(RAG Closed-Loop Iteration)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - rag + - content-ecology + - spiral-of-silence + - search +sources: + - ACL 2024 (Spiral of Silence: How is LLM Killing IR?) +--- + +# RAG 闭环迭代(RAG Closed-Loop Iteration) + +指 AI 生成内容被搜索引擎索引后,又被后续 RAG 检索召回,形成**AI 生成→全网索引→检索复用→再次生成的无限闭环**。这是大模型沉默螺旋在信息检索场景的核心实证场景。 + +## 演化过程 + +``` +轮次 0: 人类原创 50% + AI 生成 50% +轮次 1: AI 检索→生成(部分复用已有 AI 内容) +轮次 2: 新 AI 内容加入索引池 +... +轮次 5: 人类原创 < 15%,AI 同质化内容垄断 +``` + +## 核心发现(ACL 2024) + +- **短期利好,长期崩塌**:初期 AI 内容提升检索精度,5 轮后质量下降 +- **搜索引擎偏爱 AI 内容**:排序算法天然偏好更规整的 AI 生成文本 +- **数字沉默螺旋**:小众正确观点被边缘化,AI 同质化甚至错误内容垄断信息场 + +## 与标准 RAG 的关系 + +标准 [[rag|RAG]] 关注单次检索增强的准确性,RAG 闭环迭代关注**多次迭代后的系统级涌现效应**——单次 RAG 无害,但闭环累积后形成信息生态危机。 + +## 缓解方向 + +- 检索排序中均衡 AI 内容与人类原创曝光的占比 +- 在索引层标记内容来源类型 +- 引入多样性奖励机制 + +## 参考 + +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] +- [[content-homogenization|内容同质化]] +- [[content-diversity-decay|内容多样性衰减]] diff --git a/concepts/rag.md b/concepts/rag.md index 5e288d7..f1028f9 100644 --- a/concepts/rag.md +++ b/concepts/rag.md @@ -17,8 +17,14 @@ RAG 是一种将外部知识检索与 LLM 生成相结合的架构范式。通 - [[multimodal-rag|多模态 RAG]]:将 RAG 扩展到图像、视频等多模态数据 - [[rag-systems|RAG 系统]] +## 闭环风险 + +单次 RAG 无害,但多次迭代形成 [[rag-closed-loop|RAG 闭环迭代]] 时,AI 生成→索引→检索→再生成的循环会导致内容多样性断崖式下降——这是 [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] 在检索场景的核心表现。 + ## 相关概念 - [[multimodal-rag|多模态 RAG]] - [[rag-systems]] - [[context-engineering|上下文工程]] +- [[rag-closed-loop|RAG 闭环迭代]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/reasoning-quality-optimization.md b/concepts/reasoning-quality-optimization.md new file mode 100644 index 0000000..ff6f263 --- /dev/null +++ b/concepts/reasoning-quality-optimization.md @@ -0,0 +1,42 @@ +--- +title: "Reasoning Quality Optimization" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["reasoning", "optimization", "rl", "test-time-scaling"] +sources: + - "[[me2-trm-reasoning-2026]]" +--- + +# Reasoning Quality Optimization + +将推理轨迹质量作为优化信号的方法论,由 Zhang et al. (ICML 2026) 在 ME² + TRM 框架中系统验证。 + +## 两种优化模式 + +### Test-Time Scaling (Best-of-N) +- TRM 为 N 条候选推理评分 +- 选择与 ME² 原则最对齐的推理 +- AIME24: Qwen3-8B 从 44.7% (N=1) → 64.0% (N=16),+19.3% +- 即使 TRM 未见答案正确性监督,更好的推理 → 更好的结果 + +### RL Training (GRPO + Thinking Rewards) +Gated reward shaping: + +$$r = r_v \cdot (1 - \alpha + \alpha \cdot \text{Sigmoid}(r_t))$$ + +- r_v:verifiable reward(答案正确性,0或1) +- r_t:thinking reward(推理质量,TRM 输出) +- α:平衡权重 + +效果:+3.9% across diverse tasks + +## 核心洞察 + +TRM 的训练数据仅包含 verified-correct 推理对——意味着 thinking reward 选择的是"正确的推理中更好的那个",而非"正确 vs 错误"。这在 GRPO 中自然地塑造了推理路径偏好,而无需额外答案信号。 + +## 参考 +- [[me2-trm-reasoning-2026]] +- [[thinking-reward-model]] +- [[grpo]] +- [[me2-principle]] diff --git a/concepts/recurrence-taxonomy.md b/concepts/recurrence-taxonomy.md new file mode 100644 index 0000000..d9c5361 --- /dev/null +++ b/concepts/recurrence-taxonomy.md @@ -0,0 +1,47 @@ +--- +title: "循环分类法 (Recurrence Taxonomy)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, taxonomy, recurrence] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 循环分类法 (Recurrence Taxonomy) + +Mozer et al. (2026) 提出的**两维度分类体系**,用于系统化区分循环 Transformer 架构。 + +## 两个维度 + +### 维度一:循环轴 (Recurrence Axis) + +| 轴 | 含义 | 示例架构 | +|---|---|---| +| 深度 (Depth) | 激活从深层回流浅层 | Looped Transformer, Universal Transformer, RINS | +| 步级 (Step) | 激活在层内跨输入步传播 | Mamba, RWKV-7, DeltaNet, 线性注意力 | +| 深度+步级 (Depth+Step) | 两个方向均有循环 | Recurrent Memory Transformer, Feedback Transformer, COCONUT | + +### 维度二:每循环步输入 Token 数 + +| 比例 | 含义 | 示例 | +|---|---|---| +| > 1 | 多 token 并行处理,一步输出 | Block-Recurrent Transformers, Looped | +| = 1 | 一个 token 对应一步 | 标准 RNN-like 循环, Mamba | +| < 1 | 多步循环处理单个 token | COCONUT, 隐式思考模型 | + +## 空单元格的意义 + +Mozer et al. 指出分类表中存在空单元格(如步级循环 + 比例<1、深度循环 + 比例=1),这些是**有前景的研究方向**。 + +## 必要条件 vs 充分条件 + +深度/步级循环是状态追踪的**必要条件但非充分条件**——真正的状态追踪需要训练期间的顺序依赖性,任何可在上下文维度上完全并行化的模型都存在限制。 + +## 参考 + +- [[recurrent-transformer-architectures|循环 Transformer 架构]] +- [[depth-recurrence|深度循环]] +- [[step-recurrence|步级循环]] +- [[latent-thought-models|隐式思考模型]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/recurrent-transformer-architectures.md b/concepts/recurrent-transformer-architectures.md new file mode 100644 index 0000000..61102df --- /dev/null +++ b/concepts/recurrent-transformer-architectures.md @@ -0,0 +1,44 @@ +--- +title: "循环Transformer架构 (Recurrent Transformer Architectures)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, recurrence, architecture] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 循环Transformer架构 (Recurrent Transformer Architectures) + +循环 Transformer 架构是将**循环连接**引入 Transformer 以克服其[[feedforward-depth-limitation|前馈深度局限]]的一类模型设计(Mozer et al., 2026)。 + +## 为什么需要循环 + +纯前馈 Transformer 的状态追踪存在根本性的深度限制。循环允许信号从深层回流到浅层,实现: +- **无界状态传播**:s_t 不随 t 线性上移 +- **隐式激活动力学**:类似人脑的自动、无意识状态维护 +- **持续的信念更新**:不依赖外化 token 即保持环境表征 + +## 核心设计空间 + +Mozer et al. 提出按两个维度分类(见 [[recurrence-taxonomy|循环分类法]]): + +1. **循环轴**:深度方向、步方向、或两者 +2. **每循环步输入 token 数**:>1(压缩/块状)、=1(标准)、<1(多步思考) + +## 关键区别 + +并非所有"循环"架构都能真正追踪状态: +- **深度循环**(looped transformer):增加表达能力,但状态仍上移,无法无限追踪 +- **步级循环**(SSM 类):允许层内状态横向传播 +- **深度+步级循环**:最全状态追踪能力 + +最流行的循环形式(如 SSM 的线性更新)并不比标准 Transformer 更具表达能力(Merrill et al., 2025)。 + +## 参考 + +- [[recurrence-taxonomy|循环分类法]] +- [[depth-recurrence|深度循环]] +- [[step-recurrence|步级循环]] +- [[state-tracking|状态追踪]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/reference-sliding-window-attention.md b/concepts/reference-sliding-window-attention.md new file mode 100644 index 0000000..c3adbc6 --- /dev/null +++ b/concepts/reference-sliding-window-attention.md @@ -0,0 +1,50 @@ +--- +title: "Reference Sliding Window Attention (R-SWA)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["attention-mechanism", "kv-cache", "long-horizon", "efficient-inference"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# Reference Sliding Window Attention (R-SWA) + +R-SWA 是 Unlimited OCR 提出的注意力机制,模仿人类解析工作记忆:每个生成 token 关注全部参考 token + 前 n 个输出 token。核心创新在于**将参考 token 排除在状态转移之外**。 + +## 注意力计算 + +给定前缀段 P(长度 Lm,含视觉 token + prompt)和因果滑动窗口 Dn(t)(宽度 n): + +- P = {1, ..., Lm},全局可见 +- Dn(t) = {j | max(Lm+1, Lm+t-n) ≤ j ≤ Lm+t-1},因果滑动 +- N(t) = P ∪ Dn(t) + +注意力权重: +$$\alpha_{tj} = \frac{\exp(q_t^T k_j / \sqrt{d_k})}{\sum_{i \in N(t)} \exp(q_t^T k_i / \sqrt{d_k})}, \quad j \in N(t)$$ + +## KV Cache 管理 + +标准 MHA:$C_{MHA}(T) = L_m + T$(线性增长) + +R-SWA:$C_{R\text{-}SWA}(T) = L_m + \min(n, T) \leq L_m + n$(有界常数) + +Cache 压缩比:$\rho(T) = \frac{L_m + n}{L_m + T} \to 0$(当 T 足够大时) + +## 与标准 SWA 的关键区别 + +| 维度 | 标准 SWA | R-SWA | +|------|---------|-------| +| 参考 token 状态 | 参与状态转移,逐渐滑出窗口 | 不参与状态转移,永久保留 | +| 视觉特征退化 | 是(逐渐模糊) | 否(静态编码) | +| KV cache | 线性增长 | 有界常数 | + +## 认知启发 + +人类抄写时不回溯全部已写内容,仅关注附近上下文维持空间定向。R-SWA 的 soft forgetting 机制与此一致——历史输出信息通过滑动窗口传递,而非全量保留。 + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[constant-kv-cache]] +- [[kv-cache]] +- [[rolling-kv-cache]] diff --git a/concepts/regular-language-recognition.md b/concepts/regular-language-recognition.md new file mode 100644 index 0000000..dd0486c --- /dev/null +++ b/concepts/regular-language-recognition.md @@ -0,0 +1,52 @@ +--- +title: "Regular Language Recognition" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["theory", "expressiveness", "automata", "rwkv"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# Regular Language Recognition + +## 定义 + +Regular Language Recognition(正则语言识别)在 RWKV-7 的语境中指:架构是否具备识别**所有**正则语言的理论能力。这是形式语言理论中表达力的重要基准——正则语言对应有限状态自动机(DFA)的识别能力。 + +## 复杂度类背景 + +``` +TC^0 ⊂ NC^1 ⊆ L ⊆ P +``` + +- **TC^0**:常数深度、多项式宽度的阈值电路——标准 Transformer 在此类 +- **NC^1**:对数深度电路——正则语言识别需要此类 + +在 TC^0 ≠ NC^1 的标准猜想下,Transformer 理论上无法识别**所有**正则语言(如某些需要 DFA 的 parity 类语言)。 + +## RWKV-7 的理论突破 + +RWKV-7 的论文(Appendix D)证明了两个关键结果: + +1. **单层可解决 S5 状态追踪**(一个已知在 NC^1 \ TC^0 的问题,在 TC^0 ≠ NC^1 猜想下) +2. **常数层可识别任意正则语言** + +这是**首个**被证明超越 TC^0 的并行化可训练 RNN 架构。 + +## 为什么重要 + +- **架构选择有理论依据**:不是"试试看哪个工作",而是"这个架构能做什么" +- **状态追踪的完整支持**:解释了为什么 RWKV-7 在需要维护隐藏状态的合成任务上表现优异 +- **Transformer 的上界是真实的**:非注意力架构不仅效率更高,理论上也更强大 + +## 相关概念 + +- [[dynamic-state-evolution]] — 超越 TC^0 的实现机制 +- [[generalized-delta-rule]] — 提供额外表达力的核心组件 +- [[state-tracking]] — 正则语言识别的应用体现 +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- Merrill & Sabharwal (2023) — Transformer 的 TC^0 上界 +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) — Appendix D diff --git a/concepts/reinforced-online-policy-distillation.md b/concepts/reinforced-online-policy-distillation.md new file mode 100644 index 0000000..5c0ac32 --- /dev/null +++ b/concepts/reinforced-online-policy-distillation.md @@ -0,0 +1,58 @@ +--- +title: "Reinforced Online-Policy Distillation (ROPD)" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["post-training", "distillation", "reinforcement", "policy", "consolidation"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Reinforced Online-Policy Distillation (ROPD) + +**Reinforced Online-Policy Distillation (ROPD)** 是 [[maineCoon|MaineCoon]] 提出的专家合并策略:将多个域特定的 LoRA DPO 专家合并为**单一可部署的流式策略**,由域 verifier 自动加权专家干预程度。 + +## 动机 + +[[domain-aware-preference-optimization|Domain-Aware DPO]] 为每个社交视频域(远镜、多人对话、运动等)训练了独立的 LoRA expert,但直接平均或路由多专家会增加部署复杂度。ROPD 在**训练时将专家合并**为统一策略,推理时无需路由。 + +## 工作流 + +### 1. 学生候选生成 +对于域 `d` 的样本,行为学生(当前 student policy)生成 `G` 个候选 chunk: +``` +x̂_t^i ~ p_θ_old(x_t | x_` → 被判别为**非思考模式** +2. 但后续内容包含 "Wait", "Alternatively" 等词、重新生成 `` → 实际是**思考模式** +3. 因为答案正确 + 被判定为非思考 → 获得非思考模式的**更高奖励**(+2 vs +1) + +## 严重性 + +AutoThink Stage 1 在 AIME24 上的数据显示:非思考模式响应的平均 token 使用量达 **10845**(思考模式为 11976)——不处理 reward hacking 会导致整个训练过程崩溃。 + +## 现有缓解方案 + +| 方法 | 代表 | 问题 | +|------|------|------| +| **大尺度 SFT** | Thinkless | 计算成本极高 | +| **统一 token 上限** | AdaptThink | 简单查询的思考 token < 复杂查询的非思考 token,无效 | + +## TNT 的解决方案 + +[[thinking-based-non-thinking|TNT]] 通过**每个查询动态设定**非思考模式的最大 token 使用量——从思考模式响应的 solution 部分长度推导,避免了统一上限的缺陷。 + +## 参考 + +- [[hybrid-reasoning-models|混合推理模型]] +- [[dynamic-token-limit|动态 Token 限制]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/rlhf-alignment-amplification.md b/concepts/rlhf-alignment-amplification.md new file mode 100644 index 0000000..7e4f4d6 --- /dev/null +++ b/concepts/rlhf-alignment-amplification.md @@ -0,0 +1,40 @@ +--- +title: "RLHF 对齐放大(RLHF Alignment Amplification)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - rlhf + - alignment + - spiral-of-silence + - entropy +sources: + - arXiv 2024 (Creativity Has Left the Chat) +--- + +# RLHF 对齐放大(RLHF Alignment Amplification) + +大模型沉默螺旋的**固化诱因**——四大技术根源之四,也是最具争议的一项。 + +## 机制 + +RLHF 对齐训练([[rlhf|RLHF]])为了规避风险、统一输出范式,会主动**压低模型 token 预测熵值**: +- 压缩创作空间与表达自由度 +- 让输出高度收敛于"主流、安全、标准化"的表达范式 +- 主动规避小众视角、差异化观点与创新性内容 + +## 悖论 + +RLHF 对齐的初衷是使模型更安全、更有用,但其副作用是**从训练层面直接固化内容同质化缺陷**,大幅放大沉默螺旋效应。这是一种"安全 vs 多元"的**内在张力**: +- 更安全的对齐 → 更低的输出熵 → 更严重的沉默螺旋 +- 更高的输出多样性 → 更多不安全输出风险 + +## 实验证据 + +arXiv 2024 (Creativity Has Left the Chat) 证实去偏训练显著降低了输出的创造性和多样性。对齐后的模型在开放性问答中表现出更高的一致性和更低的观点方差。 + +## 参考 + +- [[content-homogenization|内容同质化]] +- [[pretraining-statistical-bias|预训练统计偏好]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/rlhf.md b/concepts/rlhf.md index b72cc93..c6de7bf 100644 --- a/concepts/rlhf.md +++ b/concepts/rlhf.md @@ -15,7 +15,13 @@ RLHF 是一种基于人类反馈的强化学习对齐方法,是 SFT 的主要 与 SFT 的对比是 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 讨论的重要背景。 +## 沉默螺旋维度 + +RLHF 对齐训练为规避风险而压低 token 预测熵值,会压缩模型的创作空间——这是 [[rlhf-alignment-amplification|RLHF 对齐放大]] 效应的核心,已被证实是 [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] 的四大技术根源之一。 + ## 相关概念 - [[supervised-fine-tuning|SFT]] - [[dpo]] +- [[rlhf-alignment-amplification|RLHF 对齐放大]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/role-setting-entrenchment.md b/concepts/role-setting-entrenchment.md new file mode 100644 index 0000000..bd7c00f --- /dev/null +++ b/concepts/role-setting-entrenchment.md @@ -0,0 +1,38 @@ +--- +title: "角色设定固化(Role-Setting Entrenchment)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - multi-agent + - role-playing + - spiral-of-silence + - llm +sources: + - arXiv 2025 (Spiral of Silence in LLM Agents) +--- + +# 角色设定固化(Role-Setting Entrenchment) + +大模型沉默螺旋的**催化加速器**——四大技术根源之三。 + +## 机制 + +在多智能体交互中,当模型被赋予**固定立场/角色**(system prompt 中预设的 persona)时,其输出分布被角色约束收窄。固定角色设定放大了观点对立:持有主流立场角色的输出占据对话主导地位,持有小众立场角色的输出被系统性地边缘化。 + +## 实验发现(arXiv 2025) + +对照实验中: +- **仅角色设定**(无历史上下文):观点独立分散,尚不形成主流/小众对立 +- **仅历史上下文**(无角色):内容开始单一化 +- **角色 + 历史上下文叠加**:主流观点占比突破 80%,小众观点被完全压制 ← 这是完整的沉默螺旋 + +## 与人类沉默螺旋的类比 + +人类沉默螺旋中的"角色"是社会身份、群体归属;LLM 中的"角色"是 system prompt 中的约束。两者都起到了**观点分布收窄**的作用。 + +## 参考 + +- [[context-anchoring|历史上下文锚定]] +- [[multi-agent-spiral|多智能体螺旋]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/rollout-drift.md b/concepts/rollout-drift.md new file mode 100644 index 0000000..aaa10f3 --- /dev/null +++ b/concepts/rollout-drift.md @@ -0,0 +1,44 @@ +--- +title: "Rollout Drift (推演漂移)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["world-modeling", "latent-prediction", "error-accumulation", "regularization"] +sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688", "GIRL (2026)"] +--- + +# Rollout Drift (推演漂移) + +**Rollout drift** 是多步潜在预测中的累积误差现象:在自回归展开过程中,每步预测的微小误差逐步叠加,使预测轨迹偏离接地流形。 + +## 问题的本质 + +[[world-models-rl|世界模型]]中的潜在状态 z_t 通过预测函数 f 向前展开: + +``` +z_{t+1} = f(z_t, a_t) + ε_t +``` + +每步预测误差 ε_t 在后续步骤中被放大——因为下一步的输入 z_{t+1} 包含了误差,而 f 是非线性的。在长视距 (T ≫ 1) 下: + +``` +z_T = f(f(...f(z_0, a_0)..., a_{T-2}), a_{T-1}) + 累积误差 +``` + +## 为什么特别棘手 + +GIRL (2026) 将 rollout drift 识别为潜在世界模型在长视距下的**中心失效模式**。标准方案(如单步对齐损失 L_PGC、L_SBGC)仅在训练时的单步上接地,不能保证多步展开轨迹保持在接地上。 + +## DCGWM 的解决方案:L_AGA + +[[asymmetric-grounding-adherence-loss|Asymmetric Grounding Adherence Loss (L_AGA)]] 是首个针对异质接地源、具有不兼容容忍结构的 rollout drift 损失: + +- **物理漂移** → 平方铰链惩罚:违反物理约束是范畴错误,超过容忍阈值后二次惩罚 +- **行为漂移** → 软 KL 散度:行为随机性是预期内的,使用与分布距离成比例的连续惩罚 + +## 参考 + +- [[hazare-dcgwm-2026|DCGWM 论文]] +- [[asymmetric-grounding-adherence-loss|L_AGA]] +- [[world-models-rl|World Models]] +- [[objective-interference-collapse|OIC]] diff --git a/concepts/runtime-governance.md b/concepts/runtime-governance.md new file mode 100644 index 0000000..d7e6fe7 --- /dev/null +++ b/concepts/runtime-governance.md @@ -0,0 +1,62 @@ +--- +title: "运行时治理 — Skill Governance" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [agent-skills, governance, safety, runtime] +sources: + - https://arxiv.org/abs/2605.07358 +--- + +# 运行时治理(Runtime Governance) + +## 定义 + +Runtime governance 是 skill 演化闭环的**最后阶段**——决定存储的 skill 更新是否实际影响未来行为。治理闭环为:**检索 → 路由 → 信任检查 → 执行 → 退役**。 + +## 核心问题 + +一个演化后的 skill 可能是可执行的,但在运行时未必安全可信: +- 第三方 skill 文档可能隐藏恶意逻辑(PoisonedSkills 攻击面) +- 集体演化需要验证才能同步到用户 +- 过时 skill 需要退役而非仅保留 + +## 治理功能 + +### 1. 检索与路由 +- 从演化后的基底中检索候选 skill +- 路由决策应基于完整 skill 正文而非仅名称或描述 +- 代表:SkillRouter(retrieve-and-rerank 管线) + +### 2. 信任检查 +- 可溯源证据捆绑(Audited Skill-Graph) +- 污染检测(PoisonedSkills) +- 权限边界控制 + +### 3. 执行与监控 +- 执行产生下一轮奖励、失败、反馈、skill gap 或信任信号 +- 这些信号回到 revision 阶段,闭合演化循环 + +### 4. 退役 +- 不再安全或有效的 skill 需显式退役 +- 当前文献在添加上的能力远强于安全重写和退役 + +## 治理闭环 + +``` +Revision → Validation → Repository Evolution → Runtime Governance + │ + ┌─────────┘ + ▼ + 检索 → 路由 → 信任检查 → 执行/退役 + │ + ▼ + 产生下一轮更新信号 ──→ 回到 Revision +``` + +## 参考 + +- [[skill-evolution|Skill 演化]] +- [[zhou-agent-skills-survey-2026|Zhou et al. 2026]] +- [[agent-skill-ecosystem|Agent Skill 生态]] +- [[agent-skill|Agent Skill]] diff --git a/concepts/rwkv.md b/concepts/rwkv.md new file mode 100644 index 0000000..07e6e08 --- /dev/null +++ b/concepts/rwkv.md @@ -0,0 +1,59 @@ +--- +title: "RWKV (Receptance Weighted Key Value)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rnn", "linear-attention", "sequence-modeling", "architecture"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# RWKV + +## 定义 + +RWKV(Receptance Weighted Key Value)是一族线性复杂度的 RNN 架构,结合了 Transformer 的并行训练优势与 RNN 的常数推理内存。从 RWKV-4 到 RWKV-7,逐步将线性注意力、[[delta-rule]]、[[state-space-models|SSM]] 的思想融合进统一的序列建模框架。 + +## 架构演进 + +| 版本 | 代号 | 核心创新 | 复杂度类 | +|------|------|---------|---------| +| RWKV-4 | — | WKV 线性注意力 + token shift | TC^0 | +| RWKV-5 | Eagle | 多头矩阵值状态 | TC^0 | +| RWKV-6 | Finch | 动态衰减 + 数据依赖 | TC^0 | +| **RWKV-7** | **Goose** | **广义 Delta 规则 + 向量门控** | **NC^1** | + +## 核心设计理念 + +RWKV 始终坚持: +- **线性复杂度**:训练 O(n),推理 O(1) 内存 +- **全并行训练**:不使用 BPTT,通过 chunked parallel scan +- **常数推理**:无 KV cache,单 token 推理成本恒定 +- **开源**:Apache 2.0,权重 + 代码 + 数据公开 + +## WKV 时间混合 + +RWKV 的核心是 WKV(Weighted Key Value)算子,可以视为受线性注意力启发的 RNN 循环: + +``` +w_t = softplus(W_w · x_t) 或更复杂的函数 +k_t = W_k · x_t +v_t = W_v · x_t +状态 = 衰减(旧状态) + 新信息(k_t, v_t) +``` + +每个版本在"如何衰减、如何整合新信息"上有不同的数学形式。 + +## 相关概念 + +- [[token-shift]] — RWKV 家族的时间混合技巧 +- [[wkv-time-mixing]] — WKV 算子的具体机制 +- [[delta-rule]] — RWKV-7 引入的广义 delta 规则 +- [[generalized-delta-rule]] — RWKV-7 的核心创新 +- [[regular-language-recognition]] — RWKV-7 的理论突破 +- [[peng-rwkv7|RWKV-7 论文]] +- [[state-space-models]] — SSM 视角下的 RWKV + +## 参考 + +- RWKV-4 (Peng et al., 2023) +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) diff --git a/concepts/search-and-load.md b/concepts/search-and-load.md new file mode 100644 index 0000000..b92e14c --- /dev/null +++ b/concepts/search-and-load.md @@ -0,0 +1,66 @@ +--- +title: "Search and Load — 精选工具加载" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [tool-selection, search-and-load, dynamic-react, meta-tools] +sources: + - https://arxiv.org/abs/2509.20386 +--- + +# Search and Load 架构 + +## 定义 + +Search and Load 是 Dynamic ReAct 五架构实验中的**最优方案**——两阶段(search→load),两次额外 LLM 调用,LLM 精选后通常加载不到 5 个工具。相比全量注入,工具加载减少 50%。 + +## 工作流 + +``` +用户查询 + │ + ▼ +LLM 构造原子化搜索查询(可多个) + │ 例: ["retrieve Twitter mentions and DMs", "create Google Sheets spreadsheet"] + ▼ +search_tools(queries, k1=20, k2=5) + ├── 每 query 检索 k1=20 候选 + ├── 跨 query 去重 + └── 每应用上限 k2=5 + │ + ▼ +LLM 分析候选列表 → 精选 < 5 个工具 + │ + ▼ +load_tools([精选ID列表]) → 工具绑定到 LLM + │ + ▼ +ReAct Agent 执行(仅加载精选工具) +``` + +## 为什么比前三架构好 + +| 架构 | 问题 | +|------|------| +| Direct Semantic Search | 噪声严重,跨域失效,需要大 k | +| Meta-Tool Query Construction | 仍需大 k,无精选步骤 | +| Application-Aware | 额外 search_apps 调用收益有限 | + +Search and Load 的差异化: +- **多查询合并**:一次调用覆盖多领域 +- **去重+上限**:k1=20→k2=5 压缩候选 +- **精选加载**:LLM 从候选中选择,而非全加载 + +## 与 MCP-Zero 的对比 + +| | Search and Load | [[active-tool-discovery|MCP-Zero 主动发现]] | +|---|---|---| +| 触发 | LLM 构造搜索查询 | LLM 生成结构化 tool request | +| 匹配 | 向量语义搜索 | 层次路由(server→tool) | +| 加载 | LLM 手动精选 | 自动 top-k 注入 | + +## 参考 + +- [[dynamic-react|Dynamic ReAct]] +- [[meta-tools|Meta Tools]] +- [[gaurav-dynamic-react-2025|论文]] diff --git a/concepts/selective-copy.md b/concepts/selective-copy.md new file mode 100644 index 0000000..ea8b159 --- /dev/null +++ b/concepts/selective-copy.md @@ -0,0 +1,48 @@ +--- +title: "Selective Copying" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["synthetic-task", "sequence-modeling", "content-awareness"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Selective Copying + +## 定义 + +Selective Copying(选择性复制)是 Mamba 论文中用于诊断序列模型内容感知能力的合成任务。它修改了经典的 Copying 任务(Arjovsky et al., 2016),使待复制 token 的位置**随机变化**,要求模型根据 token 内容判断"哪些该记住、哪些该忽略"。 + +## 任务设置 + +给定一个输入序列,其中: +- **有色 token**(如蓝色/红色)是需要复制的目标 +- **白色 token** 是需要忽略的填充 + +输出:仅复制有色 token,跳过白色 token。与经典 Copying 的关键区别:有色 token 之间的间距是**随机且变化的**。 + +## 为什么揭示 LTI 弱点 + +- 经典 Copying 的 token 间距固定 → 全局卷积可以学习固定的"延迟"模式 → LTI(时间不变)模型能解决 +- Selective Copying 的间距随机 → 卷积核无法捕捉变化的时间模式 → **只有内容感知(时间变化)的模型能解决** + +``` +经典 Copying: [A] . . . . [A] [B] . . . . [B] ← 固定间距 +Selective: [A] . . [B] . . . . [A] . . . [B] ← 随机间距 +``` + +## 在 Mamba 中的作用 + +Mamba 论文将此作为核心动机之一:S4(LTI)无法解决 Selective Copying,而 S6(选择性,通过 [[selective-state-space]])不仅解决了,还能**无限外推**到超过 1M token——因为模型学会了内容感知的泛化规则,而非仅学习固定时间模式。 + +## 相关概念 + +- [[induction-heads]] — 另一个诊断 LLM 能力的合成任务 +- [[content-based-reasoning]] — Selective Copying 测试的核心能力 +- [[selective-state-space]] — Mamba 解决此任务的关键机制 +- [[structured-state-space-models]] — S4(LTI)在此任务上失败 + +## 参考 + +- Arjovsky et al. (2016) — 原始 Copying 任务 +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) Section 3.1 diff --git a/concepts/selective-hitl.md b/concepts/selective-hitl.md new file mode 100644 index 0000000..9b4fefa --- /dev/null +++ b/concepts/selective-hitl.md @@ -0,0 +1,41 @@ +--- +title: "选择性 HITL — Selective Human-in-the-Loop" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [hitl, automation, ai-safety, decision-threshold] +sources: + - https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +--- + +# 选择性 HITL(Selective Human-in-the-Loop) + +## 定义 + +选择性 HITL 是解决 [[human-in-the-loop|HITL]] 规模化问题的策略:不是审查每个模型决策,而是**仅在特定条件触发时引入人工审查**。 + +## 为什么需要选择性 HITL + +完全人工审查面临三个根本问题: +1. **无法规模化**——审查量与模型吞吐量根本不匹配 +2. **速度瓶颈**——实时人工干预拖慢整个系统 +3. **质量退化**——审核人的不一致性降低标签质量(疲劳、偏见) + +## 触发条件 + +仅在以下情况引入人工审查: +- **边缘案例**(Edge Cases):模型不确定或未见过的情况 +- **低置信度输出**:预测概率低于阈值 +- **高风险决策**:错误成本过高(医疗、金融、法律) + +## 设计关键 + +1. **置信度阈值**:需要仔细校准——太低浪费人力,太高漏过错误 +2. **人类推翻权限**:当人类与模型意见不一致时,是否有明确权限推翻?答案取决于领域风险 +3. **反馈闭环**:被推翻的决策应回流为训练信号,持续改进模型和阈值 + +## 参考 + +- [[human-in-the-loop|Human-in-the-Loop]] +- [[ai-production-tradeoffs|AI 生产权衡]] +- [[nobrega-ai-production-tradeoffs-2026|原文文章]] diff --git a/concepts/selective-state-space-models.md b/concepts/selective-state-space-models.md new file mode 100644 index 0000000..e981dca --- /dev/null +++ b/concepts/selective-state-space-models.md @@ -0,0 +1,50 @@ +--- +title: "选择性状态空间模型 (Selective State Space Models)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [ssm, mamba, selectivity, recurrence] +sources: + - dao-transformers-are-ssms-2024 +--- + +# 选择性状态空间模型 (Selective SSM) + +选择性 SSM 是 Mamba (Gu & Dao, 2023) 引入的关键创新:将 SSM 的参数 (A_t, B_t, C_t) 从**时间不变(LTI)**改为**输入依赖(时变)**。 + +## 从 LTI 到 Selective + +### 线性时不变 (LTI) SSM +``` +h_t = A · h_{t-1} + B · x_t [A, B, C 对所有 t 相同] +``` +- 等价于卷积 → 可并行训练 +- 但无法**有选择地**关注或忽略输入 + +### 选择性 SSM +``` +h_t = A_t · h_{t-1} + B_t · x_t [A_t, B_t, C_t 依赖 x_t] +``` +- 模型可以**选择性**地记住/遗忘信息 +- 在语言等信息密集型数据上显著优于 LTI +- 但**只能以循环模式计算**,无法并行化为卷积 + +## 在 SSD 中的演进 + +Mamba-2 (Dao & Gu, 2024) 对选择性 SSM 做了两个简化: +1. **A_t 退化**:从对角矩阵 → 标量 × 单位矩阵(牺牲少许表达力) +2. **Head 维度扩展**:P 从 1 → 64/128 + +这些简化换取的是 [[ssd-algorithm|SSD 算法]] 的巨大效率收益(2-8x 更快)和 GPU Tensor Core 的利用。 + +## 表达能力 + +尽管 LTI SSM 在表达能力上不超标准 Transformer(Merrill et al., 2025),选择性机制通过输入依赖门控突破了此限制——这在 [[enhanced-state-space-models|增强状态空间模型]] 中得到了进一步发展。 + +## 参考 + +- [[mamba-ssm|Mamba]] +- [[mamba-2|Mamba-2]] +- [[state-space-models|状态空间模型]] +- [[enhanced-state-space-models|增强状态空间模型]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/selective-state-space.md b/concepts/selective-state-space.md new file mode 100644 index 0000000..e2a7db7 --- /dev/null +++ b/concepts/selective-state-space.md @@ -0,0 +1,56 @@ +--- +title: "Selective State Space (S6)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["ssm", "mamba", "selection-mechanism", "architecture"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Selective State Space (S6) + +## 定义 + +Selective State Space(S6)是 Mamba 提出的核心机制,将 [[state-space-models|SSM]] 从线性时间不变(LTI)升级为输入依赖的参数化。S6 让 SSM 的 B、C、Δ 参数成为输入 x_t 的函数,使模型能够在序列维度上**选择性传播或遗忘信息**。 + +## 从 S4 到 S6 + +``` +S4 (LTI): B, C, Δ — 所有时间步固定 → 卷积 OR 循环 +S6: B_t = s_B(x_t), C_t = s_C(x_t), Δ_t = τ(Δ + s_Δ(x_t)) + → 仅循环(scan),但获得了选择性 +``` + +| 维度 | S4 | S6 | +|------|-----|-----| +| 参数 | Parameter (D, N) | x 的函数 (B, L, N/D) | +| Δ | 标量参数 | 输入依赖步长 → 控制"关注多久" | +| 选择性 | 无(所有 token 同等对待) | 有(根据内容过滤/保留) | +| 计算 | 卷积 (训练) + 循环 (推理) | 仅循环 (需 scan) | + +## 具体参数化 + +```python +B_t = Linear_N(x_t) # (B, L, N) +C_t = Linear_N(x_t) # (B, L, N) +Δ_t = softplus(Δ + Linear_1(x_t)) # (B, L, D) +A_bar, B_bar = discretize(Δ_t, A, B_t) # ZOH 离散化 +``` + +Δ 的选择:`s_Δ = Broadcast_D(Linear_1(x))`,`τ_Δ = softplus`——与 RNN 门控机制(GRU/LSTM)有深层联系。 + +## 选择性 Δ 的门控解释 + +当 Δ_t 大 → 状态"重置",模型更关注当前输入而遗忘过去;当 Δ_t 小 → 状态"保持",模型忽略当前输入而保留历史。这与 LSTM 的遗忘门和 GRU 的更新门功能类似。 + +## 相关概念 + +- [[hardware-aware-algorithm]] — 选择性消除卷积后的高效计算方案 +- [[content-based-reasoning]] — 选择性实现的根本能力 +- [[structured-state-space-models]] — S4 前身(LTI) +- [[mamba-ssm]] — 使用 S6 的完整架构 +- [[gu-mamba|Mamba 论文]] + +## 参考 + +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) diff --git a/concepts/self-evolutionary-mutation.md b/concepts/self-evolutionary-mutation.md new file mode 100644 index 0000000..263fc7b --- /dev/null +++ b/concepts/self-evolutionary-mutation.md @@ -0,0 +1,37 @@ +--- +title: "自进化变异 — Self-Evolutionary Mutation" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [mutation, tool-generation, data-augmentation, ace-router] +sources: + - https://arxiv.org/abs/2601.08276 +--- + +# 自进化变异(Self-Evolutionary Mutation) + +## 定义 + +Self-Evolutionary Mutation 是 ACE-Router 的候选空间扩展策略:通过**LLM 驱动的受控变异**,从已有工具合成行为多样化的新工具变体,丰富训练数据的判别难度。 + +## 五种变异算子 + +| 算子 | 示例 | +|------|------| +| **Function Enhancement** | `get_stock_prices` → `get_stock_prices_with_news` | +| **Parameter Mutation** | 修改参数类型、必选/可选、范围 | +| **Workflow Chaining** | 组合多个操作为流水线工具 | +| **Helper Operation** | 创建辅助/便利包装 | +| **Usage Extension** | 扩展至新的使用场景 | + +## 为什么要变异 + +- 真实工具的**功能相似性**使 embedding 难以区分 +- 变异生成的"近义词"工具迫使路由器学会精确辨识 +- 在噪声实验中,注入的变异工具对 GPT-4o 和 Gemini 造成了严重干扰(准确率降至 28-32%),而 ACE-Router 保持 56% + +## 参考 + +- [[candidate-graph|候选图]] +- [[ace-router|ACE-Router]] +- [[yao-ace-router-2026|论文]] diff --git a/concepts/self-resampling.md b/concepts/self-resampling.md new file mode 100644 index 0000000..4aaf493 --- /dev/null +++ b/concepts/self-resampling.md @@ -0,0 +1,52 @@ +--- +title: "Self-Resampling" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["training", "autoregressive", "streaming", "diffusion", "self-play"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Self-Resampling (自重采样) + +**Self-Resampling** 是 [[maineCoon|MaineCoon]] 提出的流式自回归训练技术:在训练时让模型以**自己生成的有噪退化历史**为条件,而非只用纯净 ground-truth 历史。这消除了自回归模型常见的 train-test gap。 + +## 动机:Train-Test Gap + +自回归扩散模型的标准训练使用**干净的历史**作为条件: +``` +训练: p(x_t | clean x_ 检索解决候选召回,选择解决执行导向的决策。 + +| | 检索 (Retrieval) | 选择 (Selection) | +|---|---|---| +| 目标 | 从一个大的 skill 池中找到相关候选 | 决定最终调用哪个(或如何组合) | +| 输入 | 任务描述、skill 元数据 | 候选集 + 当前状态 + 子目标 + 预算 | +| 输出 | 候选集 | 执行决策 | + +## 四个选择视角 + +### 1. 上下文感知动态选择(Context-Aware) +- 将 skill 选择视为在线的、以当前观察、子目标和交互历史为条件的决策过程 +- 随执行展开修订选择,而非一次固定 +- 代表:AutoGuide, MemSkill, Memento-Skills + +### 2. Skill 组合(Composition) +- 复杂任务需要**组装多个 skill** 为序列、集合或工作流 +- 核心问题不仅是"哪个 skill 相关",更是"如何排序和连接" +- 引入新失败模式:接口兼容性、顺序约束、错误传播 +- 代表:SkillWeaver, AWM, ASI, AgentSkillOS, CUA-Skill +- → [[skill-composition|Skill 组合]] + +### 3. 成本/效用感知选择(Cost/Utility-Aware) +- 不应仅偏好最相关的 skill,应考虑效用与成本/风险/副作用 +- Skill 可能有负效用——即使任务匹配,也不应调用 +- 这是**新兴设计准则**,尚未形成成熟的方法家族 +- 代表:MemSkill, Memento-Skills, SkillOrchestra, SkillsBench + +### 4. 反馈驱动重排序(Feedback-Driven) +- 用历史执行信号更新 skill 偏好 +- 今天的错误应成为明天的排序信号 +- 通常作为**增强层**叠加在更广泛的选择管线上 +- 代表:SkillRL, CUA-Skill, ToolExpNet, ExpeL, SMART + +## 关键洞察 + +Skill 选择本质上是**策略问题**而非排序问题。四个维度(上下文、组合、成本、反馈)互补而非互斥——实际系统往往同时结合多个维度。 + +## 参考 + +- [[zhou-agent-skills-survey-2026|Zhou et al. 2026]] +- [[skill-retrieval|Skill 检索]] +- [[skill-composition|Skill 组合]] +- [[skill-evolution|Skill 演化]] diff --git a/concepts/snapkv.md b/concepts/snapkv.md new file mode 100644 index 0000000..e11127f --- /dev/null +++ b/concepts/snapkv.md @@ -0,0 +1,40 @@ +--- +title: "SnapKV" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["kv-cache", "attention", "intra-head-eviction"] +sources: [] +--- + +# SnapKV + +## 定义 + +SnapKV (Li et al., 2024) 是一种 KV Cache 驱逐的 [[heuristic-metric]] 指标,基于累积注意力分数和观察窗口来动态识别和保留关键 token。它是 LU-KV 实验中使用的默认 intra-head 指标之一(π_1)。 + +## 核心机制 + +1. **观察窗口**:在 prefill 阶段的最后 W 个 token 上计算注意力模式 +2. **累积评分**:对每个历史 token,累积其在观察窗口内的注意力权重 +3. **Top-K 选择**:按累积分数排序,保留前 b 个 token + +## 在 LU-KV 中的使用 + +LU-KV 使用 SnapKV 作为 π_1,但将预算分配决策从 SnapKV 的"固定每 head 预算"提升为"基于 [[marginal-utility]] 的差异化分配"。实验表明: + +- SnapKV 本身在不同 head 中的 [[optimality-gap]] 差异大 +- LU-KV 将更多预算分配给 SnapKV-Oracle 对齐度高的 head +- 80% 压缩率下 LU-KV + SnapKV 显著优于 Uniform + SnapKV + +## 相关概念 + +- [[heuristic-metric]] — SnapKV 是启发式指标的一种 +- [[keydiff]] — 另一种常用 intra-head 指标 +- [[intra-head-eviction]] — SnapKV 属于头内驱逐方法 +- [[tang-lukv|LU-KV]] — 可兼容 SnapKV 作为 intra-head scoring 方法 + +## 参考 + +- SnapKV: LLM Knows What You are Looking for Before Generation (Li et al., 2024) +- [[tang-lukv|LU-KV]] (Tang et al., ICML 2026) diff --git a/concepts/social-capital-framework.md b/concepts/social-capital-framework.md new file mode 100644 index 0000000..d3a410e --- /dev/null +++ b/concepts/social-capital-framework.md @@ -0,0 +1,34 @@ +--- +title: "Social Capital Framework (AI Bias)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["sociology", "bias", "ai-ethics", "personalization"] +sources: + - "[[personalization-trap-2025]]" +--- + +# Social Capital Framework (AI Bias 应用) + +Bourdieu 的社会资本理论被 Fang et al. (2025) 应用于 AI 个性化偏见研究:社会位置(经济/文化/社会维度)塑造他人对行为和情感的解读方式。AI 系统在引入用户背景信息时,可能复制这些社会偏见。 + +## Bourdieu 的四维度 + +1. **人口统计**:性别、年龄、种族、宗教 +2. **家庭背景**:出身阶层、家庭教育资源 +3. **社会关系**:人脉网络、社会连接 +4. **个人资产**:财富、教育水平、职业地位 + +## AI 中的映射 + +优势画像:人口统计特权 + 有益连接 + 资源可及性 +劣势画像:结构性障碍 + 资源限制 + 社会挑战 + +## 在 Personalization Trap 中的应用 + +通过显式操控四维度生成 advantaged/disadvantaged 画像对,发现即使标准化情感测试(应独立于画像),模型也系统性地偏好优势画像。这验证了 Bourdieu 框架在 AI 偏见研究中的有效性。 + +## 参考 +- [[personalization-trap-2025]] +- [[personalization-trap]] +- [[user-memory-bias]] diff --git a/concepts/social-video.md b/concepts/social-video.md new file mode 100644 index 0000000..1cdf08b --- /dev/null +++ b/concepts/social-video.md @@ -0,0 +1,43 @@ +--- +title: "Social Video" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["social-media", "video", "content-type", "domain"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Social Video (社交视频) + +**Social Video** 是指在社交平台上消费和传播的短视频内容,其核心价值在于 **liveness**(临场感)而非视觉奇观。 + +## 与电影视频的本质区别 + +| 维度 | 电影视频 (Cinematic) | 社交视频 (Social) | +|------|---------------------|-------------------| +| 创作方式 | 策划、布光、编辑 | 自然、人类中心 | +| 核心价值 | 构图、场面、叙事 | **liveness**、临场感 | +| 关键信号 | 视觉奇观 | 眼神、微表情、手势、语音节奏 | +| 时间尺度 | 分钟-小时 | 秒-分钟级 | +| 交互性 | 单向消费 | 互动反馈循环 | + +## 社交视频的「社交物理」 + +人类社交互动有其自身的 "social physics":一套高度结构化的多模态行为规则,包括: +- **同步性**:语音、唇动、面部表情的紧密时间对齐 +- **情感共鸣**:语调、表情、节奏传递的情绪信号 +- **对话节奏**:快速对话中的轮流和应答 +- **高参与度节奏**:吸引注意力的内容编辑密度 + +## 对生成模型的挑战 + +现有视频生成模型在社交视频场景面临三大不足: +1. **缺乏听觉信息**:语音、环境音是社交视频的核心组件 +2. **缺乏实时性**:离线生成无法参与社交互动 +3. **缺乏长时稳定性**:分钟级流式生成的内容漂移 + +## 相关概念 +- [[social-world-model|社交世界模型]] +- [[audio-visual-generation|音视频联合生成]] +- [[streaming-generation|流式生成]] +- [[socialvideo-bench|SocialVideo Bench]] diff --git a/concepts/social-world-model.md b/concepts/social-world-model.md new file mode 100644 index 0000000..6f1adba --- /dev/null +++ b/concepts/social-world-model.md @@ -0,0 +1,49 @@ +--- +title: "Social World Model" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["world-model", "social", "generation", "interactive", "paradigm"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Social World Model (社交世界模型) + +**Social World Model** 是 [[maineCoon|MaineCoon]] 提出的生成范式:一种**理解、模拟、回应人类社交动态**的生成模型。它将 Gen AI 从被动的「内容生产工具」转变为人类社交网络中**主动互动的参与者**。 + +## 与传统世界模型的区别 + +| 维度 | 传统世界模型 | 社交世界模型 | +|------|------------|------------| +| 预测对象 | 物理环境转变、物体轨迹 | 人类社交互动的「社交物理」 | +| 关键信号 | 视觉运动、物体状态 | 眼神、微表情、手势、语音节奏、情感共鸣 | +| 时间尺度 | 分钟级环境仿真 | **实时流式**、亚秒级交互 | +| 模态 | 以视觉为主 | **音视频联合** + 同步 | +| 代表 | [[world-models-rl|RL World Models]], [[world-model-lecun|JEPA]] | MaineCoon (首个) | + +## 社交物理 (Social Physics) + +人类社交互动有一套高度结构化的多模态行为规则: +1. **同步性**:语音 ↔ 唇动 ↔ 表情的时间对齐 +2. **情感共鸣**:通过语调、表情、节奏传递情绪 +3. **对话节奏**:快速对话中的轮流和应答 +4. **高参与度节奏**:社交视频吸引注意力的内容密度 + +## 实现阶梯 + +完整社交世界模型的实现需要多层能力: +1. **生成核心** (MaineCoon 已实现):实时音视频流式生成 +2. **主动多模态观察**:观察用户输入(文字/语音/摄像头) +3. **内部用户状态模拟**:建模用户意图、情感 +4. **记忆与规划**:跨 session 的长期交互 +5. **反应预测**:预测用户对生成内容的反应 + +## 意义 + +社交世界模型是下一代 AI-native 社交平台的技术基础。没有它,AI 只能被动生成内容;有了它,AI 可以**主动参与**人类社交。 + +## 参考 +- [[maineCoon|MaineCoon 论文]] — 首个社交世界模型实现 +- [[social-video|社交视频]] — 社交世界模型的内容域定义 +- [[world-models-rl]] +- [[world-model-lecun]] diff --git a/concepts/socialvideo-bench.md b/concepts/socialvideo-bench.md new file mode 100644 index 0000000..5f20862 --- /dev/null +++ b/concepts/socialvideo-bench.md @@ -0,0 +1,47 @@ +--- +title: "SocialVideo Bench" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["benchmark", "evaluation", "social-video", "audio-visual"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# SocialVideo Bench + +**SocialVideo Bench** 是 [[maineCoon|MaineCoon]] 提出的首个专注**社交视频音视频生成**的 benchmark,用 9 项指标覆盖视觉、音频、同步和社交视频和谐度。 + +## 9 项评估指标 + +五大维度,九项指标: + +### 视觉质量 +- 视觉保真度、清晰度、运动质量 + +### 音频质量 +- 语音清晰度、音频保真度 + +### 音视频对齐 +- **Lip-Sync Accuracy**:唇动与语音的时间同步 +- **AV Temporal Alignment**:音频事件与视觉事件的时序匹配 + +### 运动 +- 运动连贯性、运动丰富度 + +### 社交视频和谐度 (Social-Video Harmony) +专门针对社交视频的复合指标,衡量内容是否符合社交视频的「liveness」特质——眼神、表情、对话节奏、情感共鸣的综合评估。 + +## 对比基线 + +MaineCoon 在 SocialVideo Bench 上与 7 个代表性开源音视频生成模型对比: +- 在所有 9 项指标上取得 SOTA +- 同时保持最快生成速度(47.5 FPS) + +## 意义 + +在 SocialVideo Bench 之前,音视频生成评估缺少**社交视角**:传统 benchmark 评估图像/视频质量,但不衡量生成内容是否适合社交互动场景。SocialVideo Bench 填补了这一空白。 + +## 参考 +- [[maineCoon|MaineCoon 论文]] Section 5 +- [[social-video|Social Video]] +- [[social-world-model|Social World Model]] diff --git a/concepts/soft-supersession.md b/concepts/soft-supersession.md new file mode 100644 index 0000000..5c556e4 --- /dev/null +++ b/concepts/soft-supersession.md @@ -0,0 +1,43 @@ +--- +title: "Soft-Supersession" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["agent-memory", "data-integrity", "audit", "contradiction-handling"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# Soft-Supersession(非破坏矛盾处理) + +Soft-Supersession 是 Atlas 记忆系统中处理矛盾信息的非破坏性更新策略:不删除旧记录,而是创建新记录 + 标记旧记录为被取代 + 召回时默认过滤旧版。 + +## 机制 + +``` +用户说"搬家了,现在在深圳" +→ 创建新 doc: "用户在深圳" (supersedes=old_id) +→ 更新旧 doc: superseded_by=new_id +→ 召回默认过滤: must_not exists superseded_by +→ 追溯: recall_memory(include_superseded=True) 返回全版本链 +``` + +## 两种矛盾类型 + +- **natural**(自然变化):搬家/升级/偏好改变 → 新事实满置信度 +- **harsh**(明确否认):用户说"我从未说过" → 新事实扣 0.1 置信度 + +## 链式追溯 + +支持任意长度追溯链(abc → xyz → pqr → ...),旧记录永不删除——审计需要全版本历史。 + +## 对比 + +- Atlas:Soft-Supersession 链(ES 文档级) +- GBrain:Git 版本历史(文件级) +- 共同点:非破坏性,可追溯,只是审计路径不同 + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[memory-consolidation]] +- [[gbrain-memory]] diff --git a/concepts/space-supervision.md b/concepts/space-supervision.md new file mode 100644 index 0000000..8df33ec --- /dev/null +++ b/concepts/space-supervision.md @@ -0,0 +1,63 @@ +--- +title: "Space Supervision" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [latent-cot, supervision, representation-learning, mutual-information, semantic-anchoring] +sources: + - "[[latent-cot-supervision]]" +--- + +# Space Supervision + +**Space Supervision**(空间监督)是 [[latent-cot-supervision|Latent CoT 过程监督]] 的第二个维度,通过保持潜流形的语义结构来防止 [[dual-collapse|表征漂移]]。与 [[trajectory-supervision|Trajectory Supervision]] 互补,前者控制"信息何时注入",后者控制"信息是否保留"。 + +## 信息论目标 + +从信息论角度,Space Supervision 的目标是最大化 I(L_t; S_t) —— 潜状态与显式推理步骤之间的互信息: + +``` +I(L_t; S_t) = H(S_t) - H(S_t | L_t) +``` + +由于 H(S_t) 对固定数据集是常数,最大化互信息等价于最小化条件熵 H(S_t | L_t)。 + +## 两种实现策略 + +### Geometric Compression (GC) + +[[geometric-compression-latent|几何压缩]]:直接在潜空间中最小化 L_t 与编码后的 S_t 之间的几何距离(通常用 MSE + frozen encoder)。 + +- **类比**:JEPA-style 表示预测——在潜空间中预测目标表示 +- **问题**:在高维流形中,MSE 是刚性低保真代理——最小化欧氏距离无法保证信息保留 +- **后果**:将高维推理流形坍缩到稀疏的静态嵌入点,破坏细粒度语义保真度 → **性能下降** + +### Generative Reconstruction (GR) + +[[generative-reconstruction-latent|生成式重建]]:通过辅助解码器 D_ψ 从 L_t 恢复原始 token,在符号空间中做对齐。 + +``` +L_GR = -log D_ψ(S_t | L_t) +``` + +- **类比**:Masked Autoencoder-style 重建 +- **信息论优势**:直接最小化 H(S_t | L_t) → 最大化 I(L_t; S_t) 的严格变分下界 +- **效果**:语义锚定(semantic tether)——不强制 L_t 符合固定几何,但确保语义内容可恢复 + +## GC vs GR 对比 + +| 维度 | GC | GR | +|------|-----|-----| +| 对齐空间 | 潜空间 | 符号空间 | +| 损失函数 | MSE(刚性) | Cross-Entropy(灵活) | +| 信息论保证 | 无(低保真代理) | 有(变分下界) | +| 对推理流形的影响 | 坍缩(destructive) | 保留(semantic tether) | +| 性能 | 比 outcome-only 更差 | 显著提升 | + +## 参考 + +- [[latent-cot-supervision]] +- [[dual-collapse]] +- [[trajectory-supervision]] +- [[generative-reconstruction-latent]] +- [[geometric-compression-latent]] diff --git a/concepts/sparsity-allocation.md b/concepts/sparsity-allocation.md new file mode 100644 index 0000000..b05ae8d --- /dev/null +++ b/concepts/sparsity-allocation.md @@ -0,0 +1,64 @@ +--- +title: "Sparsity Allocation (U-shaped Law)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["sparsity", "scaling-law", "mixture-of-experts", "architecture"] +sources: + - "[[engram-conditional-memory-2026]]" +--- + +# Sparsity Allocation (U-shaped Law) + +Sparsity Allocation 是 Engram 论文提出的形式化问题:在固定的总参数预算下,如何将稀疏容量在 MoE(条件计算)和 Engram(条件记忆)之间最优分配。 + +## 问题定义 + +给定三个参数度量: +- **P_tot**:总可训练参数 +- **P_act**:每个 token 的激活参数(决定 FLOPs) +- **P_sparse** = P_tot - P_act:非活动参数("免费"预算) + +分配比 ρ ∈ [0,1]:MoE 占 P_sparse 的比例。 + +``` +P_MoE(sparse) = ρ · P_sparse +P_Engram = (1-ρ) · P_sparse +``` + +- ρ = 1 → 纯 MoE(所有非活动参数是路由专家) +- ρ < 1 → 减少路由专家,释放参数给 Engram 嵌入槽 + +## U 形缩放律 + +实验在两个计算规模下(C=2e20 FLOPs, P_tot=5.7B; C=6e20 FLOPs, P_tot=9.9B),保持 P_tot/P_act ≈ 10: + +**关键发现**: + +1. **U 形验证损失曲线**:纯 MoE (ρ=1) 和极低 ρ 都不如中间值 +2. **最优 ρ ≈ 75-80%**:将约 20-25% 的稀疏预算分配给 Engram +3. **ρ=40% 仍可比肩 ρ=100%**:Engram 在仅 46 个专家(vs 106)时性能接近纯 MoE +4. **最优值稳定**:不同计算规模下(5.7B vs 9.9B),最优 ρ 保持在 75-80% + +在 10B 级别:验证损失从 1.7248 (ρ=1) 改善至 1.7109 (ρ≈0.8),Δ=0.0139。 + +## 结构含义 + +| 区域 | 现象 | 原因 | +|------|------|------| +| MoE-dominated (ρ→1) | 次优 | 缺少专用记忆,被迫用计算重建静态模式 | +| Engram-dominated (ρ→0) | 恶化 | 失去条件计算能力,无法处理动态推理 | +| Optimal (ρ≈0.75-0.80) | 最优 | 计算和记忆的互补性达到平衡 | + +## 无限内存扩展 + +固定 MoE backbone (P_tot≈3B, P_act=568M),单独扩大 Engram 嵌入槽(2.58e5 → 1e7,额外 +13B 参数): +- 验证损失遵循**严格幂律**(log-log 线性) +- Engram 比 OverEncoding(直接平均 N-gram 嵌入到词表)释放大得多的扩展潜力 +- 提供**可预测的扩展旋钮**:更大内存持续产生收益,无需额外计算 + +## 参考 +- [[engram-conditional-memory-2026]] +- [[conditional-memory]] +- [[engram]] +- [[mixture-of-experts]] diff --git a/concepts/spiral-of-silence.md b/concepts/spiral-of-silence.md new file mode 100644 index 0000000..f9f159f --- /dev/null +++ b/concepts/spiral-of-silence.md @@ -0,0 +1,38 @@ +--- +title: "沉默的螺旋(Spiral of Silence)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - communication-theory + - public-opinion + - spiral-of-silence +sources: + - Noelle-Neumann 1974 +--- + +# 沉默的螺旋(Spiral of Silence) + +德国政治学家 **伊丽莎白·诺埃尔-诺伊曼**(Elisabeth Noelle-Neumann)于 1974 年提出的经典传播学理论,解释人类社会的舆论极化现象。 + +## 三大核心机制 + +1. **孤立恐惧**:人渴望社会认同,害怕因小众观点被孤立。预判自己观点属于少数时,会选择沉默 +2. **准统计感官**:人们不靠客观数据,而是通过媒体、社交环境**主观判断**主流舆论 +3. **螺旋式循环**:少数人沉默 → 主流观点看起来更权威 → 更多人不敢发声 → 最终形成观点垄断 + +## 理论前提 + +- 社会对孤立个体的威胁 +- 个体具有"准统计感官"(quasi-statistical sense) +- 大众媒体在塑造"主流意见感知"中起关键作用 + +## AI 时代的延伸 + +2024-2026 年研究发现,LLM 在**无需人类心理动机**的情况下,仅靠纯统计生成机制就能自发形成类似的沉默螺旋效应。参见 [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]。 + +## 参考 + +- Noelle-Neumann E. *The Spiral of Silence: Public Opinion—Our Social Skin*, 1984. +- [[opinion-polarization|观点极化]] +- [[information-cocoons|信息茧房]] diff --git a/concepts/ssd-algorithm.md b/concepts/ssd-algorithm.md new file mode 100644 index 0000000..370d275 --- /dev/null +++ b/concepts/ssd-algorithm.md @@ -0,0 +1,53 @@ +--- +title: "SSD 算法 (Structured State Space Duality Algorithm)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [algorithm, ssm, matrix-multiplication, gpu] +sources: + - dao-transformers-are-ssms-2024 +--- + +# SSD 算法 (SSD Algorithm) + +SSD 算法是 Dao & Gu (2024) 提出的**混合矩阵乘法算法**,利用 [[semiseparable-matrices|半可分矩阵]] 的块分解,在现代 GPU 上实现最优效率权衡。 + +## 核心思路 + +[[structured-state-space-duality|SSD 框架]] 揭示了 SSM 的两种等价计算方式: +1. **循环形式**:O(T) 时间,但依赖串行扫描,无法利用 GPU Tensor Core +2. **对偶(矩阵)形式**:O(T²) 时间,但可用高效矩阵乘法 + +SSD 算法不走极端——**在块级别做分解**: + +``` +将矩阵 M 分解为 B × B 的块 + 块内:使用矩阵乘法(GPU 高效) + 块间:使用循环传播(保持线性复杂度) +``` + +## 效率对比 + +| 算法 | 训练 | 推理 | GPU 利用 | +|------|:--:|:--:|:--:| +| Mamba Selective Scan | 串行 | O(1) 状态 | 低(不用 Tensor Core) | +| Flashattention | O(T²) | O(T) KV cache | 高 | +| **SSD Algorithm** | **混合** | **O(1) 状态** | **高** | + +## 与 FlashAttention 的交叉点 + +- 序列长度 2K:SSD 与 FlashAttention-2 **持平** +- 序列长度 16K:SSD 比 FlashAttention-2 快 **6x** +- 支持 **8x Mamba 的状态大小**,几乎无额外代价 + +## 变长序列支持 + +通过**传递循环状态**实现变长序列训练——无需 padding tokens——这对 SSM 是独特优势(Transformer 需要复杂的 padding 移除技术)。 + +## 参考 + +- [[structured-state-space-duality|SSD]] +- [[semiseparable-matrices|半可分矩阵]] +- [[mamba-2|Mamba-2]] +- [[flash-attention|FlashAttention]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/state-space-models.md b/concepts/state-space-models.md new file mode 100644 index 0000000..ae11979 --- /dev/null +++ b/concepts/state-space-models.md @@ -0,0 +1,60 @@ +--- +title: "状态空间模型 (State-Space Models)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [ssm, recurrence, architecture, state-tracking] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 状态空间模型 (State-Space Models) + +状态空间模型(SSM)是一类通过**隐状态横向传播**实现序列建模的架构([[step-recurrence|步级循环]]),在 Mozer et al. (2026) 的分类中占据步级循环轴的核心位置。 + +## 核心形式 + +SSM 在每层内维护一个隐状态,从前一步向后一步传播: +``` +h_t = A * h_{t-1} + B * x_t (状态更新) +y_t = C * h_t (输出投影) +``` + +## 主要架构 + +| 架构 | 特点 | +|------|------| +| **线性注意力**(Katharopoulos et al., 2020) | 核化注意力 = 线性 SSM | +| **Mamba**(Gu & Dao, 2024) | 输入依赖的选择性门控 | +| **DeltaNet**(Schlag et al., 2021) | Delta 规则更新,快速权重 | +| **RWKV-7**(Peng et al., 2025) | 线性注意力 + Delta 规则 | +| **Canon Layers**(Allen-Zhu, 2025) | 规范形式层 | + +## 表达能力边界 + +Merrill et al. (2025) 的关键结论: +- **线性更新的 SSM** 不超过 Transformer 表达能力 +- **增强 SSM**(如 DeltaNet 负特征值扩展,Grazzi et al., 2025)可超越 +- 门控线性注意力 + Transformer 混合优于纯方案(Merrill et al., 2026) + +## 优势与局限 + +**优势**: +- 推理时 O(1) 记忆(不需要 KV cache 随序列增长) +- 训练时可并行(关联扫描) + +**局限**: +- 标准形式不能实现无限状态追踪 +- 选择性门控(Mamba)增加了表达能力但仍有限 + +## 参考 + +- [[enhanced-state-space-models|增强状态空间模型]] +- [[step-recurrence|步级循环]] +- [[state-tracking|状态追踪]] +- [[feedforward-depth-limitation|前馈深度局限]] +- [[mozer-topological-trouble-transformers-2026|Topological Trouble With Transformers]] +- [[gu-mamba|Mamba 论文]] (Gu & Dao, 2024) +- [[dao-transformers-are-ssms-2024|Transformers are SSMs (Mamba-2)]] (Dao & Gu, 2024) +- [[selective-state-space-models|选择性状态空间模型]] +- [[selective-state-space|选择机制 (S6)]] diff --git a/concepts/state-tracking.md b/concepts/state-tracking.md new file mode 100644 index 0000000..42bf24c --- /dev/null +++ b/concepts/state-tracking.md @@ -0,0 +1,42 @@ +--- +title: "状态追踪 (State Tracking)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, recurrence, state] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 状态追踪 (State Tracking) + +状态追踪指**迭代更新反映变化环境的潜变量**的过程。这是语言理解和推理的核心能力——追踪不断变化的世界状态、参数结构和社交互动。 + +## 核心机制 + +与 Transformer 的**上下文检索**不同,状态追踪要求(Mozer et al., 2026): +- **迭代更新**:`s_t = f(s_{t-1}, x_t)`,新状态依赖前序状态 +- **顺序依赖**:无法完全并行化,存在本质的串行瓶颈 +- **压缩表示**:将历史信息持续压缩到紧凑的信念状态中 + +## 典型失败模式 + +1. **Twenty Questions 不一致**:模型无法维持一致的隐藏数字范围 +2. **多义词翻转 (bank flip-flop)**:对 "bank" 的解释在 river bank → money bank 之间无意识切换 +3. **多轮对话失去连贯性**(Laban et al., 2025) +4. **多智能体通信崩溃**(Davidson et al., 2025) + +## 与前馈架构的冲突 + +前馈 Transformer 的拓扑结构**天然限制**了状态追踪(见 [[feedforward-depth-limitation|前馈深度局限]]):状态被迫逐层上移,最终耗尽模型深度。 + +## 人类认知对比 + +人类通过**动态系统**隐式维护状态(无意识、自动化的微认知),而不是像 Chain-of-Thought 那样显式写出思维轨迹。 + +## 参考 + +- [[mozer-topological-trouble-transformers-2026|Mozer et al. 2026]] +- [[belief-state|信念状态]] +- [[depth-dilemma|深度困境]] +- [[sequential-dependency|顺序依赖]] diff --git a/concepts/statistical-contract-theory.md b/concepts/statistical-contract-theory.md new file mode 100644 index 0000000..7334ab6 --- /dev/null +++ b/concepts/statistical-contract-theory.md @@ -0,0 +1,46 @@ +--- +title: "统计合同理论(Statistical Contract Theory)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - economics + - statistics + - mechanism-design + - hypothesis-testing +sources: + - Bates et al. 2024, arXiv:2205.06812 + - Jordan, arXiv:2507.06268 +--- + +# 统计合同理论(Statistical Contract Theory) + +将**统计推断**(假设检验)嵌入**经济合同设计**的新兴领域。由 Bates, Jordan, Sklar & Soloff (2024) 提出,核心发现:在顺序博弈的合同设计中,**激励相容 ⇔ E-values**。 + +## 背景:经典合同理论 + +在 Leader-Follower(Stackelberg)博弈中,Leader 不是简单报价,而是提供**菜单**——一组服务+价格选项。Follower 利用私人信息选择最优选项。好合同同时实现高收益和高社会福利。 + +## 统计扩展 + +在 Jordan 论文的示例中: +- **Leader(买方/市场平台)**:对供应商提交的产品做假设检验(高质量 vs 低质量),决定哪些上架 +- **Follower(供应商)**:知道产品质量但不会主动透露——希望低质量产品被误判为高质量(false positive) +- **买方目标**:设计合同菜单,使供应商有激励提交更可能是高质量的产品 + +## 核心定理 + +Bates et al. (2024) 证明:在此假设检验问题中,合同是**激励相容**的当且仅当选项可表达为 **[[e-values|E-values]]**。 + +E-value 是零假设下期望 ≤1 的非负随机变量,可视为"证据的累积"(非负上鞅)。 + +## 意义 + +将**推断概念**(E-values)与**经济概念**(激励相容)建立了等价关系——这是 Jordan "统计+经济融合"论点的技术性例证。 + +## 参考 + +- [[e-values|E-values]] +- [[data-markets|数据市场]] +- [[jordan-collectivist-ai-2025|Jordan 论文]] +- [[collectivist-ai|集体主义 AI]] diff --git a/concepts/statistical-manifold.md b/concepts/statistical-manifold.md new file mode 100644 index 0000000..e3ac4b0 --- /dev/null +++ b/concepts/statistical-manifold.md @@ -0,0 +1,54 @@ +--- +title: "Statistical Manifold (统计流形)" +created: 2026-06-23 +updated: 2026-06-23 +type: concept +tags: ["information-geometry", "differential-geometry", "riemannian-geometry", "fisher-metric"] +sources: ["Amari & Nagaoka (2000)", "Amari (2016)", "https://arxiv.org/abs/2606.18306"] +--- + +# Statistical Manifold (统计流形) + +**统计流形**是一个参数统计模型 {p_θ : θ ∈ Θ ⊂ ℝᵈ} 配备 [[fisher-information-metric|Fisher 信息度量]]构成的黎曼流形 (Θ, g_F)。 + +## 核心结构 + +Fisher 度量在 θ 点定义为: + +``` +G(θ)_{ij} = E_{x∼p_θ} [∂_i log p_θ(x) · ∂_j log p_θ(x)] +``` + +该度量赋予参数空间局部统计可区分性的几何尺度: + +- **G(θ) 大的方向**:参数微小变化 → 分布显著改变 +- **G(θ) 小的方向**:参数变化对分布影响弱 +- **G(θ) ≻ 0 假设**:标准统计流形理论要求 Fisher 满秩 + +## 关键不变量 + +1. **KL 散度的局部展开**:D_KL(p_θ ∥ p_{θ+Δθ}) = ½ Δθᵀ G(θ) Δθ + o(∥Δθ∥²) +2. **再参数化不变性**:平滑坐标变换下 G(θ) 按张量规律变换 +3. **自然梯度**:∇^{nat} = G⁻¹ ∇(Fisher 几何下的最陡方向) + +## 与信息几何的关系 + +[[information-geometry|信息几何]] (Amari, 2016) 进一步在统计流形上引入: +- 对偶仿射连接 (∇, ∇*) +- 指数/混合平坦性对偶 +- 散度几何与投影定理 + +## 在 Fisher Width 中的角色 + +[[fisher-width|Fisher Width]] 的核心操作是**局部 Fisher 重标度**: +``` +v ↦ G(θ)^{1/2} v +``` +它将欧几里得集合 T 变形为 Fisher 几何中的"有效形状" G(θ)^{1/2} T,使其宽度对统计曲率敏感。 + +## 参考 + +- [[information-geometry|Information Geometry]] +- [[fisher-information-metric|Fisher Information Metric]] +- [[fisher-width|Fisher Width]] +- [[gaussian-width|Gaussian Width]] diff --git a/concepts/stein-lemma.md b/concepts/stein-lemma.md new file mode 100644 index 0000000..326c337 --- /dev/null +++ b/concepts/stein-lemma.md @@ -0,0 +1,28 @@ +--- +title: "Stein 引理" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [mathematics, probability, statistics] +sources: [nano-filter] +--- + +# Stein 引理 + +Stein's lemma 是概率论中一个优雅的结果:对于联合高斯分布的随机变量,协方差可以通过期望的导数来计算。 + +## 基本形式 + +若 $(x, y)$ 服从联合高斯分布,且 $f$ 是几乎处处可微的函数,则: + +$$ +\text{Cov}(x, f(y)) = \text{Cov}(x, y) \cdot E[f'(y)] +$$ + +## 在 NANO 中的应用 + +[[nano-filter|NANO filter]] 利用 Stein 引理将 Bayesian 滤波中的预测步和更新步的最优性条件转化为解析形式。具体地,Stein 引理允许将对数似然期望的梯度转化为可计算的矩表达式,从而将两个变分问题约化为有限维优化问题。 + +## 参考 +- [[gaussian-filtering|Gaussian Filtering]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/step-recurrence.md b/concepts/step-recurrence.md new file mode 100644 index 0000000..468a23d --- /dev/null +++ b/concepts/step-recurrence.md @@ -0,0 +1,41 @@ +--- +title: "步级循环 (Step Recurrence)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [transformers, recurrence, ssm, state-tracking] +sources: + - mozer-topological-trouble-transformers-2026 +--- + +# 步级循环 (Step Recurrence) + +步级循环是[[recurrence-taxonomy|循环分类法]]中沿**输入步轴**的循环模式:层内激活从前一步流向下一步(Mozer et al., 2026)。 + +## 对应 Mozer et al. 图 7 + +激活在**同一层内**从 t-1 步到 t 步横向传播,不同于深度循环的垂直传播。 + +## 代表架构 + +| 架构 | 特点 | +|------|------| +| **线性注意力**(Katharopoulos et al., 2020) | 核化注意力,线性复杂度 | +| **Mamba**(Gu & Dao, 2024) | 选择性状态空间模型,输入依赖门控 | +| **RWKV-7**(Peng et al., 2025) | 线性注意力 + Delta 规则 | +| **DeltaNet**(Schlag et al., 2021) | Delta 规则驱动的快速权重更新 | +| **PaTH Attention**(Yang et al., 2025b) | 路径注意力 | +| **Canon Layers**(Allen-Zhu, 2025) | 规范形式的层结构 | +| **Test-Time Regression**(Sun et al., 2025) | 推理时回归更新 | + +## 表达能力边界 + +Merrill et al. (2025) 证明:具有**线性更新**的 SSM 表达能力不超过标准 Transformer。但扩展到**负特征值**(Grazzi et al., 2025)后,DeltaNet 超越了标准 Transformer 的表达力。 + +## 参考 + +- [[depth-recurrence|深度循环]] +- [[state-space-models|状态空间模型]] +- [[enhanced-state-space-models|增强状态空间模型]] +- [[sequential-dependency|顺序依赖]] +- [[mozer-topological-trouble-transformers-2026]] diff --git a/concepts/streaming-generation.md b/concepts/streaming-generation.md new file mode 100644 index 0000000..911fe4d --- /dev/null +++ b/concepts/streaming-generation.md @@ -0,0 +1,44 @@ +--- +title: "Streaming Generation" +created: 2026-06-20 +updated: 2026-06-20 +type: concept +tags: ["generation", "streaming", "real-time", "latency"] +sources: ["https://arxiv.org/abs/2606.17800"] +--- + +# Streaming Generation (流式生成) + +**Streaming Generation** 是指生成模型在推理时以连续流的方式产出内容,而非等待完整结果后一次性返回。对于视频生成,这意味着在生成仍在进行时即可开始播放。 + +## 核心特征 + +- **Causal streaming regime**:逐块因果生成,不上溯修改已生成内容 +- **Sub-second interaction**:用户输入可在亚秒级延迟内影响后续生成 +- **Train-inference matched**:训练和推理使用相同的流式分布,避免 train-test gap + +## 与非流式生成的对比 + +| 维度 | 流式生成 | 离线/批量生成 | +|------|---------|-------------| +| 输出方式 | 逐块输出,立即可播 | 完整视频生成后再输出 | +| 交互性 | 实时交互 | 无交互 | +| 计算模式 | 恒定每块成本 | 成本随长度增长 | +| 典型应用 | 社交直播、实时助手 | 电影后期、短视频制作 | + +## 挑战 + +- **长时一致性**:千秒级流式生成中的内容漂移 +- **缓存管理**:如何限制 KV-cache 大小同时保留关键上下文 +- **节奏控制**:生成速度与播放速度的协调(look-ahead buffer) +- **单 GPU 可行性**:社交应用需要低成本部署 + +## 代表性系统 + +- **MaineCoon**: 首个实时流式音视频生成模型([[maineCoon]]),支持千秒级生成 +- 其他方向:LLM 文本流式生成(GPT 系)、语音流式 TTS + +## 相关概念 +- [[autoregressive-video-generation|自回归视频生成]] +- [[agentic-streaming-inference|Agentic 流式推理]] +- [[look-ahead-buffer-controller|先行缓冲控制]] diff --git a/concepts/streaming-inference.md b/concepts/streaming-inference.md new file mode 100644 index 0000000..5b22f78 --- /dev/null +++ b/concepts/streaming-inference.md @@ -0,0 +1,30 @@ +--- +title: "Streaming Inference" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [inference, streaming, real-time, deployment] +sources: + - "[[wan-streamer]]" + - "[[thinker-performer-pipeline]]" +--- + +# Streaming Inference + +**Streaming Inference**(流式推理)是一种推理部署范式,模型以流式(增量)方式消费输入并生成输出,而非等待完整输入后再批量处理。在实时交互场景中,流式推理是实现低延迟响应的关键技术。 + +## 关键要素 + +1. **因果约束**:推理过程中不能访问未来信息 +2. **增量状态管理**:每个流式单元到达后立即更新内部状态(KV-cache 等) +3. **流水线重叠**:不同阶段的处理(编码、推理、解码)在连续流式单元间重叠执行 + +## 在 Wan-Streamer 中的实现 + +Wan-Streamer 的 [[thinker-performer-pipeline|Thinker-Performer Pipeline]] 将流式推理拆分为两个重叠的进程,通过 KV-cache 交换维持统一状态,实现 160ms 流式单元的实时吞吐。 + +## 参考 + +- [[wan-streamer]] +- [[thinker-performer-pipeline]] +- [[kv-cache]] diff --git a/concepts/structured-masked-attention.md b/concepts/structured-masked-attention.md new file mode 100644 index 0000000..fe27ea6 --- /dev/null +++ b/concepts/structured-masked-attention.md @@ -0,0 +1,49 @@ +--- +title: "结构化掩码注意力 (Structured Masked Attention)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [attention, ssm, linear-attention, mask] +sources: + - dao-transformers-are-ssms-2024 +--- + +# 结构化掩码注意力 (SMA) + +SMA 是 Dao & Gu (2024) 对 [[linear-attention|线性注意力]] 的推广——在因果注意力矩阵上引入**数据依赖的结构化掩码 L**。 + +## 形式定义 + +``` +Y = (L ○ QK^T) · V +``` + +其中 L 是下三角矩阵,满足: +- L 由数据依赖的标量 a_t ∈ [0,1] 参数化 +- L_ij = a_i × a_{i-1} × ... × a_{j+1}(当 i ≥ j) +- a_t 控制信息如何在时间维度上衰减/保留 + +## 与 Softmax Attention 的区别 + +| | Softmax Attention | SMA (SSD 对偶形式) | +|---|---|---| +| 激活 | Softmax(QK^T) | L ○ QK^T | +| 位置信息 | 位置编码(启发式) | 数据依赖的衰减掩码 L | +| 复杂度 | O(T²) | O(T²)(但可转化为 O(T) SSM) | + +## 为什么重要 + +1. **去掉 Softmax**:避免了 "attention sink" 现象 +2. **数据依赖的位置掩码**:L 替代了启发式位置编码——a_t 在信息密集处接近 0(重置),在平稳处接近 1(保留) +3. **可逆性**:SMA ⇔ SSM 的对偶关系意味着 SMA 也有 O(T) 的快速循环算法 + +## SMA 是 SSM 的必要条件 + +Dao & Gu 证明:任何具有快速循环形式的核注意力方法**必然是**一个 SSM。SMA 是连接两者的最广框架。 + +## 参考 + +- [[linear-attention|线性注意力]] +- [[structured-state-space-duality|SSD]] +- [[semiseparable-matrices|半可分矩阵]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/structured-state-space-duality.md b/concepts/structured-state-space-duality.md new file mode 100644 index 0000000..109e3e0 --- /dev/null +++ b/concepts/structured-state-space-duality.md @@ -0,0 +1,52 @@ +--- +title: "结构化状态空间对偶 (Structured State Space Duality)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [ssm, attention, duality, framework] +sources: + - dao-transformers-are-ssms-2024 +--- + +# 结构化状态空间对偶 (SSD) + +SSD 是 Dao & Gu (2024) 提出的统一框架,揭示 **SSM 和 Attention 本质上是同一类模型的对偶形式**,通过 [[semiseparable-matrices|半可分矩阵]] 这一数学桥梁连接。 + +## 框架结构 + +``` +SSM (线性/循环) ←→ 半可分矩阵 ←→ Attention (二次/并行) + ↑ 线性时间 ↑ 二次时间 + ↑ 常状态推理 ↑ 矩阵乘法优化 +``` + +## 核心等价关系 + +1. **矩阵变换视角**:SSM 算子 `SSM(A, B, C)` 等价于矩阵乘法 `Y = M_X * X` +2. **张量收缩视角**:从张量收缩的双线性形式导出 SSM ↔ Attention 的对偶 +3. **半可分矩阵**:M 属于经典的半可分矩阵家族——用 O(T) 参数表示、O(T) 矩阵乘法 + +## SSD 层的双重形式 + +### 循环(线性)形式 +- 选择性 SSM 的简化:A 从对角矩阵退化为**标量乘单位矩阵** +- Head 维度 P 从 1 增大到 64/128(类似 Transformer head) +- 牺牲少许表达力换取显著的训练效率 + +### 对偶(二次)形式 +``` +Y = (L ○ QK^T) · V +``` +- L_ij = a_i × ... × a_{j+1},a_i ∈ [0,1] 输入依赖 +- 与 Softmax Attention 的区别:① 去掉 softmax,② 增加数据依赖的位置掩码 L + +## 意义 + +SSD 使 SSM 能利用为 Transformer 开发的硬件优化(矩阵乘法单元、Tensor Parallelism、FlashAttention 式 block 算法),同时保持线性推理的优势。 + +## 参考 + +- [[mamba-2|Mamba-2]] +- [[semiseparable-matrices|半可分矩阵]] +- [[ssd-algorithm|SSD 算法]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/structured-state-space-models.md b/concepts/structured-state-space-models.md new file mode 100644 index 0000000..7bcfd0e --- /dev/null +++ b/concepts/structured-state-space-models.md @@ -0,0 +1,68 @@ +--- +title: "Structured State Space Models (S4)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["ssm", "s4", "sequence-modeling", "lti"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Structured State Space Models (S4) + +## 定义 + +Structured State Space Models(S4)是 Mamba 的前身,由 Gu, Goel & Ré (2022) 提出。S4 是一类通过**结构化隐状态**实现序列建模的架构,结合了 RNN 的循环计算和 CNN 的并行卷积计算,具有线性或近线性复杂度。 + +## 数学形式 + +S4 通过四个参数 (Δ, A, B, C) 定义序列变换: + +**连续形式**: +``` +h'(t) = A h(t) + B x(t) +y(t) = C h(t) +``` + +**离散化后(ZOH 规则)**: +``` +A_bar = exp(Δ A) +B_bar = (Δ A)^(-1) (exp(Δ A) - I) · Δ B +``` + +**两种计算模式**: + +| 模式 | 公式 | 用途 | +|------|------|------| +| 循环 | h_t = A_bar h_{t-1} + B_bar x_t; y_t = C h_t | 推理(单步 O(1)) | +| 卷积 | K = (CB, CAB, CA²B, ...); y = x * K | 训练(并行) | + +## 核心性质:线性时间不变(LTI) + +S4 的关键性质是 **LTI**:参数 (A, B, C, Δ) 对所有时间步**完全相同**。这带来了两个好处: +- 训练可用 FFT 卷积(O(n log n)) +- 推理可用循环(每步 O(1)) + +但也带来了根本限制:**无法进行内容感知的选择性处理**。 + +## HiPPO 矩阵 + +S4 使用 [[hippo|HiPPO]](High-order Polynomial Projection Operators)初始化 A 矩阵,使模型天然具备长距离记忆的归纳偏置。 + +## 从 S4 到 S6 + +Mamba 的贡献正是**去除 LTI 约束**: +- S4 的 B, C, Δ 是固定参数 +- S6 的 B_t, C_t, Δ_t 是 x_t 的函数 → 获得选择性 → 牺牲卷积模式 → 需硬件感知算法补偿 + +## 相关概念 + +- [[selective-state-space]] — S6,S4 的选择性升级版 +- [[hippo]] — S4 的数学基础 +- [[hardware-aware-algorithm]] — 去掉卷积后的高效补偿 +- [[state-space-models]] — SSM 家族总览 +- [[gu-mamba|Mamba 论文]] + +## 参考 + +- S4 (Gu, Goel & Ré, 2022) +- [[gu-mamba|Mamba]] (Gu & Dao, 2024) diff --git a/concepts/temperature-sampling.md b/concepts/temperature-sampling.md new file mode 100644 index 0000000..a37a2f8 --- /dev/null +++ b/concepts/temperature-sampling.md @@ -0,0 +1,41 @@ +--- +title: "温度采样(Temperature Sampling)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - sampling + - decoding + - diversity + - spiral-of-silence +sources: + - data派THU 2026 +--- + +# 温度采样(Temperature Sampling) + +LLM 解码阶段的关键参数,通过调整 softmax 分布的锐度来控制输出的随机性。温度 T 越高,输出分布越平滑,低概率 token 被选中的概率越大。 + +## 在沉默螺旋治理中的应用 + +温度采样是打破 AI 沉默螺旋的**技术层治理手段**之一: + +- **低温度(T < 1.0)**:输出高度确定,总是选择高概率 token → **放大沉默螺旋** +- **高温度(T > 1.0)**:输出更随机,小众 token 更可能被选中 → **缓解沉默螺旋** +- **top-p / top-k 联合采样**:在保留多样性的同时避免输出质量失控 + +## 权衡 + +高温度采样的代价是可能引入更多噪声、降低输出质量。需要在**多样性 vs 质量**之间寻找平衡点。这是 [[rlhf-alignment-amplification|RLHF 对齐放大]] 问题的镜像——RLHF 压低熵增加安全性但降低多样性,温度采样抬高熵增加多样性但可能降低质量。 + +## 治理建议 + +- 对小模型适配更高温度(因其统计偏好更强) +- 结合 top-p 截断防止极端噪声 +- 多候选择优时加入多样性奖励机制 + +## 参考 + +- [[content-diversity-decay|内容多样性衰减]] +- [[pretraining-statistical-bias|预训练统计偏好]] +- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] diff --git a/concepts/tensor-contraction-duality.md b/concepts/tensor-contraction-duality.md new file mode 100644 index 0000000..9c88589 --- /dev/null +++ b/concepts/tensor-contraction-duality.md @@ -0,0 +1,50 @@ +--- +title: "张量收缩对偶 (Tensor Contraction Duality)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [mathematics, duality, ssm, attention] +sources: + - dao-transformers-are-ssms-2024 +--- + +# 张量收缩对偶 (Tensor Contraction Duality) + +张量收缩对偶是 Dao & Gu (2024) 揭示 [[structured-state-space-duality|SSD]] 框架的**两种互补视角之一**——从双线性形式的张量收缩导出 SSM ↔ Attention 的对偶。 + +## 两种视角 + +### 视角 1:矩阵变换 +``` +Y = M · X +M_ij = C_i^T A_{i-1} ... A_{j+1} B_j +``` +- 将 SSM 看作参数化矩阵 M 的乘法 +- M 属于 [[semiseparable-matrices|半可分矩阵]] 家族 + +### 视角 2:张量收缩 +``` +序列变换 = 张量收缩(Z, X) +``` +- 将 SSM 和 Attention 统一为张量上的相同收缩模式 +- Z 的秩和结构决定了是线性(SSM)还是二次(Attention)形式 + +## 对偶的本质 + +两种视角等价但揭示不同属性: + +| 视角 | 揭示 | 适合 | +|------|------|------| +| 矩阵变换 | 结构化矩阵、分块算法 | 高效实现(SSD 算法) | +| 张量收缩 | 对偶性、注意力连接 | 理论分析、框架统一 | + +## 在证明中的应用 + +张量收缩视角提供了线性注意力的**新证明**——从张量收缩的双线性形式直接导出其循环形式,比 Katharopoulos et al. (2020) 的原始证明更简洁。 + +## 参考 + +- [[structured-state-space-duality|SSD]] +- [[semiseparable-matrices|半可分矩阵]] +- [[structured-masked-attention|SMA]] +- [[dao-transformers-are-ssms-2024|论文]] diff --git a/concepts/thinker-performer-pipeline.md b/concepts/thinker-performer-pipeline.md new file mode 100644 index 0000000..10f4697 --- /dev/null +++ b/concepts/thinker-performer-pipeline.md @@ -0,0 +1,76 @@ +--- +title: "Thinker-Performer Pipeline" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [inference, streaming, pipeline, kv-cache, flow-matching] +sources: + - "[[wan-streamer]]" +--- + +# Thinker-Performer Pipeline + +**Thinker-Performer Pipeline** 是 Wan-Streamer 的推理部署架构,将统一的端到端模型拆分为两个协作进程,通过 [[kv-cache|KV-cache]] 交换维持统一因果状态,实现感知和生成的流水线重叠。 + +## 架构 + +``` +Thinker (GPU 0) Performer (GPU 1) +───────────────── ───────────────── +编码用户观测 uk 接收 KV slice +更新 KV cache 全历史 flow-matching 求解 +解码前帧响应 y_{k-1} → 发射 生成 clean latents yk +发送当前 KV slice → ← 返回 clean latents +``` + +## 两个角色的职责 + +### Thinker(思考者) +- 消费当前流式单元的**用户音视频观测**(文本、语音、视频帧) +- 运行因果编码器进行编码 +- 运行 Transformer 的短 token-causal pass(语言预测 + 状态更新) +- 生成新 KV-cache slice(当前交互状态) +- 解码 Performer 返回的前一帧潜变量为可发射的音频/视频输出 +- **不运行**昂贵的 flow-matching solver + +### Performer(执行者) +- 接收 Thinker 发送的 KV-cache slice +- 将 KV slice 追加到自己的全历史缓存中 +- **只运行** flow-matching solver 生成下一帧的音视频潜变量 +- 将 clean latents 保持在 Performer 侧 +- 在下一个流式步返回给 Thinker +- **不运行**解码器或编码器 + +## 流水线重叠 + +关键洞察:相邻流式单元之间的工作可以重叠: + +| 时间片 | Thinker | Performer | +|--------|---------|-----------| +| 时刻 k 前半 | 编码 u_k,更新 KV_k | — | +| 时刻 k 中 | 解码 y_{k-1},发射 | — | +| 时刻 k 后 | 发送 KV slice → | ← 接收 KV slice,求解 y_k | +| 时刻 k+1 前 | 编码 u_{k+1} | 求解 y_k(继续) | +| 时刻 k+1 中 | 更新 KV_{k+1} | ← 返回 y_k | + +这样,感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪在连续流式单元间重叠执行。 + +## 实时性条件 + +系统能实时运行的条件是: +> Performer wall time + KV-cache/latent 通信开销 < 160ms(一个流式单元) + +这**不同于**模型侧响应延迟(从接收用户输入到发射对应响应的时间,约 200ms)。 + +## 关键优化 + +- CUDA graph capture 减少 kernel launch 开销 +- 编译优化 +- 优化的 KV-cache 交换格式 + +## 参考 + +- [[wan-streamer]] +- [[kv-cache]] +- [[flow-matching]] +- [[streaming-inference]] diff --git a/concepts/thinking-based-non-thinking.md b/concepts/thinking-based-non-thinking.md new file mode 100644 index 0000000..f0e2988 --- /dev/null +++ b/concepts/thinking-based-non-thinking.md @@ -0,0 +1,52 @@ +--- +title: "TNT: 基于思考的非思考 (Thinking-Based Non-Thinking)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [hybrid-reasoning, rl, reward-hacking, token-efficiency] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# TNT: 基于思考的非思考 (Thinking-Based Non-Thinking) + +TNT 是 Gan et al. (2026) 提出的解决[[hybrid-reasoning-models|混合推理模型]] RL 训练中 [[reward-hacking|Reward Hacking]] 问题的方法。核心思路:利用思考模式响应的 **solution 部分长度**动态设定非思考模式的 token 上限。 + +## 核心机制 + +### 动态 Token 限制 +对于每个查询 x,采样 K 个响应。对思考模式的响应集合 M_T^x: +``` +L_N^x = ω × avg( h(y_x^j) for y_x^j in M_T^x ) +``` +其中 h(y) 为 `` 之后的 token 数,ω > 1 为容错权重(默认 2),L_∅ 为备用上限(默认 1000)。 + +### 奖励函数 +| 模式 | 正确 | 错误 | +|------|------|------| +| 思考模式 | +1 | 0 | +| 非思考 + 无 hacking | +2 | -1 | +| 非思考 + reward hacking | -2 | -2 | + +关键是:**只要 token 超过 L_N^x,无论答案对错都给 -2**——强力抑制 reward hacking。 + +## 为何有效 + +LRM 的思考模式训练确保 `` 之后的 solution 部分**不含额外思考**——与真正非思考模式的输出高度一致。因此 thinking 的 solution 长度是 non-thinking 自然长度的可靠估计。 + +## 与 RL 算法的兼容性 + +TNT 只关注**设定非思考模式的最大 token 使用量**,因此与任何 RL 算法兼容(GRPO、PPO、DAPO、Dr.GRPO、GSPO),也可与其他混合推理技术组合。 + +## 实验结果 + +- 5 个数学基准上 token 使用减少 ~50%,准确率提升 4.1% +- 所有方法中**准确率-效率最优权衡** +- Reward hacking 率 < 10% + +## 参考 + +- [[reward-hacking|Reward Hacking]] +- [[dynamic-token-limit|动态 Token 限制]] +- [[hybrid-reasoning-models|混合推理模型]] +- [[gan-thinking-based-non-thinking-2026|论文]] diff --git a/concepts/thinking-mode.md b/concepts/thinking-mode.md new file mode 100644 index 0000000..f950ddc --- /dev/null +++ b/concepts/thinking-mode.md @@ -0,0 +1,49 @@ +--- +title: "思考模式 (Thinking Mode)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [reasoning, cot, lrm] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# 思考模式 (Thinking Mode) + +思考模式是[[large-reasoning-models|大推理模型]]中通过**长[[chain-of-thought|思维链]](CoT)**进行推理的模式。在 TNT 的框架中,定义为响应的思考部分**非空**:`[y_1, ..., y_τ] ≠ ∅`(Gan et al., 2026)。 + +## 结构 + +思考模式的典型结构(以 DeepSeek-R1 为例): +``` + +Wait, let me analyze this carefully... +Maybe I should try another approach... +Let me verify this step... + +The final answer is: 42 +``` + +## 关键特征 + +- **探索**:尝试多种推理路径 +- **反思**:自我质疑和纠错("Wait... that doesn't seem right") +- **自验证**:检查中间结果的正确性 +- **最终收敛**到 `` 后的 solution + +## TNT 中的关键利用 + +TNT 的核心洞察:LRM 的思考模式经过大规模数据训练,**确保 `` 之后的 solution 部分不含额外思考**。这意味着 solution 部分的长度可以作为 [[non-thinking-mode|非思考模式]] 自然输出长度的**可靠上界估计**。 + +## 与非思考模式的选择 + +[[hybrid-reasoning-models|混合推理模型]]的目标是让模型自主权衡: +- 复杂查询 → 思考模式(准确性优先) +- 简单查询 → 非思考模式(效率优先) + +## 参考 + +- [[non-thinking-mode|非思考模式]] +- [[hybrid-reasoning-models|混合推理模型]] +- [[large-reasoning-models|大推理模型]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/thinking-reward-model.md b/concepts/thinking-reward-model.md new file mode 100644 index 0000000..d6d0157 --- /dev/null +++ b/concepts/thinking-reward-model.md @@ -0,0 +1,39 @@ +--- +title: "Thinking Reward Model (TRM)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["reward-model", "reasoning", "preference-optimization"] +sources: + - "[[me2-trm-reasoning-2026]]" +--- + +# Thinking Reward Model (TRM) + +TRM 是 Zhang et al. (ICML 2026) 提出的推理轨迹质量评估模型,基于 ME² 原则和 DAG 建模训练。 + +## 核心设计 + +- **仅评估推理质量**:训练于 verified-correct 推理对,与答案正确性解耦 +- **Pairwise preference**:Bradley-Terry 目标,不依赖绝对评分 +- **轻量**:Llama-3.1-8B + scalar value head 替换 LM head +- **训练数据**:TRM-Preference 数据集(103K 对) + +## 与 PRM/ORM 的对比 + +| 维度 | PRM | ORM | TRM | +|------|-----|-----|-----| +| 评估粒度 | 步骤级 | 响应级 | 推理轨迹级 | +| 监督方式 | 绝对评分 | pairwise | pairwise | +| 长程依赖 | 弱 | N/A | 强(DAG结构化) | +| 与答案解耦 | 否(通常纠缠) | 是 | 是 | + +## 验证集性能 + +TRM: 88.6% vs ReasonFlux-PRM-7B: 62.5% vs Qwen2.5-Math-PRM-7B: 46.3% + +## 参考 +- [[me2-trm-reasoning-2026]] +- [[me2-principle]] +- [[dag-reasoning-evaluation]] +- [[reward-model]] diff --git a/concepts/time-aware-query-expansion.md b/concepts/time-aware-query-expansion.md new file mode 100644 index 0000000..4a07028 --- /dev/null +++ b/concepts/time-aware-query-expansion.md @@ -0,0 +1,56 @@ +--- +title: "Time-Aware Query Expansion" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: ["memory", "retrieval", "temporal-reasoning", "optimization"] +sources: + - "[[longmem-eval-2025]]" +--- + +# Time-Aware Query Expansion + +Time-Aware Query Expansion 是 LongMemEval 提出的时间感知查询展开策略:在记忆检索时,将显式时间戳关联到事实,并根据查询中的时间参考缩小搜索范围。 + +## 动机 + +朴素的 time-agnostic 记忆设计在时间推理问题上表现极差: +- "距离我上次去博物馆过去了几个月?" +- 需要知道"上次去博物馆"的精确时间戳 → 与"现在"的时间差 +- 若查询不做时间展开,BM25 和 dense 都无法有效检索 + +## 做法 + +``` +原始查询:"我上次去博物馆是什么时候?" + ↓ +LLM 时间展开 → "上次博物馆参观,时间范围:2024-01-01 至 2024-06-30" + ↓ +检索 + 时间过滤 → 只返回时间范围内的记忆文档 +``` + +**索引侧**:存储时将时间戳与事实关联 +**查询侧**:用 LLM 从查询中推断时间范围,构造带时间约束的检索 + +## 效果 (LongMemEval 实验数据) + +| 场景 | Time-Agnostic | +Time Expansion | 增益 | +|------|-------------|-----------------|------| +| 时间推理召回 | baseline | +6.8%~11.3% | 显著(强 LLM 展开时) | + +关键:展开质量依赖 LLM 能力——弱模型做时间推断不准,增益缩小。 + +## 与 Per-Index Time Decay 的区别 + +| 技术 | 作用于 | 目的 | +|------|--------|------| +| Per-index gauss decay (Atlas) | 索引文档的权重 | 让旧记忆自然沉底 | +| Time-aware query expansion | 查询的搜索范围 | 精确限定时间窗口 | + +两者互补:decay 处理"旧信息不如新信息"的背景假设,time expansion 处理"我需要这个时间段的"的精确需求。 + +## 参考 +- [[longmem-eval-2025]] +- [[memory-indexing-retrieval-reading]] +- [[fact-augmented-key-expansion]] +- [[per-index-time-decay]] diff --git a/concepts/token-level-policy-gradient.md b/concepts/token-level-policy-gradient.md new file mode 100644 index 0000000..6fabf8d --- /dev/null +++ b/concepts/token-level-policy-gradient.md @@ -0,0 +1,49 @@ +--- +title: "Token 级策略梯度 (Token-Level Policy Gradient)" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: [rl, grpo, training, optimization] +sources: + - gan-thinking-based-non-thinking-2026 +--- + +# Token 级策略梯度 (Token-Level Policy Gradient) + +Token 级策略梯度是 GRPO(Shao et al., 2024)中使用的优化方法:在**每个 token 级别**而非序列级别计算重要性权重和优势估计(Gan et al., 2026)。 + +## GRPO 的 Token 级损失 + +TNT 使用以下损失函数: +``` +J(θ) = E[ (1/Σ|y^k|) × Σ_k Σ_t min(r_{i,t}(θ) × Â_{i,t}, clip(r_{i,t}(θ), 1-ε, 1+ε) × Â_{i,t}) ] +``` + +其中: +- `r_{i,t}(θ)`:token 级重要性权重(新旧 token 概率比) +- `Â_{i,t}`:token 级优势,由 TNT 的奖励函数估计 +- 总损失按所有采样轨迹的 token 总数归一化 + +## 与序列级策略梯度的区别 + +| | 序列级 | Token 级 | +|---|---|---| +| 粒度 | 整个序列一个奖励 | 每个 token 独立优势 | +| 信用分配 | 粗粒度 | 细粒度 | +| 适合场景 | 简单 RLHF | 复杂推理(需细粒度信号) | + +## 在 TNT 中的角色 + +TNT 的奖励函数为每个 token 提供优势信号: +- 思考模式 token:+1(正确)或 0(错误) +- 非思考无 hacking token:+2(正确)或 -1(错误) +- 非思考有 hacking token:-2(所有 token) + +Token 级梯度让模型能**在 token 级**学习何时产生/抑制 reward hacking 行为。 + +## 参考 + +- [[grpo|GRPO]] +- [[reinforcement-learning|强化学习]] +- [[reward-hacking|Reward Hacking]] +- [[gan-thinking-based-non-thinking-2026|TNT 论文]] diff --git a/concepts/token-shift.md b/concepts/token-shift.md new file mode 100644 index 0000000..0ce4912 --- /dev/null +++ b/concepts/token-shift.md @@ -0,0 +1,46 @@ +--- +title: "Token Shift" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rwkv", "time-mixing", "sequence-modeling"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# Token Shift + +## 定义 + +Token Shift(Token 偏移)是 RWKV 系列架构独有的时间混合技巧:通过将当前 token 与前一个 token 的表示做线性混合,让模型以极低成本获取**局部时序信息**,而不依赖显式位置编码或卷积。 + +## 机制 + +``` +x_shifted = α ⊙ x_t + (1 - α) ⊙ x_{t-1} +``` + +其中 α 是可学习的逐通道混合系数。这个操作在 RWKV 每一层的时间混合(Time Mixing)模块中执行。 + +## 设计哲学 + +RWKV 不显式使用位置编码(Transformer)或卷积核(Hyena/H3),而是通过 token shift 这种**最小侵入**的时序注入方式: + +- 仅需保存前一 token 的表示(O(d) 而非 O(n)) +- 不引入额外参数层 +- 提供局部上下文感知,全局依赖由 WKV/Delta 循环状态完成 + +## 在 RWKV-7 中 + +RWKV-7 继承了 token shift 机制,但将其与 [[generalized-delta-rule]] 配合使用——shift 提供局部时序,Delta 状态提供全局记忆。两者互补:shift 负责"相邻 token 之间的平滑",Delta 负责"远距离的联想和状态追踪"。 + +## 相关概念 + +- [[wkv-time-mixing]] — Token shift 所在的时间混合模块 +- [[rwkv]] — 使用 token shift 的全系列架构 +- [[generalized-delta-rule]] — RWKV-7 的全局记忆机制 +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- RWKV-4 (Peng et al., 2023) — 首次引入 token shift +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) diff --git a/concepts/tool-registry.md b/concepts/tool-registry.md index df40174..27b5a81 100644 --- a/concepts/tool-registry.md +++ b/concepts/tool-registry.md @@ -1,32 +1,44 @@ --- -title: "ToolRegistry" -created: 2026-05-11 -updated: 2026-05-11 +title: "工具注册表 — Tool Registry" +created: 2026-06-19 +updated: 2026-06-19 type: concept -tags: [agent-architecture, tool-design, api] -sources: [[prompt-caching-architecture]] +tags: [tool-registry, mcp, tool-management, dynamic-react] +sources: + - https://arxiv.org/abs/2509.20386 --- -# ToolRegistry +# 工具注册表(Tool Registry) ## 定义 -ToolRegistry 是 [[stub-pattern|Stub 模式]] 中的核心组件,提供统一的工具调用接口。Agent 通过 ToolRegistry 间接调用具体工具,而非直接与工具定义交互。 +Tool Registry 是 Dynamic ReAct 框架中**包含全部可用 MCP 工具的综合仓库**。每个条目包含针对语义搜索优化的描述,可能来自第三方。 -## 工作流程 +## 关键特性 -1. Agent 决策:调用 `ToolRegistry.invoke("fetch_factor_data", {ticker: "AAPL", time_range: "1d"})` -2. ToolRegistry 解析工具标识符,查找对应实现 -3. 动态加载/执行具体逻辑,返回结果 -4. 对 Agent 而言,ToolRegistry 的定义在会话中**从未改变** +- **可来自第三方**:架构假设 LLM Client 和 Tool Registry 可能不在开发者控制范围内 +- **支持大规模**:通过向量数据库索引,支持对数级别扩展 +- **描述优化空间**:工具描述质量直接影响检索准确率——这是开发者可控制的主要杠杆 -## 工程价值 +## 描述优化策略 -- 隔离工具定义变更对缓存的影响 -- 支持运行时动态注册/卸载工具(对缓存透明) -- 统一错误处理和日志记录入口 +Dynamic ReAct 的实验表明,**上下文增强**([[context-enriched-embeddings|Sonnet 生成隐式功能和用例]])比换 embedding 模型更有效: -## 相关概念 +- 换模型(text-embedding-3-large → voyage-context-3):+8pp Top-5 +- 换模型 + 描述增强:**+20pp Top-5**(40%→60%) -- [[stub-pattern|Stub 模式]] -- [[prompt-caching|Prompt Caching]] +## 与其他组件的关系 + +``` +Tool Registry → Vector Database (索引) + ↓ + search_tools (meta-tool 检索) + ↓ + load_tools (LLM 精选加载) +``` + +## 参考 + +- [[dynamic-react|Dynamic ReAct]] +- [[context-enriched-embeddings|上下文增强嵌入]] +- [[gaurav-dynamic-react-2025|论文]] diff --git a/concepts/trajectory-supervision.md b/concepts/trajectory-supervision.md new file mode 100644 index 0000000..22bee26 --- /dev/null +++ b/concepts/trajectory-supervision.md @@ -0,0 +1,51 @@ +--- +title: "Trajectory Supervision" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [latent-cot, supervision, reasoning, curriculum-learning, information-theory] +sources: + - "[[latent-cot-supervision]]" +--- + +# Trajectory Supervision + +**Trajectory Supervision**(轨迹监督)是 [[latent-cot-supervision|Latent CoT 过程监督]] 的第一个维度,通过在推理链上逐步注入密集的局部监督信号来打破 [[dual-collapse|双重崩溃]]。 + +## 核心机制 + +渐进式训练(Progressive Training):将训练划分为多个阶段,每阶段增加一个连续的潜块。 + +- **阶段 0**:全显式 CoT(所有步骤用 token) +- **阶段 1**:前 1 步用潜向量 L_1,后续用显式 token +- **阶段 k**:前 k 步用潜向量 L_{≤k},后续用显式 token +- ... +- **最终阶段**:全潜式 CoT(所有步骤用潜向量) + +## 目标函数 + +在阶段 k,训练目标为: + +``` +L_stage-k = -Σ log P_θ(S_j | L_{≤k}, S_{k+1}, ..., S_{j-1}) +``` + +等价于最大化局部互信息:I(L_{≤k}; S_{k+1})。 + +## 为什么有效 + +1. **打破梯度衰减**:每个阶段都在当前"生成前沿"注入直接的监督信号,确保所有潜位置都接收到梯度 +2. **自然课程**:阶段递进 = 推理链从短到长的自然难度递增 +3. **局部可预测性**:强制 L_{≤k} 包含足够信息预测 S_{k+1},降低潜流形的条件熵 + +## 关键实验发现 + +- **仅 Trajectory Supervision(无 Space Supervision)**:PS-LATENT 已显著优于 OS-LATENT(18.7% → 31.2%) +- **优化器重置关键**:过渡到连续状态后不重置优化器 → 显著性能下降(31.2% vs 24.7%)——"陈旧动量"阻碍探索新损失景观 +- **与 Space Supervision 互补**:PS-GR(Trajectory + Generative Reconstruction)达到最优效果(41.2%) + +## 参考 + +- [[latent-cot-supervision]] +- [[dual-collapse]] +- [[space-supervision]] diff --git a/concepts/trajectory-synthesis.md b/concepts/trajectory-synthesis.md new file mode 100644 index 0000000..00c172d --- /dev/null +++ b/concepts/trajectory-synthesis.md @@ -0,0 +1,42 @@ +--- +title: "轨迹合成 — Trajectory Synthesis" +created: 2026-06-19 +updated: 2026-06-19 +type: concept +tags: [trajectory-synthesis, training-data, multi-agent-simulation, ace-router] +sources: + - https://arxiv.org/abs/2601.08276 +--- + +# 轨迹合成(Trajectory Synthesis) + +## 定义 + +Trajectory Synthesis 是 ACE-Router 的第二阶段:通过**多 Agent 角色模拟**从候选图生成多轮交互轨迹,从中提取历史感知路由的监督信号。 + +## 四角色模拟 + +``` +Planner Agent → 基于采样子集设计对话蓝图和粗略执行计划 +User Agent → 按蓝图生成自然用户请求和跟进问题 +Assistant Agent → 执行推理,选择工具并调用 +Tool Agent → 模拟工具返回结果(无真实 API) +``` + +## 设计优势 + +- **环境无关**:LLM 模拟执行结果,无需访问真实 API——可大规模扩展 +- **历史感知**:从轨迹中提取 (历史→路由决策) 对,而非静态 (查询→工具) 对 +- **结构化监督**:标记每步实际调用的候选作为 ground-truth label + +## 产出 + +- 627 初始工具 → 2005 扩展工具(来自候选图) +- 15,092 个训练样本(供 Qwen3-8B LoRA 微调) + +## 参考 + +- [[candidate-graph|候选图]] +- [[ace-router|ACE-Router]] +- [[history-aware-routing|历史感知路由]] +- [[yao-ace-router-2026|论文]] diff --git a/concepts/trm-preference-dataset.md b/concepts/trm-preference-dataset.md new file mode 100644 index 0000000..15bb576 --- /dev/null +++ b/concepts/trm-preference-dataset.md @@ -0,0 +1,36 @@ +--- +title: "TRM-Preference Dataset" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["dataset", "preference-data", "reasoning", "reward-model"] +sources: + - "[[me2-trm-reasoning-2026]]" +--- + +# TRM-Preference Dataset + +TRM-Preference 是用于训练 Thinking Reward Model 的 pairwise preference 数据集。 + +## 构建流程 + +1. 对每个 prompt 生成多条候选推理轨迹 +2. 构建 DAG 推理结构 +3. 基于 ME² 原则进行 pairwise preference 标注(DeepSeek-V3.2 自动评估) +4. 每个 prompt 最多采样 4 对,避免过表示 +5. 最终:103K 训练对 + 1.5K 验证对 + +## 关键设计 + +- **仅包含 verified-correct 推理对**:两个推理都正确,仅偏好质量更高的一方 +- **与答案正确性解耦**:训练信号纯来自推理质量差异 +- **自动标注**:DeepSeek-V3.2 作为评估器,基于 DAG 结构化表示减少 ties + +## 偏好标注可靠性 + +非 ties 对准确率 93%(当排除 232 ties 后),验证自动标注的可靠性。但高 tie 率暴露了直接 prompt-based 评估的局限——结构差异难以在非结构化痕迹中区分。 + +## 参考 +- [[me2-trm-reasoning-2026]] +- [[thinking-reward-model]] +- [[dag-reasoning-evaluation]] diff --git a/concepts/uncertainty-quantification.md b/concepts/uncertainty-quantification.md index 58ac3d6..03d1d89 100644 --- a/concepts/uncertainty-quantification.md +++ b/concepts/uncertainty-quantification.md @@ -35,7 +35,16 @@ sources: ["[[principled-uncertainty-clinical-ai]]"] 在 [[clinical-ai|临床 AI]] 中,UQ 不仅是技术属性——它是**公平性信号**。校准后的认知不确定性系统性地识别模型训练数据中代表性不足的患者群体([[uncertainty-equity-gap|UEG]]),揭示 [[algorithmic-equity|算法公平性]] 问题。 +## Jordan 的社会-经济扩展 + +[[uncertainty-taxonomy|Jordan 不确定性分类法]] 将 UQ 从纯统计框架扩展到经济与社会维度,新增两类: +- **信息不对称**:结构性不透明(经济学视角) +- **数据时效性**:时间元数据定量纳入不确定性(LLM 完全缺失此能力) + +参见 [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]。 + ## 参考 - [[principled-uncertainty-clinical-ai|Principled Uncertainty in Clinical AI]] - [[bayesian-deep-learning|贝叶斯深度学习]] - [[expected-calibration-error|ECE]] +- [[uncertainty-taxonomy|Jordan 不确定性分类法]] diff --git a/concepts/uncertainty-taxonomy.md b/concepts/uncertainty-taxonomy.md new file mode 100644 index 0000000..6c992e7 --- /dev/null +++ b/concepts/uncertainty-taxonomy.md @@ -0,0 +1,57 @@ +--- +title: "Jordan 不确定性分类法(Uncertainty Taxonomy)" +created: 2026-06-21 +updated: 2026-06-21 +type: concept +tags: + - uncertainty + - michael-jordan + - economics + - statistics +sources: + - Jordan, MLST 2026 +--- + +# Jordan 不确定性分类法(Uncertainty Taxonomy) + +Michael I. Jordan 提出的不确定性三分框架,超越经典 [[epistemic-uncertainty|认知不确定性]]/[[aleatoric-uncertainty|偶然不确定性]] 二分,将**经济与社会维度**引入不确定性量化。 + +## 三种不确定性 + +### 1. 采样不确定性(Sampling Uncertainty) + +经典统计学的领地:观察到的数据是否足以支撑结论?但 Jordan 用**鸭子比喻**说明社会语境的变形: +- 贝叶斯鸭子(纯最大期望效用):每次都去食物更多的左边 +- 真实鸭子:2/3 去左边,1/3 去右边——这是种群尺度的纳什均衡 +- 启示:正确的不确定性处理需放在**种群的语境**里 + +### 2. 信息不对称(Information Asymmetry) + +结构性不透明,永远不会消失。不是采样误差,而是**你永远无法完全知道对方知道什么**。经济学长期研究的领域:合同理论、激励相容设计——如何在信息永远不对称的情况下让系统运转。 + +### 3. 数据时效性(Data Providence) + +经典统计学不处理:数据就是数据,不会自动因老旧而打折。Jordan 的主张:所有流动的数据都应携带**时间元数据**,并定量纳入不确定性计算。十年前医疗数据的置信度应自动降低。 + +## LLM 的盲区 + +「LLM 在这三件事上一件都不会做。它说自己很确定,是因为互联网上有人在回答相似问题时说『我很确定』,然后它学了那个语气。」LLM 不是在推断不确定性,而是在**模仿关于不确定性的语气**。 + +## 大尺度不确定性消解 + +市场通过激励机制让个体替系统做探索和利用,在系统层面消化不确定性——不需要最优实验设计,只需要正确的激励。「这才是真正大尺度的不确定性消解,不是误差棒。」 + +## 与标准分类的关系 + +| Jordan 分类 | 对应标准概念 | 新增维度 | +|------------|------------|---------| +| 采样不确定性 | aleatoric + epistemic | 种群语境(纳什均衡) | +| 信息不对称 | — | 经济学维度(全新) | +| 数据时效性 | — | 时间元数据(全新) | + +## 参考 + +- [[uncertainty-quantification|不确定性量化]] +- [[epistemic-uncertainty|认知不确定性]] +- [[aleatoric-uncertainty|偶然不确定性]] +- [[collectivist-ai|集体主义 AI]] diff --git a/concepts/unified-latent-probe.md b/concepts/unified-latent-probe.md new file mode 100644 index 0000000..6443e89 --- /dev/null +++ b/concepts/unified-latent-probe.md @@ -0,0 +1,64 @@ +--- +title: "Unified Latent Probe (ULP)" +created: 2026-06-25 +updated: 2026-06-25 +type: concept +tags: [latent-cot, probing, mutual-information, evaluation, representation-analysis] +sources: + - "[[latent-cot-supervision]]" +--- + +# Unified Latent Probe (ULP) + +**Unified Latent Probe (ULP)** 是 [[latent-cot-supervision|Latent CoT Supervision]] 论文中提出的评估工具,用于量化潜状态中保留的可恢复推理信息。 + +## 设计原理 + +ULP 是一个轻量参数化解码器 q_φ(S_t | L_t),训练目标是最小化对显式推理步骤的重建损失: + +``` +L_Info(L_t, S_t) = E[-log q_φ(S_t | L_t)] ≥ H(S_t | L_t) +``` + +这个损失是条件熵 H(S_t | L_t) 的变分上界。因此: +- L_Info 低 → H(S_t | L_t) 低 → I(L_t; S_t) 高 → 信息保真度高 +- L_Info 高 → 潜状态未能保留可恢复的推理语义 + +## 使用方法 + +1. 冻结所有 baseline 的最佳 checkpoint +2. 收集它们生成的潜状态 {L_t} +3. 训练一个共享架构的 ULP 在这些潜状态上 +4. 收敛后的 L_Info 提供跨方法可比的**信息度量** + +## 为什么比性能指标更精细 + +性能(accuracy)反映的是"潜状态对 final answer 是否有用",但可能被 shortcut 混淆。 +ULP 直接测量"潜状态是否编码了显式推理步骤的语义内容"——这是一个更纯粹的信息论信号。 + +## 关键发现 + +通过 ULP 揭示的**信息层次结构**(Information Hierarchy): + +| 方法 | L_Info(探针损失) | Accuracy | +|------|---------------------|----------| +| OS-GC | 最高(最差) | 最低 | +| OS-GR | 高 | 低 | +| OS-LATENT | 中高 | 中低 | +| PS-LATENT | 中 | 中 | +| PS-GR | **最低(最优)** | **最高** | + +信息质量与推理精度呈严格的**反比关系**——这促成了 [[information-performance-binding|Information-Performance Binding]] 的发现。 + +## 时空信息衰减 + +ULP 还可以跟踪每个潜位置的信息保持: +- 随链长度增长,L_Info 在后续位置系统性升高(信息衰减) +- PS-GR 在每一步"重置"衰减 → 周期性校准 +- 未对齐方法(OS-LATENT, PS-GC)衰减更快 → 语义崩坏 + +## 参考 + +- [[latent-cot-supervision]] +- [[information-performance-binding]] +- [[space-supervision]] diff --git a/concepts/unlimited-ocr.md b/concepts/unlimited-ocr.md new file mode 100644 index 0000000..2f03c01 --- /dev/null +++ b/concepts/unlimited-ocr.md @@ -0,0 +1,37 @@ +--- +title: "Unlimited OCR 模型" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["ocr", "attention-mechanism", "long-horizon", "end-to-end", "baidu"] +sources: + - "[[unlimited-ocr-works-2026]]" +--- + +# Unlimited OCR + +Unlimited OCR 是百度提出的端到端长程 OCR 模型。以 DeepSeek OCR 为基线,将所有 decoder 注意力层替换为 R-SWA,实现恒定 KV cache + 恒定推理速度。 + +## 架构 + +- 继承 DeepEncoder(16× 压缩,冻结训练) +- Decoder:3B MoE,激活 500M,全部注意力替换为 R-SWA +- 训练:4000 步,8×16 A800,32K 序列长度,DeepEP EP=4 + +## 核心性能 + +- OmniDocBench v1.5:93.23%(+6.22pp over DeepSeek OCR) +- 2-40+ 页长程解析:一次前向 +- 推理 TPS 恒定,6000 token 时领先 35% + +## 认知启发 + +人类长程抄写时只关注附近上下文,不回溯全部历史。R-SWA 的 soft forgetting 与此一致。 + +## 参考 +- [[unlimited-ocr-works-2026]] +- [[reference-sliding-window-attention]] +- [[deepseek-ocr]] +- [[deepencoder]] +- [[constant-kv-cache]] +- [[long-horizon-parsing]] diff --git a/concepts/unscented-kalman-filter.md b/concepts/unscented-kalman-filter.md new file mode 100644 index 0000000..f825a30 --- /dev/null +++ b/concepts/unscented-kalman-filter.md @@ -0,0 +1,29 @@ +--- +title: "无迹 Kalman 滤波" +created: 2026-06-22 +updated: 2026-06-22 +type: concept +tags: [state-estimation, filtering, nonlinear-systems] +sources: [nano-filter] +--- + +# 无迹 Kalman 滤波 + +Unscented Kalman Filter (UKF) 是非线性 [[kalman-filter|KF]] 的确定性采样方法,通过**无迹变换**(Unscented Transform)传播均值和协方差,避免 [[extended-kalman-filter|EKF]] 的 Jacobian 计算和线性化误差。 + +## 核心机制 + +1. 从当前 Gaussian 分布中选取一组确定性 **sigma 点** $\{\chi_i\}$ 及权重 $\{w_i\}$ +2. 将每个 sigma 点通过非线性函数 $f(\chi_i)$ 传播 +3. 从变换后的点集重建均值和协方差 + +## 与 NANO 的关系 + +[[nano-filter|NANO filter]] 在**预测步**采用了与 UKF 相同的 [[moment-matching-filter|矩匹配]]策略(通过无迹变换计算 $E[f(x)]$ 和 $\text{Cov}(f(x))$)。两者在预测步等价,区别在于更新步:UKF 使用线性化+KF,NANO 使用 [[natural-gradient-descent|自然梯度下降]]直接优化。 + +## 参考 +- [[kalman-filter|Kalman Filter]] +- [[gaussian-filtering|Gaussian Filtering]] +- [[extended-kalman-filter|EKF]] +- [[moment-matching-filter|Moment-Matching Filter]] +- [[nano-filter|NANO Filter]] diff --git a/concepts/user-memory-bias.md b/concepts/user-memory-bias.md new file mode 100644 index 0000000..8859fcd --- /dev/null +++ b/concepts/user-memory-bias.md @@ -0,0 +1,36 @@ +--- +title: "User Memory Bias" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["llm-memory", "bias", "personalization", "safety"] +sources: + - "[[personalization-trap-2025]]" +--- + +# User Memory Bias + +User Memory Bias 指 LLM 在融入长期用户记忆后,对相同任务产生基于用户画像的系统性偏差——即使任务本身应是用户无关的。 + +## 表现形式 + +1. **准确率偏差**:优势画像比劣势画像获得更准确的输出 +2. **翻转效应**:劣势画像从无记忆基线的翻转率更高 +3. **过度个性化**:模型在不需要用户背景的任务中不恰当地融入画像信息 + +## 注入方式 + +用户记忆通过 system prompt 注入(主实验),也测试了其他注入方式(ablation),均观察到类似的偏差效应。 + +## 与通用偏见研究的区别 + +传统 LLM 偏见研究关注模型对特定群体的刻板印象。User Memory Bias 的不同在于: +- **机制**:通过记忆机制而非训练数据引入 +- **动态性**:同一模型对不同用户画像产生不同输出 +- **隐蔽性**:在个性化服务中难以审计 + +## 参考 +- [[personalization-trap-2025]] +- [[personalization-trap]] +- [[emotional-reasoning-bias]] +- [[persona-invariant-reasoning]] diff --git a/concepts/vector-valued-gating.md b/concepts/vector-valued-gating.md new file mode 100644 index 0000000..d58e654 --- /dev/null +++ b/concepts/vector-valued-gating.md @@ -0,0 +1,53 @@ +--- +title: "Vector-Valued Gating" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rwkv", "gating", "sequence-modeling", "state-evolution"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# Vector-Valued Gating + +## 定义 + +Vector-Valued Gating(向量值门控)是 RWKV-7 中 [[generalized-delta-rule]] 的核心组件:将传统 RNN 的标量门控信号(如 LSTM 的遗忘门输出一个标量)扩展为**逐通道的向量**,使模型能对状态的不同维度独立控制遗忘/保留。 + +## 在 RWKV-7 中的形式 + +``` +S_t = S_{t-1} · (diag(w_t) - κ̂^T (a_t ⊙ κ̂)) + v_t^T · k_t +``` + +其中 `diag(w_t)` 是一个对角的衰减矩阵,w_t ∈ R^d 是输入依赖的 d 维向量。 + +## 与标量门控的对比 + +| 门控类型 | 代表架构 | 行为 | +|---------|---------|------| +| 标量门控 | LSTM (forget gate = 1 个值/单元),GRU | 对整个状态维度均匀遗忘 | +| 逐通道门控 | Mamba (Δ_t),RWKV-7 (w_t) | 每个维度独立速率衰减 | + +向量值门控的本质是**选择性**的精细化版本: +- 某个通道可以快速衰减(遗忘旧信息,适应新输入) +- 另一个通道可以缓慢衰减(保留长距离上下文) + +## 为什么重要 + +标量门控的根本局限是"一刀切"——所有状态维度必须以相同的速率更新或遗忘。然而,不同特征有不同的时间尺度需求: +- 句法特征需要快速更新(每个新词都可能改变语法结构) +- 主题特征需要缓慢更新(话题通常在多句内保持一致) + +向量值门控解决了这个矛盾。 + +## 相关概念 + +- [[generalized-delta-rule]] — 向量值门控是广义 Delta 规则的三个扩展之一 +- [[in-context-learning-rate]] — a_t 的逐通道特性 +- [[dynamic-state-evolution]] — 向量值门控 + Delta 规则 = 动态状态演化 +- [[selective-state-space]] — Mamba 的选择性(另一种逐通道方案) +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) diff --git a/concepts/verbatim-pre-recall.md b/concepts/verbatim-pre-recall.md new file mode 100644 index 0000000..45aabe6 --- /dev/null +++ b/concepts/verbatim-pre-recall.md @@ -0,0 +1,36 @@ +--- +title: "Verbatim Pre-Recall" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["information-retrieval", "agent-design", "bm25", "query-processing"] +sources: + - "[[atlas-agent-memory-architecture-2026]]" +--- + +# Verbatim Pre-Recall + +Verbatim Pre-Recall 是 Atlas 记忆系统的关键设计:在 LLM 看到用户消息之前,先用用户原话(一字不改)跑一次检索。这是保障 BM25 词法腿价值的关键。 + +## 问题 + +LLM 在调用 recall_memory 前会将精确查询泛化: +- "postgres v15.3 + pgvector 0.5.1" → "PostgreSQL 数据库" +- 版本号、扩展名、错误码全部丢失 +- BM25 匹配不到精确 token → 词法腿报废 + +## 方案 + +在 `messages.append(user_msg)` 和 LLM 调用之间插入: +1. 用 `user_message` 原串调用 recall_memory +2. 结果以合成 assistant tool_call 注入对话历史 +3. LLM 后续调用时同时看到用户消息和 pre-recall 结果 + +## 为什么重要 + +Ablation 证实 query expansion(LLM paraphrase)反而降低性能——BM25 已捕获精确 token,dense 已捕获语义改写,额外 LLM 改写层引入噪音。 + +## 参考 +- [[atlas-agent-memory-architecture-2026]] +- [[hybrid-recall-pipeline]] +- [[bm25-financial-retrieval]] diff --git a/concepts/vla-jepa.md b/concepts/vla-jepa.md new file mode 100644 index 0000000..8011061 --- /dev/null +++ b/concepts/vla-jepa.md @@ -0,0 +1,41 @@ +--- +title: "VLA-JEPA (模型)" +created: 2026-06-24 +updated: 2026-06-24 +type: concept +tags: ["vla", "jepa", "world-model", "robot-learning"] +sources: + - "[[vla-jepa-2026]]" +--- + +# VLA-JEPA + +VLA-JEPA 是将 JEPA 范式引入 Vision-Language-Action 模型的预训练框架。核心思想:通过 leakage-free state prediction 在 latent space 学习动作相关的动态抽象。 + +## 架构 + +- VLM Backbone:Qwen3-VL-2B +- Latent World Model:V-JEPA2 encoder (frozen target) + autoregressive Transformer predictor +- Action Head:Conditional Flow-Matching + +## 关键设计原则 + +1. Target encoder 从未来帧产生 latent target → 仅作监督目标 +2. Student 仅见当前观察 → 消除信息泄漏 +3. Latent space 预测(非 pixel space)→ 鲁棒于外观变化 + +## 训练流程 + +两阶段简化为:JEPA Pretraining → Action-Head Fine-tuning +(vs 传统 latent-action 方法的多阶段流水线) + +## 性能 + +LIBERO 平均 98.2%(SOTA),SimplerEnv 领先,数据效率远超对比方法。 + +## 参考 +- [[vla-jepa-2026]] +- [[jepa]] +- [[vla-vision-language-action]] +- [[leakage-free-state-prediction]] +- [[latent-world-model]] diff --git a/concepts/wkv-time-mixing.md b/concepts/wkv-time-mixing.md new file mode 100644 index 0000000..6337457 --- /dev/null +++ b/concepts/wkv-time-mixing.md @@ -0,0 +1,57 @@ +--- +title: "WKV Time Mixing" +created: 2026-06-18 +updated: 2026-06-18 +type: concept +tags: ["rwkv", "attention", "linear-complexity", "time-mixing"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# WKV Time Mixing + +## 定义 + +WKV(Weighted Key Value)Time Mixing 是 RWKV 架构的核心时间混合算子,可视为线性注意力的 RNN 变体。它负责将历史信息与当前 token 信息进行加权融合,是 RWKV 对标准注意力机制的 O(n²) → O(n) 替代。 + +## 核心形式 + +WKV 的一般模式: +``` +w_t = f_w(x_t) # 输入依赖的衰减权重 +k_t = W_k · x_t # Key 投影 +v_t = W_v · x_t # Value 投影 +r_t = W_r · x_t # Receptance(门控) +state_t = w_t ⊙ state_{t-1} + v_t^T · k_t +output = r_t ⊙ (W_o · state_t) +``` + +## 从 RWKV-4 到 RWKV-7 的演化 + +| 版本 | WKV 形式 | 状态维度 | +|------|---------|---------| +| RWKV-4 | `state_t = e^{-w} · state_{t-1} + e^{k_t} · v_t` | 向量 | +| RWKV-5/6 | `S_t = S_{t-1} · diag(w_t) + v_t^T · k_t` | 矩阵 | +| **RWKV-7** | `S_t = S_{t-1} · (diag(w_t) - κ̂^T(a_t⊙κ̂)) + v_t^T·k_t` | 矩阵 + Delta | + +关键趋势:WKV 从简单的指数衰减(RWKV-4)→ 逐通道动态衰减(RWKV-5/6)→ **梯度下降式选择性更新(RWKV-7)**。 + +## 与注意力的关系 + +| 算子 | 机制 | 复杂度 | 状态 | +|------|------|--------|------| +| Softmax Attention | Q-K^T 全对全交互 | O(n²) | KV cache 线性增长 | +| WKV (RWKV) | 循环式加权累积 | O(n) | 固定大小状态 | + +WKV 可以理解为将注意力的"查询所有历史 token"压缩为"将历史压缩进状态再查询"。 + +## 相关概念 + +- [[token-shift]] — WKV 的局部时序注入 +- [[rwkv]] — WKV 所在的架构系列 +- [[linear-attention-methods]] — 线性注意力的其他方案 +- [[generalized-delta-rule]] — RWKV-7 的 WKV 升级 +- [[peng-rwkv7|RWKV-7 论文]] + +## 参考 + +- [[peng-rwkv7|RWKV-7 "Goose"]] (Peng et al., 2025) diff --git a/index.md b/index.md index 9708cfa..3351ad9 100644 --- a/index.md +++ b/index.md @@ -1,7 +1,7 @@ # LLM Wiki > 知识索引页面 — 自动生成 -> 最后更新:2026-06-17 | 总页面数:914 +> 最后更新:2026-06-25 | 总页面数:1249 ## Concepts @@ -9,6 +9,7 @@ - [[abductive-reasoning-recommendation]] — 溯因推理 (推荐) — Abductive Reasoning in Recommendation - [[absolute-gating]] — 绝对门控与相对门控 (Absolute vs Relative Gating) - [[abstract-representation-space]] — 抽象表征空间 (Abstract Representation Space) +- [[ace-router]] — ACE-Router — 训练专用路由器 - [[action-applicability]] — Action Applicability (动作合法性判定) - [[action-consequence-prediction]] — 预测行动后果 (Action Consequence Prediction) - [[action-decoder]] — 动作解码器 (Action Decoder) @@ -18,11 +19,14 @@ - [[activation-manifold]] — Activation Manifold - [[activation-steering]] — Activation Steering - [[active-cache-warmup]] — Active Cache Warm-up (主动缓存预热) +- [[active-tool-discovery]] — 主动工具发现 — Active Tool Discovery +- [[active-tool-request]] — Active Tool Request — 结构化工具请求 - [[adapter-protocol]] — 适配器协议 (Adapter Protocol) - [[adaptive-adversary]] — 自适应对手 (Adaptive Adversary) - [[adaptive-computation-time]] — Adaptive Computation Time (ACT) - [[adaptive-harness-simplification]] — Adaptive Harness Simplification(自适应 Harness 简化) - [[additive-combinatorics]] — Additive Combinatorics(加法组合学) +- [[adkv]] — AdaKV - [[agent-capability-stability-gap]] — Agent Capability-Stability Gap(能力-稳定性差距) - [[agent-communication-stack]] — Agent通信协议栈 - [[agent-completion-evaluation]] — Agent Completion Evaluation(Agent 完成度评测) @@ -38,6 +42,10 @@ - [[agent-harness-mini]] — Mini Agent Harness - [[agent-harness-safety]] — Agent Harness Safety - [[agent-mediated-deception]] — 代理中介欺骗 (Agent-Mediated Deception) +- [[agent-memory-five-category-model]] — Agent Memory Five-Category Model (sz 设计) +- [[agent-memory-lifecycle]] — Agent 记忆生命周期 +- [[agent-memory-system]] — Agent 记忆系统 +- [[agent-memory-taxonomy]] — Agent Memory Taxonomy (三索引分型) - [[agent-multidimensional-capability]] — Agent Multidimensional Capability(Agent 多维能力) - [[agent-network-memory-scope]] — Agent网络记忆范围 - [[agent-network-taxonomy]] — Agent网络三层分类法 @@ -48,14 +56,24 @@ - [[agent-robustness-evaluation]] — Agent Robustness Evaluation(Agent 鲁棒性评测) - [[agent-safety-evaluation]] — Agent Safety Evaluation(Agent 安全评测) - [[agent-sandbox]] — Agent Sandbox(Agent 沙箱) +- [[agent-skill]] — Agent Skill — 可复用过程性构件 +- [[agent-skill-atomization]] — Agent Skill 原子化 +- [[agent-skill-ecosystem]] — Agent Skill 生态系统 - [[agent-symbolic-learning]] — Agent Symbolic Learning (Agent 符号学习) - [[agent-token-budget-optimization]] — Agent Token Budget Optimization - [[agent-verification]] — Agent Verification(Agent 验证与评估) +- [[agent-web]] — Agent Web — 开放协作智能体网络 +- [[agentic-cache-manager]] — Agentic Cache Manager +- [[agentic-rag]] — Agentic RAG +- [[agentic-streaming-inference]] — Agentic Streaming Inference - [[agentic-systems]] — Agentic Systems(智能体系统) +- [[agi-critique]] — AGI 批判(AGI Critique) - [[ai-agent-security]] — AI代理安全 - [[ai-alignment]] — AI Alignment (AI对齐) - [[ai-mathematics]] — AI and Mathematics (AI 与数学) +- [[ai-production-tradeoffs]] — AI 生产权衡 — 六大维度 - [[ai-safety]] — AI Safety (AI安全) +- [[aidb]] — AIDB(大模型友好数据层) - [[aleatoric-uncertainty]] — 随机不确定性 (Aleatoric Uncertainty) - [[algebraic-numbers-countability]] — 代数数的可数性 - [[algorithmic-equity]] — 算法公平性 (Algorithmic Equity) @@ -63,48 +81,71 @@ - [[analytical-report-synthesizer]] — Analytical Report Synthesizer - [[and-or-interactions]] — AND-OR 交互 (AND-OR Interactions) - [[anthropic-agent-evals]] — Anthropic Agent Evals +- [[anthropomorphization-critique]] — 人类化机器批判(Anthropomorphization Critique) - [[api-key-authentication]] — API Key 认证 (API Key Authentication) +- [[appearance-bias-vla]] — Appearance Bias in VLA - [[arxiv]] — arXiv +- [[asymmetric-grounding-adherence-loss]] — Asymmetric Grounding Adherence Loss (L_AGA) - [[asynchronous-rl-llm]] — 异步强化学习与大语言模型后训练 +- [[atlas-memory-system]] — Atlas Memory System - [[attention-entropy-collapse]] — 注意力熵崩溃 (Attention Entropy Collapse) +- [[attention-mechanism]] — Attention Mechanism - [[attention-sinks]] — 注意力汇 (Attention Sinks) +- [[attractor-dynamics]] — 吸引子动力学 (Attractor Dynamics) +- [[audio-visual-generation]] — Audio-Visual Generation +- [[audio-visual-representation-alignment]] — Audio-Visual Representation Alignment - [[autoharness]] — AutoHarness - [[automated-theorem-proving]] — 自动定理证明 (Automated Theorem Proving, ATP) - [[automatic-prompt-optimization]] — APO 自动提示工程 (Automatic Prompt Optimization) +- [[autonomous-optimization-ao]] — Autonomous Optimization (AO) +- [[autoregressive-unrolling]] — 自回归展开 (Autoregressive Unrolling) +- [[autoregressive-video-generation]] — Autoregressive Video Generation - [[auxiliary-predictive-objectives]] — 辅助预测目标 (Auxiliary Predictive Objectives) - [[backtranslation-round-trip-relay]] — Backtranslation Round-Trip Relay - [[banach-space]] — Banach 空间 (Banach Space) - [[bare-adapter]] — Bare Adapter +- [[barker-gibbs]] — Barker Gibbs - [[base-table-embedding]] — Base Table Embedding - [[bastiani-calculus]] — Bastiani 微积分 (Bastiani Calculus) +- [[batch-vs-real-time-inference]] — 批处理推理 vs 实时推理 - [[bayesian-attention-geometry]] — Bayesian Attention Geometry (贝叶斯注意力几何) - [[bayesian-attention-trilogy]] — Bayesian Attention Trilogy - [[bayesian-deep-learning]] — 贝叶斯深度学习 (Bayesian Deep Learning) +- [[bayesian-filtering]] — 贝叶斯滤波 - [[bayesian-nonparametric-tpp]] — 贝叶斯非参数 TPP (Bayesian Nonparametric TPP) - [[bayesian-wind-tunnels]] — Bayesian Wind Tunnels - [[belief-accumulation]] — Belief Accumulation (信念累积) +- [[belief-state]] — 信念状态 (Belief State) - [[belief-transport]] — Belief Transport (信念传输) - [[bellman-taylor-score-decoding]] — Bellman-Taylor 得分解码 (BTSD) - [[bidirectional-trajectory-evaluation]] — 双向轨迹评估 (Bidirectional Trajectory Evaluation) - [[binding-constraint-thesis]] — Binding-Constraint Thesis(约束瓶颈论) +- [[block-causal-attention]] — Block-Causal Attention - [[block-sparse-attention]] — Block-Sparse Attention Mask (分块稀疏注意力掩码) +- [[bm25-financial-retrieval]] — BM25 金融检索 - [[boundary-compliance]] — Boundary Compliance - [[bounded-reuse]] — 有界复用 (Bounded Reuse) - [[bpf-syscall-interception]] — BPF系统调用拦截 - [[btsd-ppo]] — BTSD-PPO +- [[build-vs-buy-llm]] — 构建 vs 购买 — Build vs Buy (LLM) - [[bypass-network-handle-distribution]] — Bypass Network Handle Distribution (旁路网络句柄分发) +- [[cace-principle]] — CACE 原理 — Change Anything Changes Everything - [[cache-cold-start]] — Cache Cold-Start (缓存冷启动) - [[cache-health-observability]] — Cache Health Observability(缓存健康度可观测性) - [[cache-hit-ratio]] — Cache Hit Ratio (CHR) - [[cache-invalidation]] — Cache Invalidation(缓存失效) - [[cache-safe-forking]] — Cache-Safe Forking(缓存安全分叉) - [[caddy-web-server]] — Caddy Web Server +- [[candidate-graph]] — 候选图 — Candidate Graph - [[capability-control-tradeoff]] — Capability-Control Tradeoff(能力-控制权衡) - [[capability-degradation]] — 能力退化 (Capability Degradation) - [[catastrophic-forgetting]] — 灾难性遗忘 (Catastrophic Forgetting) - [[causal-decomposition-pomg]] — 因果分解 (Causal Decomposition in POMG) +- [[causal-generation]] — Causal Generation - [[causal-information-flow]] — Causal Information Flow +- [[causal-multimodal-vae]] — Causal Multimodal VAE - [[cel-shading-style]] — 赛璐璐风格 (Cel-Shading) +- [[center-manifold-theorem]] — Center Manifold Theorem (中心流形定理) - [[centralized-agent-architecture]] — 集中式Agent架构 - [[certainty-based-loss]] — Certainty-Based Loss - [[certainty-based-rewards]] — 确定性奖励 (Certainty-Based Rewards) @@ -114,14 +155,17 @@ - [[cl-bench-life]] — CL-Bench Life - [[classifier-free-guidance-language]] — Classifier-Free Guidance for Language - [[claw-swe-bench-lite]] — Claw-SWE-Bench Lite +- [[clawforce]] — ClawForce — 企业 AI Agent 方案 - [[clawless]] — ClawLess - [[clean-conditioning-mask]] — 清洁条件掩码 (Clean-Conditioning Mask) - [[clinical-ai]] — 临床人工智能 (Clinical AI) - [[coarse-grained-counting]] — 粗粒度计数 (Coarse-grained Counting) +- [[coarse-grained-recurrence]] — 粗粒度循环 (Coarse-Grained Recurrence) - [[coarse-to-fine-granularity]] — Coarse-to-Fine Granularity - [[coconut]] — COCONUT: 连续潜空间推理 - [[code-as-harness]] — Code as Harness - [[cognitive-architecture]] — Cognitive Architecture (认知架构) +- [[collectivist-ai]] — 集体主义 AI(Collectivist AI) - [[compiled-ai-paradigm]] — Compiled AI Paradigm (编译型 AI 范式) - [[completeness-logic]] — 完备性 (Completeness, 逻辑学) - [[composable-base-model-architecture]] — Composable Base Model Architecture @@ -132,15 +176,22 @@ - [[concept-lattice]] — 概念格 (Concept Lattice) - [[concept-learning]] — 概念学习:几何视角 (Concept Learning: Geometric View) - [[conditional-intensity-function]] — 条件强度函数 (Conditional Intensity Function) +- [[conditional-memory]] — Conditional Memory - [[conditional-model-dispatcher]] — Conditional Model Dispatcher - [[confidence-correctness-alignment]] — 置信度-正确性对齐 (Confidence-Correctness Alignment) - [[consistency-logic]] — 一致性 (Consistency, 逻辑学) +- [[constant-kv-cache]] — Constant KV Cache +- [[content-based-reasoning]] — Content-Based Reasoning +- [[content-diversity-decay]] — 内容多样性衰减(Content Diversity Decay) - [[content-grounded-retrieval]] — Content-Grounded Retrieval — Faithfulness as First Principle +- [[content-homogenization]] — 内容同质化(Content Homogenization) - [[content-question-answering]] — Content Question Answering (CQA) +- [[context-anchoring]] — 历史上下文锚定(Context Anchoring) - [[context-blue-clique]] — Context Blue Clique(上下文蓝色团) - [[context-compression]] — Context Compression(上下文压缩) - [[context-drift]] — Context Drift(上下文漂移) - [[context-engineering]] — Context Engineering(上下文工程) +- [[context-enriched-embeddings]] — 上下文增强嵌入 — Context Enriched Embeddings - [[context-learning]] — 上下文学习 (Context Learning) - [[context-management]] — Context Management(上下文管理) - [[context-misuse]] — 上下文误用 (Context Misuse) @@ -156,6 +207,8 @@ - [[control-affine-mdp]] — 控制仿射 MDP (Control-Affine MDP) - [[controlled-autonomy]] — Controlled Autonomy (受控的自主性) - [[controlled-text-generation]] — Controlled Text Generation +- [[convex-hull-relaxation]] — Convex-Hull Relaxation (KV Cache) +- [[coordinator-executor-architecture]] — Coordinator-Executor Architecture - [[cost-aware-benchmarking]] — 代价感知基准评测 (Cost-Aware Benchmarking) - [[cost-quality-speed-trilemma]] — Cost-Quality-Speed Trilemma(成本-质量-速度三元悖论) - [[countable-uncountable-infinity]] — 可数与不可数无穷 @@ -165,17 +218,23 @@ - [[crawl4ai]] — Crawl4AI - [[critical-failures]] — Critical Failures / 关键失败 - [[critpt]] — CritPt (Critical Point Benchmark) +- [[cross-head-budget-allocation]] — Cross-Head Budget Allocation - [[cross-model-harness-transfer]] — Cross-Model Harness Transfer(跨模型 Harness 迁移) - [[cross-section-synthesis]] — Cross-Section Synthesis — Information Integration Across Document Parts - [[curvine-distributed-cache]] — Curvine 云原生分布式缓存 +- [[dag-reasoning-evaluation]] — DAG-based Reasoning Evaluation - [[darwin-godel-machine]] — Darwin Gödel Machine (达尔文·哥德尔机) - [[data-augmentation]] — 数据增强 (Data Augmentation) - [[data-hierarchical-governance]] — Data Hierarchical Governance (L0-L4 数据分级治理) - [[data-label-consistency]] — Data-Label Consistency (数据-标签一致性) +- [[data-markets]] — 数据市场(Data Markets) - [[data-quality-over-scale]] — Data Quality over Scale (数据质量重于规模) +- [[data-quality-vs-quantity]] — 数据数量 vs 数据质量 - [[data-replay]] — 数据回放 (Data Replay) - [[data-slice]] — Data Slice +- [[data-swamp]] — 数据沼泽 — Data Swamp - [[data-wall]] — 数据墙 (Data Wall) +- [[dcgwm]] — DCGWM (双通道接地世界建模) - [[ddcadam]] — DDCAdam (Dead-Direction-Calibrated Adam) - [[dead-direction]] — 死方向 (Dead Direction) - [[decentralized-agent-architecture]] — 去中心化Agent架构 @@ -184,11 +243,17 @@ - [[deep-rl-scaling]] — 扩展深度强化学习 (Scaling Deep RL) - [[deep-thinking-sft]] — Deep-Thinking SFT (深思考SFT数据) - [[deep-variational-implicit-process]] — 深度变分隐式过程 (DVIP) +- [[deepencoder]] — DeepEncoder +- [[deepseek-ocr]] — DeepSeek OCR - [[deepseek-r1]] — DeepSeek-R1 - [[deepseek-v4-flash]] — DeepSeek-V4-Flash - [[deepseek-vit]] — DeepSeek-ViT +- [[default-tools]] — Default Tools — 始终可用的通用工具 - [[delegate-52]] — DELEGATE-52 - [[delegated-work]] — Delegated Work / 委托工作 +- [[delta-rule]] — Delta Rule +- [[depth-dilemma]] — 深度困境 (Depth Dilemma) +- [[depth-recurrence]] — 深度循环 (Depth Recurrence) - [[depth-scaling-signal-degradation]] — LLM 深度扩展与信号退化 - [[deterministic-agent-failures]] — Deterministic Agent Failures(确定性 Agent 失败分类) - [[dgae]] — Difficulty-Balanced Group Advantage Estimation (DGAE) @@ -197,6 +262,7 @@ - [[diagonalization-method]] — 对角线方法 (Diagonalization Method) - [[differentiable-token-budgeting]] — Differentiable Token Budgeting - [[diffusion-based-tpp]] — 扩散时间点过程 (Diffusion-based TPP) +- [[diffusion-transformer]] — Diffusion Transformer (DiT) - [[dime-dynamic-in-database-modeling-engine]] — DIME (Dynamic In-Database Modeling Engine) - [[discrete-diffusion-language-models]] — discrete-diffusion-language-models - [[distractor-context]] — Distractor Context / 干扰上下文 @@ -205,28 +271,44 @@ - [[distributed-prompt-caching]] — Distributed Prompt Caching (分布式提示词缓存) - [[distribution-shift]] — Distribution Shift(分布偏移) - [[document-degradation]] — Document Degradation / 文档退化 +- [[domain-aware-preference-optimization]] — Domain-Aware Preference Optimization - [[domain-knowledge-reasoning]] — 领域知识推理 (Domain Knowledge Reasoning) - [[domain-specific-evaluation]] — Domain-Specific Evaluation / 领域特定评估 - [[dominant-shuffle]] — Dominant Shuffle - [[double-descent]] — 双下降 (Double Descent) - [[dpo]] — DPO (Direct Preference Optimization) +- [[dpo-bias-mitigation]] — DPO Bias Mitigation - [[dqw]] — Difficulty-Aware Question-Level Weighting (DQW) - [[drift-detection]] — 漂移检测 (Drift Detection) +- [[drifting]] — Temporal Drift (时序漂移) +- [[dual-collapse]] — Dual Collapse in Latent CoT - [[dual-layer-rl]] — Dual-Layer RL (双层强化学习) - [[dual-space-rl]] — Dual Space RL (DSRL) - [[duo-attention]] — DuoAttention - [[dynamic-in-database-modeling]] — Dynamic In-Database Modeling - [[dynamic-mode-decomposition]] — Dynamic Mode Decomposition (DMD) - [[dynamic-model-fusion]] — Dynamic Model Fusion +- [[dynamic-react]] — Dynamic ReAct — 动态工具选择 - [[dynamic-relation-modeling]] — Dynamic Relation Modeling +- [[dynamic-state-evolution]] — Dynamic State Evolution +- [[dynamic-token-limit]] — 动态 Token 限制 (Dynamic Token Limit) - [[dynamic-weight-updates]] — Dynamic Weight Updates +- [[e-values]] — E-values(证据值) +- [[edge-of-stability]] — Edge of Stability (EoS) +- [[ellipsis-prompt]] — 省略号提示 (Ellipsis Prompt) - [[eluder-dimension]] — Eluder 维度 (Eluder Dimension) - [[embedded-language-flows]] — Embedded Language Flows (ELF) - [[eml-operator]] — EML 算子 (Exp-Minus-Log) - [[emmy-noether]] — 埃米·诺特 (Emmy Noether) +- [[emotional-reasoning-bias]] — Emotional Reasoning Bias - [[emotional-value-evaluation]] — 情绪价值评估 (Emotional Value Evaluation) - [[empirical-discovery-simulation]] — 经验发现与模拟 (Empirical Discovery & Simulation) +- [[empirical-fisher]] — Empirical Fisher (经验 Fisher 信息) +- [[end-to-end-ocr]] — End-to-End OCR +- [[end-to-end-streaming-interaction]] — End-to-End Streaming Interaction - [[endogenous-reasoning]] — Endogenous Reasoning(内生推理) +- [[engram]] — Engram (Conditional Memory Module) +- [[enhanced-state-space-models]] — 增强状态空间模型 (Enhanced State-Space Models) - [[ensemble-based-rewards]] — 集成奖励 (Ensemble-Based Rewards) - [[environment-contract-layer]] — Environment Contract Layer(环境契约层) - [[epistemic-uncertainty]] — 认知不确定性 (Epistemic Uncertainty) @@ -243,20 +325,31 @@ - [[experience-representation]] — 经验表示 (Experience Representation) - [[exploratory-dynamics]] — 探索动力学 (Exploratory Dynamics) - [[exponential-decay-reward]] — 指数衰减奖励 (Exponential Decay Reward) +- [[extended-kalman-filter]] — 扩展 Kalman 滤波 +- [[fact-augmented-key-expansion]] — Fact-Augmented Key Expansion - [[fading-memory]] — 衰减记忆 (Fading Memory) - [[faithfulness-in-ai]] — Faithfulness in AI - [[feature-absorption]] — 特征吸收 (Feature Absorption) - [[feature-family]] — 特征家族 (Feature Family) - [[feature-splitting]] — 特征分裂 (Feature Splitting) +- [[feedforward-depth-limitation]] — 前馈深度局限 (Feedforward Depth Limitation) - [[few-shot-learning]] — Few-Shot Learning (少样本学习) - [[fiber-of-parametrization]] — 参数化纤维 (Fiber of Parametrization) +- [[financial-agent-permission]] — 金融 Agent 权限管控 +- [[financial-llm-deployment]] — 金融行业大模型部署约束 +- [[financial-llm-model-selection]] — 金融大模型选型 +- [[financial-llm-requirements]] — 金融行业好需求工程 - [[fine-grained-counting]] — 细粒度计数 (Fine-grained Counting) +- [[first-lyapunov-coefficient]] — First Lyapunov Coefficient (第一Lyapunov系数) - [[fisher-information-metric]] — Fisher 信息度量 (Fisher Information Metric) +- [[fisher-lipschitz]] — Fisher-Lipschitz 假设类 +- [[fisher-width]] — Fisher Width (Fisher 宽度) - [[five-axis-positional-encoding]] — 五轴位置编码 (Five-Axis Positional Encoding) - [[fixed-mean-gaussian-process]] — 固定均值高斯过程 (Fixed-Mean Gaussian Process) - [[flash-attention]] — FlashAttention - [[flash-attention-3]] — FlashAttention-3 - [[flex-attention]] — FlexAttention +- [[flip-bifurcation]] — Flip Bifurcation (翻转分岔) - [[flow-matching]] — Flow Matching - [[forecasting-augmentation-taxonomy]] — Forecasting Augmentation Taxonomy - [[formal-concept-analysis]] — 形式概念分析 (Formal Concept Analysis) @@ -264,28 +357,41 @@ - [[formal-systems]] — 形式系统 (Formal System) - [[formal-verification]] — Formal Verification (形式化验证) - [[forward-authentication]] — 外部认证委托 (Forward Authentication) +- [[forward-repair-ladder]] — Forward-Repair Ladder +- [[foundation-model-frontier-bias]] — 基础模型前沿偏倚(Foundation Model Frontier Bias) - [[fourier-filter-dynamics]] — Fourier Filter for Dynamics(Fourier Filter 动力学分解) - [[fp4-quantization-training]] — FP4 Quantization-Aware Training - [[freetimegs]] — FreeTimeGS - [[freqmask-freqmix]] — FreqMask / FreqMix +- [[full-duplex-interaction]] — Full-Duplex Interaction - [[function-space-modeling]] — 函数空间建模 (Function-Space Modeling) - [[functional-input-neural-networks]] — 函数输入神经网络 (Functional Input Neural Network) - [[furstenberg-correspondence]] — Furstenberg Correspondence Principle - [[future-commit-cleanup]] — Future-Commit 清理 (Future-Commit Cleanup) +- [[gambling-gibbs]] — Gambling Gibbs +- [[gaussian-filtering]] — 高斯滤波 +- [[gaussian-manifold]] — 高斯流形 - [[gaussian-process]] — 高斯过程 (Gaussian Process) +- [[gaussian-width]] — Gaussian Width (高斯宽度) +- [[gbrain-memory]] — GBrain Memory System - [[gene-bench]] — Gene-Bench - [[gene-evolution-protocol]] — 基因进化协议 (GEP) - [[gene-probe]] — 基因探针 (Gene Probe) - [[generalization-bounds]] — 泛化界 (Generalization Bounds) +- [[generalized-delta-rule]] — Generalized Delta Rule - [[generation-verification-asymmetry]] — 生成-验证不对称性 (Generation-Verification Asymmetry) - [[generative-general-unification]] — Generative-General-Unification (GenAI 三支柱) - [[generative-perplexity]] — generative-perplexity - [[generative-recommendation]] — 生成式推荐 (Generative Recommendation) +- [[generative-reconstruction-latent]] — Generative Reconstruction (Latent) - [[genetic-programming]] — Genetic Programming (遗传编程) +- [[geometric-compression-latent]] — Geometric Compression (Latent CoT) - [[geometric-ramsey-theory]] — Geometric Ramsey Theory(几何拉姆齐理论) - [[georg-cantor]] — 格奥尔格·康托尔 (Georg Cantor) - [[gflownet-fine-tuning]] — GFlowNet 微调 +- [[gibbs-posterior]] — Gibbs 后验 - [[glitch-art-style]] — 故障艺术 (Glitch Art) +- [[global-combinatorial-optimization]] — Global Combinatorial Optimization (KV Cache) - [[global-context-hash-tree]] — Global Context Hash Tree (全局上下文哈希树) - [[godel-incompleteness-theorems]] — 哥德尔不完备定理 (Gödel's Incompleteness Theorems) - [[godel-numbering]] — 哥德尔编码 (Gödel Numbering) @@ -308,6 +414,7 @@ - [[halting-problem]] — 停机问题 (Halting Problem) - [[hard-token]] — Hard Token - [[hardening-execution-environments]] — Hardening Execution Environments(硬化执行环境) +- [[hardware-aware-algorithm]] — Hardware-Aware Algorithm (Mamba) - [[harness-as-action-verifier]] — Harness-as-Action-Verifier - [[harness-as-policy]] — Harness-as-Policy (Code as Policy) - [[harness-coupling-problem]] — Harness Coupling Problem(Harness 耦合问题) @@ -317,35 +424,51 @@ - [[harnessaudit]] — HarnessAudit - [[hars]] — HARS(调和适应保留评分) - [[hawkes-process]] — Hawkes 过程 (Hawkes Process) +- [[head-level-budget-allocation]] — Head-Level Budget Allocation +- [[head-structure-ssm]] — SSM 多头结构 (Head Structure for SSMs) - [[heavily-compressed-attention]] — Heavily Compressed Attention (HCA) - [[held-out-validation-gate]] — Held-Out Validation Gate (留出验证门) - [[heuristic-learning]] — Heuristic Learning (启发式学习) +- [[heuristic-metric]] — Heuristic Metric (KV Cache) - [[hidden-audit-channel]] — Hidden Audit Channel - [[hidden-symmetries-neural]] — 隐藏对称性 (Hidden Symmetries) +- [[hierarchical-semantic-routing]] — 层次语义路由 — Hierarchical Semantic Routing - [[hierarchy-preservation]] — Hierarchy Preservation — Structural Knowledge for Literature Ranking - [[hilberts-program]] — 希尔伯特计划 (Hilbert's Program) +- [[hippo]] — HiPPO (High-order Polynomial Projection Operators) +- [[history-aware-routing]] — 历史感知路由 — History-Aware Routing - [[honest-open-subset]] — Honest 开子集 (Honest Open Subset) - [[hrpo]] — HRPO: Hybrid Reasoning Policy Optimization - [[human-agent-trust]] — 人机信任 (Human-Agent Trust) - [[human-centered-ai]] — Human-Centered AI (以人类为中心的 AI) +- [[human-in-the-loop]] — Human-in-the-Loop — 人机协同 - [[hybrid-attention-architecture]] — Hybrid Attention Architecture - [[hybrid-reasoning]] — 混合推理 (Hybrid Reasoning) +- [[hybrid-reasoning-models]] — 混合推理模型 (Hybrid Reasoning Models) +- [[hybrid-recall-pipeline]] — Hybrid Recall Pipeline (BM25 + Dense) - [[hyperagents]] — Hyperagents (超智能体) - [[hypergraph-ramsey-number]] — Hypergraph Ramsey Number(超图拉姆齐数) - [[hyperplane-arrangements]] — 超平面排列 (Hyperplane Arrangements) +- [[hypothesis-tree-refinement]] — Hypothesis Tree Refinement (HTR) - [[identity-reference-resolution]] — 身份指代消解 (Identity Reference Resolution) - [[image-generation-prompt-design]] — 图像生成 Prompt 设计 - [[implicit-processes]] — 隐式过程 (Implicit Processes) - [[in-context-learning]] — 上下文学习 (In-Context Learning) +- [[in-context-learning-rate]] — In-Context Learning Rate - [[in-database-analytics]] — In-Database Analytics +- [[induction-heads]] — Induction Heads - [[inference-primitives]] — Inference Primitives (推理原语) - [[inference-time-scaling]] — Inference-Time Scaling(推理时扩展) - [[infinite-dimensional-manifolds]] — 无限维流形 (Infinite-Dimensional Manifolds) - [[infinite-width-limit]] — 无限宽度极限 (Infinite-Width Limit) - [[infinity-hierarchy]] — 无穷层级体系 (Infinity Hierarchy) +- [[information-cocoons]] — 信息茧房(Information Cocoons) - [[information-flow-control]] — Information Flow Control - [[information-geometry]] — 信息几何 (Information Geometry) +- [[information-leakage-vla]] — Information Leakage in VLA +- [[information-performance-binding]] — Information-Performance Binding - [[input-superposition]] — Input Superposition +- [[insight-backpropagation]] — Insight Backpropagation - [[intensity-free-modeling]] — Intensity-free 建模 - [[interaction-based-explanation]] — 交互基解释 (Interaction-Based Explanation) - [[interaction-generalizability]] — 交互泛化性 (Interaction Generalizability) @@ -354,19 +477,28 @@ - [[interleaved-gui-tool-trajectory-scaling]] — Interleaved GUI-Tool Trajectory Scaling Pipeline - [[internal-ticks]] — Internal Ticks - [[internal-world-model]] — Internal World Model +- [[intersectional-persona-evaluation]] — Intersectional Persona Evaluation - [[intervention-multiplier]] — Intervention Multiplier +- [[intra-head-eviction]] — Intra-Head Eviction - [[intrabench]] — IntraBench — Benchmark for Content-Grounded Literature QA - [[intragent]] — IntrAgent — Structural-Aware Literature Reading Agent - [[intraview]] — IntraView — Content-Grounded Literature Information Retrieval - [[intrinsic-rewards-sharpening]] — 内在奖励锐化机制 (Intrinsic Rewards Sharpening) +- [[inward-only-gradient-flow]] — Inward-Only Gradient Flow (内向梯度流) +- [[isolation-necessity-theorem]] — Isolation Necessity Theorem (隔离必要性定理) +- [[isotonic-regression]] — Isotonic Regression - [[itemic-text-alignment]] — Itemic-Text 对齐 (Itemic-Text Alignment) - [[itemic-tokens]] — Itemic Token +- [[iterative-capability-extension]] — 迭代能力扩展 — Iterative Capability Extension - [[iterative-code-refinement]] — Iterative Code Refinement (迭代代码精炼) - [[iterative-reading]] — Iterative Reading — Progressive Information Extraction from Literature - [[ito-calculus]] — Itô 微积分 (Itô Calculus) - [[jagged-frontier]] — Jagged Frontier / 锯齿前沿 - [[jepa]] — JEPA (Joint Embedding Predictive Architecture) +- [[jepa-for-robotics]] — JEPA for Robotics - [[k-pass-training]] — K-Pass Training (K 遍训练) +- [[kalman-filter]] — Kalman 滤波 +- [[keydiff]] — KeyDiff - [[kl-order]] — KL 阶 (KL Order) - [[klein-blue]] — 克莱因蓝 (Klein Blue / IKB) - [[knowledge-adaptation]] — 知识适应 (Knowledge Adaptation) @@ -383,18 +515,29 @@ - [[koopman-theory]] — Koopman Theory(Koopman 理论) - [[kore-augmentation]] — KORE-AUGMENTATION(知识导向增强) - [[kore-constraint]] — KORE-CONSTRAINT(知识导向约束) +- [[kv-cache]] — KV Cache - [[kv-cache-bottleneck]] — KV 缓存内存瓶颈 +- [[kv-cache-eviction]] — KV Cache Eviction - [[kvcache-transfer]] — KVCache 传输与优化 - [[language-gradient]] — Language Gradient (语言梯度) - [[language-loss]] — Language Loss (语言损失) +- [[large-reasoning-models]] — 大推理模型 (Large Reasoning Models) +- [[latent-action-pretraining]] — Latent-Action Pretraining - [[latent-reasoning]] — 潜在推理 (Latent Reasoning) - [[latent-score-mdp]] — 潜在得分 MDP (Latent-Score MDP) +- [[latent-thought-models]] — 隐式思考模型 (Latent Thought Models) - [[latent-variable-generative-model]] — Latent-Variable Generative Model(潜在变量生成模型) +- [[latent-world-model]] — Latent World Model (Robotics) +- [[layered-memory-architecture]] — 三层记忆架构 +- [[leakage-free-state-prediction]] — Leakage-Free State Prediction - [[length-extrapolation]] — 长度外推 (Length Extrapolation) - [[leopold-kronecker]] — 利奥波德·克罗内克尔 (Leopold Kronecker) - [[leworldmodel]] — LeWorldModel - [[lifecycle-aware-harness]] — Lifecycle-Aware Harness(生命周期感知 Harness) - [[lifecycle-orchestration]] — Lifecycle & Orchestration(生命周期与编排) +- [[lifting-identity]] — Lifting Identity (提升恒等式) +- [[light-routing-agent]] — 轻量路由 Agent — Light Routing Agent +- [[linear-attention]] — 线性注意力 (Linear Attention) - [[linear-attention-methods]] — 线性注意力方法 (Linear Attention Methods) - [[linear-quadratic-regulator]] — 线性二次调节器 (Linear Quadratic Regulator) - [[linear-representation-hypothesis]] — Linear Representation Hypothesis @@ -402,18 +545,30 @@ - [[llama-factory]] — LLaMA-Factory - [[llm-applications]] — LLM 应用 - [[llm-based-temporal-point-process]] — LLM 时间点过程 (LLM-based TPP) +- [[llm-consistent-reasoning]] — LLM Consistent Reasoning - [[llm-evaluation-benchmarks]] — LLM 评测基准体系 +- [[llm-mcmc]] — LLM-MCMC - [[logfire]] — Logfire - [[logical-model-interaction]] — 交互逻辑模型 (Logical Model of Interactions) - [[long-context-understanding]] — 长上下文理解 (Long-Context Understanding) - [[long-horizon-evaluation]] — Long-Horizon Evaluation / 长视界评估 +- [[long-horizon-parsing]] — Long-Horizon Parsing +- [[long-horizon-utility]] — Long-Horizon Utility +- [[long-range-dependency]] — Long-Range Dependency +- [[long-term-interactive-memory]] — Long-Term Interactive Memory +- [[longmem-eval]] — LongMemEval Benchmark +- [[look-ahead-buffer-controller]] — Look-Ahead Buffer Controller - [[lora]] — LoRA (Low-Rank Adaptation) - [[lost-in-the-middle]] — Lost in the Middle - [[lovasz-local-lemma]] — Lovász Local Lemma - [[lucas-penrose-argument]] — 卢卡斯-彭罗斯论证 (Lucas-Penrose Argument) +- [[lukv]] — LU-KV (Long-horizon Utility KV) - [[macro-level-token-economics]] — Macro-Level Token Economics +- [[mamba-2]] — Mamba-2 - [[mamba-ssm]] — Mamba (State Space Model) - [[manifold-constrained-hyper-connections]] — Manifold-Constrained Hyper-Connections (mHC) +- [[manifold-of-minimizers]] — Manifold of Minimizers (极小值流形) +- [[marginal-utility]] — Marginal Utility (KV Cache) - [[marked-temporal-point-process]] — 标记时间点过程 (Marked TPP) - [[martingale-clt]] — 鞅中心极限定理 (Martingale CLT) - [[math-question-reformulation]] — 数学问题多维度改写 @@ -423,12 +578,24 @@ - [[mathforge]] — MathForge 框架 - [[maze-navigation]] — 迷宫导航 (Maze Navigation) - [[mc-dropout]] — MC Dropout (Monte Carlo Dropout) +- [[mcp-protocol]] — MCP 协议 — Model Context Protocol +- [[mcp-tools-dataset]] — MCP-tools 数据集 +- [[me2-principle]] — ME² Principle - [[mechanistic-interpretability]] — 机制可解释性 (Mechanistic Interpretability) +- [[megatron-lm]] — Megatron-LM +- [[mem2skill]] — Mem2Skill — 记忆到技能转化 +- [[memcube]] — MemCube — 最小记忆单元 - [[memory-caching-rnn]] — Memory Caching (MC) +- [[memory-compute-decoupling]] — Memory-Compute Decoupling +- [[memory-consolidation]] — Memory Consolidation(写后提炼) +- [[memory-dedup-pipeline]] — 记忆去重管线 +- [[memory-governance]] — 记忆治理 — Memory Governance +- [[memory-indexing-retrieval-reading]] — Memory Indexing-Retrieval-Reading Framework - [[meso-level-token-economics]] — Meso-Level Token Economics - [[messy-context-reasoning]] — 混乱上下文推理 (Messy Context Reasoning) - [[meta-jctrader]] — Meta-JCTrader - [[meta-learning]] — Meta-Learning (元学习) +- [[meta-tools]] — Meta Tools — 管理工具的工具 - [[metacognitive-self-modification]] — Metacognitive Self-Modification (元认知自我修改) - [[metamathematics]] — 元数学 (Metamathematics) - [[micro-level-token-economics]] — Micro-Level Token Economics @@ -438,18 +605,22 @@ - [[mixture-of-attention-schemes]] — Mixture of Attention Schemes (MoAS) - [[mixture-of-depths-attention]] — Mixture-of-Depths Attention (MoDA) - [[mixture-of-experts]] — Mixture of Experts (MoE) +- [[ml-technical-debt]] — ML 技术债务 - [[mme-voke]] — MMEVOKE - [[model-collapse-step]] — 模型崩溃步 (Model Collapse Step, MCS) +- [[model-driven-vs-app-driven-memory]] — 模型驱动 vs 应用驱动记忆 - [[model-free-rl]] — Model-Free 强化学习 (Model-Free RL) - [[model-harness-relationship]] — Model-Harness Relationship (模型与Harness关系) - [[model-steering]] — Model Steering - [[moe-lora]] — MoELoRA - [[moe-lora-toolchain-conflict]] — MOE + LoRA 工具链冲突 +- [[moment-matching-filter]] — 矩匹配滤波 - [[monocular-video-to-4d]] — 单目视频到 4D (Monocular Video to 4D) - [[mqr]] — Multi-Aspect Question Reformulation (MQR) - [[mrq-algorithm]] — MR.Q 算法 (MR.Q Algorithm) - [[multi-agent-orchestration]] — Multi-Agent Orchestration(多 Agent 编排) - [[multi-agent-safety]] — Multi-Agent Safety +- [[multi-agent-spiral]] — 多智能体螺旋(Multi-Agent Spiral) - [[multi-dimensional-synthetic-data]] — 多维合成数据 (Multi-Dimensional Synthetic Data) - [[multi-head-attention]] — Multi-Head Attention (MHA) - [[multi-head-latent-attention]] — Multi-head Latent Attention (MLA) @@ -468,6 +639,8 @@ - [[muon-optimizer]] — Muon Optimizer - [[nachbin-theorem]] — Nachbin 定理 - [[native-sparse-attention]] — Native Sparse Attention (NSA) +- [[native-streaming-ar-training]] — Native Streaming AR Training +- [[natural-gradient-descent]] — 自然梯度下降 - [[negative-sample-reinforcement]] — Negative Sample Reinforcement (NSR) - [[neural-synchronization]] — Neural Synchronization as Representation - [[neural-tangent-kernel]] — 神经正切核 (Neural Tangent Kernel) @@ -479,15 +652,21 @@ - [[neuron-pairing]] — Neuron Pairing - [[neuroscience]] — Neuroscience (神经科学) - [[next-state-grounding]] — Next-State Grounding +- [[ngram-embedding]] — N-gram Embedding (in LLMs) - [[non-anticipative-functionals]] — 非预期泛函 (Non-Anticipative Functionals) - [[non-stationary-time-series]] — Non-stationary Time Series(非平稳时间序列) +- [[non-thinking-mode]] — 非思考模式 (Non-Thinking Mode) +- [[normal-tangent-decomposition]] — Normal-Tangent Decomposition (法向-切向分解) - [[ntk-aware-interpolation]] — NTK-aware 位置编码插值 - [[null-space]] — 零空间 (Null Space) - [[null-space-projection-knowledge]] — 零空间投影知识保留 (Null Space Projection for Knowledge Retention) - [[objective-driven-ai]] — 目标驱动AI (Objective-Driven AI) +- [[objective-interference-collapse]] — Objective Interference Collapse (目标干扰坍缩) - [[observability]] — Observability & Operations(可观测性与运维) - [[observable-operator-model]] — 可观测算子模型 (Observable Operator Model, OOM) - [[off-policy-llm-post-training]] — Off-Policy LLM 后训练 +- [[offline-profiling]] — Offline Profiling (LU-KV) +- [[omnidocbench]] — OmniDocBench - [[on-policy-distillation]] — On-Policy Distillation (OPD) - [[on-policy-learning-collapse]] — On-policy Learning Collapse - [[one-pass-fine-tuning]] — One-Pass Fine-Tuning (单遍微调) @@ -495,22 +674,33 @@ - [[onerec]] — OneRec 生成式推荐模型族 - [[open-telemetry]] — OpenTelemetry (OTel) - [[openclaw]] — OpenClaw +- [[opinion-polarization]] — 观点极化(Opinion Polarization) - [[optimal-gui-tool-path-selection]] — Optimal GUI-Tool Path Selection +- [[optimality-gap]] — Optimality Gap +- [[oracle-importance]] — Oracle Importance +- [[order-bias-removal]] — Order Bias Removal - [[osworld-mcp]] — OSWorld-MCP Benchmark - [[output-aware-metric]] — Output-Aware Metric (OAM) +- [[overthinking]] — 过度思考 (Overthinking) - [[pac-bayesian-bounds]] — PAC-Bayesian 泛化界 (PAC-Bayesian Bounds) +- [[pageindex]] — PageIndex - [[paley-graph]] — Paley Graph +- [[parallel-scan]] — Parallel Scan (Parallel Associative Scan) - [[parametrization-map]] — 参数化映射 (Parametrization Map) - [[pareto-frontier-evaluation]] — Pareto 前沿评测 (Pareto Frontier Evaluation) - [[paris-harrington-theorem]] — Paris-Harrington Theorem(巴黎-哈灵顿定理) - [[partially-observable-markov-game]] — 部分可观测马尔可夫博弈 (Partially Observable Markov Game, POMG) - [[pass-at-k-vs-pass-k]] — Pass@k vs Pass^k(能力上限 vs 可靠性下限) +- [[passive-vs-active-knowledge]] — 被动知识 vs 主动知识 - [[patch-based-evaluation]] — Patch-Based Evaluation (基于 Patch 的评测合约) - [[path-tracing]] — 路径追踪 (Path Tracing) - [[pdf-processing]] — PDF Processing - [[peano-arithmetic]] — 皮亚诺算术 (Peano Arithmetic, PA) +- [[per-index-time-decay]] — Per-Index Time Decay - [[perception-cognition-recommendation]] — 感知-认知推荐层次 (R0-R3) - [[perception-gap]] — 感知鸿沟 (Perception Gap) +- [[persona-invariant-reasoning]] — Persona-Invariant Reasoning +- [[personalization-trap]] — 个性化陷阱 (Personalization Trap) - [[pldm]] — PLDM (Pretrained Latent Dynamics Model) - [[poisson-process]] — 泊松过程 (Poisson Process) - [[policy-constrained-execution]] — Policy-Constrained Execution @@ -524,12 +714,14 @@ - [[post-action-configuration]] — 后动作配置 (Post-Action Configuration) - [[post-hoc-reasoning-rl]] — 后置推理 RL (Post-Hoc Reasoning RL) - [[post-train-space-rl]] — Post-train Space Reinforcement Learning +- [[posterior-linearization-filter]] — 后验线性化滤波 - [[posterior-lipschitz-adversary]] — 后验李普希茨对手 (Posterior-Lipschitz Adversary) - [[practitioner-research-gap]] — Practitioner-Research Gap(从业者-研究鸿沟) - [[pre-activation-history]] — Pre-Activation History - [[pre-hoc-reasoning-rl]] — 前置推理 RL (Pre-Hoc Reasoning RL) - [[pre-train-space-reinforcement-learning]] — Pre-train Space Reinforcement Learning (PreRL) - [[precision-weighted-fusion]] — 精度加权融合 (Precision-Weighted Fusion) +- [[prediction-driven-inference]] — 预测驱动推断(Prediction-Driven Inference) - [[predictive-representation-learning]] — 预测表征学习 (Predictive Representation Learning) - [[preference-log-odds]] — Preference Log-Odds - [[preference-utility-analysis]] — Preference–Utility Analysis @@ -537,27 +729,37 @@ - [[prefill-decode-disaggregation]] — Prefill-Decode 分离架构 (PD Disaggregation) - [[prefix-matching]] — Prefix Matching(前缀匹配) - [[preserved-interactions-backbone]] — 保留交互作为推理支柱 (Preserved Interactions as Inference Backbone) +- [[pretraining-statistical-bias]] — 预训练统计偏好(Pretraining Statistical Bias) - [[primitive-completeness]] — Primitive Completeness (原语完备性) - [[primitive-recursive-functions]] — 原始递归函数 (Primitive Recursive Functions) - [[probabilistic-method]] — Probabilistic Method(概率方法) +- [[probability-matching]] — 概率匹配(Probability Matching) +- [[procedural-gap]] — 过程性鸿沟 — Procedural Gap - [[procedural-skill]] — 过程技能 (Procedural Skill) - [[procedural-skill-layer]] — Procedural Skill Layer(程序技能层) - [[procedural-task-execution]] — 程序性任务执行 (Procedural Task Execution) +- [[product-stability]] — Product-Stability (乘积稳定性) - [[program-synthesis]] — Program Synthesis (程序合成) - [[prompt-caching]] — Prompt Caching +- [[prompt-engineering-vs-fine-tuning]] — 提示词工程 vs 微调 - [[prompt-layering]] — Prompt Layering(提示分层) - [[prompt-reverse-engineering]] — 图片反推 Prompt (Prompt Reverse Engineering) - [[prompt-to-harness-evolution]] — Prompt-to-Harness Evolution(三阶段工程演进) - [[prope]] — PRoPE (Projective Rotary Position Encoding) +- [[prospective-memory-index]] — Prospective Memory Index (前瞻记忆索引) +- [[pseudo-huber-loss]] — Pseudo-Huber 损失 - [[pydantic]] — Pydantic - [[pydantic-ai]] — Pydantic AI - [[pydantic-core]] — pydantic-core +- [[pyramidkv]] — PyramidKV - [[qlora]] — QLoRA (量化低秩适配) - [[quadrotor-trajectory-following]] — 四旋翼轨迹跟踪 (Quadrotor Trajectory Following) - [[query-intent-analyzer]] — Query Intent Analyzer - [[question-quality-vs-quantity]] — Question Quality vs. Quantity(问题质量 vs 数量) - [[queueing-network-control]] — 排队网络控制 (Queueing Network Control) +- [[rademacher-complexity]] — Rademacher Complexity - [[rag]] — RAG (检索增强生成) +- [[rag-closed-loop]] — RAG 闭环迭代(RAG Closed-Loop Iteration) - [[rag-systems]] — RAG 系统 - [[ramsey-context-cache]] — Ramsey Context Cache(拉姆齐上下文缓存) - [[ramsey-context-graph]] — Ramsey Context Graph(拉姆齐上下文图) @@ -569,13 +771,19 @@ - [[random-graph-theory]] — Random Graph Theory(随机图理论) - [[real-life-context-learning]] — 真实生活上下文学习 (Real-Life Context Learning) - [[real-log-canonical-threshold]] — 实对数典范阈值 (Real Log Canonical Threshold, RLCT) +- [[reasoning-quality-optimization]] — Reasoning Quality Optimization - [[recommendation-cot]] — 推荐思维链 (Recommendation CoT) - [[recommendation-reasoning]] — 推荐推理 (Recommendation Reasoning) - [[rectified-flows]] — Rectified Flows +- [[recurrence-taxonomy]] — 循环分类法 (Recurrence Taxonomy) +- [[recurrent-transformer-architectures]] — 循环Transformer架构 (Recurrent Transformer Architectures) - [[recursive-reasoning-models]] — Recursive Reasoning Models(递归推理模型) - [[recursive-self-improvement]] — Recursive Self-Improvement (递归自我改进) - [[reer-reverse-knowledge-extraction]] — REER 逆向知识提炼 - [[reference-gap]] — 引用鸿沟 (Reference Gap) +- [[reference-sliding-window-attention]] — Reference Sliding Window Attention (R-SWA) +- [[regular-language-recognition]] — Regular Language Recognition +- [[reinforced-online-policy-distillation]] — Reinforced Online-Policy Distillation (ROPD) - [[reinforcement-learning]] — 强化学习 (Reinforcement Learning) - [[reinforcement-learning-trading]] — Reinforcement Learning Trading(强化学习交易) - [[rejected-edit-buffer]] — Rejected-Edit Buffer (拒绝编辑缓冲) @@ -590,88 +798,136 @@ - [[representation-learning-rl]] — RL中的表征学习 (Representation Learning in RL) - [[representation-space]] — Representation Space - [[representation-validity]] — Representation Validity +- [[representational-alignment]] — 表征对齐 (Representational Alignment) +- [[research-hypothesis-tree]] — Research Hypothesis Tree - [[resource-access-control]] — Resource Access Control - [[reverse-proxy-authentication]] — 反向代理认证 (Reverse Proxy Authentication) +- [[reward-hacking]] — Reward Hacking(奖励黑客) - [[reward-hacking-llm]] — LLM 奖励黑客 (Reward Hacking in LLMs) - [[reward-model]] — 奖励模型 (Reward Model, RM) - [[reward-recency-sampling]] — 奖励-最近度混合采样 - [[richard-dedekind]] — 里夏德·狄德金 (Richard Dedekind) - [[risograph-print-style]] — Riso 印刷风格 (Risograph Print Style) - [[rlhf]] — RLHF (Reinforcement Learning from Human Feedback) +- [[rlhf-alignment-amplification]] — RLHF 对齐放大(RLHF Alignment Amplification) - [[rlvr-unified-framework]] — RLVR 统一理论框架 +- [[role-setting-entrenchment]] — 角色设定固化(Role-Setting Entrenchment) - [[rolling-kv-cache]] — 滚动 KV 缓存 (Rolling KV Cache) +- [[rollout-drift]] — Rollout Drift (推演漂移) - [[rotary-position-embedding]] — 旋转位置编码 (RoPE) - [[rough-path-theory]] — 粗糙路径理论 (Rough Path Theory) - [[round-trip-reconstruction-score]] — Round-Trip Reconstruction Score (RS@k) - [[rule-system-application]] — 规则系统应用 (Rule System Application) +- [[runtime-governance]] — 运行时治理 — Skill Governance - [[runtime-harness-adaptation]] — Runtime Harness Adaptation(运行时骨架适配) - [[runtime-interface-adaptation]] — Runtime Interface Adaptation(运行时接口适配) - [[russells-paradox]] — 罗素悖论 (Russell's Paradox) - [[russian-constructivism]] — 俄国构成主义 (Russian Constructivism) +- [[rwkv]] — RWKV (Receptance Weighted Key Value) - [[s-token]] — S-Token (Superposed Token) - [[safety-adherence-rate]] — Safety Adherence Rate - [[scaling-permutation-symmetry]] — 缩放与置换对称性 (Scaling & Permutation Symmetries) - [[scientific-literature-qa]] — Scientific Literature QA — Question Answering over Research Papers - [[sde-sampler-language]] — SDE Sampler for Language Diffusion - [[se3-relative-camera-encoding]] — SE(3) 相对相机编码 +- [[search-and-load]] — Search and Load — 精选工具加载 - [[searcher-trainer-decoupling]] — Searcher-Trainer 解耦架构 - [[section-ranking]] — Section Ranking — Structure-Aware Literature Section Prioritization - [[secure-containers]] — 安全容器 - [[seer-attention]] — SeerAttention +- [[selective-copy]] — Selective Copying +- [[selective-hitl]] — 选择性 HITL — Selective Human-in-the-Loop +- [[selective-state-space]] — Selective State Space (S6) +- [[selective-state-space-models]] — 选择性状态空间模型 (Selective State Space Models) - [[self-conditioning]] — Self-Conditioning +- [[self-evolutionary-mutation]] — 自进化变异 — Self-Evolutionary Mutation - [[self-evolving-agents]] — Self-Evolving Agents (自进化 Agent) - [[self-evolving-benchmark]] — 自进化基准 (Self-Evolving Benchmark) - [[self-improving-ai]] — Self-Improving AI (自我改进人工智能) - [[self-reference]] — 自指 (Self-Reference) +- [[self-resampling]] — Self-Resampling - [[self-verification-rewards]] — 自我验证奖励 (Self-Verification Rewards) - [[semantic-equivalence]] — Semantic Equivalence / 语义等价 - [[semi-algebraic-set]] — 半代数集 (Semi-algebraic Set) +- [[semiseparable-matrices]] — 半可分矩阵 (Semiseparable Matrices) - [[sequence-packing]] — Sequence Packing (序列打包) +- [[sequential-dependency]] — 顺序依赖 (Sequential Dependency) - [[set-theory-history]] — 集合论史 - [[sft-denoising-stage]] — SFT 去噪阶段 (SFT Denoising Stage) - [[sft-early-stopping]] — SFT 早停策略 (SFT Early Stopping) +- [[sglang]] — SGLang - [[shadow-calling]] — Shadow Calling (影子调用) - [[shapley-values]] — Shapley 值 (Shapley Values) - [[shared-parameter-influence]] — Shared Parameter Influence - [[shared-weight-discretization]] — Shared-Weight Discretization +- [[sharpness]] — Sharpness (锐度) - [[signature]] — 签名 (Signature of Paths) - [[sigreg]] — SIGReg (Sketch Isotropic Gaussian Regularization) - [[singular-learning-theory]] — 奇异学习理论 (Singular Learning Theory) - [[singularity]] — Singularity (奇点) - [[sink-token]] — 汇 Token (Sink Token) +- [[situational-test-emotional-understanding]] — Situational Test of Emotional Understanding (STEU) +- [[skill-acquisition]] — Skill 获取 — 四种路径 - [[skill-as-external-state]] — Skill as External State (Skill 作为外部状态) +- [[skill-composition]] — Skill 组合 — 多技能编排 - [[skill-data-flywheel]] — Skill Data Flywheel (Skill 数据飞轮) - [[skill-ecosystem]] — Skill Ecosystem (Skill 生态系统) +- [[skill-evolution]] — Skill 演化 — 修订→验证→治理 +- [[skill-lifecycle]] — Skill 生命周期 - [[skill-probe]] — 技能探针 (Skill Probe) +- [[skill-representation]] — Skill 表示 — 文本/代码/混合 +- [[skill-retrieval]] — Skill 检索 — 稠密/稀疏/生成/结构 +- [[skill-selection]] — Skill 选择 — 上下文/组合/效用/反馈 - [[skillopt]] — SkillOpt - [[slow-meta-update]] — Slow/Meta Update (慢/元更新) +- [[snapkv]] — SnapKV +- [[social-capital-framework]] — Social Capital Framework (AI Bias) +- [[social-video]] — Social Video +- [[social-world-model]] — Social World Model +- [[socialvideo-bench]] — SocialVideo Bench - [[soft-actor-critic]] — Soft Actor-Critic (SAC) +- [[soft-supersession]] — Soft-Supersession - [[soft-token]] — Soft Token - [[softmax-off-by-one]] — SoftMax-off-by-One - [[sovereign-ai]] — 主权AI (Sovereign AI) +- [[space-supervision]] — Space Supervision - [[sparse-attention-patterns]] — 稀疏注意力模式 (Sparse Attention Patterns) - [[sparse-autoencoder]] — 稀疏自编码器 (Sparse Autoencoder) +- [[sparsity-allocation]] — Sparsity Allocation (U-shaped Law) - [[specialist-training-pipeline]] — Specialist Training Pipeline - [[specialize-then-unify-rl]] — Specialize-then-Unify RL - [[specialized-rl]] — 专项强化学习 (Specialized RL) - [[specialized-sft]] — 专项监督微调 (Specialized SFT) - [[spectral-mdp-decomposition]] — 谱 MDP 分解 (Spectral MDP Decomposition) - [[spiking-neural-networks]] — Spiking Neural Networks (SNN) +- [[spiral-of-silence]] — 沉默的螺旋(Spiral of Silence) - [[split-steering]] — SPLIT Steering - [[spurious-predictability]] — Spurious Predictability +- [[ssd-algorithm]] — SSD 算法 (Structured State Space Duality Algorithm) - [[stage-matched-data-config]] — Stage-Matched Data Configuration (分阶段数据配置) - [[standard-agent-handoffs]] — Standard Agent Handoffs(标准化 Agent 交接) - [[state-dependent-feasible-action-sets]] — 状态依赖可行动作集 (State-Dependent Feasible Action Sets) +- [[state-space-models]] — 状态空间模型 (State-Space Models) +- [[state-tracking]] — 状态追踪 (State Tracking) +- [[statistical-contract-theory]] — 统计合同理论(Statistical Contract Theory) +- [[statistical-manifold]] — Statistical Manifold (统计流形) - [[staug]] — STAug (EMD-based Augmentation) - [[steering-dynamics]] — Steering Dynamics - [[steering-vector]] — Steering Vector +- [[stein-lemma]] — Stein 引理 - [[stem-sparse-attention]] — Stem Sparse Attention +- [[step-recurrence]] — 步级循环 (Step Recurrence) - [[stochastic-differential-equation]] — 随机微分方程 (Stochastic Differential Equation) - [[stochastic-latent-trajectory]] — Stochastic Latent Trajectory(随机潜在轨迹) - [[strategy-engineering-unification]] — Strategy-Engineering Unification (策略与工程统一) - [[strategy-gene]] — 策略基因 (Strategy Gene) +- [[streaming-generation]] — Streaming Generation +- [[streaming-inference]] — Streaming Inference - [[structured-knowledge]] — 结构化知识 (Structured Knowledge) +- [[structured-masked-attention]] — 结构化掩码注意力 (Structured Masked Attention) - [[structured-output]] — 结构化输出 (Structured Output) +- [[structured-state-space-duality]] — 结构化状态空间对偶 (Structured State Space Duality) +- [[structured-state-space-models]] — Structured State Space Models (S4) - [[stub-pattern]] — Stub Pattern(轻量化桩模式) - [[subquadratic-transformer-alternatives]] — 次二次 Transformer 替代方案 - [[sufficiency-check]] — Sufficiency Check — Explicit Hallucination Gate in Literature QA @@ -697,10 +953,12 @@ - [[taylor-expansion-q-function]] — Q 函数 Taylor 展开 (Taylor Expansion of Q-Function) - [[tba]] — Trajectory Balance with Asynchrony (TBA) - [[teacher-forced-history]] — 教师强制历史 (Teacher-Forced History) +- [[temperature-sampling]] — 温度采样(Temperature Sampling) - [[temporal-decay-neural]] — Temporal Decay (Neural) - [[temporal-patch-shuffle]] — Temporal Patch Shuffle (TPS) - [[temporal-point-process]] — 时间点过程 (Temporal Point Process) - [[temporal-rollout]] — 时间滚动展开 (Temporal Rollout) +- [[tensor-contraction-duality]] — 张量收缩对偶 (Tensor Contraction Duality) - [[terminal-bench]] — Terminal-Bench - [[test-time-control]] — 测试时控制 (Test-Time Control) - [[test-time-scaling]] — Test-Time Scaling @@ -708,26 +966,33 @@ - [[text-space-optimizer]] — Text-Space Optimizer (文本空间优化器) - [[text-vs-weight-optimization]] — Text vs Weight Optimization (文本 vs 权重优化) - [[textual-learning-rate]] — Textual Learning Rate (文本学习率) +- [[thinker-performer-pipeline]] — Thinker-Performer Pipeline +- [[thinking-based-non-thinking]] — TNT: 基于思考的非思考 (Thinking-Based Non-Thinking) +- [[thinking-mode]] — 思考模式 (Thinking Mode) +- [[thinking-reward-model]] — Thinking Reward Model (TRM) - [[thinking-supervision-transfer]] — Thinking Supervision Transfer - [[thompson-sampling-code-search]] — Thompson Sampling Code Search - [[three-engineering-phases]] — Three Engineering Phases(三阶段工程演进) - [[three-stage-curriculum-training]] — 三阶段课程训练 (Three-Stage Curriculum Training) - [[throughput-hypothesis]] — Throughput Hypothesis (吞吐量假说) +- [[time-aware-query-expansion]] — Time-Aware Query Expansion - [[time-series-forecasting-augmentation]] — Time Series Forecasting Augmentation - [[time-variant-dynamics]] — Time-variant Dynamics(时变动力学) - [[token-as-economic-primitive]] — Token as Economic Primitive - [[token-duplication]] — Token Duplication (Token 复制) - [[token-economics]] — Token Economics - [[token-efficiency]] — Token 效率 (Token Efficiency) +- [[token-level-policy-gradient]] — Token 级策略梯度 (Token-Level Policy Gradient) - [[token-market-dynamics]] — Token Market Dynamics - [[token-position-decay]] — Token Position-Decay (TPD) - [[token-security-economics]] — Token Security Economics +- [[token-shift]] — Token Shift - [[token-superposition-training]] — Token Superposition Training (TST) - [[token-wise-routing]] — 逐Token路由 (Token-Wise Routing) - [[tool-bootstrapped-rft]] — Tool-Bootstrapped GUI RFT - [[tool-efficient-path-reward]] — Tool-Efficient Path Reward - [[tool-interface]] — Tool Interface & Protocol Layer(工具接口与协议层) -- [[tool-registry]] — ToolRegistry +- [[tool-registry]] — 工具注册表 — Tool Registry - [[tpp-applications]] — TPP 应用场景 - [[tpp-training-methods]] — TPP 训练方法 - [[trace-native-evaluation]] — Trace-Native Evaluation(踪迹原生评估) @@ -735,7 +1000,10 @@ - [[trajectory-auditing]] — Trajectory Auditing - [[trajectory-balance-objective]] — Trajectory Balance (TB) 目标 - [[trajectory-regulation-layer]] — Trajectory Regulation Layer(轨迹调控层) +- [[trajectory-supervision]] — Trajectory Supervision +- [[trajectory-synthesis]] — 轨迹合成 — Trajectory Synthesis - [[transfer-learning]] — Transfer Learning (迁移学习) +- [[trm-preference-dataset]] — TRM-Preference Dataset - [[two-phase-pretraining]] — Two-Phase Pre-Training - [[two-time-scale-process]] — 双时间尺度过程 (Two Time-Scale Process) - [[type-safety-in-agents]] — Agent 类型安全 (Type Safety in Agents) @@ -745,22 +1013,30 @@ - [[uncertainty-disparity-ratio]] — 不确定性差异比 (Uncertainty Disparity Ratio, UDR) - [[uncertainty-equity-gap]] — 不确定性公平性差距 (Uncertainty Equity Gap, UEG) - [[uncertainty-quantification]] — 不确定性量化 (Uncertainty Quantification) +- [[uncertainty-taxonomy]] — Jordan 不确定性分类法(Uncertainty Taxonomy) - [[unconditional-generation-latent]] — Unconditional Generation via Latent Reasoning +- [[unified-latent-probe]] — Unified Latent Probe (ULP) - [[unified-rft]] — 统一拒绝采样微调 (Unified RFT) - [[universal-approximation-theorem]] — 通用逼近定理 (Universal Approximation Theorem) +- [[unlimited-ocr]] — Unlimited OCR 模型 +- [[unscented-kalman-filter]] — 无迹 Kalman 滤波 - [[unsupervised-rlvr]] — 无监督可验证奖励强化学习 (URLVR) - [[update-magnitude-imbalance]] — GRPO 更新幅度不平衡 - [[upstream-downstream-learning]] — 上游-下游学习 (Upstream-Downstream Learning) +- [[user-memory-bias]] — User Memory Bias - [[userspace-kernel]] — 用户空间内核 - [[validity-decay]] — Validity Decay - [[van-der-waerden-theorem]] — van der Waerden Theorem - [[variational-autoencoder]] — 变分自编码器 (Variational Autoencoder, VAE) - [[variational-linearized-laplace-approximation]] — 变分线性化 Laplace 近似 (VaLLA) +- [[vector-valued-gating]] — Vector-Valued Gating +- [[verbatim-pre-recall]] — Verbatim Pre-Recall - [[verification-evaluation]] — Verification & Evaluation(验证与评估) - [[vertical-llm-knowledge-engineering]] — 垂域 LLM 知识工程 (Vertical LLM Knowledge Engineering) - [[vicreg]] — VICReg (Variance-Invariance-Covariance Regularization) - [[visibility-constraint]] — Visibility Constraint (可见性约束) - [[visual-primitives]] — 视觉原语 (Visual Primitives) +- [[vla-jepa]] — VLA-JEPA (模型) - [[vla-vision-language-action]] — VLA (Vision-Language-Action) - [[watanabe-triple]] — Watanabe 三元组 (Watanabe's Triple) - [[wavemask-wavemix]] — WaveMask / WaveMix @@ -770,6 +1046,7 @@ - [[wiener-process]] — 维纳过程 (Wiener Process) - [[wikilinks]] — Wikilinks - [[window-attention]] — 窗口注意力 (Window Attention) +- [[wkv-time-mixing]] — WKV Time Mixing - [[world-model-lecun]] — LeCun 世界模型理论 - [[world-models-rl]] — World Models in RL - [[worst-case-threat-model]] — 最坏情况威胁模型 @@ -782,6 +1059,7 @@ - [[advances-temporal-point-processes-2026]] — Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches - [[agarwal-bayesian-attention-geometry]] — The Bayesian Geometry of Transformer Attention - [[agent-harness-engineering-survey]] — Agent Harness Engineering: A Survey +- [[arbor-htr-2026]] — Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026) - [[bartoldson-tba-2025]] — TBA: 异步轨迹平衡 — 解耦探索与学习以实现快速可扩展的 LLM 后训练 - [[behrouz-memory-caching-rnn]] — Memory Caching: RNNs with Growing Memory - [[bellman-taylor-score-decoding]] — Bellman–Taylor Score Decoding for MDPs with State-Dependent Feasible Action Sets @@ -789,34 +1067,52 @@ - [[claw-swe-bench]] — Claw-SWE-Bench: OpenClaw 风格 Agent Harness 的代码任务基准评测 - [[clawless-ai-agent-security]] — ClawLess: AI 代理安全模型 - [[dai-mathforge-2026]] — MathForge: Harder Is Better — 难度感知GRPO与多维度问题改写 +- [[dao-transformers-are-ssms-2024]] — Transformers are SSMs: Generalized Models and Efficient Algorithms Through Struc - [[darlow-ctm-2025]] — Continuous Thought Machines (CTM) - [[dead-directions-geometric-singular-learning]] — Dead Directions: 几何奇异学习理论 - [[deepseek-v4-million-token-context]] — DeepSeek-V4: 迈向高效百万 Token 上下文智能 - [[dou-cl-bench]] — CL-bench: 上下文学习基准——首篇定义context learning范式的论文 - [[elf-embedded-language-flows]] — ELF: Embedded Language Flows +- [[engram-conditional-memory-2026]] — Engram: Conditional Memory via Scalable Lookup (Cheng et al., PKU/DeepSeek-AI, 2 +- [[fei-mcp-zero-2025]] — MCP-Zero:主动工具发现 - [[flex4dhuman]] — Flex4DHuman: 灵活多视角视频扩散用于 4D 人体重建 +- [[gan-bifurcation-eos]] — A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability +- [[gan-thinking-based-non-thinking-2026]] — Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybr +- [[gaurav-dynamic-react-2025]] — Dynamic ReAct:大规模 MCP 工具选择 - [[geometric-sae-concepts]] — A Geometric View for Understanding Concept Learning and Neuron Interpretation in - [[godel-incompleteness-tutorial]] — 哥德尔不完备定理教程 - [[goru-one-pass-to-reason-2025]] — One-Pass to Reason: 多轮推理的高效单遍微调 - [[gram-generative-recursive-reasoning-paper]] — Generative Recursive Reasoning (GRAM) +- [[gu-mamba]] — Mamba: Linear-Time Sequence Modeling with Selective State Spaces +- [[hazare-dcgwm-2026]] — DCGWM: 双通道接地世界建模 — 结构防止目标干扰坍缩 - [[he-urlvr-sharpening-2026]] — How Far Can Unsupervised RLVR Scale LLM Training? - [[hunyuan-team-cl-bench-life]] — CL-Bench Life: 真实生活上下文学习基准 +- [[jordan-collectivist-ai-2025]] — AI 的集体主义经济学视角(Jordan, 2025) - [[kore-knowledge-injection]] — KORE: Knowledge-Oriented Controls for Knowledge Injection - [[laban-llms-corrupt-documents-delegate]] — LLMs Corrupt Your Documents When You Delegate +- [[large-language-gibbs]] — Structured Inference with Large Language Gibbs +- [[latent-cot-supervision]] — What Makes Effective Supervision in Latent Chain-of-Thought - [[li-amd-human-perception]] — "Are You Sure?": Human Perception Vulnerability in LLM Agents - [[liu-auditing-agent-harness-safety]] — Auditing Agent Harness Safety - [[liu-koopa-2023]] — Koopa: Koopman 预测器驱动的非平稳时间序列学习 - [[llm-attention-survey-2026]] — 大语言模型注意力机制全面分析 +- [[longmem-eval-2025]] — LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Wu et - [[lou-autoharness-2026]] — AutoHarness: LLM Agent 的自动代码 Harness 合成 - [[ma-intragent-2026]] — IntrAgent: Content-Grounded Literature Information Retrieval - [[maes-leworldmodel-2026]] — LeWorldModel: Stable End-to-End JEPA from Pixels +- [[maineCoon]] — MaineCoon: Real-Time Audio-Visual Social World Model +- [[me2-trm-reasoning-2026]] — ME² + TRM: Complex Reasoning Optimization (Zhang et al., ICML 2026) - [[minimax-policy-regret-pomg]] — Minimax-Optimal Policy Regret in Partially Observable Markov Games +- [[mozer-topological-trouble-transformers-2026]] — The Topological Trouble With Transformers +- [[nano-filter]] — NANO Filter: 非线性贝叶斯滤波的自然梯度高斯近似 - [[nikolopoulos-spurious-predictability]] — Spurious Predictability in Financial Machine Learning - [[niu-stem-causal-sparse-attention]] — Stem: Rethinking Causal Information Flow in Sparse Attention - [[odrzywolek-eml-single-operator]] — All elementary functions from a single binary operator - [[onereason]] — OneReason: 生成式推荐中的推理能力解锁 - [[ortega-phd-thesis]] — Uncertainty Estimation and Generalization Bounds for Modern Deep Learning +- [[peng-rwkv7]] — RWKV-7 Goose: Expressive Dynamic State Evolution - [[peng-tst-2026]] — Token Superposition Training: 高效 LLM 预训练的 Token 叠加方法 +- [[personalization-trap-2025]] — The Personalization Trap (Fang et al., Amazon, 2025) - [[pre-train-space-reinforcement-learning]] — Pre-train Space Reinforcement Learning (PreRL/DSRL) - [[predictive-representations-scalable-mtrl]] — 预测表征驱动可扩展多任务深度强化学习 - [[principled-uncertainty-clinical-ai]] — Principled Uncertainty in Clinical AI: Bayesian Modelling and Equity Auditing @@ -827,37 +1123,50 @@ - [[repmt-sac]] — Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer - [[song-agent-network-taxonomy]] — Complex networks of AI agentic systems: 拓扑-记忆-更新三层分类法 - [[streaming-llm]] — StreamingLLM: 基于注意力汇的高效流式语言模型 +- [[tang-lukv]] — LU-KV: Predicting Future Utility for KV Cache Eviction - [[tao-klowden-ai-mathematical-methods]] — Mathematical methods and human thought in the age of AI - [[tarpo]] — TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimizati - [[thinking-with-visual-primitives]] — Thinking with Visual Primitives — 以视觉原语思考 - [[ticks-to-flows]] — From Ticks to Flows: Dynamics of Neural RL in Continuous Environments - [[toolcua-optimal-gui-tool-orchestration]] — ToolCUA: Optimal GUI-Tool Path Orchestration for Computer Use Agents +- [[unlimited-ocr-works-2026]] — Unlimited OCR Works (Yin et al., Baidu, 2026) +- [[vla-jepa-2026]] — VLA-JEPA (Sun et al., 2026) +- [[vu-fisher-width-2026]] — Fisher Width: 统计流形上的几何复杂度度量 +- [[wan-streamer]] — Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models - [[weighted-uat-manifolds]] — Weighted Universal Approximation of Differentiable Maps on Infinite-Dimensional - [[when-large-multimodal-models-confront-evolving-knowledge]] — When Large Multimodal Models Confront Evolving Knowledge - [[xing-trails-2024]] — Trails: Database Native Model Selection (VLDB 2024) - [[xu-life-harness]] — Adapting the Interface, Not the Model: Runtime Harness Adaptation for Determinis - [[xu-why-steering-works]] — Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics - [[yang-skillopt-2026]] — SkillOpt: Agent Skill 的文本空间优化器 +- [[yao-ace-router-2026]] — ACE-Router:历史感知路由 - [[zeng-dynamic-model-slicing-2024]] — Powering In-Database Dynamic Model Slicing for Structured Data Analytics (VLDB 2 - [[zeng-neurida-2025]] — NeurIDA: Dynamic Modeling for Effective In-Database Analytics - [[zhang-hyperagents]] — Hyperagents: Self-Referential Agents with Metacognitive Self-Modification - [[zhang-reconciling-sft-interaction-2026]] — Reconciling Contradictory Views on the Effectiveness of SFT in LLMs - [[zhao-neurdb-2025]] — NeurDB: On the Design and Implementation of an AI-powered Autonomous Database (C +- [[zhou-agent-skills-survey-2026]] — A Comprehensive Survey on Agent Skills — 综述 - [[zhou-agent-symbolic-learning-2024]] — Agent Symbolic Learning: 用符号学习实现自进化 Agent - [[zhu-moda-mixture-of-depths]] — Mixture-of-Depths Attention (MoDA) ## Articles +- [[atlas-agent-memory-architecture-2026]] — Atlas Agent 记忆系统架构(2026) - [[caddy-reverse-proxy-auth]] — Caddy 反向代理认证方案 - [[cantor-stole-infinity]] — 窃取无穷的数学家 — 康托尔与狄德金的隐秘合作 - [[claw-eval]] — Claw-Eval:面向自主Agent的端到端评测框架 - [[crawl4ai-open-source-web-crawler]] — Crawl4AI:赋能AI用户的开源智能网页爬虫与数据提取工具 - [[distributed-agent-cache-sync-2026]] — 分布式Agent缓存同步:从单机到多机的Prompt Caching架构升级 +- [[financial-llm-practice-2026]] — 金融行业大模型落地实践(林金曙,2026) - [[gpt-image2-prompt-collection]] — GPT-Image-2 绘图 Prompt 方法论与风格合集 - [[lecun-llm-boundary-future]] — LeCun 论 LLM 的边界与未来架构 +- [[llm-spiral-of-silence-2026]] — LLM 沉默螺旋:算法催生的数字从众 - [[lyu-model-harness-evolution-2026]] — Model与Harness的关系演进:从AutoHarness到Heuristic Learning - [[lyu-skillopt-deep-dive-2026]] — SkillOpt深度解读:自进化Agent技能的'反向传播'与工程化Continued Evolve +- [[memtensor-memos-agent-memory-2026]] — MemOS:Agent 记忆基础设施 +- [[michael-jordan-mlst-collectivist-ai-2026]] — Michael I. Jordan:AI 的集体主义经济学与虚假的 AGI 二元论 - [[mini-agent-harness]] — 从零搭建 Mini Agent Harness +- [[nobrega-ai-production-tradeoffs-2026]] — AI 工程师的 6 种生产权衡 - [[oppo-multimodal-data-lake]] — OPPO 多模态数据湖架构实践 - [[prompt-caching-architecture]] — Prompt Caching 架构工程手册 - [[pydantic-three-piece-suite]] — Pydantic 三件套:从校验库到 AI 基础设施 @@ -875,9 +1184,12 @@ ## Reviews +- [[ace-router-review-20260619]] — ACE-Router Review - [[advances-temporal-point-processes-review-20260616]] — Review: Advances in Temporal Point Processes - [[agent-harness-engineering-review-20260523]] — Review: Agent Harness Engineering Survey - [[agent-network-taxonomy-review-20260501]] — agent-network-taxonomy-review-20260501 +- [[agent-skills-survey-review-20260619]] — Agent Skills Survey Review +- [[arbor-htr-20260624]] — Review: Arbor — Autonomous Research via Hypothesis-Tree Refinement - [[auditing-agent-harness-safety-review-20260605]] — Auditing Agent Harness Safety — Review - [[btsd-review-20260617]] — Bellman-Taylor Score Decoding 论文集成 Review - [[cantor-stole-infinity-2026-06-07]] — 窃取无穷的数学家 — 康托尔与狄德金的历史真相 @@ -886,31 +1198,50 @@ - [[claw-swe-bench-review-20260615]] — Claw-SWE-Bench 论文集成 Review - [[clawless-review-20260422]] — ClawLess: AI 代理安全模型 - Review 报告 - [[ctm-review-20260515]] — Continuous Thought Machines 论文集成 Review +- [[dao-transformers-are-ssms-review-20260618]] — Review: Transformers are SSMs (Mamba-2) +- [[dcgwm-2026-06-23]] — Review: DCGWM — 结构防止目标干扰坍缩的双通道接地世界建模 - [[dead-directions-20260610]] — Review: Dead Directions — Geometric Singular Learning - [[delegate52-review-20260514]] — DELEGATE-52 Review - [[distributed-agent-cache-sync-review]] — Review: 分布式Agent缓存同步 +- [[dynamic-react-review-20260619]] — Dynamic ReAct Review - [[elf-embedded-language-flows-review-20260513]] — Review: ELF — Embedded Language Flows +- [[engram-conditional-memory-20260625]] — Engram Review — 条件记忆作为 Transformer 的新稀疏轴 +- [[fisher-width-2026-06-23]] — Review: Fisher Width — 统计流形上的几何复杂度 - [[flex4dhuman-review-20260613]] — Review: Flex4DHuman — 无几何先验的多视角视频扩散 +- [[gan-bifurcation-eos-20260623]] — Review: Gan Bifurcation EoS +- [[gan-tnt-review-20260618]] — Review: Thinking-Based Non-Thinking (TNT) - [[geometric-sae-review-20260617]] — Geometric SAE 论文集成 Review - [[godel-tutorial-review-20260428]] — 哥德尔不完备定理教程 — Review 报告 - [[hyperagents-review-20260420]] — 📚 Wiki 添加 Review 报告 - Hyperagents 论文 +- [[jordan-collectivist-ai-review-20260621]] — Review: A Collectivist, Economic Perspective on AI - [[koopa-review-20260511]] — Review: Koopa — Koopman 预测器驱动的非平稳时序学习 - [[kore-review-20260521]] — KORE Review +- [[large-language-gibbs-2026-06-25]] — Large Language Gibbs Review +- [[latent-cot-supervision-2026-06-25]] — Latent CoT Supervision Review - [[lecun-llm-20260608]] — Review: LeCun 论 LLM 的边界与未来架构 - [[leworldmodel-20260608]] — Review: LeWorldModel (arXiv:2603.19312) - [[life-harness-review-20260611]] — Life-Harness — Runtime Harness Adaptation 论文 Review - [[llm-attention-survey-review-20260429]] — Review: 大语言模型注意力机制全面分析 +- [[longmem-eval-20250625]] — LongMemEval Review — 长期交互记忆的系统性评测框架 - [[lou-autoharness-review]] — Review: AutoHarness — 自动合成代码 Harness 改进 LLM Agent +- [[lukv-review-20260618]] — Review: LU-KV — Global Combinatorial Optimization for KV Cache Eviction - [[lyu-model-harness-review]] — Review: Model与Harness的关系演进 - [[lyu-skillopt-deep-dive-review]] — Review: SkillOpt深度解读 — 自进化Agent的'反向传播' - [[ma-intragent-review-20260604]] — IntrAgent — Content-Grounded Literature Retrieval Review +- [[mainecoon-review-20260620]] — MaineCoon Review +- [[mamba-review-20260618]] — Review: Mamba — Linear-Time Sequence Modeling with Selective State Spaces - [[mathforge-review-20260512]] — MathForge Review — 2026-05-12 +- [[mcp-zero-review-20260619]] — MCP-Zero Review +- [[me2-trm-reasoning-20260624]] — Review: ME² + TRM — Complex Reasoning Optimization - [[minimax-policy-regret-pomg-20260610]] — Review: Minimax-Optimal Policy Regret in POMGs +- [[mozer-topological-trouble-review-20260618]] — Review: The Topological Trouble With Transformers +- [[nano-filter-20260622]] — NANO Filter Review - [[neurida-review-20260515]] — NeurIDA 论文集成 Review - [[one-pass-to-reason-review-20260602]] — Review: One-Pass to Reason — 多轮推理的高效单遍微调 - [[onereason-review-20260610]] — OneReason Review — 生成式推荐的推理能力解锁 - [[ortega-phd-review-20260617]] — Ortega PhD Thesis 集成 Review - [[peng-tst-2026-review]] — Review: Token Superposition Training +- [[personalization-trap-20260624]] — Review: The Personalization Trap - [[predictive-representations-mtrl-20260610]] — Review: Predictive Representations for Scalable Multitask Deep RL - [[pretrain-space-rl-review-20260518]] — Review: Pre-train Space Reinforcement Learning - [[principled-uncertainty-clinical-ai-20260610]] — Review: Principled Uncertainty in Clinical AI @@ -920,6 +1251,7 @@ - [[ramsey-numbers-survey-review-20260511]] — Review: 拉姆齐数的数学综述 - [[relu-neuromanifolds-20260610]] — Review: ReLU Neuromanifolds — Fibers and Semi-algebraicity - [[repmt-sac-review-20260617]] — RepMT-SAC 论文集成 Review +- [[rwkv7-review-20260618]] — Review: RWKV-7 Goose — Expressive Dynamic State Evolution - [[skills-to-genes-review-20260614]] — Skills to Strategy Genes — Review 报告 - [[stem-causal-sparse-attention-review-20260605]] — Stem: Rethinking Causal Information Flow in Sparse Attention — Review - [[streaming-llm-review-20260514]] — Review: StreamingLLM — 基于注意力汇的无限长流式语言模型 @@ -930,6 +1262,9 @@ - [[token-economics-review-20260605]] — Token Economics for LLM Agents — Review - [[toolcua-review-20260531]] — ToolCUA Review: GUI-Tool路径编排的概念网络分析 - [[ultradata-l3-review]] — Review: UltraData — 大模型数据分级治理的开源实践 +- [[unlimited-ocr-works-20260624]] — Review: Unlimited OCR Works +- [[vla-jepa-20260624]] — Review: VLA-JEPA +- [[wan-streamer-2026-06-25]] — Wan-Streamer v0.1 Review - [[weighted-uat-review-20260617]] — Weighted UAT 论文集成 Review - [[xu-why-steering-works-review-20260601]] — Review: Why Steering Works — 参数动态统一视角 - [[yang-skillopt-review]] — Review: SkillOpt — Agent Skill 的文本空间优化器 diff --git a/log.md b/log.md index 391231b..9591550 100644 --- a/log.md +++ b/log.md @@ -5,6 +5,226 @@ > 操作类型:ingest, update, query, lint, create, archive, delete > 当此文件超过 500 条记录时,轮换:重命名为 log-YYYY.md,重新开始。 + + + + + + + + + + + + + + + + + + + + + +## 2026-06-25 — ingest | Wan-Streamer v0.1 (arXiv:2606.25041, 2026) +- 添加论文 [[wan-streamer]]: "Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models" — 阿里巴巴 Wan Team 的端到端流式全双工音视频交互基础模型 +- 新增 5 个概念页: [[block-causal-attention]], [[full-duplex-interaction]], [[thinker-performer-pipeline]], [[causal-multimodal-vae]], [[end-to-end-streaming-interaction]] +- 更新 4 个已有概念页: [[flow-matching]], [[kv-cache]], [[diffusion-transformer]], [[native-streaming-ar-training]] +- 来源: https://arxiv.org/abs/2606.25041 + + +## 2026-06-25 — ingest | Large Language Gibbs (arXiv:2606.19264, 2026) +- 添加论文 [[large-language-gibbs]]: "Structured Inference with Large Language Gibbs" — Edinburgh 团队的 LLM + Gibbs 采样结构化概率推断框架 +- 新增 5 个概念页: [[llm-mcmc]], [[barker-gibbs]], [[gambling-gibbs]], [[order-bias-removal]], [[llm-consistent-reasoning]] +- 来源: https://arxiv.org/abs/2606.19264 + + +## 2026-06-25 — ingest | Latent CoT Supervision (arXiv:2606.20075, ICML 2026) +- 添加论文 [[latent-cot-supervision]]: "What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis" — 从信息论角度分析潜推理的有效监督机制 +- 新增 7 个概念页: [[dual-collapse]], [[trajectory-supervision]], [[space-supervision]], [[unified-latent-probe]], [[information-performance-binding]], [[generative-reconstruction-latent]], [[geometric-compression-latent]] +- 来源: https://arxiv.org/abs/2606.20075 + +## [2026-06-25] create | Agent Memory Five-Category Model (sz 记忆架构设计) +- 新增概念 [[agent-memory-five-category-model]]: sz 五类记忆模型——知识/概念/Cron/用户绑定/前瞻记忆的完整分类与 Atlas 映射 +- 新增概念 [[prospective-memory-index]]: 前瞻记忆索引——第 5 类记忆(计划/想法/洞察)的锚点设计:语义关联衰减、LLM 重要性分类器、闭合状态管理 +- 更新 [[atlas-memory-system]]: 添加五类模型扩展与前瞻索引交叉引用 + +## [2026-06-25] ingest | LongMemEval: Benchmarking Long-Term Interactive Memory (arXiv:2410.10813, UCLA/Tencent, ICLR 2025) +- 添加论文 [[longmem-eval-2025]]: "LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory" — 500 题 × 5 能力记忆基准 + 三阶段统一框架 +- 新增 5 个概念页: [[long-term-interactive-memory]], [[longmem-eval]], [[memory-indexing-retrieval-reading]], [[fact-augmented-key-expansion]], [[time-aware-query-expansion]] +- 来源: https://arxiv.org/abs/2410.10813 + +## [2026-06-25] ingest | Engram: Conditional Memory via Scalable Lookup (arXiv:2601.07372, PKU/DeepSeek-AI) +- 添加论文 [[engram-conditional-memory-2026]]: "Conditional Memory via Scalable Lookup" — 条件记忆作为 MoE 的互补稀疏轴 +- 新增 5 个概念页: [[conditional-memory]], [[engram]], [[sparsity-allocation]], [[ngram-embedding]], [[memory-compute-decoupling]] +- 来源: https://arxiv.org/abs/2601.07372 + +## [2026-06-24] ingest | Arbor: Hypothesis-Tree Refinement (arXiv:2606.11926, RUC/MSR) +- 添加论文 [[arbor-htr-2026]]: "Toward Generalist Autonomous Research via Hypothesis-Tree Refinement" — Coordinator+Executor 架构 + 假设树持久化 + AO 形式化 +- 新增 5 个概念页: [[hypothesis-tree-refinement]], [[coordinator-executor-architecture]], [[autonomous-optimization-ao]], [[insight-backpropagation]], [[research-hypothesis-tree]] +- 来源: https://arxiv.org/abs/2606.11926 + + +## [2026-06-24] ingest | ME² + TRM: Complex Reasoning Optimization (arXiv:2602.08498, ICML 2026) +- 添加论文 [[me2-trm-reasoning-2026]]: "Characterizing, Evaluating, and Optimizing Complex Reasoning" — ME² 原则 + DAG 推理建模 + Thinking Reward Model +- 新增 5 个概念页: [[me2-principle]], [[thinking-reward-model]], [[dag-reasoning-evaluation]], [[trm-preference-dataset]], [[reasoning-quality-optimization]] +- 复用: [[large-reasoning-models]], [[reward-model]], [[grpo]] +- 来源: https://arxiv.org/abs/2602.08498 + + +## [2026-06-24] ingest | Atlas Agent 记忆系统架构(公众号技术文章) +- 添加文章 [[atlas-agent-memory-architecture-2026]]: "Atlas Agent 记忆系统架构" — 三索引分型 + BM25+dense 混合召回 + consolidation + soft-supersession +- 新增 8 个概念页: [[atlas-memory-system]], [[agent-memory-taxonomy]], [[hybrid-recall-pipeline]], [[verbatim-pre-recall]], [[memory-consolidation]], [[soft-supersession]], [[per-index-time-decay]], [[gbrain-memory]] +- 复用: [[bm25-financial-retrieval]] +- 来源: https://mp.weixin.qq.com/s/fypjVWJBQg_MZV9OMfPpIA + + +## [2026-06-24] ingest | VLA-JEPA (arXiv:2602.10098, cs.RO/cs.CV) +- 添加论文 [[vla-jepa-2026]]: "VLA-JEPA" — JEPA 范式引入 VLA,leakage-free state prediction 修复 latent-action 预训练的信息泄漏 +- 新增 7 个概念页: [[vla-jepa]], [[leakage-free-state-prediction]], [[latent-world-model]], [[latent-action-pretraining]], [[information-leakage-vla]], [[jepa-for-robotics]], [[appearance-bias-vla]] +- 复用: [[jepa]], [[vla-vision-language-action]], [[world-model-lecun]], [[flow-matching]] +- 来源: https://arxiv.org/abs/2602.10098 + + +## [2026-06-24] ingest | The Personalization Trap (arXiv:2510.09905, cs.AI/cs.CL, Amazon) +- 添加论文 [[personalization-trap-2025]]: "The Personalization Trap" — 用户记忆如何系统性改变 LLM 情感推理,优势画像比劣势画像获更准确情感解读 +- 新增 7 个概念页: [[personalization-trap]], [[user-memory-bias]], [[emotional-reasoning-bias]], [[social-capital-framework]], [[situational-test-emotional-understanding]], [[intersectional-persona-evaluation]], [[persona-invariant-reasoning]], [[dpo-bias-mitigation]] +- 复用: [[dpo]] +- 来源: https://arxiv.org/abs/2510.09905 + + +## [2026-06-24] ingest | Unlimited OCR Works (arXiv:2606.23050, cs.CV/cs.CL, Baidu) +- 添加论文 [[unlimited-ocr-works-2026]]: "Unlimited OCR Works" — R-SWA 注意力机制实现恒定 KV cache 的一次前向长程 OCR +- 新增 10 个概念页: [[reference-sliding-window-attention]], [[constant-kv-cache]], [[long-horizon-parsing]], [[deepseek-ocr]], [[deepencoder]], [[omnidocbench]], [[end-to-end-ocr]], [[unlimited-ocr]], [[megatron-lm]], [[sglang]] +- 来源: https://arxiv.org/abs/2606.23050 + + +## [2026-06-24] ingest | 金融行业大模型落地实践(林金曙,DAcon 2026) +- 添加文章 [[financial-llm-practice-2026]]: "金融行业大模型落地实践:从长文档检索到 Agent 工程" — 恒生电子金融 LLM 工程实践全链路分享 +- 新增 9 个概念页: [[pageindex]], [[agentic-rag]], [[financial-llm-requirements]], [[financial-llm-model-selection]], [[bm25-financial-retrieval]], [[agent-skill-atomization]], [[financial-agent-permission]], [[aidb]], [[financial-llm-deployment]] +- 来源: https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg + + +## [2026-06-23] ingest | DCGWM: Dual-Channel Grounded World Modeling (arXiv:2606.18688, cs.LG/cs.AI 2026) +- 添加论文 [[hazare-dcgwm-2026]]: "结构防止目标干扰坍缩的双通道接地世界建模" — 识别 OIC 新失效模式,提出分区潜在空间+内向梯度流架构 +- 新增 6 个概念页: [[objective-interference-collapse]], [[dcgwm]], [[inward-only-gradient-flow]], [[asymmetric-grounding-adherence-loss]], [[rollout-drift]], [[isolation-necessity-theorem]] +- 复用已有概念: [[jepa]], [[vicreg]], [[world-models-rl]], [[representation-collapse]] +- 来源: https://arxiv.org/abs/2606.18688 +- 注: Position paper, 实验验证进行中 + + +## [2026-06-23] ingest | Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds (arXiv:2606.18306, cs.LG/stat.ML 2026) +- 添加论文 [[vu-fisher-width-2026]]: "统计流形上的几何复杂度度量" — 将 Gaussian width 推广到 Fisher 几何,引入 Fisher width 及其泛化界 +- 新增 6 个概念页: [[fisher-width]], [[gaussian-width]], [[statistical-manifold]], [[fisher-lipschitz]], [[lifting-identity]], [[empirical-fisher]] +- 复用已有概念: [[fisher-information-metric]], [[information-geometry]], [[generalization-bounds]], [[natural-gradient-descent]] +- 来源: https://arxiv.org/abs/2606.18306 + + +## [2026-06-23] ingest | A Bifurcation Theory Framework for GD on the Edge of Stability (arXiv:2606.15551, cs.LG 2026) +- 添加论文 [[gan-bifurcation-eos]]: "分岔理论框架下的梯度下降稳定边缘分析" — 将 EoS 稳定性归结为 flip 分岔的 c₁ 符号,统一乘积稳定性为特例 +- 新增 8 个概念页: [[edge-of-stability]], [[flip-bifurcation]], [[first-lyapunov-coefficient]], [[manifold-of-minimizers]], [[normal-tangent-decomposition]], [[sharpness]], [[product-stability]], [[center-manifold-theorem]] +- 来源: https://arxiv.org/abs/2606.15551 + +## [2026-06-22] ingest | NANO Filter — Nonlinear Bayesian Filtering with Natural Gradient Gaussian Approximation (arXiv:2410.15832, eess.SY) +- 添加论文 [[nano-filter]]: "NANO 自然梯度高斯近似滤波" — 跳出线性化框架,直接在 Gaussian 流形上优化后验 +- 新增 11 个概念页: [[bayesian-filtering]], [[kalman-filter]], [[natural-gradient-descent]], [[gaussian-filtering]], [[stein-lemma]], [[gibbs-posterior]], [[gaussian-manifold]], [[moment-matching-filter]], [[pseudo-huber-loss]], [[posterior-linearization-filter]], [[nano-filter]] +- 1 个 Review: [[nano-filter-20260622]] +- 来源: https://arxiv.org/abs/2410.15832 + +## [2026-06-21] ingest | Jordan — A Collectivist, Economic Perspective on AI (arXiv:2507.06268, cs.CY) +- 添加论文 [[jordan-collectivist-ai-2025]]: "AI 的集体主义经济学视角" — LLM 作为集体主义制品,三种思维方式的融合 +- 新增 4 个概念页: [[statistical-contract-theory]], [[e-values]], [[data-markets]], [[probability-matching]] +- 1 个 Review: [[jordan-collectivist-ai-review-20260621]] +- 更新已有概念: [[collectivist-ai]] (追加案例), [[prediction-driven-inference]] (追加 PPI 学术溯源) +- 来源: https://arxiv.org/abs/2507.06268 + + +## [2026-06-21] ingest | Michael I. Jordan MLST访谈 — 机器之心编译 +- 添加文章 [[michael-jordan-mlst-collectivist-ai-2026]]: "AI 的集体主义经济学与虚假的 AGI 二元论" +- 新增 6 个概念页: [[collectivist-ai]], [[uncertainty-taxonomy]], [[prediction-driven-inference]], [[foundation-model-frontier-bias]], [[anthropomorphization-critique]], [[agi-critique]] +- 更新已有概念: [[uncertainty-quantification]] — 追加 Jordan 社会-经济扩展维度 +- 来源: https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ (arXiv:2507.06268) + + +## [2026-06-21] ingest | LLM沉默螺旋综述 — 数据派THU (李媛媛) +- 添加文章 [[llm-spiral-of-silence-2026]]: "大模型沉默螺旋:当算法催生数字从众" — 系统性综述 LLM 在 RAG 闭环与多智能体交互中的算法驱动沉默螺旋 +- 新增 12 个概念页: [[spiral-of-silence]], [[pretraining-statistical-bias]], [[context-anchoring]], [[role-setting-entrenchment]], [[rlhf-alignment-amplification]], [[rag-closed-loop]], [[multi-agent-spiral]], [[content-homogenization]], [[information-cocoons]], [[content-diversity-decay]], [[opinion-polarization]], [[temperature-sampling]] +- 更新已有概念: [[rlhf]], [[rag]] — 追加沉默螺旋维度交叉引用 +- 来源: https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw + + +## [2026-06-20] ingest | MaineCoon (arXiv:2606.17800, cs.CV) +- 添加论文 [[mainecoon]]: "MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model" — 首个实时流式音视频社交世界模型 (22B, 47.5 FPS) +- 新增 15 个概念页: [[social-world-model]], [[self-resampling]], [[reinforced-online-policy-distillation]], [[agentic-streaming-inference]], [[agentic-cache-manager]], [[look-ahead-buffer-controller]], [[forward-repair-ladder]], [[socialvideo-bench]], [[audio-visual-representation-alignment]], [[domain-aware-preference-optimization]], [[audio-visual-generation]], [[autoregressive-video-generation]], [[streaming-generation]], [[diffusion-transformer]], [[social-video]], [[drifting]] +- 1 个 Review: [[mainecoon-review-20260620]] +- 来源: https://arxiv.org/abs/2606.17800 + +## [2026-06-19] ingest | ACE-Router (arXiv:2601.08276, cs.AI) +- 添加论文 [[yao-ace-router-2026]]: "ACE-Router: Generalizing History-Aware Routing from MCP Tools to the Agent Web" — 训练专用路由器 +- 新增 7 个概念页: [[ace-router]], [[history-aware-routing]], [[candidate-graph]], [[self-evolutionary-mutation]], [[trajectory-synthesis]], [[light-routing-agent]], [[agent-web]] +- 来源: https://arxiv.org/abs/2601.08276 + +## [2026-06-19] ingest | Dynamic ReAct (arXiv:2509.20386, cs.SE) +- 添加论文 [[gaurav-dynamic-react-2025]]: "Dynamic ReAct: Scalable Tool Selection for Large-Scale MCP Environments" — 五架构→Search and Load 最优 +- 新增 6 个概念页: [[dynamic-react]], [[meta-tools]], [[search-and-load]], [[context-enriched-embeddings]], [[default-tools]], [[tool-registry]] +- 来源: https://arxiv.org/abs/2509.20386 + +## [2026-06-19] ingest | MCP-Zero (arXiv:2506.01056, cs.AI) +- 添加论文 [[fei-mcp-zero-2025]]: "MCP-Zero: Active Tool Discovery for Autonomous LLM Agents" — 主动工具发现范式 +- 新增 6 个概念页: [[active-tool-discovery]], [[active-tool-request]], [[hierarchical-semantic-routing]], [[iterative-capability-extension]], [[mcp-protocol]], [[mcp-tools-dataset]] +- 来源: https://arxiv.org/abs/2506.01056 + +## [2026-06-19] ingest | MemOS Agent 记忆基础设施(熊飞宇/MemTensor, DataFun) +- 添加文章 [[memtensor-memos-agent-memory-2026]]: MemOS 记忆系统从效率工具到生存关键 +- 新增 9 个概念页: [[agent-memory-system]], [[layered-memory-architecture]], [[model-driven-vs-app-driven-memory]], [[mem2skill]], [[memory-governance]], [[clawforce]], [[agent-memory-lifecycle]], [[memcube]], [[memory-dedup-pipeline]] +- 来源: https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw + +## [2026-06-19] ingest | Six Choices Every AI Engineer Has to Make (Nobrega, 数据派THU) +- 添加文章 [[nobrega-ai-production-tradeoffs-2026]]: AI 工程师的 6 种生产权衡 +- 新增 9 个概念页: [[ai-production-tradeoffs]], [[build-vs-buy-llm]], [[cace-principle]], [[ml-technical-debt]], [[data-quality-vs-quantity]], [[batch-vs-real-time-inference]], [[prompt-engineering-vs-fine-tuning]], [[human-in-the-loop]], [[selective-hitl]], [[data-swamp]] +- 来源: https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA + +## [2026-06-19] ingest | Agent Skills Survey (arXiv:2605.07358) +- 添加论文 [[zhou-agent-skills-survey-2026]]: "A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications" — agent skill 生命周期的系统性综述 +- 新增 12 个概念页: [[agent-skill]], [[procedural-gap]], [[skill-lifecycle]], [[skill-representation]], [[skill-acquisition]], [[skill-retrieval]], [[skill-selection]], [[skill-evolution]], [[skill-composition]], [[agent-skill-ecosystem]], [[passive-vs-active-knowledge]], [[runtime-governance]] +- 来源: https://arxiv.org/abs/2605.07358 + +## [2026-06-18] ingest | Transformers are SSMs: Structured State Space Duality (arXiv:2405.21060, ICML 2024) +- 添加论文 [[dao-transformers-are-ssms-2024]]: "Transformers are SSMs" — Dao & Gu 提出 SSD 框架统一 SSM 和 Attention,设计 Mamba-2 架构 (2-8x 加速) +- 新增 9 个概念页: [[structured-state-space-duality]], [[semiseparable-matrices]], [[structured-masked-attention]], [[mamba-2]], [[ssd-algorithm]], [[linear-attention]], [[selective-state-space-models]], [[tensor-contraction-duality]], [[head-structure-ssm]] +- 更新已有: [[mamba-ssm]], [[state-space-models]] — 添加 Mamba-2 反向链接 +- 来源: https://arxiv.org/abs/2405.21060 + +## [2026-06-18] ingest | Thinking-Based Non-Thinking (arXiv:2601.04805, Preprint) +- 添加论文 [[gan-thinking-based-non-thinking-2026]]: "Thinking-Based Non-Thinking" — TNT: 利用思考模式 solution 长度动态限制非思考 token,解决混合推理模型的 Reward Hacking +- 新增 10 个概念页: [[hybrid-reasoning-models]], [[reward-hacking]], [[overthinking]], [[thinking-based-non-thinking]], [[dynamic-token-limit]], [[non-thinking-mode]], [[thinking-mode]], [[ellipsis-prompt]], [[large-reasoning-models]], [[token-level-policy-gradient]] +- 来源: https://arxiv.org/abs/2601.04805 + +## [2026-06-18] ingest | RWKV-7 "Goose" with Expressive Dynamic State Evolution (arXiv:2503.14456) +- 添加论文 [[peng-rwkv7]]: "RWKV-7 Goose" — 广义 Delta 规则 + 向量值门控,首个超越 TC^0 的并行化 RNN +- 新增 8 个概念页: [[rwkv]], [[delta-rule]], [[generalized-delta-rule]], [[vector-valued-gating]], [[in-context-learning-rate]], [[dynamic-state-evolution]], [[token-shift]], [[wkv-time-mixing]], [[regular-language-recognition]] +- 更新: [[enhanced-state-space-models]] (扩充 RWKV-7 小节) +- 新增 review: [[rwkv7-review-20260618]] +- 来源: https://arxiv.org/abs/2503.14456 | 代码: https://github.com/RWKV/RWKV-LM + +## [2026-06-18] ingest | Mamba: Linear-Time Sequence Modeling with Selective State Spaces (arXiv:2312.00752) +- 添加论文 [[gu-mamba]]: "Mamba" — 选择性状态空间模型,线性时间序列建模 +- 新增 7 个概念页: [[selective-state-space]], [[hardware-aware-algorithm]], [[structured-state-space-models]], [[content-based-reasoning]], [[selective-copy]], [[induction-heads]], [[hippo]] +- 更新 2 个已有概念页: [[mamba-ssm]] (大幅扩充), [[state-space-models]] (追加论文引用) +- 新增 review: [[mamba-review-20260618]] +- 来源: https://arxiv.org/abs/2312.00752 | 代码: https://github.com/state-spaces/mamba + +## [2026-06-18] ingest | Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction (arXiv:2602.08585, ICML 2026) +- 添加论文 [[tang-lukv]]: "LU-KV" — 基于全局组合优化的 head 级 KV Cache 预算分配框架 +- 新增 18 个概念页: [[kv-cache]], [[kv-cache-eviction]], [[lukv]], [[oracle-importance]], [[optimality-gap]], [[long-horizon-utility]], [[marginal-utility]], [[global-combinatorial-optimization]], [[convex-hull-relaxation]], [[offline-profiling]], [[head-level-budget-allocation]], [[intra-head-eviction]], [[cross-head-budget-allocation]], [[heuristic-metric]], [[snapkv]], [[pyramidkv]], [[adkv]], [[keydiff]] +- 新增 review: [[lukv-review-20260618]] +- 来源: https://arxiv.org/abs/2602.08585 + +## [2026-06-18] ingest | The Topological Trouble With Transformers (arXiv:2604.17121, Preprint) +- 添加论文 [[mozer-topological-trouble-transformers-2026]]: "The Topological Trouble With Transformers" — 分析前馈 Transformer 状态追踪的拓扑性局限并提出循环架构分类法 +- 新增 16 个概念页: [[state-tracking]], [[feedforward-depth-limitation]], [[belief-state]], [[depth-dilemma]], [[recurrent-transformer-architectures]], [[recurrence-taxonomy]], [[depth-recurrence]], [[step-recurrence]], [[coarse-grained-recurrence]], [[latent-thought-models]], [[attractor-dynamics]], [[enhanced-state-space-models]], [[representational-alignment]], [[sequential-dependency]], [[autoregressive-unrolling]], [[state-space-models]] +- 来源: https://arxiv.org/abs/2604.17121 + ## [2026-06-17] ingest | Uncertainty Estimation and Generalization Bounds for Modern Deep Learning (PhD Thesis, arXiv:2606.13818, cs.LG 2026) - 添加论文 [[ortega-phd-thesis]]: "Uncertainty Estimation and Generalization Bounds" — PhD论文,DVIP + VaLLA + FMGP + PAC-Chernoff泛化界 - 新增 10 个概念页: [[deep-variational-implicit-process|DVIP]], [[variational-linearized-laplace-approximation|VaLLA]], [[fixed-mean-gaussian-process|FMGP]], [[pac-bayesian-bounds|PAC-Bayesian界]], [[implicit-processes|隐式过程]], [[function-space-modeling|函数空间建模]], [[generalization-bounds|泛化界]], [[double-descent|双下降]], [[deep-gaussian-process|深度GP]], [[gaussian-process|GP]] @@ -49,224 +269,8 @@ ## [2026-06-16] ingest | Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches (TMLR, 2026 OpenReview: SXgGKkShhT) - 添加论文 [[advances-temporal-point-processes-2026]]: "Advances in Temporal Point Processes" — TPP 综述,首篇同时覆盖 Bayesian/Neural/LLM 三大范式 -- 新增 13 个概念页: [[temporal-point-process|时间点过程]], [[conditional-intensity-function|条件强度函数]], [[hawkes-process|Hawkes 过程]], [[poisson-process|泊松过程]], [[neural-temporal-point-process|神经 TPP]], [[bayesian-nonparametric-tpp|贝叶斯非参数 TPP]], [[llm-based-temporal-point-process|LLM TPP]], [[marked-temporal-point-process|标记 TPP]], [[granger-causality-tpp|Granger 因果发现]], [[intensity-free-modeling|Intensity-free 建模]], [[diffusion-based-tpp|扩散 TPP]], [[tpp-training-methods|TPP 训练方法]], [[tpp-applications|TPP 应用场景]] -- 全新领域:时间点过程——此前 wiki 未覆盖 -- 来源: https://openreview.net/forum?id=SXgGKkShhT -## [2026-06-15] ingest | Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks (arXiv:2606.12344, cs.LG/cs.CL 2026) -- 添加论文 [[claw-swe-bench]]: "Claw-SWE-Bench" — 将 agent harness 作为受控实验变量的多语言 SWE-bench 风格评测,附代价感知的 Pareto 前沿分析 -- 新增 11 个概念页: [[agent-harness|Agent Harness]], [[adapter-protocol|Adapter Protocol]], [[bare-adapter|Bare Adapter]], [[claw-swe-bench-lite|Claw-SWE-Bench Lite]], [[cost-aware-benchmarking|Cost-Aware Benchmarking]], [[future-commit-cleanup|Future-Commit Cleanup]], [[harness-model-interaction|Harness-Model Interaction]], [[openclaw|OpenClaw]], [[pareto-frontier-evaluation|Pareto Frontier Evaluation]], [[patch-based-evaluation|Patch-Based Evaluation]], [[swe-bench|SWE-bench]] -- 关键发现: adapter 设计从 19.1% → 73.4% Pass@1;Harness 选择产生至多 27.4 pp 差距;准确率相似时代价可差 170 倍 -- 来源: https://arxiv.org/abs/2606.12344 - -## [2026-06-14] ingest | 金融行业大模型落地实践:从知识工程到后训练部署 (DataFun, 王元/奇富科技, 2026 DA 上海站) -- 添加文章 [[qifu-llm-finance-practice]]: "金融行业大模型落地实践" — 通用大模型 + 高质量知识工程的金融落地范式 -- 新增 10 个概念页: [[reer-reverse-knowledge-extraction]], [[multi-dimensional-synthetic-data]], [[post-hoc-reasoning-rl]], [[pre-hoc-reasoning-rl]], [[emotional-value-evaluation]], [[moe-lora-toolchain-conflict]], [[zero-data-cold-start]], [[vertical-llm-knowledge-engineering]], [[automatic-prompt-optimization]] -- 来源: https://mp.weixin.qq.com/s/UnA-OLSc0mVqe7KyBX7yJw - -## [2026-06-14] ingest | From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution (arXiv:2604.15097v2, cs.SE/cs.CL 2026) -- 添加论文 [[procedural-skills-to-strategy-genes]]: "From Procedural Skills to Strategy Genes" — 经验表示层面对比分析:文档导向 Skill vs 控制导向 Gene -- 新增 12 个概念页: [[strategy-gene]], [[procedural-skill]], [[gene-evolution-protocol]], [[test-time-control]], [[experience-representation]], [[skill-probe]], [[gene-probe]], [[evolution-probe]], [[experience-distillation]], [[bounded-reuse]], [[gene-bench]], [[critpt]] -- 来源: https://arxiv.org/abs/2604.15097 - -## [2026-06-13] ingest | Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction (arXiv:2606.13655, cs.CV 2026) -- 添加论文 [[flex4dhuman]]: "Flexible Multi-view Video Diffusion for 4D Human Reconstruction" — 无显式几何先验的多视角视频扩散,仅通过相对相机位姿编码实现单目到 4D -- 新增 11 个概念页: [[five-axis-positional-encoding]], [[se3-relative-camera-encoding]], [[prope]], [[clean-conditioning-mask]], [[three-stage-curriculum-training]], [[temporal-rollout]], [[teacher-forced-history]], [[multi-view-captioning]], [[monocular-video-to-4d]], [[4d-gaussian-splatting]], [[freetimegs]] -- 来源: https://arxiv.org/abs/2606.13655 - -## [2026-06-11] ingest | Life-Harness: Runtime Harness Adaptation for Deterministic LLM Agents (arXiv:2605.22166, 2026) -- 添加论文 [[xu-life-harness]]: "Adapting the Interface, Not the Model" — 生命周期感知的 Runtime Harness 适配,四层架构在不更新模型权重下提升确定性 Agent -- 新增 10 个概念页: [[runtime-harness-adaptation]], [[runtime-interface-adaptation]], [[lifecycle-aware-harness]], [[environment-contract-layer]], [[procedural-skill-layer]], [[action-realization-layer]], [[trajectory-regulation-layer]], [[harness-evolution]], [[cross-model-harness-transfer]], [[deterministic-agent-failures]] -- 来源: https://arxiv.org/abs/2605.22166 - -## [2026-06-10] ingest | Dead Directions: Geometric Singular Learning (arXiv:2606.05957, 2026) -- 添加论文 [[dead-directions-geometric-singular-learning]]: "Dead Directions: Geometric Singular Learning" — dead direction 桥接 SLT 与信息几何,单 checkpoint 读出 Watanabe 三元组 -- 新增 8 个概念页: [[dead-direction]], [[singular-learning-theory]], [[information-geometry]], [[fisher-information-metric]], [[real-log-canonical-threshold]], [[kl-order]], [[watanabe-triple]], [[ddcadam]] -- 来源: https://arxiv.org/abs/2606.05957 - -## [2026-06-10] ingest | Representation Learning Enables Scalable Multitask Deep RL (arXiv:2606.05555, 2026) -- 添加论文 [[predictive-representations-scalable-mtrl]]: "Scalable Multitask Deep RL" — 预测表征学习(非规划)是多任务RL可扩展性的核心驱动力 -- 新增 8 个概念页: [[predictive-representation-learning]], [[mrq-algorithm]], [[multitask-rl]], [[representation-learning-rl]], [[auxiliary-predictive-objectives]], [[world-models-rl]], [[model-free-rl]], [[deep-rl-scaling]] -- 来源: https://arxiv.org/abs/2606.05555 - -## [2026-06-10] ingest | On the fibers and semi-algebraicity of ReLU neuromanifolds (arXiv:2606.02826, math.AG 2026) -- 添加论文 [[relu-neuromanifolds-semi-algebraicity]]: "ReLU Neuromanifolds" — ReLU神经流形不是半代数商,引入honest开子集概念 -- 新增 8 个概念页: [[neuromanifold]], [[neuroalgebraic-geometry]], [[semi-algebraic-set]], [[honest-open-subset]], [[hidden-symmetries-neural]], [[parametrization-map]], [[scaling-permutation-symmetry]], [[fiber-of-parametrization]] -- 来源: https://arxiv.org/abs/2606.02826 - -## [2026-06-10] ingest | Minimax-Optimal Policy Regret in Partially Observable Markov Games (arXiv:2606.02363, ICML 2026) -- 添加论文 [[minimax-policy-regret-pomg]]: "Minimax-Optimal Policy Regret in POMGs" — O(sqrt(T)) minimax 最优策略后悔,epoch-based 乐观 MLE 算法 -- 新增 12 个概念页: [[partially-observable-markov-game]], [[policy-regret]], [[eluder-dimension]], [[observable-operator-model]], [[posterior-lipschitz-adversary]], [[weak-revealing-condition]], [[causal-decomposition-pomg]], [[epoch-based-optimistic-mle]], [[minimax-optimality]], [[pomdp]], [[adaptive-adversary]], [[fading-memory]] -- 来源: https://arxiv.org/abs/2606.02363 - -## [2026-06-10] ingest | Principled Uncertainty in Clinical AI: 端到端贝叶斯建模与算法公平性审计 (arXiv:2606.09789, 2026) -- 添加论文 [[principled-uncertainty-clinical-ai]]: "Principled Uncertainty in Clinical AI" — 端到端贝叶斯不确定性建模 + 不确定性作为公平性信号 -- 新增 12 个概念页: [[epistemic-uncertainty]], [[aleatoric-uncertainty]], [[uncertainty-quantification]], [[bayesian-deep-learning]], [[expected-calibration-error]], [[uncertainty-equity-gap]], [[uncertainty-disparity-ratio]], [[precision-weighted-fusion]], [[mc-dropout]], [[algorithmic-equity]], [[clinical-ai]], [[variational-autoencoder]] -- 来源: https://arxiv.org/abs/2606.09789 - - - - - - - - - - - - - - - - - - - - - -## [2026-06-10] ingest | Pydantic 三件套:从校验库到 AI 基础设施 (微信公众号, 2026) -- 添加文章 [[pydantic-three-piece-suite]]: "Pydantic 三件套" — pydantic-core (Rust 引擎) + Logfire (OTel 可观测) + Pydantic AI (类型安全 Agent),渐进路线图 -- 新增 9 个概念页: [[pydantic]], [[pydantic-core]], [[logfire]], [[pydantic-ai]], [[typeadapter]], [[open-telemetry]], [[structured-output]], [[drift-detection]], [[type-safety-in-agents]] -- 更新概念: [[agent-observability|Agent 可观测性]](追加 Logfire/漂移检测/Pydantic 三件套引用) -- 来源: https://mp.weixin.qq.com/s/jg6lW3ObZooBsrWTGwIcRg - -## [2026-06-10] ingest | OneReason: 生成式推荐中的推理能力解锁 (arXiv:2606.06260, 2026) -- 添加论文 [[onereason]]: "OneReason" — 生成式推荐推理模型,Perception-Cognition 双支柱 + R0-R3 四层推理 + Specialize-then-Unify RL -- 新增 13 个概念页: [[onerec]], [[generative-recommendation]], [[itemic-tokens]], [[recommendation-reasoning]], [[recommendation-cot]], [[perception-cognition-recommendation]], [[onereason-bench]], [[abductive-reasoning-recommendation]], [[specialize-then-unify-rl]], [[rejection-sampling-fine-tuning]], [[multi-teacher-on-policy-distillation]], [[thinking-supervision-transfer]], [[itemic-text-alignment]] -- 更新概念: [[chain-of-thought|思维链]] -- 来源: https://arxiv.org/abs/2606.06260 - -## [2026-06-08] ingest | LeWorldModel: Stable End-to-End JEPA from Pixels (arXiv:2603.19312, 2026) -- 添加论文 [[maes-leworldmodel-2026]]: "LeWorldModel" — 首个端到端 JEPA 世界模型,15M 参数,仅 2 项损失 + 1 超参 -- 新增 1 个概念页: [[pldm]] (LeWM 对比基线) -- 已有概念复用: [[leworldmodel]], [[jepa]], [[sigreg]], [[representation-collapse]], [[world-model-lecun]], [[abstract-representation-space]] -- 来源: https://arxiv.org/abs/2603.19312 - -## [2026-06-08] ingest | LeCun 论 LLM 的边界与未来架构 (Datawhale, 2026) -- 添加文章 [[lecun-llm-boundary-future]]: "LeCun 论 LLM 的边界与未来架构" — 系统梳理 LeCun 对 LLM 未来方向的 8 大核心判断 -- 新增 14 个概念页: [[jepa]], [[world-model-lecun]], [[vla-vision-language-action]], [[objective-driven-ai]], [[representation-collapse]], [[sigreg]], [[tapestry-federated]], [[sovereign-ai]], [[vicreg]], [[leworldmodel]], [[action-consequence-prediction]], [[multi-step-planning]], [[abstract-representation-space]], [[data-wall]] -- 来源: https://mp.weixin.qq.com/s/Zau10ioTWzhj0KOImpasNg - -## [2026-06-07] ingest | 窃取无穷的数学家 (Quanta Magazine / 环球科学 2026) -- 添加文章 [[cantor-stole-infinity]]: "窃取无穷的数学家" — 康托尔1874年论文隐藏狄德金贡献的历史真相 -- 新增 9 个概念页: [[georg-cantor]], [[richard-dedekind]], [[infinity-hierarchy]], [[countable-uncountable-infinity]], [[algebraic-numbers-countability]], [[emmy-noether]], [[leopold-kronecker]], [[mathematical-priority-disputes]], [[set-theory-history]] -- 来源: https://mp.weixin.qq.com/s/xJwwHWAbBsS8NWiNeLbtNQ (原刊 Quanta Magazine: The Man Who Stole Infinity) -## [2026-06-05] ingest | Stem: Rethinking Causal Information Flow in Sparse Attention (arXiv:2603.06274, 2026) -- 添加论文 [[niu-stem-causal-sparse-attention]]: "Stem: Rethinking Causal Information Flow in Sparse Attention" — 从因果信息流视角重新思考稀疏注意力,TPD+OAM 双组件 -- 新增 4 个概念页: [[stem-sparse-attention]], [[causal-information-flow]], [[token-position-decay]], [[output-aware-metric]] -- 来源: https://arxiv.org/abs/2603.06274 - -## [2026-06-05] ingest | Token Economics for LLM Agents: A Dual-View Study from Computing and Economics (arXiv:2605.09104, 2026) -- 添加论文 [[chen-token-economics-llm-agents]]: "Token Economics for LLM Agents" — 首个 Token Economics 综述, 四维分类法 (Micro/Meso/Macro/Security) -- 新增 9 个概念页: [[token-economics]], [[token-as-economic-primitive]], [[micro-level-token-economics]], [[meso-level-token-economics]], [[macro-level-token-economics]], [[token-security-economics]], [[agent-token-budget-optimization]], [[differentiable-token-budgeting]], [[token-market-dynamics]] -- 来源: https://arxiv.org/abs/2605.09104 -- GitHub: https://github.com/SuDIS-ZJU/Token-Economics - -## [2026-06-05] ingest | Auditing Agent Harness Safety (arXiv:2605.14271, 2026) -- 添加论文 [[liu-auditing-agent-harness-safety]]: "Auditing Agent Harness Safety" — Agent 骨架安全三层审计框架 -- 新增 13 个概念页: [[agent-harness-safety]], [[harnessaudit]], [[boundary-compliance]], [[execution-fidelity]], [[system-stability]], [[trajectory-auditing]], [[multi-agent-safety]], [[information-flow-control]], [[resource-access-control]], [[safety-adherence-rate]], [[policy-constrained-execution]], [[execution-harness]], [[hidden-audit-channel]] -- 来源: https://arxiv.org/abs/2605.14271 - -## [2026-06-04] ingest | IntrAgent: An LLM Agent for Content-Grounded Information Retrieval through Literature Review (arXiv:2604.22861, 2026) -- 添加论文 [[ma-intragent-2026]]: "IntrAgent" — 内容锚定的文献信息检索Agent,两阶段管道:Section Ranking + Iterative Reading,13.2% accuracy gain -- 新增 15 个概念页: [[intraview]], [[intragent]], [[section-ranking]], [[iterative-reading]], [[hierarchy-preservation]], [[sufficiency-check]], [[intrabench]], [[content-grounded-retrieval]], [[scientific-literature-qa]], [[mineru]], [[hallucination-mitigation]], [[cross-section-synthesis]], [[content-question-answering]], [[faithfulness-in-ai]], [[pdf-processing]] -- 来源: https://arxiv.org/abs/2604.22861 -- 代码: https://github.com/FengboMa/IntrAgent | 数据集: https://huggingface.co/datasets/IntrAgent/IntraBench - -## [2026-06-03] ingest | Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective (arXiv:2605.17967, 2026) -- 添加论文 [[zhang-reconciling-sft-interaction-2026]]: "Reconciling Contradictory Views on SFT in LLMs" — 从交互视角揭示SFT两阶段动力学:极短去噪阶段+漫长过拟合阶段 -- 新增 10 个核心概念页: [[interaction-based-explanation]], [[and-or-interactions]], [[interaction-types-sft]], [[sft-denoising-stage]], [[interaction-generalizability]], [[uncancelled-interaction-effects]], [[interaction-order]], [[logical-model-interaction]], [[sft-early-stopping]], [[preserved-interactions-backbone]] -- 新增 6 个占位符概念: [[supervised-fine-tuning]], [[rlhf]], [[dpo]], [[shapley-values]], [[catastrophic-forgetting]], [[in-context-learning]] -- 来源: https://arxiv.org/abs/2605.17967 -## [2026-06-02] ingest | One-Pass to Reason: Token Duplication and Block-Sparse Mask for Efficient Fine-Tuning on Multi-Turn Reasoning (arXiv:2504.18246, ICML 2025 Workshop) -- 添加论文 [[goru-one-pass-to-reason-2025]]: "One-Pass to Reason — 多轮推理的高效单遍微调" — Token复制+分块稀疏注意力掩码,将多轮推理训练从O(N³)降至O(N²),1.05×–1.22×加速 -- 新增 8 个概念页: [[one-pass-fine-tuning]], [[token-duplication]], [[block-sparse-attention]], [[multi-turn-reasoning]], [[visibility-constraint]], [[position-id-discrepancy]], [[k-pass-training]], [[mathchatsync-reasoning]] -- 来源: https://arxiv.org/abs/2504.18246 -- 代码: https://github.com/devrev/One-Pass-to-Reason - -## [2026-06-01] ingest | Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics (arXiv:2602.02343, 2026) -- 添加论文 [[xu-why-steering-works]]: "Why Steering Works — 语言模型参数动态的统一视角" — 统一动态权重更新框架,Preference-Utility 解耦分析,激活流形假说,SPLIT 联合优化方法 -- 新增 16 个概念页: [[dynamic-weight-updates]], [[preference-utility-analysis]], [[activation-manifold]], [[validity-decay]], [[steering-dynamics]], [[split-steering]], [[preference-log-odds]], [[intervention-multiplier]], [[representation-validity]], [[lora]], [[activation-steering]], [[linear-representation-hypothesis]], [[model-steering]], [[steering-vector]], [[controlled-text-generation]], [[representation-space]] -- 来源: https://arxiv.org/abs/2602.02343 -- 代码: https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md - -## [2026-05-31] ingest | ToolCUA: Optimal GUI-Tool Path Orchestration (arXiv:2605.12481, 2026) -- 添加论文 [[toolcua-optimal-gui-tool-orchestration]]: "ToolCUA: 面向CUA的最优GUI-Tool路径编排" — 通过合成数据+分阶段RL学习GUI-Tool杂交动作空间的最优切换策略 -- 新增 8 个概念页: [[computer-use-agents]], [[gui-tool-hybrid-action-space]], [[optimal-gui-tool-path-selection]], [[interleaved-gui-tool-trajectory-scaling]], [[tool-bootstrapped-rft]], [[tool-efficient-path-reward]], [[osworld-mcp]], [[next-state-grounding]] -- 来源: https://arxiv.org/abs/2605.12481 -- 代码: https://github.com/X-PLUG/ToolCUA - -## [2026-05-30] — ingest-supplement | Agent Harness Engineering: A Survey (TMLR 2026) -- 补充 8 个概念页:[[agent-observability]], [[agent-verification]], [[agent-governance]], [[practitioner-research-gap]], [[agent-sandbox]], [[context-drift]], [[three-engineering-phases]], [[multi-agent-orchestration]] -- 保存完整 PDF 至 raw/papers/agent-harness-engineering-survey-2026.pdf -- 原始论文已于 2026-05-23 部分集成(paper 主页面 + 17 个核心概念),本次补充 ETCLOVG 独立层概念和跨层概念 - -## [2026-05-29] ingest | Agent Symbolic Learning (arXiv:2406.18532, arXiv cs.CL 2024) -- 添加论文 [[zhou-agent-symbolic-learning-2024]]: "Symbolic Learning Enables Self-Evolving Agents" — Agent作为符号网络,模仿BP+GD实现自进化(SkillOpt/Heuristic Learning的重要前驱) -- 新增 6 个概念页: [[agent-symbolic-learning]], [[symbolic-network]], [[language-gradient]], [[language-loss]], [[symbolic-backpropagation]], [[self-evolving-agents]] -- 来源: https://arxiv.org/abs/2406.18532 -- 作者: Wangchunshu Zhou et al. (AIWaves) - -## [2026-05-29] ingest | UltraData L3开源与数据分级治理 (Datawhale, 面壁智能) -- 添加文章 [[ultradata-l3-open-source-2026]]: "UltraData:面壁智能L3数据开源与L0-L4数据分级治理体系" — 600B合成数据+千万SFT,MiniCPM5-1B登顶 -- 新增 6 个概念页: [[data-hierarchical-governance]], [[ultradata]], [[synthetic-data-qa-generation]], [[stage-matched-data-config]], [[deep-thinking-sft]], [[data-quality-over-scale]] -- 来源: https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw - -## [2026-05-29] ingest | SkillOpt深度解读 (微信公众号, 吕明, ~1.2万字) -- 添加文章 [[lyu-skillopt-deep-dive-2026]]: "SkillOpt深度解读:自进化Agent技能的'反向传播'与工程化Continued Evolve" — 文本vs权重优化的深层分野、受控自主性、数据飞轮、双层RL -- 新增 5 个概念页: [[text-vs-weight-optimization]], [[controlled-autonomy]], [[skill-data-flywheel]], [[skill-ecosystem]], [[dual-layer-rl]] -- 来源: https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw - -## [2026-05-29] ingest | SkillOpt (arXiv:2605.23904, arXiv cs.AI 2026) -- 添加论文 [[yang-skillopt-2026]]: "SkillOpt: Executive Strategy for Self-Evolving Agent Skills" — 首个系统性 Agent Skill 文本空间优化器,52/52 best,平均+23.5 pts -- 新增 7 个概念页: [[skillopt]], [[text-space-optimizer]], [[textual-learning-rate]], [[held-out-validation-gate]], [[rejected-edit-buffer]], [[slow-meta-update]], [[skill-as-external-state]] -- 来源: https://arxiv.org/abs/2605.23904 -- 作者: Yifan Yang et al. (Microsoft, SJTU, Tongji, Fudan) - -## [2026-05-29] ingest | Model与Harness的关系演进 (微信公众号, 吕明) -- 添加文章 [[lyu-model-harness-evolution-2026]]: "Model与Harness的关系演进:从AutoHarness到Heuristic Learning" — GenAI三支柱、策略与工程统一、编译型AI新范式 -- 新增 6 个概念页: [[model-harness-relationship]], [[harness-engineering]], [[heuristic-learning]], [[strategy-engineering-unification]], [[compiled-ai-paradigm]], [[generative-general-unification]] -- 来源: https://mp.weixin.qq.com/s/PglkqhlSoI7LEOb3AOHl8g -- 作者: 吕明 - -## [2026-05-29] ingest | AutoHarness (arXiv:2603.03329, arXiv cs.CL 2026) -- 添加论文 [[lou-autoharness-2026]]: "AutoHarness: improving LLM agents by automatically synthesizing a code harness" — 自动合成代码harness消除Agent非法动作,Code-as-Policy超越GPT-5.2-High -- 新增 7 个概念页: [[autoharness]], [[code-as-harness]], [[harness-as-action-verifier]], [[harness-as-policy]], [[thompson-sampling-code-search]], [[iterative-code-refinement]], [[action-applicability]] -- 来源: https://arxiv.org/abs/2603.03329 -- 作者: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy (Google DeepMind) - -## [2026-05-29] ingest | 分布式Agent缓存同步 (微信公众号) -- 添加文章 [[distributed-agent-cache-sync-2026]]: "分布式Agent缓存同步" — 多机分布式Prompt Caching架构的工业级工程实践(量化交易场景) -- 新增 10 个概念页: [[distributed-prompt-caching]], [[cache-cold-start]], [[global-context-hash-tree]], [[active-cache-warmup]], [[shadow-calling]], [[distributed-optimistic-locking]], [[bypass-network-handle-distribution]], [[context-pruning]], [[trading-lifecycle-driven-eviction]], [[distributed-cache-routing]] -- 来源: https://mp.weixin.qq.com/s/MUWV7eug14bktUMlqsxfQw -- 类型: 微信公众号技术文章 (LLM + 量化交易系列) - -## [2026-05-29] ingest | Token Superposition Training (arXiv:2605.06546, arXiv cs.CL 2026) -- 添加论文 [[peng-tst-2026]]: "Efficient Pre-Training with Token Superposition" — TST 两阶段预训练方法,等 loss 下 2.5× 训练加速 -- 新增 7 个概念页: [[token-superposition-training]], [[multi-hot-cross-entropy]], [[input-superposition]], [[two-phase-pretraining]], [[representation-alignment]], [[coarse-to-fine-granularity]], [[throughput-hypothesis]] -- 来源: https://arxiv.org/abs/2605.06546 -- 作者: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research) - -## [2026-05-26] ingest | The Bayesian Geometry of Transformer Attention (arXiv:2512.22471, 2026) -- 添加论文 [[agarwal-bayesian-attention-geometry]]: "The Bayesian Geometry of Transformer Attention" — Bayesian Attention Trilogy Paper I -- 新增 8 个概念页: [[bayesian-wind-tunnels]], [[inference-primitives]], [[belief-accumulation]], [[belief-transport]], [[random-access-binding]], [[primitive-completeness]], [[bayesian-attention-geometry]], [[bayesian-attention-trilogy]] -- 来源: https://arxiv.org/abs/2512.22471 - -## [2026-05-26] ingest | 时序预测增强方法综述:TPS (WeChat Article, DeepHub/数据派THU, 2026) -- 添加文章 [[temporal-patch-shuffle-tps]]: "时序预测增强方法综述:从频域到 TPS" — 涵盖频域/时频域/分解/Patch 四类方法 -- 新增 8 个概念页: [[temporal-patch-shuffle]], [[time-series-forecasting-augmentation]], [[data-label-consistency]], [[freqmask-freqmix]], [[wavemask-wavemix]], [[dominant-shuffle]], [[staug]], [[forecasting-augmentation-taxonomy]] -- 来源: https://mp.weixin.qq.com/s/hPvx3OflUva1olME9F8FoA - -## [2026-05-26] ingest | 从零搭建 Mini Agent Harness (WeChat Article, 2026) -- 添加文章 [[mini-agent-harness]]: "从零搭建 Mini Agent Harness" — 陈思州/Datawhale -- 新增 8 个概念页: [[agent-harness-mini]], [[agent-eval-trace]], [[agent-eval-grader]], [[agent-eval-case-design]], [[agent-computer-interface]], [[terminal-bench]], [[anthropic-agent-evals]], [[swe-bench]] -- 来源: https://mp.weixin.qq.com/s/yVFQej3dFk9KHv6J2u6Lew - -## [2026-05-23] ingest | Generative Recursive Reasoning (GRAM) (arXiv:2605.19376, 2026) -- 添加论文 [[gram-generative-recursive-reasoning-paper]]: "Generative Recursive Reasoning" — 将确定性递归推理升级为概率性多轨迹计算(Baek, Jo, Kim, Ren, Bengio, Ahn; KAIST/Mila/NYU/UdeM) -- 新增 11 个概念页: [[recursive-reasoning-models]], [[gram-generative-recursive-reasoning]], [[stochastic-latent-trajectory]], [[multi-trajectory-inference]], [[inference-time-scaling]], [[width-based-scaling]], [[latent-variable-generative-model]], [[amortized-variational-inference]], [[ - -... [OUTPUT TRUNCATED - 1068 chars omitted out of 51068 total] ... +... [OUTPUT TRUNCATED - 538 chars omitted out of 50538 total] ... , [[lifecycle-orchestration]], [[observability]], [[verification-evaluation]], [[governance-security]], [[cost-quality-speed-trilemma]], [[capability-control-tradeoff]], [[harness-coupling-problem]], [[binding-constraint-thesis]], [[prompt-to-harness-evolution]], [[trace-native-evaluation]], [[standard-agent-handoffs]], [[adaptive-harness-simplification]], [[hardening-execution-environments]], [[reliable-state-long-running-agents]], [[context-state-estimation]], [[agent-frameworks-to-platforms]] - 来源: 用户上传 PDF(用户 o9cq80wQvcn_qxHaHlEso2Bn3qoU@im.wechat) diff --git a/papers/arbor-htr-2026.md b/papers/arbor-htr-2026.md new file mode 100644 index 0000000..98f70c3 --- /dev/null +++ b/papers/arbor-htr-2026.md @@ -0,0 +1,104 @@ +--- +title: "Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026)" +created: 2026-06-24 +updated: 2026-06-24 +type: paper +tags: ["autonomous-research", "agent", "hypothesis-tree", "coordinator-executor"] +sources: + - "https://arxiv.org/abs/2606.11926" +code: "https://github.com/RUC-NLPIR/Arbor" +--- + +# Arbor: Autonomous Research via Hypothesis-Tree Refinement + +> Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026 + +## 问题 + +AI Agent 做自主科研面临三个系统性需求: +1. **分支且有结构**:多方向必须并存但不能退化为无结构日志 +2. **全局策略 + 局部执行**:战略决策依赖全局证据,但单假设实现是短程工程任务 +3. **探索与 held-out 准入**:dev 反馈引导搜索,但进展只在 transfer 到 test 时才被承认 + +现有 Agent(Codex, Claude Code)将科研视为局部尝试的序列,缺乏累积机制。 + +## [[hypothesis-tree-refinement|Hypothesis Tree Refinement (HTR)]] + +Arbor 的核心创新:将自主科研的中间状态从"最新产物 + 分数"升级为**持久化的假设树**。 + +### 树的节点 = ⟨h, ι, µ⟩ + +| 字段 | 含义 | 作用 | +|------|------|------| +| **h (Hypothesis)** | 可验证/可证伪的改进主张 | 粒度随深度细化(根=方向,叶=具体干预) | +| **ι (Insight)** | 可复用的证据解读 | 紧凑语义记忆,非执行日志 | +| **µ (Metadata)** | 状态/分数/git ref | 链接到可验证的外部产物 | + +### 三种角色合一 +1. **搜索前沿**:记录活跃/验证/剪枝的方向 +2. **长期记忆**:存储成功+失败的复用证据 +3. **可审计记录**:每个产物变更可追溯到动机假设 + +### Insight Backpropagation +叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding + +## [[coordinator-executor-architecture|Coordinator ↔ Executor 架构]] + +``` +Coordinator (持久) Executor (短生命周期, 隔离 worktree) +├── 维护全局树 ├── 接收单个节点 +├── 决定扩展/选择/剪枝/合并 ├── 在隔离环境中物化实现 +├── 传播洞察 ├── 运行评估 +└── 管理搜索前沿 └── 返回结构化报告 (分数+事实+洞察+产物引用) +``` + +关键边界:Executor 不修改共享树、不重定向搜索目标;Coordinator 不直接执行低层实现。 + +## [[autonomous-optimization-ao|Autonomous Optimization (AO)]] + +AO = (M0, O, Edev, Etest) 的形式化任务定义: +- M0:可变产物(通常为代码库 + 数据) +- O:改进目标(指标方向) +- Edev:开发评估器(搜索期间自由使用) +- Etest:held-out 评估器(仅用于 merge gate) + +目标:返回 max Stest(M') 的产物 M⋆,且 Etest 未被用作探索 oracle。 + +## 关键结果 + +### 六项真实科研任务 + +| 任务类型 | Arbor 表现 | +|---------|-----------| +| Math Synthesis (AIME) | Test: +6.32% | +| Harness Engineering (TerminalBench) | Test: +7.55 | +| BrowseComp | Test: +22.34 | +| Model Training | Best held-out | +| Architecture Search | Best held-out | + +### 对比 + +| 方法 | 平均相对 held-out 增益 (归一化) | +|------|-------------------------------| +| Codex | 1.0× | +| Claude Code | 0.8× | +| **Arbor** | **2.5×** | + +### MLE-Bench Lite + +GPT-5.5 + Arbor → **86.36%** Any Medal(对比中最强) + +### Ablation 关键发现 + +假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。 + +## 核心洞察 + +1. **将研究状态从"最新产物"升级为"搜索树"** — 自主科研的核心瓶颈不是模型能力,而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。 + +2. **Coordinator-Executor 分离** — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。 + +3. **洞察 ≠ 日志** — Insight 是紧凑语义记忆("轴统计量单独不够;替换 NS 会破坏全矩阵几何"),不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。 + +## 来源 +[原始存档](raw/papers/arbor-htr-2026.md) | [arXiv](https://arxiv.org/abs/2606.11926) | [GitHub](https://github.com/RUC-NLPIR/Arbor) diff --git a/papers/dao-transformers-are-ssms-2024.md b/papers/dao-transformers-are-ssms-2024.md new file mode 100644 index 0000000..9e04c36 --- /dev/null +++ b/papers/dao-transformers-are-ssms-2024.md @@ -0,0 +1,90 @@ +--- +title: "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality" +created: 2026-06-18 +updated: 2026-06-18 +type: paper +authors: + - Tri Dao (Princeton University) + - Albert Gu (Carnegie Mellon University) +source: arXiv +source_id: 2405.21060 +published: 2024-05-31 +venue: ICML 2024 +categories: + - cs.LG +--- + +# Transformers are SSMs + +> Dao & Gu (2024) — arXiv:2405.21060, **ICML 2024** + +## 核心命题 + +**Transformer 和 SSM 本质上是同一类模型的对偶形式。** 通过 [[semiseparable-matrices|半可分矩阵]] 这一数学桥梁,Dao & Gu 构建了统一框架——[[structured-state-space-duality|结构化状态空间对偶(SSD)]]。 + +## SSD 框架:三重视角 + +``` +SSM (线性/循环) ────→ 半可分矩阵 ←──── Attention (二次/并行) + O(T) 训练 M_ij 结构 O(T²) 训练 + 常数状态推理 GPU Tensor Core +``` + +两种互补的数学视角: +1. **矩阵变换视角**:SSM = 参数化矩阵乘法 Y = M·X +2. **[[tensor-contraction-duality|张量收缩视角]]**:导出 SSM ↔ Attention 的对偶关系 + +## SSD 层的双重计算 + +### 循环形式(线性复杂度) +- [[selective-state-space-models|选择性 SSM]] 的简化:A 从对角阵退化为标量 +- Head 维度 P = 64/128(类似 Transformer) + +### 对偶形式(二次复杂度) +``` +Y = (L ○ QK^T) · V +L_ij = a_i × ... × a_{j+1} +``` +- 去掉 Softmax,增加**数据依赖的位置掩码** L +- L 替代启发式位置编码:a_t 在信息密集处接近 0(重置) + +## 核心贡献:[[ssd-algorithm|SSD 算法]] + +利用半可分矩阵的**块分解**实现最优权衡: +- **块内**:矩阵乘法(GPU Tensor Core 优化) +- **块间**:循环传播(保持线性复杂度) + +| 指标 | vs Mamba | vs FlashAttention-2 | +|------|:--:|:--:| +| 速度 | **2-8x** | 16K 时 **6x** | +| 状态大小 | **8x** 支持 | — | +| 交叉点 | — | 2K 序列 | + +## [[mamba-2|Mamba-2 架构]] + +基于 SSD 原则设计的新架构: +- [[head-structure-ssm|GVA Head 结构]]:分组值注意力,介于 MHA 和 MQA 之间 +- **Tensor Parallelism 原生支持**:同步点减半 +- **变长序列训练**:无需 padding +- **Chinchilla 缩放**:2.7B 参数 → 超越 Pythia-2.8B 和 6.9B + +## 概念网络 + +``` +state-space-models ──→ selective-state-space-models ──→ mamba-ssm + ↓ ↓ ↓ +semiseparable-matrices ←── structured-state-space-duality ──→ mamba-2 + ↓ ↓ ↓ +structured-masked-attention tensor-contraction-duality ssd-algorithm + ↓ ↓ ↓ +linear-attention matrix-transformation head-structure-ssm + (GVA/MIS/MVA) +``` + +## 影响力 + +这是连接 SSM 和 Attention 两大范式的**里程碑工作**(ICML 2024)。不仅在理论上统一了两者,更展示了"理论→工程"的直接转化——SSD 算法让 SSM 能用上 Transformer 生态积累的硬件优化(Tensor Core, TP, FlashAttention 模式),推动了 Mamba-2 实现 2-8x 的加速。 + +## 来源 + +[arXiv:2405.21060](https://arxiv.org/abs/2405.21060) | [代码: state-spaces/mamba](https://github.com/state-spaces/mamba) | [原始存档](raw/papers/dao-transformers-are-ssms-2024.md) diff --git a/papers/engram-conditional-memory-2026.md b/papers/engram-conditional-memory-2026.md new file mode 100644 index 0000000..c1d0eaa --- /dev/null +++ b/papers/engram-conditional-memory-2026.md @@ -0,0 +1,89 @@ +--- +title: "Engram: Conditional Memory via Scalable Lookup (Cheng et al., PKU/DeepSeek-AI, 2026)" +created: 2026-06-25 +updated: 2026-06-25 +type: paper +tags: ["conditional-memory", "sparsity", "ngram", "mixture-of-experts", "scaling-law"] +sources: + - "https://arxiv.org/abs/2601.07372" +code: "https://github.com/deepseek-ai/Engram" +--- + +# Engram: Conditional Memory via Scalable Lookup + +> Cheng et al. | Peking University / DeepSeek-AI | arXiv:2601.07372 | Jan 2026 + +## 问题 + +[[mixture-of-experts|MoE]] 通过条件计算扩展容量,但 Transformer **缺少原生的知识查找原语**——它被迫用计算来模拟检索。语言建模包含两类性质不同的子任务:组合推理(需要深层动态计算)和知识检索(大量文本模式是局部的、静态的、高度模板化的)。经典 N-gram 模型在捕获局部依赖上的有效性说明这些规律天然适合廉价查找,但现有 LLM 用昂贵的 Transformer 层去重建静态查找表。 + +## 核心思想:[[conditional-memory|Conditional Memory]] + +提出 **条件记忆** 作为条件计算(MoE)的互补稀疏轴: + +| 维度 | Conditional Computation (MoE) | Conditional Memory (Engram) | +|------|------|------| +| 激活方式 | 稀疏激活参数处理动态逻辑 | 稀疏查找检索静态嵌入 | +| 开销 | 随专家数增长 | O(1) 常数查找 | +| 适用 | 组合推理、动态上下文 | 命名实体、公式化模式、局部依赖 | + +## [[engram|Engram 模块]] + +Engram 将经典 [[ngram-embedding|N-gram 嵌入]] 现代化为 Transformer 的条件记忆模块: + +### 1. Tokenizer Compression(词表压缩) +预计算满射函数 P: V → V',基于 NFKC 归一化+小写化将原始 token ID 映射到规范 ID,实现 23% 的有效词表缩减。 + +### 2. Multi-Head Hashing(多头哈希) +每个 N-gram 阶数 n 用 K 个独立哈希头,通过乘性 XOR 哈希将压缩上下文映射到嵌入表 E_{n,k}(素数大小),拼接所有检索向量为最终记忆向量 e_t。 + +### 3. Context-aware Gating(上下文感知门控) +检索到的静态嵌入 e_t 缺乏上下文适应性。用当前隐藏状态 h_t 作为动态 Query,e_t 为 Key/Value,通过标量门控 α_t = σ(Q·K^T/√d) 抑制与上下文矛盾的记忆噪声。 + +### 4. Depthwise Causal Convolution +对门控后的值序列应用短深度可分离因果卷积(kernel=4, dilation=max N-gram order, SiLU),扩展感受野。 + +### 集成方式 +Engram 以残差连接插入特定 Transformer 层:H ← H + Y,后跟标准 Attention 和 MoE。**并非所有层都加**——由系统延迟约束决定。 + +## [[sparsity-allocation|Sparsity Allocation]]:U 形缩放律 + +定义分配比 ρ ∈ [0,1]:MoE 占非活动参数的比例。实验结果: + +- **U 形关系**:纯 MoE (ρ=1) 和纯 Engram (ρ=0) 都不如混合 +- **最优 ρ ≈ 75-80%**:将约 20-25% 的稀疏参数预算重分配给 Engram 效果最佳 +- **稳定性**:最优分配比在不同计算规模下保持一致 +- **无限内存扩展**:Engram 槽数扩大遵循严格幂律,提供可预测的扩展旋钮 + +## 关键结果 + +**全部 iso-parameter & iso-FLOPs**:Engram-27B vs MoE-27B vs Dense-4B,激活参数均为 3.8B。 + +| 领域 | 基准 | Engram 增益 | +|------|------|-----------| +| 知识 | MMLU | +3.4 | +| 知识 | CMMLU | +4.0 | +| 推理 | BBH | **+5.0** | +| 推理 | ARC-Challenge | +3.7 | +| 推理 | DROP | +3.3 | +| 代码 | HumanEval | +3.0 | +| 数学 | MATH | +2.4 | + +**长上下文**:Multi-Query NIAH 97.0 vs 84.2 (MoE),Variable Tracking 89.0 vs 77.0。 + +## 机理解释 + +1. **释放早期层**:LogitLens + CKA 分析表明 Engram 解脱了 backbone 早期层对静态知识的重建负担,有效加深了可用于复杂推理的网络深度 +2. **释放注意力容量**:局部依赖被委托给查找,注意力聚焦全局上下文,长上下文检索大幅提升 +3. **基础设施感知效率**:[[memory-compute-decoupling|确定性寻址]] 支持运行时从主机内存预取,100B 嵌入表卸载开销 <3% + +## 核心洞察 + +1. **条件记忆是 MoE 的必然互补**——语言信号的异质性意味着单一稀疏轴不够。N-gram 嵌入这个看似简单的静态机制,当被当作一等建模原语对待时,能产生超越纯 MoE 的增益。 + +2. **内存≠冗余**——Engram 的最大收益不在知识密集型任务(那只是直觉预期),而在推理和编码任务。因为它不是"存更多事实",而是"释放计算深度用于推理"。 + +3. **U 形律揭示了一个深层结构事实**:在给定的总参数预算下,计算和记忆之间存在一个确定的最优比例,该比例在不同规模下稳定。 + +## 来源 +[原始存档](raw/papers/engram-conditional-memory-2026.md) | [arXiv](https://arxiv.org/abs/2601.07372) | [GitHub](https://github.com/deepseek-ai/Engram) diff --git a/papers/fei-mcp-zero-2025.md b/papers/fei-mcp-zero-2025.md new file mode 100644 index 0000000..c1d2105 --- /dev/null +++ b/papers/fei-mcp-zero-2025.md @@ -0,0 +1,71 @@ +--- +title: "MCP-Zero:主动工具发现" +created: 2026-06-19 +updated: 2026-06-19 +type: paper +tags: [active-tool-discovery, mcp, llm-agents, tool-use, semantic-routing, context-efficiency] +sources: + - https://arxiv.org/abs/2506.01056 + - https://github.com/xfey/MCP-Zero +--- + +# MCP-Zero:主动工具发现 + +> **Xiang Fei, Xiawu Zheng, Hao Feng** (厦大/中科大) · 2025 · arXiv:2506.01056 + +## 核心问题 + +当前 LLM Agent 的工具使用范式本质上是**被动的**——将所有 tool schema 注入 context,让模型从预定义选项中挑选。两个致命后果: + +1. **上下文膨胀**:单个 GitHub MCP server 4600+ tokens,全 MCP 生态 248K tokens +2. **自主权剥夺**:模型从"自主能力构建者"退化为"被动选择器" + +## 核心策略:主动工具发现 + +> **从"给你所有工具自己挑"翻转为"告诉我你需要什么,我来找"。** + +``` +被动范式: 所有 tool schema → Context → LLM 选择 +主动范式: LLM 生成 → 语义匹配 → 返回精确工具 +``` + +## 三大机制 + +### 1. [[active-tool-request|Active Tool Request]] +模型自主生成结构化请求,指定 server(平台/权限域)和 tool(操作类型+目标),请求在工具文档的语义空间中——对齐度天然优于原始用户查询。 + +### 2. [[hierarchical-semantic-routing|Hierarchical Semantic Routing]] +两级检索:先匹配 server(含增强摘要),再在选中 server 内排序 tool。复杂度 O(n)→O(m+k),m+k ≪ n。 + +### 3. [[iterative-capability-extension|Iterative Capability Extension]] +多轮迭代构建跨域 toolchain:读文件→编辑代码→执行验证。工具不足时自主优化请求重新检索,天然容错。 + +## 关键数据 + +| 指标 | 数值 | +|------|------| +| MCP-tools 数据集 | 308 servers, 2,797 tools | +| APIBank token 节省 | **-98%** | +| 搜索空间 | 248.1K tokens | +| 准确率 | 保持高准确率 | + +## 理论贡献 + +- 主动发现建模为 **active learning**:r* = arg max I(T*; r|s_t) +- 语义对齐优势:cos(e_r, e_t) > cos(e_q, e_t),agent 请求在工具描述空间中 +- 注意力效率:被动 O(1/n) → 主动 O(1/k) + +## 与 Agent Harness 的关联 + +MCP-Zero 直接解决了 [[agent-skill|Agent Skills]] 框架中"操作维度"的工具发现问题:不是预加载 300 个 tool schema,而是让 Agent 在运行时按需请求。这与 [[skill-retrieval|Skill Retrieval]] 的"检索而非全加载"思路一脉相承。 + +## 关键概念 + +- [[active-tool-discovery|主动工具发现]] — 范式转变 +- [[active-tool-request|Active Tool Request]] — 结构化请求机制 +- [[hierarchical-semantic-routing|层次语义路由]] — 两级匹配 +- [[iterative-capability-extension|迭代能力扩展]] — 跨域 toolchain +- [[mcp-protocol|MCP 协议]] — 标准化工具接口 +- [[mcp-tools-dataset|MCP-tools 数据集]] + +来源:[原始存档](raw/papers/fei-mcp-zero-2025.md) diff --git a/papers/gan-bifurcation-eos.md b/papers/gan-bifurcation-eos.md new file mode 100644 index 0000000..2ca017e --- /dev/null +++ b/papers/gan-bifurcation-eos.md @@ -0,0 +1,73 @@ +--- +title: "A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability" +created: 2026-06-23 +updated: 2026-06-23 +type: paper +arxiv: "2606.15551v1" +category: cs.LG +author: "Eric Gan" +venue: Preprint +tags: [EoS, bifurcation-theory, gradient-descent, optimization, overparameterization, loss-landscape] +--- + +# 分岔理论框架下的梯度下降稳定边缘分析 + +> Eric Gan, arXiv:2606.15551v1, 2026 + +## 摘要 + +Edge of Stability (EoS) —— 梯度下降在 sharpness 超过经典收敛阈值 2/η 时仍能稳定训练 —— 是深度学习中最重要但理论理解不足的现象之一。本文发展了一个**分岔理论框架**,直接适用于过参数化神经网络:将训练动力学沿极小值流形 M 分解为法向和切向分量,揭示 EoS 稳定性源自法向的 **flip 分岔**(由第一 Lyapunov 系数 c₁ 控制),同时切向动力学向 sharpness 递减方向漂移。在温和的谱和几何假设下,证明了在 EoS 阈值处(η = 2/λ_max(x*))收敛到极小值流形。 + +## 核心问题 + +以往严格的 EoS 分析(Zhu et al., Wang et al., Song & Yun, Gan 2026)局限于低维、结构特殊的损失函数,无法捕捉现代神经网络训练的几何复杂性。本文直面过参数化网络的核心特征——[[manifold-of-minimizers|极小值流形]](连续全局极小集)带来的 Hessian 秩亏。 + +## 方法论:法向-切向分解 + +在极小值流形 M 上的任意点 x* 处: + +1. **法向动力学**:经历 [[flip-bifurcation|flip 分岔]](Jacobian 临界特征值 λ = -1),稳定性由 [[first-lyapunov-coefficient|第一 Lyapunov 系数 c₁]] 决定 + - c₁ > 0 → 超临界分岔 → 存在稳定周期-2 轨道 + - c₁ < 0 → 亚临界分岔 → 发散 + +2. **切向动力学**:两步迭代沿 M 漂移,方向为 **sharpness 梯度** 的反方向: + ``` + Π_T(f(f(x)) - x*) = -η p² Π_T ∇³L(x*)[v_max]² + ``` + 这意味着 [[sharpness]] 沿训练**单调递减** + +借助 [[center-manifold-theorem|中心流形定理]],高维动力学可约化到低维临界子空间。 + +## 核心结论:Theorem 4.4 + +在以下条件下(对所有 x* ∈ M): +1. **c₁(x*) > 0**(超临界分岔 —— 早期实证表明 MLP 满足此条件) +2. **Π_T ∇³L(x*)[v_max]² ≠ 0**(切向漂移非退化) + +梯度下降以 η = 2/λ_max(x*) 从 x* 的邻域初始化时,**收敛到极小值流形 M**。 + +## 与乘积稳定性的统一 + +本文的第 5 节证明 [[product-stability|Gan (2026) 乘积稳定性]] 是本框架的特例:对于 L(x,y) = f(xy) 形式的损失,第一 Lyapunov 系数 c₁ 由 α_f = 3(f⁽³⁾)² - f⁽⁴⁾·f'' 主导。这建立了极简标量分析与一般分岔框架之间的直接桥梁。 + +## 开放问题 + +- 为什么实际网络的极小值处 c₁ > 0?尚无第一性原理解释 +- Progressive Sharpening 的底层机制仍待解决 +- SGD 噪声下的推广 + +## 相关概念 + +- [[edge-of-stability|Edge of Stability]] +- [[flip-bifurcation|Flip 分岔]] +- [[first-lyapunov-coefficient|第一 Lyapunov 系数]] +- [[manifold-of-minimizers|极小值流形]] +- [[normal-tangent-decomposition|法向-切向分解]] +- [[sharpness|Sharpness]] +- [[product-stability|乘积稳定性]] +- [[center-manifold-theorem|中心流形定理]] + +## 来源 + +[arXiv:2606.15551](https://arxiv.org/abs/2606.15551) +[原始存档](raw/papers/gan-bifurcation-eos-2026.md) diff --git a/papers/gan-thinking-based-non-thinking-2026.md b/papers/gan-thinking-based-non-thinking-2026.md new file mode 100644 index 0000000..aa1634b --- /dev/null +++ b/papers/gan-thinking-based-non-thinking-2026.md @@ -0,0 +1,90 @@ +--- +title: "Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning" +created: 2026-06-18 +updated: 2026-06-18 +type: paper +authors: + - Siyuan Gan (Nanjing University) + - Jiaheng Liu (Nanjing University) + - Boyan Wang (Nanjing University) + - Tianpei Yang (Nanjing University) + - Runqing Miao (Jiutian Research) + - Yuyao Zhang (Jiutian Research) + - Fanyu Meng (Jiutian Research) + - Junlan Feng (Jiutian Research) + - Linjian Meng (Shanghai AI Laboratory) + - Jing Huo (Nanjing University) + - Yang Gao (Nanjing University) +source: arXiv +source_id: 2601.04805 +published: 2026-01-08 +categories: + - cs.AI +--- + +# Thinking-Based Non-Thinking (TNT) + +> Gan et al. (2026) — arXiv:2601.04805 + +## 核心问题 + +用 RL 训练[[hybrid-reasoning-models|混合推理模型]](自动决定思考/非思考)时,模型会 **Reward Hacking**:在非思考格式中嵌入思考内容,获取不应得的更高奖励。现有方案或计算成本过高(大规模 SFT),或效果有限(统一 token 上限)。 + +## TNT 的核心思路 + +**以思考定非思考**:利用思考模式响应的 solution 部分长度,为**每个查询动态设定**非思考模式的 token 上限。 + +### 为什么这可行 + +[[large-reasoning-models|LRM]] 的思考模式训练确保 `` 之后的 solution **不含额外思考**——与真正的非思考模式输出高度一致。因此 thinking solution 长度是 non-thinking 自然长度的可靠估计。 + +### 算法 + +``` +对每个查询 x: + 1. 采样 K 个响应(用省略号提示) + 2. 从思考模式响应集 M_T^x 计算平均 solution 长度 + 3. L_N^x = ω × avg(h(y)) — 动态上限(ω=2) + 4. 非思考响应超过 L_N^x → Reward Hacking → -2 惩罚 +``` + +## 奖励函数设计 + +| 模式 | 正确 | 错误 | +|------|:--:|:--:| +| 思考模式 | +1 | 0 | +| 非思考 + 无 hacking | **+2** | -1 | +| 非思考 + Reward Hacking | **-2** | **-2** | + +核心:**超过 token 上限一律 -2**——无论对错,强力抑制 hacking。 + +## 实验亮点 + +| 指标 | TNT vs Base | +|------|------------| +| Token 使用 | **↓ ~50%** | +| 准确率 | **↑ 4.1%** | +| Reward Hacking 率 | **< 10%** | +| 效率权衡 | **最优**(所有方法中) | + +5 个数学基准测试:AIME24, AIME25, Minerva, AMC23, Olympiad。基础模型:DeepSeek-R1-Distill-Qwen-1.5B/7B, DeepScaleR-1.5B。 + +## 概念网络 + +``` +overthinking → hybrid-reasoning-models → reward-hacking + ↓ ↓ ↓ +large-reasoning-models thinking-mode dynamic-token-limit + non-thinking-mode ↓ + ellipsis-prompt thinking-based-non-thinking (TNT) + ↓ + token-level-policy-gradient → GRPO +``` + +## 兼容性 + +TNT 只关注 token 上限设定,与 RL 算法解耦:GRPO, PPO, DAPO, Dr.GRPO, GSPO 均可使用。也可与 CoT Compression、Batch-Level Reward Balancing、Length-Aware Reward 等技术组合。 + +## 来源 + +[arXiv:2601.04805](https://arxiv.org/abs/2601.04805) | [原始存档](raw/papers/gan-thinking-based-non-thinking-2026.md) diff --git a/papers/gaurav-dynamic-react-2025.md b/papers/gaurav-dynamic-react-2025.md new file mode 100644 index 0000000..1da237e --- /dev/null +++ b/papers/gaurav-dynamic-react-2025.md @@ -0,0 +1,74 @@ +--- +title: "Dynamic ReAct:大规模 MCP 工具选择" +created: 2026-06-19 +updated: 2026-06-19 +type: paper +tags: [dynamic-tool-selection, mcp, react-agent, meta-tools, tool-retrieval] +sources: + - https://arxiv.org/abs/2509.20386 +--- + +# Dynamic ReAct:大规模 MCP 工具选择 + +> **Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj** · 2025 · arXiv:2509.20386 + +## 核心问题 + +MCP 生态增长到数百/数千工具时,ReAct Agent 无法全量加载——上下文有限。需要**按需的动态工具选择**。 + +## 五架构渐进演化 + +| # | 架构 | 核心机制 | 关键问题 | +|---|------|---------|---------| +| 1 | Direct Semantic Search | 用户查询→向量库→top-k | 噪声严重,跨域失效 | +| 2 | Meta-Tool Query Construction | LLM 构造原子搜索查询 | 仍需大 k,精度有限 | +| 3 | **Search and Load** ★ | search_tools + load_tools | **最优平衡** | +| 4 | Application-Aware | 先搜 app 再搜 tool | 额外调用收益有限 | +| 5 | Fixed Tool Set | 固定 meta-tool 动态访问 | 长对话退化 | + +### ★ Search and Load(生产选择) + +``` +用户查询 → LLM构造多查询 → search_tools(k1=20, k2=5/每应用) + → 去重返回 → LLM精选 → load_tools(< 5个工具) → 执行 +``` + +优势: +- 多查询合并一次 `search_tools` 调用 +- 去重 + 每应用上限 k2=5 控制候选规模 +- LLM 精选后通常**加载不到 5 个**工具(vs baseline 的 10+) +- 工具加载减少 **50%**,准确率保持 + +## [[context-enriched-embeddings|上下文增强嵌入]] + +从 baseline 的 Top-5 40% → 60%(+50% 相对提升): + +- Sonnet 4 生成增强描述(隐式功能 + 用例) +- voyage-context-3 嵌入 + Sonnet context +- BM25 混合提升 recall 但降 precision(关键词误匹配) + +## [[meta-tools|Meta-Tool 设计]] + +四个核心 meta-tool: +- **search_tools**:两级搜索(k1 候选 → 去重 → k2 每应用上限) +- **load_tools**:LLM 精选后显式加载 +- **search_apps**:先定位应用(可选,收益有限) +- **get_tool_info / call_tool**:Fixed Tool Set 模式的动态访问 + +## [[default-tools|Default Tools]] + +**create_table** + **web_search** 始终可用——避免为通用任务浪费搜索(如 LLM 搜索 "financial APIs" 来找财报,有了 web_search 直接搜即可)。 + +## 与 MCP-Zero 的对比 + +| | Dynamic ReAct | [[fei-mcp-zero-2025|MCP-Zero]] | +|---|---|---| +| 核心机制 | meta-tool + 语义搜索 | Agent 主动请求 + 层次路由 | +| 工具加载 | search→load 两阶段 | 请求→路由→注入 | +| 向量策略 | context-enriched embeddings | OpenAI text-embedding-3-large | +| 多轮 | ReAct 框架内迭代 | Iterative Capability Extension | +| 共性 | 都追求"按需而非全量" | 都反对被动注入 | + +Dynamic ReAct 论文直接引用了 MCP-Zero(ref [2])——两篇构成 MCP 工具选择的互补视角。 + +来源:[原始存档](raw/papers/gaurav-dynamic-react-2025.md) diff --git a/papers/gu-mamba.md b/papers/gu-mamba.md new file mode 100644 index 0000000..87ce93e --- /dev/null +++ b/papers/gu-mamba.md @@ -0,0 +1,95 @@ +--- +title: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" +created: 2026-06-18 +updated: 2026-06-18 +type: paper +tags: ["state-space-models", "linear-complexity", "sequence-modeling", "architecture"] +sources: ["https://arxiv.org/abs/2312.00752"] +--- + +# Mamba:选择性状态空间的线性时间序列建模 + +## 核心问题 + +[[state-space-models|状态空间模型(SSM)]]作为 Transformer 的线性复杂度替代方案,在连续信号(音频、视觉)上表现出色,但在离散信息密集数据(如文本)上从未达到 Transformer 质量。Gu & Dao (2024) 识别出根本原因:**缺乏内容感知推理**——传统 SSM 的动力学是时间不变的(LTI),每个 token 的处理规则完全相同,无法选择性关注或忽略信息。 + +## 核心贡献:选择机制(S6) + +Mamba 的关键创新是将 SSM 从 **LTI(线性时间不变)升级为选择性(Selective)**: + +``` +S4 (LTI): B, C, Δ 对所有时间步固定 → 卷积 OR 循环 +S6 (Selective): B_t, C_t, Δ_t 是输入 x_t 的函数 → 仅循环 (需 scan) +``` + +### 算法对比(核心直觉) + +| 算法 | B | C | Δ | 性质 | +|------|---|---|---|------| +| S4 | Parameter (D, N) | Parameter (D, N) | τ(Parameter) | LTI, 可用卷积 | +| **S6** | s_B(x_t): (B, L, N) | s_C(x_t): (B, L, N) | τ(Δ + s_Δ(x_t)) | **时间变化**, 需 scan | + +效果:S6 模型能**根据当前 token 内容**决定是传播还是遗忘信息——这就是选择性。 + +### 为什么这很重要 + +在 [[selective-copy|选择复制]]任务中,传统 LTI 模型只能在 token 间距固定时成功(只需时间感知,不需内容感知)。一旦间距随机变化,只有能"看到内容再决定是否记住"的模型才能胜任。Mamba 的选择机制天然支持这种内容感知。 + +## 第二个创新:硬件感知算法 + +选择机制带来了计算挑战:时间变化的 SSM **不能再用卷积**(卷积要求 LTI)。Mamba 通过以下方式解决: + +1. **并行关联扫描(parallel associative scan / Blelloch scan)**:将循环更新展开为前缀和操作,可在 GPU 上并行 +2. **IO 感知的 kernel fusion**:在 SRAM 中完成 scan 和离散化,避免将扩展状态写入 HBM +3. **重计算(recomputation)**:反向传播时不保留中间状态,直接重算 + +这三个技巧使 Mamba 比所有卷积 SSM 快 **3×**(A100 GPU)。 + +## 架构:极简设计 + +Mamba block 结构: + +``` +x → LayerNorm + → Linear(d → 2d) → Conv1d → SiLU [门控分支] + → Linear(d → 2d_N) → SSM(S6) [SSM 分支] + → 逐元素乘法 → Linear(2d → d) + → + x (残差) +``` + +关键设计哲学: +- **无注意力、无 MLP**:单一块类型统管整个模型 +- **扩展比 E=2**:计算量可控 +- **同质架构**:所有层结构相同,仅参数不同 + +与 H3 的关系:H3 使用两个 LTI SSM + 门控,Mamba 将门控 SSM 融合为单一选择性 SSM。 + +## 实验结果总结 + +| 模态 | 结果 | +|------|------| +| 语言 | Mamba-3B > Pythia-3B,匹敌 Pythia-7B;5× 推理吞吐 | +| 合成任务 | Selective Copying + Induction Heads 外推至 >1M tokens | +| 音频 | SC09 语音生成 FID 降低 >50% | +| 基因组学 | >HyenaDNA,>Transformer | + +## 关键概念网络 + +- [[selective-state-space]] — S6 选择机制 +- [[hardware-aware-algorithm]] — GPU 优化并行 scan +- [[structured-state-space-models]] — S4 前身 +- [[content-based-reasoning]] — Mamba 解决的 LTI 弱点 +- [[selective-copy]] — 动机合成任务 +- [[induction-heads]] — LLM 关键机制 +- [[hippo]] — SSM 数学基础 +- [[mamba-ssm]] — 概念主页(已有,需更新) +- [[state-space-models]] — SSM 家族总览(已有) + +## 代码 + +https://github.com/state-spaces/mamba + +## 来源 + +- [arXiv:2312.00752](https://arxiv.org/abs/2312.00752) +- [原始存档](raw/papers/gu-mamba-2024.md) diff --git a/papers/hazare-dcgwm-2026.md b/papers/hazare-dcgwm-2026.md new file mode 100644 index 0000000..f845de1 --- /dev/null +++ b/papers/hazare-dcgwm-2026.md @@ -0,0 +1,105 @@ +--- +title: "DCGWM: 双通道接地世界建模 — 结构防止目标干扰坍缩" +created: 2026-06-23 +updated: 2026-06-23 +type: paper +tags: ["world-modeling", "jepa", "representation-learning", "collapse-prevention", "gradient-interference"] +authors: ["Akshay Hazare"] +venue: "arXiv" +year: 2026 +arxiv: "2606.18688" +note: "Position paper. Experimental validation in progress." +sources: ["https://arxiv.org/abs/2606.18688v1"] +--- + +# DCGWM: Dual-Channel Grounded World Modeling + +> Akshay Hazare · arXiv:2606.18688 · 2026 · Position paper (experimental validation ongoing) + +## 核心问题 + +[[jepa|JEPA]] 是世界模型表示学习的前沿方法。但当一个 JEPA 需要同时接地两个**定性不同的外部信号**时——物理动力学(稀疏、高幅值、满足约束的梯度修正)和社交行为动力学(弥散、分布匹配的梯度修正)——会发生什么? + +Hazare 识别出这一设定下的一种新失效模式:**[[objective-interference-collapse|Objective Interference Collapse (OIC)]]**——在共享潜在空间中联合学习时,主导通道系统性地坍缩从属通道的表示子空间。损失权重**无法解决**此问题,因为冲突是几何的而非量级的。 + +## 方法论贡献 + +### 1. OIC 的形式化 + +物理梯度 g_p 是低熵的(集中在特定维度,高幅值),行为梯度 g_b 是高熵的(弥散在多个维度,低幅值)。联合更新 ∝ g_p + g_b 导致: +- 物理主导时 → Z → Z_p*,物理损失 → 0 +- 行为梯度在 Z_p* 处非零 → 行为更新扰动物理子空间 +- 下一轮物理修正覆盖行为结构 → 行为子空间永远无法形成稳定满秩 + +标量重加权(α·g_p + β·g_b)改变幅度但不改变冲突的**几何结构**。 + +### 2. DCGWM 架构 + +核心设计:**分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流** + +``` +物理测量 → PGC [内向∇] → Z_p ┐ + ├→ LWME → detach() → GRL → 用户 +社交模拟 → SBGC [内向∇] → Z_b ┘ +``` + +**四个架构不变量**: +1. **Inv1**: Z_p 和 Z_b 无共享参数,无直接梯度路径 +2. **Inv2**: PGC 梯度仅更新 W_p;SBGC 梯度仅更新 W_b +3. **Inv3**: 接口模块不传播跨子空间梯度 +4. **Inv4**: GRL 接收 detach() 的潜在表示,生成损失不回流 + +**物理接地通道 (PGC)**:通过 [[vicreg|VICReg]] 风格对齐将物理测量映射到 Z_p,使用方差/协方差正则化维持子空间满秩。 + +**行为接地通道 (SBGC)**:将紧急性多智能体模拟的输出作为外部接地信号注入 Z_b——行为分布来自 N 个交互智能体的群体级紧急性轨迹,不可约化为单模型预测。 + +**接口模块**:通过一致性 + 解耦的双目标(无跨子空间梯度)捕获物理-行为相关性。 + +### 3. Asymmetric Grounding Adherence Loss (L_AGA) + +[[rollout-drift|Rollout drift]] 是多步潜在预测累积误差导致轨迹偏离接地流形的失效模式。[[asymmetric-grounding-adherence-loss|L_AGA]] 是首个针对异质接地源、具有不兼容容忍结构的 drift 防止损失: + +- **物理 Adherence**:平方铰链惩罚 `max(0, d_p − ε_p)²`——物理定律是硬约束,超过容忍阈值即范畴错误 +- **行为 Adherence**:软 KL 散度 `KL(q_b ∥ p_b)`——行为随机性是预期的,与分布距离成比例的连续惩罚 + +不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容。 + +### 4. Isolation Necessity Theorem + +[[isolation-necessity-theorem|隔离必要性定理]]:设 L_gen 为任何奖励保留高频感知统计的生成目标,L_pred 为奖励丢弃不可预测高频内容的 JEPA 预测目标。若 LWME 在 L_pred 下有唯一最优点 Z*,且 Z* 位于 L_gen 在高频子空间中的鞍点,则对任何 α > 0,梯度优化将驱动 Z 偏离 Z*。 + +→ 唯一解决方案是架构隔离(α = 0):GRL 在 LWME 参数冻结的单独优化阶段训练。 + +### 5. 对 LLM 世界建模的结构性批判 + +DCGWM 不仅是新架构提议——它阐明了一个关于 LLM 作为世界模型的结构性论证: + +- **NTP 诱导的子空间坍缩**(Zhao et al., 2024):NTP 隐式求解秩约束优化,相同下一 token 支持集的上下文表示收敛到近共线方向 +- **RLHF 复合而非修复**:RLHF 在已坍缩的表示上操作,进一步压缩有效秩 +- **缩放使问题更严重**:更大模型更完全地最小化 NTP 损失 → 更完全地坍缩 + +DCGWM 通过用 JEPA 掩码预测替代 NTP 目标来规避这些——不是修复 LLM,而是从根本上使用不同的训练目标。 + +## 局限性与开放问题 + +Hazare 精确陈述了局限——不做最小化: + +1. **零经验验证**:所有声明是理论或结构性的;实验验证进行中 +2. **OIC 是猜想**:论证是直觉的,未包含自适应优化器、批量归一化动力学等 +3. **隔离必要性依赖未证明假设 A2**:Z* 在 L_gen 高频子空间中是鞍点的假设 +4. **接口收敛未证明**:L_I 是否有稳定均衡未知 +5. **行为编码器保真度未验证**:enc_b 是否能忠实地映射群体紧急性轨迹未知 + +## 参考 + +- [原始存档](raw/papers/hazare-dcgwm-2026.md) +- [[jepa|JEPA]] +- [[objective-interference-collapse|Objective Interference Collapse]] +- [[dcgwm|DCGWM]] +- [[inward-only-gradient-flow|Inward-Only Gradient Flow]] +- [[asymmetric-grounding-adherence-loss|L_AGA]] +- [[rollout-drift|Rollout Drift]] +- [[isolation-necessity-theorem|Isolation Necessity]] +- [[vicreg|VICReg]] +- [[world-models-rl|World Models]] +- [[representation-collapse|Representation Collapse]] diff --git a/papers/jordan-collectivist-ai-2025.md b/papers/jordan-collectivist-ai-2025.md new file mode 100644 index 0000000..80189b9 --- /dev/null +++ b/papers/jordan-collectivist-ai-2025.md @@ -0,0 +1,56 @@ +--- +title: "AI 的集体主义经济学视角(Jordan, 2025)" +created: 2026-06-21 +updated: 2026-06-21 +type: paper +tags: + - ai-economics + - collective-intelligence + - uncertainty + - mechanism-design +sources: + - arXiv:2507.06268 + - MLST 2026 +--- + +# AI 的集体主义经济学视角 + +> Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268v3 (cs.CY/cs.AI/stat.ML), 2025. + +## 核心主张 + +LLM 不仅是"接近人类的智能体"——它们同样是**集体主义制品**:每次交互都在与数十亿贡献微数据的个体进行隐式对话。"AI 匹敌的隐喻不是搜索引擎或聊天机器人,而是**市场**。" + +## 三种思维方式 + +论文提出了计算、推断、经济三种思维方式的深度融合框架。详见 [[collectivist-ai|集体主义 AI]]。 + +## 核心案例 + +| 案例 | 章节 | 核心概念 | +|------|------|---------| +| 数据库推断设计 | §2 | 从描述到推断——对"新患者"而非"旧数据"做预测 | +| 统计合同理论 | §3 | [[statistical-contract-theory]] + [[e-values|E-values]] | +| 三层数据市场 | §4.2 | [[data-markets|数据市场]]的隐私-收入权衡 | +| 基础模型前沿偏倚 | §4.3 | [[prediction-driven-inference|PPI]] 纠正 [[foundation-model-frontier-bias]] | +| 概率匹配 | App.C | [[probability-matching|概率匹配]]作为种群纳什均衡 | + +## 数学亮点 + +**E-values 与激励相容**:Bates et al. (2024) 证明统计合同激励相容 ⇔ 选项可表达为 E-values。E-value 是非负上鞅,在零假设下期望 ≤1,本质是"证据随时间的累积"——将推断概念与经济概念等价关联。 + +**概率匹配作为纳什均衡**:小鼠在 2:1 食物比下以 2/3 vs 1/3 概率选择左右——这不是次优行为,而是种群层面的纳什均衡,避免资源浪费。 + +## 教育实践 + +UC Berkeley **Data 8** 课程(2015 年起,每学期 1500+ 学生),融合计算思维(Python 编程)+ 推断思维(置换检验),让学生用算法回答真实世界问题。 + +## 论文定位 + +这是一篇**立场论文(position paper)**,非技术贡献型。Jordan 的核心动作不是提出新算法,而是**重新定义 AI 的学科边界**——主张将经济与推断原则融入算法设计的 DNA。这与 [[michael-jordan-mlst-collectivist-ai-2026|MLST 访谈]] 中的论点完全一致,论文提供了更系统的学术展开。 + +## 参考文献 + +- Bates et al. (2024). Principal-Agent Hypothesis Testing. arXiv:2205.06812 +- Angelopoulos et al. (2023). Prediction-Powered Inference. *Science* 383, 669–674 +- Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697 diff --git a/papers/large-language-gibbs.md b/papers/large-language-gibbs.md new file mode 100644 index 0000000..d315f7b --- /dev/null +++ b/papers/large-language-gibbs.md @@ -0,0 +1,87 @@ +--- +title: "Structured Inference with Large Language Gibbs" +created: 2026-06-25 +updated: 2026-06-25 +type: paper +tags: [mcmc, gibbs-sampling, llm, probabilistic-inference, bayesian, structure-learning, reasoning] +sources: + - https://arxiv.org/abs/2606.19264 + - https://github.com/hyeok9855/large-language-gibbs +--- + +# Large Language Gibbs + +**Large Language Gibbs** 是由 Edinburgh 团队(Choi, Gouk, Whitammer)提出的结构化概率推断框架。核心创新在于:**将 LLM 的条件分布作为 Gibbs 采样的转移算子**,通过迭代重采样消除自回归生成的顺序偏差,实现更可靠的联合分布采样。 + +## 核心方法论 + +### 1. Gibbs 采样与 LLM 条件分布 + +标准 Gibbs 采样从联合分布中采样:随机选择变量 i,从 p(X_i | X_{-i}) 重采样。Large Language Gibbs 用 LLM 的 next-token conditional 近似这些单变量条件分布: + +``` +q_i^LM(X_i | X_{-i}) = E_{σ_{-i}}[p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i])] +``` + +**关键设计**:每次重采样前将其他变量**随机排列**(random permutation),消除固定序列顺序的偏差。 + +### 2. 稳态分布 q^sym + +论文证明了链的稳态分布为: + +``` +q^sym(X) = E_σ[p^LM(seq(X, σ))] +``` + +即:对所有变量排列下 LLM 似然的期望。当 LLM 满足排列不变性假设时,q^sym 的各单变量条件与 LLM 的条件分布一致。即使假设不完全成立,随机排列也显著降低了顺序偏差。 + +### 3. 三类核变体 + +| 核 | 机制 | 优势 | +|----|------|------| +| **Basic Gibbs** | 直接从 LLM 的条件分布采样 | 最直接 | +| **[[barker-gibbs|Barker Gibbs]]** | LLM 在 current 和 candidate 之间做偏好比较,Barker 规则决定接受率 | 利用判别能力,克服 base model 采样偏差 | +| **[[gambling-gibbs|Gambling Gibbs]]** | LLM 判断是否愿意对 candidate 下注,greedy decoding | 无需校准概率,仅需二值判断 | + +### 4. 实用变体 + +- **Sweeping Gibbs**:按固定顺序循环更新(加速收敛) +- **Block Gibbs**:一次重采样 B>1 个变量(在高度相关变量中跳出局部模式) + +## 应用 + +### 合成分布采样(§4) + +LLM 独立采样有强偏差(如 Llama-3.1-8B 对 Uniform 分布的采样偏向低值),批量采样有高自相关。Gibbs 迭代更新显著纠正了这两种问题。 + +### 一致性推理(§5.1) + +在 TruthfulQA 和 GSM8K-Verification 上,Gibbs 采样通过迭代条件更新确保相关问题的答案一致性。相比 ICM 的启发式最大化,Gibbs 提供了有理论保证的替代方案。 + +### 贝叶斯结构学习(§5.2) + +使用 Gibbs 生成合成数据 D_LLM,构造 world-knowledge 驱动的先验: + +``` +P(G | D; D_LLM, γ) ∝ P_0(G) P(D_LLM | G)^γ P(D | G) +``` + +在 limited data 下,LLM 先验帮助消歧义马尔可夫等价的 DAG 结构。 + +## 算法流程 + +1. **初始化**:自回归生成所有变量的初值 X_1, ..., X_n +2. **迭代**(t = 1, ..., T): + - 随机选择变量 i + - 随机排列其他变量 σ_{-i} + - 从 p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i]) 重采样 X_i +3. **后处理**:burn-in 丢弃 + thinning 间隔采样 + +## 参考 + +- [原始存档](raw/papers/large-language-gibbs-2026.md) +- [[barker-gibbs]] +- [[gambling-gibbs]] +- [[llm-mcmc]] +- [[order-bias-removal]] +- [[llm-consistent-reasoning]] diff --git a/papers/latent-cot-supervision.md b/papers/latent-cot-supervision.md new file mode 100644 index 0000000..d198759 --- /dev/null +++ b/papers/latent-cot-supervision.md @@ -0,0 +1,77 @@ +--- +title: "What Makes Effective Supervision in Latent Chain-of-Thought" +created: 2026-06-25 +updated: 2026-06-25 +type: paper +tags: [latent-cot, information-theory, mutual-information, reasoning, supervision, representation-learning] +sources: + - https://arxiv.org/abs/2606.20075 + - https://github.com/EIT-NLP/Supervision-in-Latent-CoT +--- + +# Latent CoT Supervision + +**Latent CoT Supervision** 是 ICML 2026 的工作(Chen et al.),从信息论角度系统分析了 Latent Chain-of-Thought 的有效监督机制。核心贡献在于识别 outcome supervision 的失败机理,并将过程监督分解为两个互补维度。 + +## 核心发现 + +### 1. Outcome Supervision 的双重崩溃 + +仅使用最终答案损失训练 Latent CoT 失败于两个机制: + +| 机制 | 现象 | 后果 | +|------|------|------| +| **[[dual-collapse|梯度衰减]]** | 监督信号集中于 L1,L2...L6 梯度接近零 | 模型依赖浅层位置,深层不参与推理 | +| **[[dual-collapse|表征漂移]]** | 潜状态在训练中偏离语义参考区 | 失去语义锚定,进入无结构区域 | + +两者的交互效应:梯度衰减导致深层潜状态未受充分训练 → 它们在参数空间中"漂移" → 最终 answer loss 通过捷径(shortcut)最小化,而非通过真正的多步推理。 + +### 2. 过程监督的二维分解 + +**[[trajectory-supervision|Trajectory Supervision]]**(轨迹监督): +- 逐步注入推理信号:阶段 k 训练时,前 k 步使用连续潜状态 L_{≤k},后续使用显式 token +- 目标:最大化局部互信息 I(L_{≤k}; S_{k+1}) +- 关键发现:仅 Trajectory Supervision(无 Space Supervision)已显著优于 Outcome-only + +**[[space-supervision|Space Supervision]]**(空间监督): +- **[[geometric-compression-latent|Geometric Compression (GC)]]**:MSE 对齐潜状态到静态嵌入 → **破坏性约束**,坍缩高维推理流形 +- **[[generative-reconstruction-latent|Generative Reconstruction (GR)]]**:辅助解码器从潜状态恢复文本 → **语义锚定**,保留信息容量 + +GR 的信息论优势:最小化 H(S_t | L_t) → 最大化 I(L_t; S_t) 的变分下界。 + +### 3. Unified Latent Probe (ULP) + +[[unified-latent-probe|ULP]] 是一个轻量解码器 q_φ(S_t | L_t),冻结模型后训练在所有 baseline 的潜状态上。 +其重建损失 L_Info 提供了一个严格的信息度量: +- L_Info 低 → 潜状态保留了可恢复的推理语义 +- L_Info 高 → 潜状态退化到高熵无结构区域 + +### 4. Information-Performance Binding + +[[information-performance-binding]]:推理精度与 ULP 重建损失呈严格的**反比关系**。即推理能力被潜链中的互信息上界严格约束。 + +实验中 PS-GR(Trajectory + Generative Reconstruction)达到最优前沿:最大化 I(L_t; S_t) 并保持 I(L_{≤k}; S_{k+1}) 的可预测性。 + +## 方法论要点 + +- **渐进式训练**(Progressive Training):从完全显式 CoT 逐步过渡到完全 Latent CoT +- **粒度(Granularity g)**:g 个 token 合并为一个潜向量。g=1(逐 token 潜向量)效果最优但计算昂贵 +- **优化器重置**:过渡到连续状态时重置优化器 → "探索冲击"(exploration shock)帮助逃离局部最优 +- **信息衰减**:自回归潜生成存在 position-wise 信息衰减,GR 通过可重建性约束周期性"重置"语义漂移 + +## 局限 + +- 模型规模仅限于 GPT-2,需在更大模型上验证 +- 依赖过程标注(ground-truth reasoning steps),限制可扩展性 +- MI 估计受限于变分探针容量,可能保守 + +## 参考 + +- [原始存档](raw/papers/latent-cot-supervision-2026.md) +- [[dual-collapse]] +- [[trajectory-supervision]] +- [[space-supervision]] +- [[unified-latent-probe]] +- [[information-performance-binding]] +- [[generative-reconstruction-latent]] +- [[geometric-compression-latent]] diff --git a/papers/longmem-eval-2025.md b/papers/longmem-eval-2025.md new file mode 100644 index 0000000..abd18df --- /dev/null +++ b/papers/longmem-eval-2025.md @@ -0,0 +1,91 @@ +--- +title: "LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Wu et al., UCLA/Tencent, ICLR 2025)" +created: 2026-06-25 +updated: 2026-06-25 +type: paper +tags: ["memory-benchmark", "chat-assistant", "long-term-memory", "evaluation"] +sources: + - "https://arxiv.org/abs/2410.10813" +code: "https://github.com/xiaowu0162/LongMemEval" +--- + +# LongMemEval: Benchmarking Long-Term Interactive Memory in Chat Assistants + +> Wu et al. | UCLA / Tencent AI Lab Seattle / UC San Diego | ICLR 2025 | arXiv:2410.10813 + +## 问题 + +LLM 驱动的聊天助手已集成记忆组件来追踪交互历史,但其在**持续交互中的长期记忆能力**缺乏系统评估。现有基准有两个缺陷: +1. 对话历史过短(几千 tokens),无法挑战现代系统的记忆能力 +2. 问题覆盖面窄——缺少跨会话推理、时间推理、知识更新、信息遗忘等关键能力 + +## [[longmem-eval|LongMemEval 基准]] + +### 问题形式化 + +每个评测实例为 4-元组 (S, q, t_q, a): +- **S** = [(t₁, S₁), ..., (t_N, S_N)]:按时间排序的 N 个历史会话,每个 S_i 是多轮用户-助手交互 +- **q**:问题 +- **t_q**:提问时间戳 +- **a**:答案 + +### 五种核心记忆能力 (500 题) + +| 能力 | 说明 | 例子 | +|------|------|------| +| **Information Extraction** | 从单/多会话提取隐藏信息 | "我上次去博物馆是什么时候?" | +| **Multi-Session Reasoning** | 跨多个会话综合信息 | "我目前拥有多少乐器?"(分散在 4 个会话中) | +| **Temporal Reasoning** | 基于时间参考的推理 | "距离我上次和朋友去博物馆过去了几个月?" | +| **Knowledge Updates** | 处理用户信息的更新/矛盾 | 用户先说过敏花生→后来说不过敏 | +| **Abstention** | 识别无法回答的问题 | 问 30-gallon 鱼缸的鱼数——但用户只有 10-gallon | + +### 两种标准设置 + +| 设置 | 规模 | 难度 | +|------|------|------| +| LongMemEval **S** | ~115k tokens/problem | 长上下文 LLM 下降 30-60% | +| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模长时间交互 | + +## 统一记忆设计框架:[[memory-indexing-retrieval-reading|索引→检索→阅读]] + +将记忆系统分解为三个阶段 × 四个控制点: + +``` +会话 → [Value 粒度] → [Key 索引] → 存储 + ↓ +查询 → [Query 展开] → 检索 → [Reading 策略] → 答案 +``` + +**三阶段**:Indexing(索引写入)、Retrieval(检索召回)、Reading(阅读利用) +**四控制点**:Value(存储粒度)、Key(索引键)、Query(查询)、Reading Strategy(利用策略) + +## 关键实验发现 + +### 1. 粒度:Round > Session > User Fact + +Session 级别的存储信息损失严重。最优粒度是 **round**(单轮交互),但进一步压缩为 user facts 会在总体精度上反降——尽管它提升了多会话推理准确度。 + +### 2. [[fact-augmented-key-expansion|事实增强的 Key 展开]] + +用提取的用户事实(而非仅对话原文)作为索引键: +- 记忆召回 +9.4% (recall@k) +- 下游 QA 准确度 +5.4% + +### 3. [[time-aware-query-expansion|时间感知的 Query 展开]] + +直接把时间戳关联到事实并缩小搜索范围: +- 时间推理召回 +6.8%~11.3%(当使用强 LLM 展开查询时) + +### 4. Reading 策略:Chain-of-Note + 结构化格式 + +即使完美召回,准确利用检索到的项目仍非易事。Chain-of-Note + 结构化数据格式在三类 LLM 上提升 QA 达 **10 个绝对百分点**。 + +## 核心洞察 + +1. **记忆评测需要覆盖"遗忘"**——Abstention 是 LongMemEval 的独特贡献:模型必须学会说"我不知道",而非幻想答案 +2. **三阶段框架统一了记忆设计空间**——indexing/retrieval/reading 的分拆使不同优化策略可以在独立控制点上叠加 +3. **Key 展开的价值大于 Query 展开**——在索引阶段用结构化事实增强 key 比在查询阶段做 rewrite 更高效(+9.4% vs +6.8-11.3%) +4. **与 Atlas 的对接点**:LongMemEval 的三阶段框架可以直接映射到 Atlas 的 ES 记忆管线——round 粒度 → episodic 索引,fact-augmented key 对应 semantic 索引的 consolidation 输出 + +## 来源 +[原始存档](raw/papers/longmem-eval-2025.md) | [arXiv](https://arxiv.org/abs/2410.10813) | [GitHub](https://github.com/xiaowu0162/LongMemEval) diff --git a/papers/maineCoon.md b/papers/maineCoon.md new file mode 100644 index 0000000..8eb4dc4 --- /dev/null +++ b/papers/maineCoon.md @@ -0,0 +1,85 @@ +--- +title: "MaineCoon: Real-Time Audio-Visual Social World Model" +created: 2026-06-20 +updated: 2026-06-20 +type: paper +tags: ["audio-visual", "streaming", "social", "world-model", "video-generation", "real-time", "autoregressive"] +sources: ["https://arxiv.org/abs/2606.17800"] +venue: "arXiv preprint (cs.CV, 2026)" +authors: "Catnip AI Team" +--- + +# MaineCoon: Real-Time Audio-Visual Social World Model + +> **一句话**:首个实时流式音视频自回归模型 (22B, 47.5 FPS, 单 GPU),定义并首次实现 [[social-world-model|社交世界模型]] 范式。 + +## 核心贡献 + +MaineCoon 解决了视频生成从「离线单向消费」到「实时社会互动」的范式转变: + +| 维度 | 传统 DiT 视频模型 | MaineCoon | +|------|------------------|-----------| +| 生成模式 | 离线、双向时间注意力 | **实时流式**、因果自回归 | +| 模态 | 仅视频或音频为条件 | **音视频联合生成 + 同步** | +| 帧率 | 离线渲染 | **47.5 FPS** 单卡实时 | +| 长度 | 数秒 | **千秒级 (~45 分钟)** | +| 成本 | 高昂 | **<$0.001/秒** | +| 交互 | 无 | **亚秒级交互** | + +### 范式定义:Social World Model + +[[social-world-model|社交世界模型]] 是一种**理解、模拟、回应人类社交动态**的生成范式。不同于预测物理环境的传统世界模型([[world-models-rl]])或 LeCun 的感知世界模型([[world-model-lecun]]),社交世界模型学习人类的「社交物理」——对话节奏、情感共鸣、唇音同步、互动反馈。 + +## 方法要点 + +### 1. 无需 Teacher Forcing 的流式训练 +传统做法是用 teacher forcing 从非因果教师蒸馏流式行为。MaineCoon 直接以因果 chunk-by-chunk 方式训练: +- [[self-resampling|Self-Resampling]]:模型以自己生成的**退化历史**为条件,而非纯净 ground-truth +- 消除 train-test gap,使模型对部署时的长时退化鲁棒 + +### 2. 跨模态表示对齐 +通过 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练: +- 对齐视觉 token 之间的**成对关系**,而非绝对特征值 +- 仅在视觉流上施加,音频流不受约束 +- 大幅加速语义结构的涌现 + +### 3. Specialize-then-Consolidate 后训练 +- **Phase 1**:5 个域(远镜、多人对话、运动、动画、舞蹈)各训一个 LoRA DPO expert +- **Phase 2**:[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一部署策略 + - Verifier 对学生候选打分 → 自动加权域专家干预程度 + - 全部失败→最大专家权重(α);全部成功→零专家干预 + +### 4. Agentic 流式推理框架 +三个 agentic 控制器包裹冻结生成器(训练无关): +- **Director (Planner & Observer)**:Gemma 4 26B agent 写 prompt 流 + 观察生成质量 + [[forward-repair-ladder|前向修复]] +- **Cache Manager**:管理 bounded keep-set (subject anchor + scene sink + recent chunks) + AdaStat drift control +- **Buffer Controller**:pace gate 管理生成 lead,吸收抖动,保护播放流畅度 + +## SocialVideo Bench + +首个专注社交视频生成的 benchmark,9 项指标覆盖: +- 视觉质量、运动、音频质量、音视频对齐、社交视频和谐度 +- MaineCoon 在所有指标上超越 7 个开源 baseline + +## 开源与资源 + +- 项目主页:https://mainecoon.tech/ +- 论文:https://arxiv.org/abs/2606.17800 +- 基础模型:LTX-2.3 (22B 开源 DiT) + +## 相关概念 +- [[social-world-model|社交世界模型]] — 核心范式 +- [[self-resampling|Self-Resampling]] — 训练技术 +- [[reinforced-online-policy-distillation|ROPD]] — 专家合并 +- [[agentic-streaming-inference|Agentic 流式推理]] +- [[agentic-cache-manager|Agentic 缓存管理]] +- [[look-ahead-buffer-controller|缓冲控制]] +- [[forward-repair-ladder|前向修复]] +- [[socialvideo-bench|SocialVideo Bench]] +- [[audio-visual-representation-alignment|音视频表示对齐]] +- [[domain-aware-preference-optimization|域感知 DPO]] +- [[diffusion-transformer|DiT]] +- [[audio-visual-generation|音视频生成]] +- [[autoregressive-video-generation|自回归视频生成]] +- [[streaming-generation|流式生成]] +- [[social-video|社交视频]] diff --git a/papers/me2-trm-reasoning-2026.md b/papers/me2-trm-reasoning-2026.md new file mode 100644 index 0000000..d2a4e82 --- /dev/null +++ b/papers/me2-trm-reasoning-2026.md @@ -0,0 +1,77 @@ +--- +title: "ME² + TRM: Complex Reasoning Optimization (Zhang et al., ICML 2026)" +created: 2026-06-24 +updated: 2026-06-24 +type: paper +tags: ["reasoning", "reward-model", "dag", "grpo", "test-time-scaling"] +sources: + - "https://arxiv.org/abs/2602.08498" +code: "https://github.com/Simplified-Reasoning/TRM" +--- + +# ME² + TRM: 复杂推理的表征、评估与优化 + +> Zhang et al. | ICML 2026 | arXiv:2602.08498v2 | cs.CL + +## 动机 + +[[large-reasoning-models|LRMs]] 的推理轨迹越来越长且结构复杂,但缺乏统一的答案回答三个问题:(1) 什么是高质量推理?(2) 如何可靠评估?(3) 如何用评估信号优化推理? + +现有方法的局限:PRMs 依赖步骤级绝对评分,无法捕获长程依赖和非线性结构;ORMs 设计用于对齐最终响应(helpful/honest/harmless),而非评估结构化推理质量。 + +## 核心框架 + +### [[me2-principle|ME² 原则]] + +两个正交维度: + +| | Macro(全局) | Micro(局部) | +|---|---|---| +| **Effectiveness** | 结构组织是否合理、无冗余分支 | 步骤是否正确、有逻辑 | +| **Efficiency** | 推理路径是否简洁、无绕路 | 步骤是否精简、无赘述 | + +推理质量 = Macro-Effectiveness × Macro-Efficiency × Micro-Effectiveness × Micro-Efficiency + +### [[dag-reasoning-evaluation|DAG 推理建模]] + +将推理轨迹抽象为 DAG: +- 节点:推理步骤 +- 边:逻辑依赖关系 +- DAG vs Tree:Tree 无法表达合并(多前驱节点),DAG 是表达力与可处理性的实用平衡 + +### [[thinking-reward-model|Thinking Reward Model (TRM)]] + +训练流程: +1. 生成多条候选推理轨迹 → 构建 DAG → ME² pairwise preference 标注(DeepSeek-V3.2) +2. 构建 [[trm-preference-dataset|TRM-Preference]](103K 训练对,1.5K 验证) +3. 训练 TRM:Llama-3.1-8B + scalar head,Bradley-Terry loss + +**核心设计**:TRM 仅训练于 verified-correct 推理对——与答案正确性解耦,纯评估推理质量。 + +### [[reasoning-quality-optimization|推理质量优化]] + +**Test-Time Scaling**:TRM Best-of-N selection → +19.3%(AIME24, N=16, Qwen3-8B: 44.7%→64.0%) +**RL Training**:TRM-guided GRPO with gated reward shaping: + +$$r = r_v \cdot (1 - \alpha + \alpha \cdot \text{Sigmoid}(r_t))$$ + +r_v = outcome reward, r_t = thinking reward, α = balance weight +→ +3.9% across diverse tasks + +## 关键结果 + +| 方法 | 验证集准确率 | +|------|------------| +| Qwen2.5-Math-PRM-7B | 46.3% | +| ReasonFlux-PRM-7B | 62.5% | +| PromptOnly (DeepSeek-V3.2) | 78.6% | +| **TRM (ours)** | **88.6%** | + +## 核心洞察 + +1. **将推理质量与答案正确性解耦** — TRM 仅训练于正确推理的偏好对,证明推理质量可独立于答案正确性评估 +2. **DAG 比 Tree 更适合推理建模** — 推理中的合并(多步归结为一个结论)是常见模式,Tree 无法表达 +3. **Structural signals matter** — 直接 prompt-based 比较产生大量 ties (232/1497),但去除 ties 后准确率 93%。DAG 结构化后 ties 归零,证明结构信号是关键区分器 + +## 来源 +[原始存档](raw/papers/me2-trm-reasoning-2026.md) | [arXiv](https://arxiv.org/abs/2602.08498) | [GitHub](https://github.com/Simplified-Reasoning/TRM) diff --git a/papers/mozer-topological-trouble-transformers-2026.md b/papers/mozer-topological-trouble-transformers-2026.md new file mode 100644 index 0000000..c223238 --- /dev/null +++ b/papers/mozer-topological-trouble-transformers-2026.md @@ -0,0 +1,78 @@ +--- +title: "The Topological Trouble With Transformers" +created: 2026-06-18 +updated: 2026-06-18 +type: paper +authors: + - Michael C. Mozer (Google DeepMind) + - Shoaib Ahmed Siddiqui (Google DeepMind) + - Rosanne Liu (Google DeepMind) +source: arXiv +source_id: 2604.17121 +published: 2026-04-18 +categories: + - cs.LG + - cs.AI +--- + +# The Topological Trouble With Transformers + +> Mozer, Siddiqui & Liu (2026) — arXiv:2604.17121 + +## 核心问题 + +Transformer 的**纯前馈架构**从根本上限制了**动态状态追踪**——即迭代更新反映变化环境的潜变量。前馈模型每处理一个新输入,状态表示就被推到更深的层,最终耗尽模型深度。 + +## 关键论证 + +### 1. 拓扑性限制 +Transformer 的前馈拓扑结构天然与状态追踪的**迭代本质**冲突: +- `s_t = f(s_{t-1}, x_t)` 要求新状态依赖前序状态 +- 但前馈架构迫使 `s_t` 在比 `s_{t-1}` 更深的层中 +- 经 t 步后,浅层无法访问最新的状态信息 + +### 2. 实证失败模式 +- **Twenty Questions 不一致**:模型无法维持一致的隐藏状态 +- **多义词翻转**(bank → river bank / money bank):消歧在深层完成但浅层已做出错误预测 +- **多轮对话崩溃**、多智能体通信断裂 + +### 3. Chain-of-Thought 是变通方案,不是解决方案 +显式思考将深层表示外化为 token 再注入——但这是对结构缺陷的低效绕行: +> "如果认知能从显式思维轨迹转向隐式激活动力学,模型将更强大" + +## 核心贡献:循环 Transformer 分类法 + +按两个维度系统化分类: + +| ↓ 循环轴 / 比例 → | 比例 > 1 | 比例 = 1 | 比例 < 1 | +|---|---|---|---| +| **深度** | Looped Transformer, RINS | — | — | +| **步级** | Block-Recurrent | Mamba, DeltaNet, RWKV-7 | — | +| **深度+步级** | RINs, Recurrent Memory | Feedback Transformer | COCONUT, Hierarchical Reasoning | + +分类表中的空单元格是**有前景的研究方向**。 + +## 五大研究方向 + +1. **[[enhanced-state-space-models|增强状态空间模型]]**:DeltaNet 负特征值扩展、RWKV-7、PaTH Attention +2. **前馈近似训练**:通过特殊训练目标和结构先验引导状态追踪 +3. **[[coarse-grained-recurrence|粗粒度循环]]**:句子/块级别而非 token 级别 +4. **[[representational-alignment|表征对齐]]**:利用残差连接的自然对齐降低循环适配成本 +5. **高效循环训练**:分阶段训练 + 截断梯度 + 循环反向传播 + +## 关键概念网络 + +- [[state-tracking|状态追踪]] → [[feedforward-depth-limitation|前馈深度局限]] → [[depth-dilemma|深度困境]] +- [[recurrent-transformer-architectures|循环 Transformer]] → [[recurrence-taxonomy|循环分类法]] → [[depth-recurrence|深度循环]] / [[step-recurrence|步级循环]] +- [[sequential-dependency|顺序依赖]] → [[autoregressive-unrolling|自回归展开]] +- [[belief-state|信念状态]] → [[attractor-dynamics|吸引子动力学]] +- [[latent-thought-models|隐式思考模型]] ↔ [[coarse-grained-recurrence|粗粒度循环]] +- [[state-space-models|状态空间模型]] → [[enhanced-state-space-models|增强 SSM]] + +## 影响力评估 + +这是一篇**立场性综述(position paper)**,来自 Google DeepMind 三位研究者。核心贡献不是新算法,而是提供了理解 Transformer 局限性及其循环解决方案的**统一概念框架**。分类法和"深度困境"概念具有持久的架构设计指导价值。 + +## 来源 + +[arXiv:2604.17121](https://arxiv.org/abs/2604.17121) | [原始存档](raw/papers/mozer-topological-trouble-transformers-2026.md) diff --git a/papers/nano-filter.md b/papers/nano-filter.md new file mode 100644 index 0000000..df259e8 --- /dev/null +++ b/papers/nano-filter.md @@ -0,0 +1,66 @@ +--- +title: "NANO Filter: 非线性贝叶斯滤波的自然梯度高斯近似" +created: 2026-06-22 +updated: 2026-06-22 +type: paper +tags: [state-estimation, bayesian-filtering, natural-gradient, gaussian-filtering, nonlinear-filtering] +arxiv: "2410.15832" +authors: ["Wenhan Cao", "Tianyi Zhang", "Zeju Sun", "Chang Liu", "Stephen S.-T. Yau", "Shengbo Eben Li"] +venue: "arXiv (eess.SY), 2024 (v4: 2026-03)" +sources: ["https://arxiv.org/abs/2410.15832"] +--- + +# NANO Filter + +**Natural Gradient Gaussian Approximation Filter** — 一种面向非线性系统的迭代高斯滤波器,核心创新在于跳出「线性化 → KF」的传统使能框架,直接在 [[gaussian-manifold|高斯流形]]上用 [[natural-gradient-descent|自然梯度下降]]求解最优 Gaussian 近似。 + +## 核心问题 + +传统 [[gaussian-filtering|Gaussian filter]]([[extended-kalman-filter|EKF]], [[unscented-kalman-filter|UKF]], [[posterior-linearization-filter|PLF]])遵循两阶段设计:(i) 将非线性模型近似为线性高斯形式,(ii) 在线性模型上运行 [[kalman-filter|KF]]。不同滤波器间的差异本质上是**线性化策略**的不同——但线性化误差始终存在。 + +## 方法论贡献 + +### 1. 优化视角重构 Bayesian 滤波 + +将 [[bayesian-filtering|贝叶斯滤波]]的预测步和更新步分别解释为两个变分优化问题: +- **预测步**:最大化候选密度在转移概率下的期望对数似然 → 最优解即[[moment-matching-filter|矩匹配]] +- **更新步**:最小化期望负对数似然 + KL 散度 + +利用 [[stein-lemma|Stein 引理]],将两个变分问题的驻点条件转化为有限维优化。 + +### 2. 自然梯度更新步 + +NANO 的核心算法创新:不在更新步做线性化,而是在 [[gaussian-manifold|高斯流形]]上直接用 [[natural-gradient-descent|自然梯度]]迭代最小化更新代价 $J(\hat{x}_t, P_t)$。 + +迭代公式(利用高斯分布 Fisher 矩阵 $F_v$ 的解析逆): +$$ +P_{t}^{-1,(i+1)} = P_{t|t-1}^{-1} + E_{N(x_t; \hat{x}_t^{(i)}, P_t^{(i)})}\left[\frac{\partial^2 \ell(x_t, y_t)}{\partial x_t^2}\right] +$$ +$$ +\hat{x}_t^{(i+1)} = \hat{x}_t^{(i)} - P_t^{(i+1)} \cdot E_{N(\cdot)}\left[\frac{\partial \ell(x_t, y_t)}{\partial x_t}\right] - P_t^{(i+1)} P_{t|t-1}^{-1}(\hat{x}_t^{(i)} - \hat{x}_{t|t-1}) +$$ + +### 3. 理论保证 + +- **局部收敛**:NANO 的自然梯度迭代在二阶近似下保证更新代价单调递减 +- **线性 Gaussian 一致性**:在线性系统中,**一次迭代**即收敛到 KF 精确解,与初始化无关 +- **指数误差界**:在近线性测量方程和低噪声条件下,估计误差被证明为指数有界(通过构造跨时间步的超鞅性质) + +### 4. 鲁棒扩展 + +基于 [[gibbs-posterior|Gibbs 后验]]框架,将标准似然替换为广义损失函数以处理模型误设: +- **[[pseudo-huber-loss|Pseudo-Huber 损失]]**:大残差时线性增长,抑制离群值影响 +- **加权对数似然**:按数据依赖权重缩放似然贡献 + +## 实验 + +在真实系统实验(包括目标跟踪和导航场景)中,NANO 相对于 EKF、UKF、IEKF、PLF 等主流 Gaussian filter,**平均 RMSE 降低约 45%**,计算负担可比。 + +## 参考 +- [原始存档](raw/papers/cao-nano-filter-2024.md) +- [[bayesian-filtering|Bayesian Filtering]] +- [[natural-gradient-descent|Natural Gradient Descent]] +- [[gaussian-manifold|Gaussian Manifold]] +- [[moment-matching-filter|Moment-Matching Filter]] +- [[stein-lemma|Stein's Lemma]] +- [[gibbs-posterior|Gibbs Posterior]] diff --git a/papers/peng-rwkv7.md b/papers/peng-rwkv7.md new file mode 100644 index 0000000..815e3f2 --- /dev/null +++ b/papers/peng-rwkv7.md @@ -0,0 +1,100 @@ +--- +title: "RWKV-7 Goose: Expressive Dynamic State Evolution" +created: 2026-06-18 +updated: 2026-06-18 +type: paper +tags: ["rwkv", "rnn", "linear-complexity", "delta-rule", "state-tracking"] +sources: ["https://arxiv.org/abs/2503.14456"] +--- + +# RWKV-7 "Goose" + +## 核心定位 + +RWKV-7(代号 "Goose")是 RWKV 序列建模架构的第七代版本,核心创新在于将 Delta 规则从标量形式**广义化**为带向量值门控和上下文学习率的动态状态演化机制。它代表了 RNN 架构在表达能力上的一个重要里程碑:**第一个被证明超越 Transformer(TC^0)的并行化可训练 RNN**。 + +## 核心创新 + +### 广义 Delta 规则 + +传统 Delta 规则([[delta-rule|DeltaNet]])通过梯度下降更新矩阵状态: +``` +S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t) +``` + +RWKV-7 的三个扩展: + +| 维度 | DeltaNet | RWKV-7 | +|------|---------|--------| +| 学习率 α | 标量 | **向量 a_t(逐通道)** | +| 衰减 w | 固定/标量 | **动态 w_t + 附加项** | +| Key 解耦 | k_t 同时用于移除和添加 | **分离 k_remove / k_add** | + +完整状态更新: +``` +S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t +``` + +### 向量值门控(Vector-Valued Gating) + +门控信号从标量扩展为向量 → 模型可**逐通道**决策是否遗忘/更新。这赋予了 RWKV-7 类似 Mamba 的选择性但通过 Delta 规则的数学框架实现。 + +### 上下文学习率(In-Context Learning Rate) + +a_t 是输入依赖的向量学习率,使模型能根据当前 token 内容决定"多快"更新状态——类似 Mamba 的选择性 Δ 但通过梯度下降视角理解。 + +### 松弛值替换规则 + +解耦移除 key 和添加 key: +- `k_remove`:决定从状态中移除什么 +- `k_add`:决定向状态中添加什么 + +这允许更灵活的信息管理——移除和添加是独立操作。 + +## 理论贡献:超越 TC^0 + +RWKV-7 的理论结果具有里程碑意义: + +| 架构 | 复杂度类 | 正则语言 | 状态追踪 | +|------|---------|---------|---------| +| Transformer (standard) | TC^0 | ✗ | ✗ | +| RWKV-4/5/6 | TC^0 | ✗ | ✗ | +| **RWKV-7** | **NC^1** | **✓ 全部** | **✓ S5** | + +在 TC^0 ≠ NC^1 猜想下,RWKV-7 是首个严格超越 Transformer 表达力的并行化可训练 RNN 架构。 + +## 实验结果 + +- **2.9B 多语言 SoTA**:尽管训练 token 少于同类,多语言基准上达到新 3B SoTA +- **RWKV World v3**:3.1T token 多语言开放数据集 +- **模型升级**:从 RWKV-5/6 checkpoint 升级而非从头训练 +- **长上下文**:O(1) 推理内存,不受序列长度影响 +- **开源**:Apache 2.0,权重 + 代码 + 数据集组件全部公开 + +## 概念网络 + +``` +delta-rule → generalized-delta-rule → dynamic-state-evolution + → vector-valued-gating + in-context-learning-rate + → regular-language-recognition + +rwkv → token-shift → wkv-time-mixing +``` + +## 相关已有概念 + +- [[state-space-models]] — RWKV-7 作为增强 SSM/RNN 的代表 +- [[enhanced-state-space-models]] — 已有 RWKV-7 小节 +- [[step-recurrence]] — RWKV-7 属于步级循环 +- [[state-tracking]] — RWKV-7 理论上完整体支持 + +## 代码与模型 + +- 代码:https://github.com/RWKV/RWKV-LM +- 模型:https://huggingface.co/RWKV +- 许可证:Apache 2.0 + +## 参考 + +- [arXiv:2503.14456](https://arxiv.org/abs/2503.14456) +- [原始存档](raw/papers/peng-rwkv7-goose-2025.md) diff --git a/papers/personalization-trap-2025.md b/papers/personalization-trap-2025.md new file mode 100644 index 0000000..e58fb64 --- /dev/null +++ b/papers/personalization-trap-2025.md @@ -0,0 +1,76 @@ +--- +title: "The Personalization Trap (Fang et al., Amazon, 2025)" +created: 2026-06-24 +updated: 2026-06-24 +type: paper +tags: ["personalization", "memory", "emotional-intelligence", "bias", "social-capital", "dpo"] +sources: + - "https://arxiv.org/abs/2510.09905" +code: "https://github.com/personalization-trap" +--- + +# The Personalization Trap + +> Fang et al., Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL | Oct 2025 (updated Jun 2026) + +## 问题 + +个性化 AI 系统融入长期 [[user-memory-bias|用户记忆]],但记忆如何影响情感推理?相同的场景 + 不同的用户画像 → 系统性地分歧的情感解读。 + +理论框架:Bourdieu 的 [[social-capital-framework|社会资本理论]] — 经济/文化/社会维度上的社会位置塑造他人对我们行为和情感的解读方式。AI 引入用户背景信息时,可能复制这些社会偏见。 + +## 方法 + +### 用户画像 +- **显式画像**:PersonaHub 30 个基础画像 × 2 版本(advantaged/disadvantaged),基于社会资本四维度(人口统计/家庭背景/社会关系/个人资产) +- **[[intersectional-persona-evaluation|交叉性画像]]**:PRISM 数据集 → 81 个画像(性别×年龄×宗教×种族交叉) + +### 评估工具 +- **[[situational-test-emotional-understanding|STEU]]**:42 个情感理解场景,标准答案 +- **改良 STEM**:44 个第一人称情绪管理建议场景 +- 人类标注:93% 画像真实度(vs PersonaHub),经 9 位标注员移除画像敏感题目 + +### 混合效应模型 +固定效应(人口统计变量)+ 随机效应(题目级变异),以白/基督徒/男/34-65 作为基线。 + +## 关键结果 + +### 发现 1:[[personalization-trap|用户记忆系统性影响情感理解]] + +| 模型 | 无记忆 | 优势画像 | 劣势画像 | +|------|--------|---------|---------| +| Claude 3.7 Sonnet | 90.91 | 80.10*† | 77.37* | +| DeepSeek-R1 | 84.85 | 81.62*† | 76.57* | +| Llama 3.2 90B | 84.85 | 64.91*† | 62.24* | + +*†: 优势-劣势差距显著 (p<0.05) + +### 发现 2:[[emotional-reasoning-bias|人口统计学偏见]] + +- **宗教**:穆斯林画像系统性地得分偏低(Mistral: β=-0.061, p<0.001) +- **性别**:非二元性别效果因模型而异(Claude 3.7 no-think: β=+0.018; Qwen3-4B think: β=-0.030) +- **年龄**:65+ 画像在部分模型中得分显著降低 +- **种族**:效应较弱但存在 + +### 发现 3:偏见在情绪建议中持续 + +Claude 3.7 对女性/非二元性别的建议质量显著低于男性(β=-0.102, p<0.001)。 + +### [[dpo-bias-mitigation|DPO 偏见缓解]] + +| 模型 | STEU Before | STEU After | Bias ∆ Before | Bias ∆ After | +|------|-----------|-----------|-------------|-------------| +| Gemma-2-2B | 59.50% | 63.70% | 5.50% | -2.30% | +| Qwen-3-1.7B | 60.90% | 60.30% | 1.70% | 0.40% | + +仅 500 训练样本即有效减少偏见。MMLU 同时提升,但指令遵循下降——存在 bias resistance vs instruction adherence 的 trade-off。 + +## 核心洞察 + +1. **个性化陷阱** — 为增强共情而引入的个性化,可能放大社会不平等。优劣势画像在相同场景下得到系统性不同的情感解读 +2. **[[persona-invariant-reasoning|画像无关推理]]的理想** — 在用户无关的任务上,模型应保持推理一致,但用户记忆不恰当地渗入了通用推理 +3. **Thinking 模型的保护效应** — 推理能力似乎提供了部分偏见抵抗 + +## 来源 + +[原始存档](raw/papers/personalization-trap-2025.md) | [arXiv](https://arxiv.org/abs/2510.09905) | [GitHub](https://github.com/personalization-trap) diff --git a/papers/tang-lukv.md b/papers/tang-lukv.md new file mode 100644 index 0000000..e4e0614 --- /dev/null +++ b/papers/tang-lukv.md @@ -0,0 +1,101 @@ +--- +title: "LU-KV: Predicting Future Utility for KV Cache Eviction" +created: 2026-06-18 +updated: 2026-06-18 +type: paper +tags: ["kv-cache", "llm-inference", "combinatorial-optimization", "attention"] +sources: ["https://arxiv.org/abs/2602.08585"] +--- + +# LU-KV:基于未来效用预测的 KV Cache 驱逐框架 + +## 核心问题 + +大模型推理中,[[kv-cache]] 随序列长度线性增长,成为吞吐量瓶颈。现有 [[kv-cache-eviction]] 方法依赖瞬时启发式指标判断 token 重要性,忽略了不同注意力头在预测保真度上的**异质性**——某些 head 的瞬时注意力分数与其长期贡献严重失配。 + +## 核心洞察 + +LU-KV 的核心论点是:最优预算分配不应基于绝对分数,而应由**边际效用**([[marginal-utility]])驱动——即「每增加一单位预算,能保存多少长期语义信息」。这类似于经济学中的投资回报(ROI)思维:如果某个 head 的启发式指标与 [[oracle-importance]] 失配严重,继续向其分配预算的边际回报会急剧递减。 + +## 方法框架 + +### 两阶段范式 + +LU-KV 框架建立在 [[kv-cache-eviction]] 的两阶段分解之上: + +1. **[[intra-head-eviction]]**:在每个 head 内使用任意启发式指标 π(如 SnapKV、KeyDiff)对 token 排序 +2. **[[cross-head-budget-allocation]]**:在 head 之间分配全局缓存预算 {b_{ℓ,h}} + +### 形式化分析 + +核心贡献是严格分解了驱逐损失(eviction loss): + +``` +Eviction Loss = Oracle Metric Loss(固定,受压缩率约束) + + Optimality Gap Loss(指标 π 与 Oracle 之间的差距) +``` + +即:`L(M^π) = L(M^*) + Δ(π, π*, b)`,其中 [[optimality-gap]] Δ 随预算和指标变化。 + +### Oracle 重要性 + +[[oracle-importance]] I_{ℓ,h,j} 定义为 token j 在未来解码窗口中对输出向量的**最大潜在贡献**:涵盖注意力权重 A、value 向量 v、和输出投影矩阵 W_O。 + +### 全局组合优化 + +将 head 级预算分配形式化为 [[global-combinatorial-optimization]]: + +``` +min Σ L(M^π(b_{ℓ,h})) subject to Σ b_{ℓ,h} = B_total +``` + +该问题是**非凸离散组合优化**,通过 [[convex-hull-relaxation]] 求解: + +1. 对每个 head 的离散损失序列用 PAVA(Pool Adjacent Violators Algorithm)做保序回归 +2. 从凸化后的损失序列计算有效边际增益 g_{ℓ,h}(i) +3. 全局贪心:每次从边际增益最大的 head 分配一个 token 位置 +4. 贪心解与最优 DP 解完全一致(理论保证) + +### 离线 Profiling + +[[offline-profiling]] 三阶段协议桥接理论与部署: + +1. **上下文生成**:构造约 4K tokens 的合成叙述文本(与评测集无重叠) +2. **Oracle 计算**:生成 M=30 个多样化查询,通过全注意力解码获取 ground-truth Oracle 重要性 +3. **Profile 聚合**:在密集的全局压缩率网格上求解每个查询的最优配置,取平均得到静态 profile Φ(π) + +关键经验发现:各 head 的最优压缩率在不同任务间**高度一致**,使离线 profile 可迁移。 + +## 核心贡献 + +| 贡献 | 说明 | +|------|------| +| 问题重定义 | 将 KV 驱逐从"被动丢弃"转为"战略性投资分配" | +| [[optimality-gap]] 分解 | 严格分离 Oracle 损失和指标差距 | +| [[convex-hull-relaxation]] | PAVA 保序回归 + 贪心求解,达到 DP 最优 | +| [[offline-profiling]] | 三阶段协议,profile 跨任务可迁移 | +| 指标无关 | 适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 π | + +## 实验结果 + +- **LongBench**:80% 压缩率下,LU-KV 在所有模型(Llama-3.1-8B、Mistral-7B、Qwen2.5-32B)上优于 Uniform、PyramidKV、AdaKV 等基线 +- **RULER**:4K–128K 扩展上下文窗口下保持鲁棒检索性能 +- **兼容性**:与 SnapKV、KeyDiff、CAKE、KVZip 四种 intra-head 指标配合均有效提升 +- **推理开销**:在线仅需查表 → 预算计算 → 驱逐三步,额外开销可忽略 + +## 相关概念 + +- [[long-horizon-utility]] — 长视界效用 vs 瞬时注意力分数 +- [[heuristic-metric]] — 启发式指标(SnapKV、KeyDiff 等) +- [[marginal-utility]] — 边际效用驱动的分配策略 +- [[snapkv]] — 基于累积注意力的 intra-head 指标 +- [[pyramidkv]] — 基于信息漏斗假说的静态分配 +- [[adkv]] — 基于注意熵的动态全局 Top-K 分配 +- [[keydiff]] — 基于 Key 向量几何特征的指标 + +## 参考 + +- 原始存档:[原始论文](raw/papers/tang-lukv-2026.md) +- arXiv: https://arxiv.org/abs/2602.08585 +- 发表:ICML 2026, PMLR 306 +- 机构:复旦大学 + 百度百舸 AI Team diff --git a/papers/unlimited-ocr-works-2026.md b/papers/unlimited-ocr-works-2026.md new file mode 100644 index 0000000..f2e1984 --- /dev/null +++ b/papers/unlimited-ocr-works-2026.md @@ -0,0 +1,66 @@ +--- +title: "Unlimited OCR Works (Yin et al., Baidu, 2026)" +created: 2026-06-24 +updated: 2026-06-24 +type: paper +tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"] +sources: + - "https://arxiv.org/abs/2606.23050" +code: "https://github.com/baidu/Unlimited-OCR" +--- + +# Unlimited OCR Works + +> Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026 + +## 问题 + +端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。 + +## 核心创新:[[reference-sliding-window-attention|R-SWA]] + +**Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制: + +- 每个 token 关注**全部参考 token**(视觉 token + prompt)+ **前 n 个输出 token**(n=128) +- 参考 token **不参与状态转移**(避免视觉特征逐渐模糊) +- **[[constant-kv-cache|KV cache 恒定]]**:始终为 Lm + n,O(1) 而非 O(T) + +与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。 + +## 模型架构 + +以 [[deepseek-ocr|DeepSeek OCR]] 为基线: +- 保留 [[deepencoder|DeepEncoder]](16× 压缩率,级联窗口注意 ViT + 全局注意) +- 替换 decoder 所有注意力层为 R-SWA +- 3B 参数,[[mixture-of-experts|MoE]] 架构,激活仅 500M +- 训练:4000 步,8×16 A800,DeepEP EP=4,[[megatron-lm|Megatron-LM]] +- 推理:支持 Transformers + [[sglang|SGLang]],恒定 TPS 和 GPU 内存 + +## 关键结果 + +### 通用 OCR([[omnidocbench|OmniDocBench]]) +| 版本 | Unlimited OCR | DeepSeek OCR | 提升 | +|------|--------------|-------------|------| +| v1.5 Overall | **93.23** | 87.01 | +6.22 | +| v1.6 Overall | 93.54 | — | SOTA 级别 | + +### [[long-horizon-parsing|长程解析]] +2-40+ 页书籍,单次前向解析,Distinct-n > 96%,Edit Distance < 0.11。 + +### 推理效率 +6000 token 时 TPS 比 DeepSeek OCR 高 **35%**,且全程保持恒定。 + +## 核心洞察 + +1. **认知启发** — R-SWA 模仿人类抄写行为:不回溯全部已写内容,仅关注附近上下文维持空间定向 +2. **架构极简** — 将所有标准 attention 替换为 R-SWA,性能无损("lossless"),证明历史信息通过滑动窗口的 soft forgetting 足够 +3. **通用性** — R-SWA 是通用解析注意力机制,适用于 ASR、翻译等所有基于参考的长程任务 + +## 局限性 + +- 受 prefill 长度限制(32K),非真正无限 +- 未来:训练更长上下文(128K)+ prefill pool 模拟翻页 + +## 来源 + +[原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR) diff --git a/papers/vla-jepa-2026.md b/papers/vla-jepa-2026.md new file mode 100644 index 0000000..94c514c --- /dev/null +++ b/papers/vla-jepa-2026.md @@ -0,0 +1,81 @@ +--- +title: "VLA-JEPA (Sun et al., 2026)" +created: 2026-06-24 +updated: 2026-06-24 +type: paper +tags: ["vla", "jepa", "world-model", "robot-learning", "pretraining", "latent-action"] +sources: + - "https://arxiv.org/abs/2602.10098" +code: "https://github.com/ginwind/VLA-JEPA/" +--- + +# VLA-JEPA + +> Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen† | arXiv:2602.10098 | cs.RO / cs.CV | Feb 2026 + +## 问题 + +[[vla-vision-language-action|VLA]] 的 [[latent-action-pretraining|latent-action 预训练]] 从互联网视频学习机器人策略是一个有吸引力的方向。但当前的 latent-action 目标存在系统性缺陷:锚定在**像素变化**而非**动作相关的状态转移**上。 + +四种失败模式: + +| 模式 | 描述 | +|------|------| +| [[appearance-bias-vla|外观偏见]] | 像素级目标偏向纹理/光照/背景,而非可控自由度 | +| 噪声运动放大 | 相机运动和无关背景变化主导信号 | +| [[information-leakage-vla|信息泄漏]] | 未来帧作为输入 → latent action 坍缩为编码未来而非转移动态 | +| 多阶段复杂性 | 三阶段+流水线的工程脆弱性 | + +## 核心方案:[[leakage-free-state-prediction|Leakage-free State Prediction]] + +VLA-JEPA 将 [[jepa|JEPA]] 范式引入 VLA:**在 latent space 预测而非 pixel space**。 + +### 架构 + +- **VLM Backbone**:Qwen3-VL-2B,输出 latent action tokens +- **[[latent-world-model|Latent World Model]]**:V-JEPA2 encoder(frozen target)+ autoregressive Transformer(predictor) +- **Action Head**:[[flow-matching|Conditional Flow-Matching]] + +### 关键设计 + +``` +Target Encoder (frozen, no grad) Student (VLM backbone) + ↓ ↓ + Future frames → latent targets Current observation only + ↓ ↓ + JEPA alignment loss + (predict in latent space) +``` + +**未来帧仅作监督目标,永不作为输入**——消除信息泄漏捷径。 + +### 训练 + +- 预训练:Something-Something-v2(220K 人类视频)+ Droid(76K 机器人轨迹) +- 微调:LIBERO(~2K 专家演示)/ Fractal + BridgeV2 / 100 真实演示 +- 8×A100,Qwen3-VL-2B backbone + +## 关键结果 + +### LIBERO + +| Method | Spatial | Object | Goal | Long | Avg | +|--------|---------|--------|------|------|-----| +| VLA-JEPA | 96.2 | 99.6 | 99.6 | 97.2 | **98.2** | +| π0.5 | 97.5 | 91.5 | 74.5 | 90.1 | 88.9 | +| OpenVLA-OFT | 97.6 | 97.9 | 94.5 | 96.8 | 96.7 | + +### SimplerEnv +Google Robot 平均最高;WidowX 平均第二。使用 villa-X 不到 1% 的训练数据。 + +### Robustness (LIBERO-Plus) +在 7 个扰动维度(光照/纹理/颜色/相机/…)下保持强劲性能。 + +## 核心洞察 + +1. **JEPA 的 embodied 应用** — 将 JEPA 从视频表示学习扩展到机器人动作策略,证明了 latent-space prediction 对 embodied AI 的通用价值 +2. **信息泄漏是根本问题** — 当前 latent-action 方法的失败根源不是模型容量不足,而是架构缺陷(未来信息泄漏)。修复架构比堆数据更有效 +3. **数据效率** — 用更少数据超越用更多数据的对比方法,证明学对目标比学更多数据更重要 + +## 来源 +[原始存档](raw/papers/vla-jepa-2026.md) | [arXiv](https://arxiv.org/abs/2602.10098) | [GitHub](https://github.com/ginwind/VLA-JEPA/) diff --git a/papers/vu-fisher-width-2026.md b/papers/vu-fisher-width-2026.md new file mode 100644 index 0000000..4c7583c --- /dev/null +++ b/papers/vu-fisher-width-2026.md @@ -0,0 +1,90 @@ +--- +title: "Fisher Width: 统计流形上的几何复杂度度量" +created: 2026-06-23 +updated: 2026-06-23 +type: paper +tags: ["information-geometry", "complexity-measure", "generalization-theory", "riemannian-geometry"] +authors: ["Vu Khac Ky"] +venue: "arXiv" +year: 2026 +arxiv: "2606.18306" +sources: ["https://arxiv.org/abs/2606.18306v1"] +--- + +# Fisher Width: 统计流形上的几何复杂度度量 + +> Vu Khac Ky (FPT University, Vietnam) — arXiv:2606.18306, 2026 + +## 核心问题 + +[[gaussian-width|Gaussian width]] 是压缩感知、凸优化、学习理论中的核心复杂度度量——它通过随机方向上的平均投影来量化集合的"有效维度"。但 Gaussian width **本质上是欧几里得的**,它假设所有方向等权。然而,统计模型(指数族、神经网络、VAE)天然携带 [[fisher-information-metric|Fisher 信息度量]] 诱导的黎曼几何——不同方向上的参数变化对统计可区分性的影响截然不同。 + +**Fisher width** 是 Gaussian width 在[[statistical-manifold|统计流形]]上的 Fisher-几何对应物。 + +## 方法论贡献 + +### 1. Fisher Width 定义 + +在参数点 θ₀ 处,Fisher width 将欧几里得恒等矩阵替换为局部 Fisher 度量张量 G(θ₀)^{1/2}: + +``` +w_G(T; θ₀) = E_{g∼N(0,I_d)} [sup_{v∈T} ⟨g, G(θ₀)^{1/2} v⟩] +``` + +核心的 [[lifting-identity|Lifting Identity]]: + +``` +w_G(T; θ₀) = w(G(θ₀)^{1/2} T) +``` + +这意味着:在固定基点,Fisher width **恰好是 Fisher 重标度后集合的 Gaussian width**。Gaussian width 的所有经典性质可通过局部度量变形转移到 Fisher 设定中。 + +### 2. 结构理论 + +- **浓度不等式**:Fisher width 在随机采样下集中 +- **度量扰动稳定性**:Fisher width 对局部度量变化具有 Lipschitz 连续性 +- **谱比较界**:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T) +- **经验 Fisher 稳定性**:当经验 Fisher 矩阵在算子范数下集中时,Fisher width 可被一致估计 + +### 3. 泛化界 + +对 [[fisher-lipschitz|Fisher-Lipschitz]] 假设类,一致偏差被以下量控制: + +``` +w_G(T−T; θ₀) / √n +``` + +对局部指数族似然模型,该界在常数意义下是**紧的**。Fisher width 在 Fisher-几何学习界中扮演的角色,与 Gaussian width/Rademacher 复杂度在欧几里得设定中的角色完全相同。 + +### 4. 计算估计 + +- **全经验 Fisher 估计器**:用样本分数构建经验 Fisher 矩阵,计算重标度后集合的宽度 +- **低秩近似**:利用 Fisher 谱的快速衰减性质做截断 SVD +- **分数范数估计器**:针对欧几里得球的特化高效版本 +- **MNIST 验证**:在逻辑回归、softmax 回归、岭回归上评估精度和稳定性 + +## 关键发现 + +1. **Fisher 曲率效应**:同一欧几里得集合在不同参数位置的 Fisher width 可显著不同——Fisher width 不仅能测量集合形状,还能测量该形状在 Fisher 几何下"被看到"的方式 +2. **各向异性检测**:Fisher width 捕获了欧几里得度量不可见的各向异性几何效应 +3. **与 Gaussian width 的谱关系**:λ_min(G)^{1/2}·w(T) ≤ w_G(T) ≤ λ_max(G)^{1/2}·w(T),表明 Fisher 度量的条件数决定了 Fisher width 与 Gaussian width 的偏差范围 +4. **计算可行性**:低秩近似在实践中高度准确,Fisher 谱的快速衰减使估计器高效 + +## 与现有工作的关系 + +- **Fisher-Rao Norm** (Liang et al., 2019):衡量**单个参数向量**的 Fisher 长度;Fisher width 衡量**整个集合**的 Fisher-几何大小 +- **自然梯度**:优化算法利用 Fisher 度量改进下降方向;Fisher width 则利用 Fisher 度量定义复杂度泛函 +- **PAC-Bayes**:以概率距离度量复杂度;Fisher width 以集合的几何大小度量复杂度 + +## 参考 + +- [原始存档](raw/papers/vu-fisher-width-2026.md) +- [[gaussian-width|Gaussian Width]] +- [[statistical-manifold|Statistical Manifold]] +- [[fisher-information-metric|Fisher Information Metric]] +- [[information-geometry|Information Geometry]] +- [[fisher-lipschitz|Fisher-Lipschitz]] +- [[lifting-identity|Lifting Identity]] +- [[empirical-fisher|Empirical Fisher]] +- [[generalization-bounds|Generalization Bounds]] +- [[natural-gradient-descent|Natural Gradient Descent]] diff --git a/papers/wan-streamer.md b/papers/wan-streamer.md new file mode 100644 index 0000000..bfd958b --- /dev/null +++ b/papers/wan-streamer.md @@ -0,0 +1,79 @@ +--- +title: "Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models" +created: 2026-06-25 +updated: 2026-06-25 +type: paper +tags: [multimodal, real-time, foundation-model, streaming, full-duplex, audio-visual, transformer] +sources: + - https://arxiv.org/abs/2606.25041 + - https://wan-streamer.com +--- + +# Wan-Streamer v0.1 + +**Wan-Streamer** 是阿里巴巴 Wan Team 提出的端到端原生流式交互基础模型,支持语言、音频、视频作为输入和输出的全双工实时交互。核心创新在于将感知、推理、生成、响应时机、话轮管理和跨模态同步**全部联合学习在一个 Transformer 中**,摒弃了传统级联系统(VAD → ASR → LLM → TTS → 动画生成)的模块架构。 + +## 核心贡献 + +### 1. 统一的端到端流式架构 + +Wan-Streamer 将用户输入和 Agent 输出视为**一条因果时间线**上的交织序列(interleaved visual, audio, text tokens),使用 [[block-causal-attention|block-causal attention]] 实现增量流式生成。一个 Transformer 承担所有模态的编解码,不依赖外部语言、语音、化身或视频生成模块。 + +### 2. 全因果多模态架构 + +为支持流式实时交互,整个架构从底层设计为因果的: +- **[[causal-multimodal-vae|因果多模态 VAE]]**:严格因果的音频和视频变分自编码器,用于流式潜编码 +- **因果编码器/解码器**:因果音视频编码器和解码器 +- **[[block-causal-attention]]**:块因果注意力机制,协调多模态 token 的流式调度 +- **全历史自回归流式**:每个生成的单元被立即提交回交互历史 + +### 3. Thinker-Performer 推理流水线 + +推理时,模型拆分为两个协作进程: + +| 角色 | 职责 | 关键操作 | +|------|------|----------| +| **Thinker** | 感知、状态更新、前帧解码发射 | 因果编码器 → Transformer → KV cache 更新 → 解码发射 | +| **Performer** | 潜变量生成(flow-matching) | 接收 KV slice → flow-matching solver → 返回 clean latents | + +通过 **KV-cache 交换** 维持统一因果状态,实现感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪的**流水线重叠**。在 160ms 流式单元内完成一轮完整循环。 + +**延迟指标**: +- 模型侧响应延迟:~200ms +- 端到端交互延迟(含 350ms 双向网络):~550ms +- 输出帧率:25 FPS + +### 4. 全双工交互能力 + +通过在全双工交互数据上训练,模型学会了: +- **连续感知**:即使正在说话,也持续消费用户的音视频观测 +- **中断处理**:用户自然打断时停止或重新规划响应 +- **主动说话**:当视觉流中出现显著事件时,主动发起评论或提问 +- **非语言反馈**:空闲时的身份保持、凝视、姿态;聆听时的点头、微表情 + +## 方法论要点 + +- **条件流匹配**:音频和视频响应以连续潜变量形式,通过 [[flow-matching|conditional flow matching]] 联合生成 +- **三阶段训练**:独立任务预训练 → 多模态联合训练 → 端到端双工交互微调 +- **数据混合**:理解数据(图像/音频/视频理解、ASR、TTS) + 生成数据(图像/音频/视频生成) + 端到端双工交互数据 + +## 实验对比 + +与 Doubao Realtime Voice、GPT-4o Realtime API、Gemini Live、Moshi、Qwen3-Omni、MiniCPM-o 等系统的对比显示:Wan-Streamer 是**唯一同时支持文本/音频/视频输入输出的单一端到端模型**,且响应延迟处于领先水平。 + +## 局限 + +当前 v0.1 版本输出分辨率为 192p,作为概念验证;扩展到更高分辨率留待未来工作。 + +## 参考 + +- [原始存档](raw/papers/wan-streamer-2026.md) +- [[flow-matching]] +- [[kv-cache]] +- [[diffusion-transformer]] +- [[native-streaming-ar-training]] +- [[full-duplex-interaction]] +- [[block-causal-attention]] +- [[thinker-performer-pipeline]] +- [[causal-multimodal-vae]] +- [[end-to-end-streaming-interaction]] diff --git a/papers/yao-ace-router-2026.md b/papers/yao-ace-router-2026.md new file mode 100644 index 0000000..46cfaeb --- /dev/null +++ b/papers/yao-ace-router-2026.md @@ -0,0 +1,69 @@ +--- +title: "ACE-Router:历史感知路由" +created: 2026-06-19 +updated: 2026-06-19 +type: paper +tags: [router-training, history-aware, mcp, tool-selection, agent-web, candidate-graph] +sources: + - https://arxiv.org/abs/2601.08276 + - https://github.com/euyis1019/ACE-Router +--- + +# ACE-Router:历史感知路由 + +> **Zhiyuan Yao, Zishan Xu, Yifu Guo 等** · 2026 · arXiv:2601.08276 + +## 核心问题 + +MCP 工具生态爆炸式增长,现有方案各有限制: +- **静态注入**:上下文窗口有限,无法规模化 +- **Embedding 检索**:静态语义匹配,缺乏多轮历史感知 +- **通用 LLM**:推理强但缺乏精确工具辨识力 + +## 核心方案:训练一个 Router + +ACE-Router 不从零推理——直接**训练一个专门的路由器**,将多轮对话历史对齐到正确的路由决策。 + +## 三阶段框架 + +### 1. [[candidate-graph|Candidate Graph + 自进化变异]] +构建语义相似图 → 五种变异算子扩展候选空间 → 627→2005 工具 + +### 2. [[trajectory-synthesis|多 Agent 轨迹合成]] +候选图采样 → 四角色模拟(Planner/User/Assistant/Tool Agent)→ 15,092 训练样本。环境无关:LLM 模拟执行,无需真实 API。 + +### 3. [[light-routing-agent|Light Routing Agent]] +仅两个工具:`router_invoke` + `tool_execute`。路由与执行解耦,可插拔适配工具选择和 Agent 选择。 + +## 关键数据 + +| 指标 | ACE-Router | Best Baseline | +|------|:---:|:---:| +| MCP-Universe | **53.44%** | 49.79% (Gemini-2.5-Pro) | +| MCP-Mark | **60.00%** | ~50% (ReAct) | +| 扩展候选池 | **53.02%** (稳定) | 36.47% (ReAct 崩溃) | +| 噪声环境 | **56.00%** | 32% (Gemini-2.5-Pro) | +| 多 Agent 泛化 | **88-92%** | — (零训练迁移) | + +**8B 专用路由器 > 巨型通用模型**(GPT-4o, Gemini-2.5-Pro)——证明了精确工具辨识不是靠扩大推理能力,而是靠专门训练。 + +## MCP 工具选择三篇之比较 + +| | [[fei-mcp-zero-2025|MCP-Zero]] | [[gaurav-dynamic-react-2025|Dynamic ReAct]] | ACE-Router | +|---|---|---|---|---| +| 机制 | 主动请求 + 层次路由 | meta-tools + 语义搜索 | **训练专用路由器** | +| 历史感知 | 迭代请求(隐式) | ReAct 框架内 | **显式训练对齐** | +| 规模适应 | 理论 O(m+k) | 工程验证 | **训练+噪声双重验证** | +| 泛化 | MCP 工具 | MCP 工具 | **工具→Agent 零训练迁移** | + +## 关键概念 + +- [[ace-router|ACE-Router 框架]] +- [[history-aware-routing|历史感知路由]] +- [[candidate-graph|候选图]] +- [[self-evolutionary-mutation|自进化变异]] +- [[trajectory-synthesis|轨迹合成]] +- [[light-routing-agent|轻量路由 Agent]] +- [[agent-web|Agent Web]] + +来源:[原始存档](raw/papers/yao-ace-router-2026.md) diff --git a/papers/zhou-agent-skills-survey-2026.md b/papers/zhou-agent-skills-survey-2026.md new file mode 100644 index 0000000..c1bcd84 --- /dev/null +++ b/papers/zhou-agent-skills-survey-2026.md @@ -0,0 +1,93 @@ +--- +title: "A Comprehensive Survey on Agent Skills — 综述" +created: 2026-06-19 +updated: 2026-06-19 +type: paper +tags: [agent-skills, survey, skill-lifecycle, llm-agents, procedural-knowledge] +sources: + - https://arxiv.org/abs/2605.07358 + - https://github.com/JayLZhou/Awesome-Agent-Skills +--- + +# Agent Skills 综述:分类、技术与应用 + +> **Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin** (CUHK-Shenzhen) · 2026 · arXiv:2605.07358 + +## 核心问题 + +LLM agent 在实际部署中面临一个核心瓶颈:**过程性鸿沟(procedural gap)**——仅靠工具访问(tool access)不等同于知道何时调用、如何编排、怎样验证。这篇综述以 **agent skill** 为中心视角,定义其为"可复用的过程性构件,在任务特定约束下协调工具、内存和运行时上下文"。 + +## 核心洞察 + +Agent 与 skill 是互补的层级关系: +- **Agent** 负责高层推理和规划("做什么") +- **Skill** 构成操作层,负责可靠、可复用、可组合的执行("怎么做") + +Skill 可视为 agent 的"肌肉记忆"——将过程性 know-how 外化为可持久化、可检索、可修订的显式构件。 + +## 方法论框架 + +论文围绕 skill 生命周期的四个阶段组织文献: + +### 1. Skill Representation(表示) +基于资源类型分类: +- **文本型(Text-Based)**:参考文档、模板、检查清单 +- **代码型(Code-Backed)**:可执行脚本、包装器、API +- **混合型(Hybrid)**:文本 + 代码结合,兼顾可解释性和执行确定性 + +形式化定义:**S = (M, R, C)**——指令文档 + 辅助资源 + 适用条件。 + +### 2. Skill Acquisition(获取) +四种获取路径: +- **人工来源(Human-Derived)**:领域专家编写,精度高但扩展性差 +- **经验来源(Experience-Derived)**:从执行轨迹中抽象(选择→摘要→记忆组织→过程打包),研究最活跃 +- **任务来源(Task-Derived)**:按需构建,新任务无法等待专家或经验积累时使用 +- **语料来源(Corpus-Derived)**:从文档、仓库、数据集、接口轨迹中提取 + +四种路径互补而非竞争——最强大的 skill 库来自它们的组合。 + +### 3. Skill Retrieval & Selection(检索与选择) +分为两阶段: +- **检索**:稠密嵌入、稀疏关键词、生成式、结构感知(层级 + 依赖图) +- **选择**:上下文感知、技能组合、成本/效用感知、反馈驱动重排序 + +关键洞察:skill 检索不同于文档检索——skill 是可执行单元,语义相关不等于可执行。必须考虑前置条件、组合兼容性、成本收益。 + +### 4. Skill Evolution(演化) +五个子阶段: +- **Skill Revision**:反馈驱动的技能修订 +- **Skill Validation**:修订后的生存检查(测试、回滚) +- **Policy Coupling**:策略与技能库共同优化(如 SkillRL) +- **Repository Evolution**:跨 artifact 的规模化演化 +- **Runtime Governance**:检索→路由→信任检查→执行→退役的安全闭环 + +## 代表性平台 + +| 平台 | 规模 | +|------|------| +| SkillNet | 300k+ | +| ClawHub | 40k+ | +| SkillHub | 80k+ | +| SkillsMP | 700k+ | +| Skills.sh | 90k+ | + +## 与 Hermes 的关联 + +Hermes 的 skill 体系(SKILL.md + references/templates/scripts)天然覆盖了论文中定义的核心结构 (M, R, C)。论文列出的开放挑战——统一 skill schema、资源感知联合优化、因果诊断、生命周期鲁棒性——也是 Hermes skill 系统可以演进的方向。 + +## 关键概念 + +- [[agent-skill|Agent Skill]] — 形式化定义与核心属性 +- [[procedural-gap|过程性鸿沟]] — 工具访问与鲁棒执行之间的桥梁 +- [[skill-lifecycle|Skill 生命周期]] — 四阶段框架 +- [[skill-representation|Skill 表示]] — 文本/代码/混合三种形态 +- [[skill-acquisition|Skill 获取]] — 四种获取路径 +- [[skill-retrieval|Skill 检索]] — 稠密/稀疏/生成/结构感知 +- [[skill-selection|Skill 选择]] — 上下文/组合/效用/反馈 +- [[skill-evolution|Skill 演化]] — 修订→验证→策略耦合→仓库演化→治理 +- [[skill-composition|Skill 组合]] — 多技能编排与组装 +- [[agent-skill-ecosystem|Agent Skill 生态]] — 平台与基础设施 +- [[passive-vs-active-knowledge|被动 vs 主动知识]] — agent 知识二分类 +- [[runtime-governance|运行时治理]] — 检索-信任-执行-退役闭环 + +来源:[原始存档](raw/papers/zhou-agent-skills-survey-2026.md) diff --git a/raw/articles/atlas-agent-memory-architecture-2026.md b/raw/articles/atlas-agent-memory-architecture-2026.md new file mode 100644 index 0000000..7a9f079 --- /dev/null +++ b/raw/articles/atlas-agent-memory-architecture-2026.md @@ -0,0 +1,61 @@ +--- +title: "Atlas Agent 记忆架构:三索引 + 混合召回 + 写后提炼" +author: "Atlas Memory System (基于 noamschwartz/atlas-memory-demo)" +source: "微信公众号" +date: "2026" +type: article +tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation", "bias"] +--- + +# Atlas Agent 记忆系统架构全解析 + +> 深度工程实践:Agent 记忆不是 KV 存储问题,是多索引信息检索问题。 + +## 核心论点 + +`chat_history.append()` 不是记忆系统——那是日志文件。真正的挑战:在三索引(episodic/semantic/procedural)+ catalog 四种不同生命周期的信息中,用对的衰减曲线和互补的检索通道,在查询瞬间找到对的那几条。 + +## Atlas 架构 + +### 三索引 + 公共 +| 索引 | 内容 | 衰减源 | 写入频率 | +|------|------|--------|---------| +| episodic | 原始消息+时间戳 | timestamp | 每回合 | +| semantic | 提炼后稳定事实 | last_used_at | consolidation | +| procedural | 多步操作流程 | 豁免(1.0) | consolidation | +| catalog | 公共共享知识 | timestamp | 手动 | + +### 检索管线 +1. Verbatim Pre-Recall — 用户原话,不经 LLM 改写 +2. BM25 + Dense 双通路并行 → RRF 融合 (rank_constant=30) +3. Cross-encoder 重排序 (Jina v2, top-80→top-K) +4. Reranker 失败降级为 RRF 顺序 + +### Ablation 数据 +- **Full**: R@10=0.89 +- **Dense-only**: 0.845 +- **BM25-only**: 0.708 +- **No-Reranker**: -0.238 + +### 五条代码链路 +- write_memory (refresh=True 保证同轮可见) +- recall_memory (混合检索+reranker) +- Verbatim Pre-Recall (绕过 LLM 改写层) +- Consolidation (episodic→semantic/procedural) +- Soft-Supersession (非破坏矛盾处理) + +## 三个通用设计原则 + +1. **衰减曲线是领域性决策**—先定义信息有效周期,再定衰减参数 +2. **BM25+vector 互补**—BM25 抓精确 token,dense 抓语义意图,不可互相替代 +3. **记忆需要后台提炼+矛盾处理**—consolidation 转化事件为事实,supersession 提供非破坏性更新 + +## 与 GBrain 的对比 + +| 维度 | Atlas | GBrain | +|------|-------|--------| +| 存储 | ES 搜索引擎 | Markdown+Git | +| 多租户 | ES DLS (集群层) | 应用层 auth | +| 矛盾处理 | Soft-Supersession 链 | Git 版本历史 | +| 衰减 | Per-index gauss | 无显式衰减 | +| 调试透明度 | 仅通过 API | 直接打开文件 | diff --git a/raw/articles/financial-llm-practice-2026.md b/raw/articles/financial-llm-practice-2026.md new file mode 100644 index 0000000..aa8fdee --- /dev/null +++ b/raw/articles/financial-llm-practice-2026.md @@ -0,0 +1,49 @@ +--- +title: "金融行业大模型落地实践:从长文档检索到 Agent 工程" +author: "林金曙(恒生电子研究院 AI 首席技术专家)" +source: "DataFun / DAcon 上海站 2026" +date: "2026" +type: "article" +tags: ["financial-llm", "agent", "rag", "pageindex", "mcp", "context-engineering"] +--- + +# 金融行业大模型落地实践:从长文档检索到 Agent 工程 + +> 林金曙,恒生电子研究院 AI 首席技术专家,DAcon 上海站 2026 +> 编辑整理:韩珊珊 | 出品社区:DataFun + +## 摘要 + +系统梳理了金融行业落地大模型的三重挑战(合规刚性、数据安全、业务严谨性),基于恒生电子在券商、基金、银行等机构的实际项目经验,重点分享了 PageIndex 长文档检索方案、Agentic RAG 架构、金融场景"好需求"定义方法、大模型选型教训(Qwen3-32B vs Qwen3-235B)、上下文工程实践,以及 Agent 从工具调用到自主规划的探索。 + +## 核心内容 + +### 1. 金融行业的三重约束 +- **合规**:每段生成内容可溯源、结果需人工确认 +- **安全**:私有化部署、数据不出域 +- **严谨**:私域数据与业务系统无缝挂接,数据质量优先于模型能力 + +### 2. 场景案例 +- **机构运营**:200+ 件材料办理流程 → 自然语言意图转译为系统操作序列 +- **投顾理财**:保险条款合规判断(RAG 只解决"看懂",业务闭环需调用系统接口) +- **托管运营**:信披报告自动审核(净值、勾稽关系等规则自动化) +- **投行**:蜜雪冰城 1300 页招股书 → PageIndex 方案 + +### 3. 核心工程实践 +- **PageIndex**:利用文档目录结构建立"章节名↔页码范围"映射,将检索从 300 页压缩到 3 页 +- **Agentic RAG**:任务拆解为子问题,动态调用 PageIndex/BM25/向量检索,自我评估信息充分性 +- **无向量检索**:金融查询大量精确匹配(代码、专有名词、数字),BM25 优于向量检索 +- **好需求三要素**:在哪里看(限定章节)、看什么(业务语言)、怎么判(SOP 可执行条件) +- **选型教训**:Qwen3-32B → 530 条规则/4300 行代码/三人离职;Qwen3-235B → 规则砍半,准确率 +45pp +- **上下文工程**:prompt 从 24K token 压缩到 3K,180 个财务指标按需拼入 + +### 4. Agent 探索 +- OpenClaw 在金融场景的四短板:权限模糊、审计不足、插件无管控、幻觉无兜底 +- Skill 原子化 + MCP 协议接入 +- 接口大模型友好改造(业务语义、时间标签、功能说明) + +### 5. 核心观点 +- "不卷织布速,卷机器驾驭力" +- "交付乐高式 Skills,交付拼好的乐高小车" +- "从代码生产者转身业务审核员" +- "弃大脑之争,筑神经之基" diff --git a/raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md b/raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md new file mode 100644 index 0000000..2ecc469 --- /dev/null +++ b/raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md @@ -0,0 +1,41 @@ +--- +title: "大模型沉默螺旋:当算法催生数字从众" +author: 李媛媛 +source: 数据派THU (DatapiTHU) +date: 2026 +url: https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw +type: article +tags: + - spiral-of-silence + - llm + - rag + - multi-agent + - rlhf + - content-ecology +--- + +## 摘要 + +本文系统梳理了大模型沉默螺旋(LLM Spiral of Silence)现象:LLM 无需人类心理动机,仅依靠底层统计生成机制就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应。文章从经典传播学理论迁移出发,剖析了 RAG 闭环迭代与多智能体交互两大实证场景,拆解了四大技术根源(预训练统计偏好、历史上下文锚定、角色设定固化、RLHF 对齐放大),并提出技术-机制-研究三维治理方案。 + +## 核心主张 + +- LLM 沉默螺旋是**所有主流大模型的通用系统性问题**(GPT、Llama、通义千问、DeepSeek 等),仅存在效应强弱差异 +- 无需人类心理动机,纯统计语言生成机制即可自发形成 +- AI 沉默螺旋比人类社会更隐蔽、迭代更快、压制更强 +- 小模型、中文模型、RLHF 对齐后模型的沉默螺旋效应更显著 + +## 关键实验发现 + +1. **RAG 闭环**:5 轮迭代后人类原创内容占比从 50% 暴跌至 15% 以下,搜索引擎算法天然偏好 AI 生成文本 +2. **多智能体交互**:历史上下文 + 角色设定叠加时,主流观点占比突破 80%,小众观点被完全压制 +3. **模型差异**:小参数模型 > 大参数模型;中文模型 > 英文模型 + +## 参考文献 + +[1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval? +[2] arXiv 2025. Spiral of Silence in Large Language Model Agents +[3] Noelle-Neumann E. The Spiral of Silence: Public Opinion—Our Social Skin, 1984. +[4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models +[5] Knowledge-Based Systems 2026. Quantifying and mitigating the spiral of silence in recommender systems +[6] 周葆华. 网络舆论过程与动态演化:基于计算传播研究的分析[J]. 西北师大学报, 2019. diff --git a/raw/articles/memtensor-memos-agent-memory-2026.md b/raw/articles/memtensor-memos-agent-memory-2026.md new file mode 100644 index 0000000..25d2f82 --- /dev/null +++ b/raw/articles/memtensor-memos-agent-memory-2026.md @@ -0,0 +1,63 @@ +--- +title: "MemOS:Agent 记忆系统从效率工具到生存关键" +created: 2026-06-19 +updated: 2026-06-19 +type: article-raw +source: https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw +speaker: 熊飞宇 +company: 记忆张量(MemTensor) +publisher: DataFun +--- + +# MemOS:Agent 记忆系统从效率工具到生存关键 + +**分享嘉宾**:熊飞宇,记忆张量(上海)科技有限公司创始人兼CEO,上海算法创新研究院大模型中心负责人 +**出品社区**:DataFun + +## 核心观点 + +记忆(Memory)正在成为 AI Agent 最大的短板。ChatGPT 上线个人记忆功能 + OpenClaw 连续型 Agent 出现后,行业形成共识:记忆不再是锦上添花,而是 Agent 能否持续进化的核心要素。 + +## 内容概要 + +### 1. 记忆演进:从效率工具到生死关键 +- ChatGPT 记忆功能:个性化理解是 AGI 时代的关键 +- OpenClaw 出现:缺乏良好记忆系统,长程 Agent 任务无法顺利执行 +- 从 single-session → multi-session/multi-user/multi-agent/multi-apps,复杂度指数增长 + +### 2. 两条技术路径 +- **模型驱动**:Memorizing Transformers 等架构创新,成本极高,失败风险大 +- **应用驱动**:Prompt/Agent 流模拟记忆(Mem0, Zep),轻量但结合不紧密 +- **MemTensor 做法**:融合两条路径——模型驱动决定上限,应用驱动决定下限 + +### 3. MemOS 五层架构 +- 记忆存储层:MemCube(最小记忆单元)+ MemStore(可交易记忆市场) +- 记忆治理层:权限管理、生命周期、水印、隐私 +- 记忆调度层:核心——明文记忆、激活记忆、参数记忆三层协同 +- 编解码层 + 应用层 + +### 4. 三层记忆协同 +- **明文记忆**(Explicit):Prompt/Agent 流处理,业界主流 +- **激活记忆**(Activation):KV Cache 管理,优化缓存命中率和 token 消耗 +- **参数记忆**(Parameter):行业 know-how 通过后训练注入大模型 + +### 5. 平台规模 +- GitHub 8.5K Star,社区 1.2 万+ 活跃用户 +- 云服务单月调用量 2500 万+,月涨幅 100-200% +- 单次请求节省 45-72% token + +### 6. MemOS 增强 OpenClaw(六大维度) +- 存储类型、检索(多路召回/时间衰减/去重)、进化(Mem2Skill)、可视化、协作(Hub) +- 三级去重漏斗:SHA-256 → 向量余弦相似度 → LLM Judge +- 平均压缩比 75%+,token 消耗降低近 50% +- 核心创新 Mem2Skill:记忆不止于被搜到,而是内化为能力 + +### 7. ClawForce 企业产品 +- 解决五痛点:部署难、经验散、响应遗漏、场景受限、数据不可追溯 +- 五层设计:智能中枢 + 记忆层 + Skill 引擎 + 事件监听 + 工具链接 +- 三重安全:事前隔离 → 事中脱敏加密 → 事后审计 +- 场景:研发全链路自动化、电商 7×24 监控、公文写作(-85% 耗时)、销售(客户触达翻倍) + +### 8. 一体机方案 +- NVIDIA DGX 一体机(128G 显存 + 内存共享) +- 中国电信国产算力方案 diff --git a/raw/articles/michael-jordan-mlst-collectivist-ai-2026.md b/raw/articles/michael-jordan-mlst-collectivist-ai-2026.md new file mode 100644 index 0000000..84b33f5 --- /dev/null +++ b/raw/articles/michael-jordan-mlst-collectivist-ai-2026.md @@ -0,0 +1,64 @@ +--- +title: "Michael I. Jordan 论 AI 的集体主义经济学(MLST 访谈)" +author: Michael I. Jordan (受访), Tim Scarfe (主持) +source: 机器之心编译, MLST (Machine Learning Street Talk) +date: 2026 +url: https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ +original: https://www.youtube.com/watch?v=AREWYbVtX64 +paper: https://arxiv.org/pdf/2507.06268 +type: article +tags: + - michael-jordan + - ai-economics + - collectivist-ai + - uncertainty + - agi-critique +--- + +## 摘要 + +Michael I. Jordan(统计机器学习奠基人,门下走出 Andrew Ng、Yoshua Bengio 等)在 MLST 访谈中围绕论文《AI 的集体主义经济学视角》展开深度对话。核心论点:当前 AI 叙事被个体认知隐喻主导(大脑即计算机),忽略了智能的社会性、经济性和不确定性;需要引入经济学与社会科学构建完整的智能系统框架;AGI 是公关词,超级智能 vs 人类灭绝是虚假二元——两极之间有无数的积极可能性。 + +## Michael I. Jordan 背景 + +- 加州大学伯克利分校 EECS + 统计系杰出教授,Inria 巴黎研究员 +- 2016 年《科学》杂志「全球最具影响力计算机科学家」 +- 学生:Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等 +- 领域:图模型、变分推断、贝叶斯非参数方法 + +## 核心观点 + +### 1. AGI 是公关词 + +「AGI 只是个公关词。它是一种扭曲。」AI 术语回归(伴随 LLM 兴起)对研究路径和商业模式产生扭曲效应。真正的机器学习传统(决策树、逻辑回归、供应链预测)一直存在且影响更大,但因为没有"人类可读输出"而被忽视。 + +### 2. AI 需要经济学——集体主义框架 + +主流 AI 思维的根本缺陷:**将智能窄化为个体认知**(大脑隐喻 → 神经元 → 梯度下降),忽略了人是社会动物。框架落在一个三角形上: +- [[collectivist-ai|CS + 统计学 + 经济学]] + +「只有计算加优化,你就只能得到语言模型。把统计和经济思维加进来,才开始有完整的系统性思考。」 + +### 3. 停止人类化机器 + +不要问"它是否理解"——要问:能不能降低不确定性、能不能让工程系统建立在它之上、能不能让计划成为可能。[[anthropomorphization-critique|人类化机器]]系统性地转移了注意力,让人忘记真正重要的工程问题:失效条件、误差范围、与真实数据的结合、谁来承担出错的后果。 + +### 4. 基础模型在知识边界最危险 + +[[foundation-model-frontier-bias|基础模型前沿偏倚]]:科学家感兴趣的是知识边界上的新问题,而基础模型恰恰在那里训练数据最稀少、偏倚最大。AlphaFold 案例——量子涨落预测的置信区间极窄但完全偏离真实值。解决方案:[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注数据与大量模型预测。 + +### 5. 超级智能 vs 人类灭绝是虚假二元 + +「那种思想领袖分成两队,一队冲向乌托邦,一队冲向末日——在人类历史上这种程度的现实脱节是非常罕见的。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有无数积极的事情可以做。 + +## Jordan 的不确定性三分法 + +[[uncertainty-taxonomy|不确定性分类法]](超越经典 epistemic/aleatoric 二分): +1. **采样不确定性**——数据是否足够?但在社会语境中需按纳什均衡处理(鸭子比喻) +2. **信息不对称**——结构性不透明,不会消失(经济学范畴) +3. **数据时效性(providence)**——数据的时间元数据应定量纳入不确定性计算 + +## 参考文献 + +- Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268. +- MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64 diff --git a/raw/articles/nobrega-ai-production-tradeoffs-2026.md b/raw/articles/nobrega-ai-production-tradeoffs-2026.md new file mode 100644 index 0000000..dc2bba1 --- /dev/null +++ b/raw/articles/nobrega-ai-production-tradeoffs-2026.md @@ -0,0 +1,62 @@ +--- +title: "Six Choices Every AI Engineer Has to Make (and Nobody Teaches)" +created: 2026-06-19 +updated: 2026-06-19 +type: article-raw +source: https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/ +wechat: https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA +translator: 陈超 +publisher: 数据派THU +--- + +# Six Choices Every AI Engineer Has to Make (and Nobody Teaches) + +**作者**:Sara Nobrega +**翻译**:陈超(北京大学应用心理硕士) +**发布**:数据派THU(DatapiTHU) +**原文**:Towards Data Science + +## 核心主题 + +AI 生产中 6 种关键权衡,都有最新研究支持。 + +## 6 种权衡 + +### 1. 构建 vs 购买(Build vs Buy) +- 三个选择:调用 API、微调开源模型、自建托管 +- 日请求 < 10 万 → API(GPT-4o Mini) +- 日请求 > 100 万 → 自建(但注意:人力占成本的 70-80%,GPU 只占 20-30%) +- 团队平均超出 LLM 预算 340%,主因是缺少使用跟踪和成本归属 + +### 2. 模型复杂度 vs 可维护性 +- CACE 原理:Change Anything Changes Everything (Sculley et al., 2015) +- 数据依赖比代码依赖更昂贵 +- 为 2% 精度提升选择更复杂模型 → 支付 18 个月调试税 + +### 3. 数据数量 vs 数据质量 +- 超过噪声阈值,更多低质量数据会降低性能 +- "数据沼泽"问题:存储便宜 → 什么都存 → 清理成本爆炸 +- 医疗 AI:专家标注小数据集 > 不可靠标注大数据集 + +### 4. 吞吐量 vs 延迟(批处理 vs 实时) +- 批处理:按时生成预测,低成本,简单,预测可能过时 +- 实时:按需,毫秒级,昂贵,24/7 运维 +- 大多数业务问题不需要亚秒级预测 + +### 5. 提示词工程 vs 微调 +- 提示词工程:快、便宜、灵活,但脆弱 +- 微调:昂贵(GPT-4o 客户支持约 $1万 + 6 周),但规模化可靠 +- DSPy 提示优化在部分基准上超微调 6-19 个百分点 +- 混合模式兴起:微调解决风格/基调 + RAG 作事实基础 + +### 6. 自动化 vs 人类监督(HITL) +- 完全人工审查无法规模化 +- 选择性 HITL:只在边缘案例、低置信度、高风险决策时触发人工 +- AI 处理规模/速度/模式识别,人类处理不可逆性 +- 医疗/金融/法律领域,HITL 通常是合规要求 + +## 核心原则 + +> 在生产中,决策的成本很少在决策做出的地方产生回报。 + +复杂度的代价延迟偿付——更复杂的模型在 6 个月后增加维护成本,实时系统的 24/7 基础设施支撑长期代价更高,大规模脏数据在重训练周期上付出代价。 diff --git a/raw/papers/arbor-htr-2026.md b/raw/papers/arbor-htr-2026.md new file mode 100644 index 0000000..fc681af --- /dev/null +++ b/raw/papers/arbor-htr-2026.md @@ -0,0 +1,38 @@ +--- +title: "Arbor: Toward Generalist Autonomous Research via Hypothesis-Tree Refinement" +author: "Jiajie Jin†‡, Yuyang Hu†, Kai Qiu, Qi Dai, Chong Luo, Guanting Dong, Xiaoxi Li, Tong Zhao, Xiaolong Ma, Gongrui Zhang, Zhirong Wu, Bei Liu, Zhengyuan Yang, Linjie Li, Lijuan Wang, Hongjin Qian, Yutao Zhu, Zhicheng Dou*" +source: "arXiv 2606.11926v1" +date: "2026-06-10" +type: paper +venue: "arXiv (cs.CL, cs.AI)" +tags: ["autonomous-research", "agent", "hypothesis-tree", "coordinator-executor", "ao"] +code: "https://github.com/RUC-NLPIR/Arbor" +--- + +# Arbor: Autonomous Research via Hypothesis-Tree Refinement + +> Jin†‡, Hu†, Qiu, Dai, Luo, Dong, Li, Zhao, Ma, Zhang, Wu, Liu, Yang, Li, Wang, Qian, Zhu, Dou* +> Renmin University / Microsoft Research | arXiv:2606.11926v1 | Jun 2026 + +## 核心问题 + +如何让 AI Agent 在长程自主科研中运行探索-实验-抽象循环?科学进步依赖反复的方向测试、证据解读和经验传承,但现有 Agent 将这些视为独立的局部尝试而非累积过程。 + +## 核心框架:Hypothesis Tree Refinement (HTR) + +Arbor 将自主科研建模为 **Autonomous Optimization (AO)**——Agent 通过迭代实验改进初始研究产物,无需步骤级人工监督。核心状态是一个持久化的假设树: + +### 树的节点 = 研究单元 ⟨h, ι, µ⟩ +- **h (Hypothesis)**:可验证/可证伪的改进主张 +- **ι (Insight)**:可复用的证据解读——不是执行日志,是紧凑语义记忆 +- **µ (Metadata)**:状态、分数、git branch/commit 引用 + +### Coordinator ↔ Executor 双角色 +- **Coordinator**(长生命周期):拥有全局树,管理搜索前沿、选择方向、传播洞察、决定合并/剪枝 +- **Executor**(短生命周期,隔离 worktree):实现并测试单个假设,返回结构化报告 + +## 关键结果 + +- 6 项真实科研任务(模型训练/Harness 工程/数据合成):全部最优 held-out 结果 +- vs Codex/Claude Code:**平均 2.5×** 相对 held-out 增益 +- MLE-Bench Lite (GPT-5.5):**86.36%** Any Medal diff --git a/raw/papers/cao-nano-filter-2024.md b/raw/papers/cao-nano-filter-2024.md new file mode 100644 index 0000000..23471b3 --- /dev/null +++ b/raw/papers/cao-nano-filter-2024.md @@ -0,0 +1,29 @@ +--- +title: "NANO Filter 原始存档" +created: 2026-06-22 +type: raw +arxiv: "2410.15832" +source: "https://arxiv.org/abs/2410.15832" +--- + +# Nonlinear Bayesian Filtering with Natural Gradient Gaussian Approximation + +- **作者**: Wenhan Cao, Tianyi Zhang, Zeju Sun, Chang Liu, Stephen S.-T. Yau, Shengbo Eben Li +- **机构**: 清华大学(车辆与运载学院、数学科学系)、北京大学(工学院)、BIMSA +- **arXiv**: 2410.15832 [eess.SY] +- **提交**: 2024-10-21 | 最新版本 v4: 2026-03-15 +- **DOI**: https://doi.org/10.48550/arXiv.2410.15832 + +## 摘要 + +Practical Bayes filters often assume the state distribution of each time step to be Gaussian for computational tractability, resulting in the so-called Gaussian filters. When facing nonlinear systems, Gaussian filters such as extended Kalman filter (EKF) or unscented Kalman filter (UKF) typically rely on certain linearization techniques, which can introduce large estimation errors. To address this issue, this paper reconstructs the prediction and update steps of Gaussian filtering as solutions to two distinct optimization problems, whose optimal conditions are found to have analytical forms from Stein's lemma. It is observed that the stationary point for the prediction step requires calculating the first two moments of the prior distribution, which is equivalent to that step in existing moment-matching filters. In the update step, instead of linearizing the model to approximate the stationary points, we propose an iterative approach to directly minimize the update step's objective to avoid linearization errors. For the purpose of performing the steepest descent on the Gaussian manifold, we derive its natural gradient that leverages Fisher information matrix to adjust the gradient direction, accounting for the curvature of the parameter space. Combining this update step with moment matching in the prediction step, we introduce a new iterative filter for nonlinear systems called **N**atural Gr**a**dient Gaussia**n** Appr**o**ximation filter, or NANO filter for short. We prove that NANO filter locally converges to the optimal Gaussian approximation at each time step. Furthermore, the estimation error is proven exponentially bounded for nearly linear measurement equation and low noise levels through constructing a supermartingale-like property across consecutive time steps. + +## 关键概念 + +- Natural gradient descent on Gaussian manifold +- Fisher information matrix +- Moment matching (prediction step) +- Stein's lemma for optimality conditions +- Gibbs posterior for robustness +- Pseudo-Huber loss for outlier handling +- Convergence proof & exponential error bound diff --git a/raw/papers/dao-transformers-are-ssms-2024.md b/raw/papers/dao-transformers-are-ssms-2024.md new file mode 100644 index 0000000..d0c7cbc --- /dev/null +++ b/raw/papers/dao-transformers-are-ssms-2024.md @@ -0,0 +1,33 @@ +--- +title: "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality" +source: arXiv +source_id: 2405.21060 +authors: + - Tri Dao (Princeton University) + - Albert Gu (Carnegie Mellon University) +published: 2024-05-31 +venue: ICML 2024 +categories: + - cs.LG +--- + +# Transformers are SSMs + +## Abstract +While Transformers dominate language modeling, state-space models (SSMs) such as Mamba have matched or outperformed them at small-to-medium scale. This paper shows these model families are closely related through **structured state space duality (SSD)**, connected via **semiseparable matrices**. The SSD framework enables Mamba-2, a refined selective SSM that is 2-8x faster than Mamba while competitive with Transformers. + +## Core Contributions +1. **SSD Framework**: Equivalence between SSMs and semiseparable matrices → connects SSM recurrence with attention-like quadratic forms +2. **Structured Masked Attention (SMA)**: Generalizes linear attention with data-dependent position masks +3. **SSD Algorithm**: Block decomposition of semiseparable matrices, leveraging both linear (recurrent) and quadratic (attention-like) forms +4. **Mamba-2 Architecture**: Multi-head SSM design with tensor parallelism support +5. **Systems Optimizations**: TP, sequence parallelism, variable-length training + +## Key Concepts +- Structured State Space Duality (SSD), Semiseparable Matrices +- Structured Masked Attention (SMA), Linear Attention +- Selective SSMs, Scalar SSM, Head Structure for SSMs (MIS/MVA/GVA) +- SSD Algorithm, Block Decomposition, Tensor Contraction Duality + +## URL +https://arxiv.org/abs/2405.21060 diff --git a/raw/papers/engram-conditional-memory-2026.md b/raw/papers/engram-conditional-memory-2026.md new file mode 100644 index 0000000..1956db9 --- /dev/null +++ b/raw/papers/engram-conditional-memory-2026.md @@ -0,0 +1,32 @@ +--- +title: "Engram: Conditional Memory via Scalable Lookup (Raw Archive)" +created: 2026-06-25 +updated: 2026-06-25 +type: raw +tags: ["conditional-memory", "sparsity", "ngram", "mixture-of-experts"] +source: "https://arxiv.org/abs/2601.07372" +--- + +# Engram: Conditional Memory via Scalable Lookup — Raw Archive + +## Metadata + +- **Title**: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models +- **Authors**: Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang +- **Affiliations**: Peking University, DeepSeek-AI +- **arXiv**: 2601.07372 +- **Date**: 2026-01-12 +- **Categories**: cs.CL, cs.AI +- **Code**: https://github.com/deepseek-ai/Engram + +## Abstract + +While Mixture-of-Experts (MoE) scales capacity via conditional computation, Transformers lack a native primitive for knowledge lookup, forcing them to inefficiently simulate retrieval through computation. To address this, we introduce conditional memory as a complementary sparsity axis, instantiated via Engram, a module that modernizes classic N-gram embedding for O(1) lookup. By formulating the Sparsity Allocation problem, we uncover a U-shaped scaling law that optimizes the trade-off between neural computation (MoE) and static memory (Engram). Guided by this law, we scale Engram to 27B parameters, achieving superior performance over a strictly iso-parameter and iso-FLOPs MoE baseline. Most notably, while the memory module is expected to aid knowledge retrieval (e.g., MMLU +3.4; CMMLU +4.0), we observe even larger gains in general reasoning (e.g., BBH +5.0; ARC-Challenge +3.7) and code/math domains (HumanEval +3.0; MATH +2.4). Mechanistic analyses reveal that Engram relieves the backbone's early layers from static reconstruction, effectively deepening the network for complex reasoning. Furthermore, by delegating local dependencies to lookups, it frees up attention capacity for global context, substantially boosting long-context retrieval (e.g., Multi-Query NIAH: 84.2 to 97.0). + +## Key Contributions + +1. Conditional memory as a new sparsity axis complementary to MoE +2. Engram module: modernized N-gram embedding with multi-head hashing, context-aware gating, depthwise convolution +3. Sparsity Allocation problem and U-shaped scaling law +4. Infrastructure-aware design: deterministic addressing enables host memory prefetching +5. Empirical validation at 27B-40B scale with comprehensive ablation diff --git a/raw/papers/fei-mcp-zero-2025.md b/raw/papers/fei-mcp-zero-2025.md new file mode 100644 index 0000000..e709382 --- /dev/null +++ b/raw/papers/fei-mcp-zero-2025.md @@ -0,0 +1,56 @@ +--- +title: "MCP-Zero: Active Tool Discovery for Autonomous LLM Agents" +created: 2026-06-19 +updated: 2026-06-19 +type: paper-raw +source: https://arxiv.org/abs/2506.01056 +arxiv_id: 2506.01056 +version: v4 +--- + +# MCP-Zero: Active Tool Discovery for Autonomous LLM Agents + +**Authors**: Xiang Fei, Xiawu Zheng*, Hao Feng (Xiamen University, USTC) +**Published**: 2025-06-01 (v4: 2025-06-24) +**Venue**: arXiv:2506.01056 (cs.AI, cs.SE) +**Code**: https://github.com/xfey/MCP-Zero + +## 核心洞察 + +当前 LLM Agent 的工具使用是**被动的**——将所有 tool schema 注入 system prompt 让模型从中选择。这有两个致命问题:(1) 上下文开销爆炸(GitHub MCP server 一个就需要 4600+ tokens,全生态 248K tokens);(2) 决策自主权被剥夺——模型从"自主能力构建者"退化为"被动选择器"。 + +MCP-Zero 将范式翻转为**主动工具发现(Active Tool Discovery)**:Agent 自主识别能力缺口,按需生成结构化工具请求,系统匹配并返回。 + +## 三大机制 + +### 1. Active Tool Request +模型自主生成结构化请求: +``` + +server: File system allowing file operations +tool: Read file by filename + +``` +关键:请求在**工具文档的语义空间**中,语义对齐度高于原始用户查询。 + +### 2. Hierarchical Semantic Routing +两级粗到细检索: +- 第一级:server 字段 → 匹配 server 描述(含增强摘要) +- 第二级:tool 字段 → 在选中的 server 内排序 +- 评分:score = (s_server × s_tool) × max(s_server, s_tool) +- 复杂度从 O(n) 降至 O(m+k),m+k ≪ n + +### 3. Iterative Capability Extension +支持多轮迭代发现:模型可逐步构建跨域 toolchain(文件→编辑→执行),当前工具不足时可优化请求重新检索。 + +## 关键数据 + +- 数据集 MCP-tools:308 servers, 2,797 tools +- APIBank 上 token 消耗降低 **98%** 且保持高准确率 +- 在 248.1K tokens 的工具描述空间中精准选择 + +## 理论分析 + +- 主动发现建模为 active learning:r* = arg max I(T*; r|s_t) +- 注意力分布:被动 O(1/n) ↘ 主动 O(1/k),k ≪ n +- 语义对齐优势:cos(e_r, e_t) > cos(e_q, e_t) diff --git a/raw/papers/gan-bifurcation-eos-2026.md b/raw/papers/gan-bifurcation-eos-2026.md new file mode 100644 index 0000000..463142d --- /dev/null +++ b/raw/papers/gan-bifurcation-eos-2026.md @@ -0,0 +1,36 @@ +--- +title: "A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability" +created: 2026-06-23 +type: paper-raw +arxiv: "2606.15551v1" +category: cs.LG +author: "Eric Gan" +date: 2026-06-14 +venue: Preprint +--- + +# A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability + +- **作者**: Eric Gan (Independent Researcher, egan8@ucla.edu) +- **arXiv**: 2606.15551v1 +- **领域**: cs.LG (Machine Learning) +- **日期**: 2026-06-14 +- **来源**: https://arxiv.org/abs/2606.15551 + +## 摘要 + +The Edge of Stability (EoS) phenomenon, where gradient descent operates with sharpness exceeding the classical convergence threshold yet the loss decreases over long timescales, is ubiquitous in modern deep learning but remains poorly understood in realistic settings. Prior rigorous analyses have been largely confined to scalar or low-dimensional losses with specific structural forms. In this work, we develop a bifurcation theory framework for gradient descent on the edge of stability that applies directly to overparameterized neural networks. By decomposing the training dynamics into components normal and tangent to the manifold of minimizers, we show that stable EoS training arises from a flip bifurcation in the normal direction, governed by the sign of the first Lyapunov coefficient, while the tangent dynamics drift toward regions of decreasing sharpness. Under mild spectral and geometric assumptions on the loss landscape, we prove convergence to the minimizing manifold when training at the EoS threshold. As a corollary, we recover and unify prior results: we show that the product-stability condition of Gan (2026) is an instance of our framework. + +## 核心贡献 + +1. 发展了一个适用于过参数化网络的分岔理论 EoS 框架 +2. 将 EoS 动力学分解为法向 flip 分岔 + 切向 sharpness 递减漂移 +3. 证明了在 EoS 阈值处(η = 2/λ_max)收敛到极小值流形 (Theorem 4.4) +4. 统一了乘积稳定性 (Gan 2026) 为框架特例 + +## 关键技术工具 + +- 中心流形定理 (Center Manifold Theorem) +- 投影法 (Projection Method) +- 第一 Lyapunov 系数 (c₁) +- Morse-Bott 条件 + 谱间隙假设 diff --git a/raw/papers/gan-thinking-based-non-thinking-2026.md b/raw/papers/gan-thinking-based-non-thinking-2026.md new file mode 100644 index 0000000..d6510a6 --- /dev/null +++ b/raw/papers/gan-thinking-based-non-thinking-2026.md @@ -0,0 +1,39 @@ +--- +title: "Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning" +source: arXiv +source_id: 2601.04805 +authors: + - Siyuan Gan (Nanjing University) + - Jiaheng Liu (Nanjing University) + - Boyan Wang (Nanjing University) + - Tianpei Yang (Nanjing University) + - Runqing Miao (Jiutian Research) + - Yuyao Zhang (Jiutian Research) + - Fanyu Meng (Jiutian Research) + - Junlan Feng (Jiutian Research) + - Linjian Meng (Shanghai AI Laboratory) + - Jing Huo (Nanjing University) + - Yang Gao (Nanjing University) +published: 2026-01-08 +updated: 2026-06-07 +categories: + - cs.AI +venue: Preprint +--- + +# Thinking-Based Non-Thinking (TNT) + +## Abstract +Large reasoning models (LRMs) achieve exceptional performance via long Chain-of-Thought (thinking), causing substantial computational overhead — the overthinking problem. RL-trained hybrid reasoning models that dynamically choose thinking/non-thinking modes suffer from **reward hacking**: the model generates thinking-like responses while being classified as non-thinking, receiving undeserved rewards. + +Existing mitigations: (1) SFT with large datasets (high cost), or (2) uniform token limits on non-thinking (ineffective for varied query difficulties). TNT proposes **per-query dynamic token limits** derived from the thinking mode's solution length — leveraging the fact that LRMs' thinking mode ensures its solution component contains no additional thinking. + +## Core Contributions +1. **TNT (Thinking-Based Non-Thinking)**: Dynamic per-query maximum token usage for non-thinking mode, derived from the solution component of thinking mode responses +2. **50% token reduction** vs DeepSeek-R1-Distill-Qwen while **improving accuracy** across 5 math benchmarks +3. **Optimal accuracy-efficiency trade-off** among all tested hybrid reasoning methods +4. **<10% reward hacking rate** across all datasets +5. Compatible with any RL algorithm (GRPO, PPO, DAPO, Dr.GRPO, GSPO) + +## URL +https://arxiv.org/abs/2601.04805 diff --git a/raw/papers/gaurav-dynamic-react-2025.md b/raw/papers/gaurav-dynamic-react-2025.md new file mode 100644 index 0000000..9bf993f --- /dev/null +++ b/raw/papers/gaurav-dynamic-react-2025.md @@ -0,0 +1,53 @@ +--- +title: "Dynamic ReAct: Scalable Tool Selection for Large-Scale MCP Environments" +created: 2026-06-19 +updated: 2026-06-19 +type: paper-raw +source: https://arxiv.org/abs/2509.20386 +arxiv_id: 2509.20386 +version: v1 +--- + +# Dynamic ReAct: Scalable Tool Selection for Large-Scale MCP Environments + +**Authors**: Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj (agentr.dev) +**Published**: 2025-09-22 +**Venue**: arXiv:2509.20386 (cs.SE, cs.AI, cs.IR) + +## 核心问题 + +当 MCP 工具生态扩展到数百到数千个工具时,传统 ReAct Agent 的全量加载方式不可行——LLM 上下文有硬限制。 + +## 五架构演进 + +### 1. Baseline: Direct Semantic Search +用户查询直接入向量库 → 取 top-k → 绑定 LLM。简单但噪声严重("退订链接"查询返回 Mailchimp 的 unsubscribe 报告而非 Gmail 工具)。 + +### 2. Meta-Tool Query Construction +暴露向量搜索为 meta-tool,LLM 先构造原子化搜索查询再检索。更精确,但仍需大 k 值。 + +### 3. Search and Load(★ 最优) +两个 meta-tool:`search_tools`(两级搜索,k1=20→去重→每应用上限 k2=5)+ `load_tools`(LLM 精选后显式加载)。多查询合并、精确加载 < 5 个工具。 + +### 4. Application-Aware (Hierarchical Search) +增加 `search_apps` 先定位应用再搜工具。application filtering 在语义搜索中效果有限——LLM 倾向直接用 query 包含 app 名。 + +### 5. Fixed Tool Set +四个固定 meta-tool 动态获取工具信息并调用。缓存效率好,但长对话中性能退化。 + +## 向量检索优化 + +| 策略 | Top-5 | Top-10 | +|------|-------|--------| +| OpenAI text-embedding-3-large (baseline) | 40% | 64% | +| voyage-context-3 | 48% | 68% | +| **voyage-context-3 + Sonnet context enrichment** | **60%** | 68% | +| + BM25 hybrid | 56% | 72% | + +Context enrichment 带来 50% 相对提升(Top-5: 40→60%)。 + +## 关键创新 + +- **default tools**:create_table + web_search 始终可用,避免为通用任务浪费搜索 +- **Meta-tool 作为"七杠杆"**:LLM Client (1) + Meta Tools (4) + Tool Registry (1) + Vector DB (1) +- 工具加载减少 **50%**,准确率不降 diff --git a/raw/papers/gu-mamba-2024.md b/raw/papers/gu-mamba-2024.md new file mode 100644 index 0000000..23a3cfc --- /dev/null +++ b/raw/papers/gu-mamba-2024.md @@ -0,0 +1,94 @@ +--- +title: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" +authors: ["Albert Gu", "Tri Dao"] +date: 2023-12-01 +arxiv_id: "2312.00752v2" +categories: ["cs.LG", "cs.AI"] +affiliations: ["Carnegie Mellon University", "Princeton University"] +paper_type: "conference" +code: "https://github.com/state-spaces/mamba" +--- + +# Mamba: Linear-Time Sequence Modeling with Selective State Spaces + +## 摘要 + +Foundation model 几乎全部基于 Transformer 架构,但其注意力机制的二次复杂度在处理长序列时效率极低。各种次二次复杂度架构(线性注意力、门控卷积、结构状态空间模型)试图取代注意力,但在语言等核心模态上始终达不到 Transformer 质量。本文识别出这些模型的根本弱点——**缺乏内容感知推理能力(content-based reasoning)**——并通过两个关键创新解决:(1) 让 SSM 参数成为输入的函数(选择机制,S6),使模型能根据当前 token 选择性传播或遗忘信息;(2) 设计硬件感知的并行算法,在循环模式下高效计算。最终形成极简架构 Mamba——无注意力甚至无 MLP 块。Mamba 推理吞吐量是 Transformer 的 5 倍,序列长度线性扩展,在语言、音频、基因组学等多个模态达到 SOTA。Mamba-3B 性能超过同规模 Transformer 并匹敌两倍规模的 Transformer。 + +## 核心贡献 + +1. **选择机制(Selection Mechanism / S6)**:将 SSM 参数(Δ, B, C)变为输入依赖,从时间不变(LTI)升级为时间变化 +2. **硬件感知算法**:通过并行关联扫描(parallel associative scan)在 SRAM 中计算,避免 GPU HBM 之间的 IO 瓶颈 +3. **极简架构 Mamba**:将 H3 架构中的 SSM 层与 MLP 门控融合为单一同质块 +4. **选择复制(Selective Copying)和归纳头(Induction Heads)合成任务**:Mamba 不仅轻松解决,且能无限外推(>1M tokens) + +## 方法框架 + +### 从 S4 到 S6 + +传统 S4 的关键局限是 **线性时间不变性(LTI)**:参数 (Δ, A, B, C) 对所有时间步固定。这意味着状态更新规则不随输入内容改变——模型无法"选择性"关注或忽略特定 token。 + +Mamba 的选择机制(S6)将 B, C, Δ 变为输入 x 的函数: +``` +B_t = s_B(x_t) # 输入 → 输入投影 +C_t = s_C(x_t) # 输入 → 输出投影 +Δ_t = τ_Δ(Δ + s_Δ(x_t)) # 输入依赖的步长 +``` + +核心差异: +| 特性 | S4 (LTI) | S6 (Selective) | +|------|---------|---------------| +| 参数 | 时间不变 | 时间变化(输入依赖) | +| 计算模式 | 卷积 OR 循环 | 仅循环(需 scan) | +| 选择性 | 无 | 有(过滤/保留) | +| 内容感知 | 否 | 是 | + +### 硬件感知并行 Scan + +选择机制消除了卷积等价性——模型必须是时间变化的,无法用卷积并行计算。Mamba 通过**并行关联扫描(parallel associative scan / Blelloch scan)**解决: + +1. 将状态更新展开为前缀和操作 +2. 在 GPU SRAM 中做 kernel fusion,避免将扩展状态写入 HBM +3. 输入在 HBM → 加载到 SRAM → scan + 离散化 → 写回 HBM + +结果:比所有基于卷积的 SSM 快 3×(A100 GPU)。 + +### Mamba 架构 + +``` +Input → Mamba Block → ... (×L) → Output + +Mamba Block: + x → LayerNorm → [Linear(expand) → Conv1d → SiLU → SSM(S6)] → LayerNorm → Linear → + (residual) +``` + +关键设计: +- **无注意力、无 MLP**:用选择性 SSM 取代二者 +- **扩展因子 E=2**:Linear 将 d_model 扩展到 2× 再投影回 +- **残差连接 + SiLU 激活** +- **H3 简化**:将 H3 的两个门控 SSM 融合为单一选择性 SSM + +## 实验结果 + +- **合成任务**:Selective Copying 和 Induction Heads → Mamba 可以泛化到 >1M token 序列 +- **语言建模**:Mamba-3B 在 pretraining perplexity 和 0-shot 评估上超过 Pythia-3B,匹敌 Pythia-7B;5× 推理吞吐 +- **音频**:在 SC09 语音生成上将 FID 降低一半以上 +- **基因组学**:在 DNA 建模上超过 HyenaDNA 和 Transformer + +## 关键概念 + +- [[selective-state-space]] — S6 选择机制,输入依赖的 SSM 参数化 +- [[hardware-aware-algorithm]] — GPU 层次优化的并行 scan +- [[structured-state-space-models]] — S4 前身,HiPPO 矩阵 + 对角结构 +- [[selective-copy]] — 需要内容感知的选择性复制任务 +- [[induction-heads]] — 解释 LLM in-context learning 能力的机制 +- [[hippo]] — SSM 的数学基础(High-order Polynomial Projection Operators) +- [[content-based-reasoning]] — Mamba 识别并解决的核心弱点 + +## 参考 + +- 代码:https://github.com/state-spaces/mamba +- S4 (Gu et al., 2022) +- H3 (Dao et al., 2023) +- 选择复制任务 (Arjovsky et al., 2016) +- 归纳头 (Olsson et al., 2022) diff --git a/raw/papers/hazare-dcgwm-2026.md b/raw/papers/hazare-dcgwm-2026.md new file mode 100644 index 0000000..0f89fe7 --- /dev/null +++ b/raw/papers/hazare-dcgwm-2026.md @@ -0,0 +1,43 @@ +--- +title: "Dual-Channel Grounded World Modeling (DCGWM)" +source_id: "arXiv:2606.18688v1" +authors: + - "Akshay Hazare" +affiliations: "Independent Researcher" +date: 2026-06-17 +categories: ["cs.LG", "cs.AI"] +note: "Position paper. Experimental validation in progress." +url: "https://arxiv.org/abs/2606.18688v1" +--- + +# Dual-Channel Grounded World Modeling (DCGWM) + +**Authors**: Akshay Hazare (Independent) +**arXiv**: 2606.18688v1 | **Date**: 2026-06-17 +**Categories**: cs.LG, cs.AI +**Position paper — experimental validation ongoing** + +## Abstract + +Joint Embedding Predictive Architectures (JEPAs) are a leading approach to world model representation learning. We identify a failure mode in JEPA-based world models grounded against two qualitatively distinct external signals: physical dynamics (sparse, high-magnitude, constraint-satisfying gradient corrections) and social-behavioral dynamics (diffuse, distribution-matching corrections). We term this **Objective Interference Collapse (OIC)**: joint learning in a shared latent space causes the dominant channel to systematically collapse the subordinate channel's representational subspace, in a manner not resolvable by loss weighting alone. + +We propose **Dual-Channel Grounded World Modeling (DCGWM)**, designed to structurally prevent OIC through a partitioned latent space (Z_p ⊕ Z_b) with inward-only gradient flow. The Physical Grounding Channel updates only Z_p via VICReg-style alignment; the Social-Behavioral Grounding Channel updates only Z_b via alignment to emergent multi-agent simulation trajectories. An Inter-Channel Interface Module couples subspaces at the task level without cross-subspace gradients. An Asymmetric Grounding Adherence Loss penalizes rollout drift with a hard hinge for physical violations and a soft KL for behavioral divergence. A Generative Rendering Layer is architecturally isolated from the latent world model. + +Three theoretical results: the partition removes the gradient-interference pathway; each grounded subspace inherits anti-collapse guarantees; generative isolation is necessary under stated assumptions. + +## Key Contributions + +1. **Objective Interference Collapse**: Formalization of a new collapse mode — when two grounding signals with incompatible statistical structures share a latent space +2. **DCGWM Architecture**: Partitioned latent space + inward-only gradient flow + separated grounding channels +3. **Asymmetric Grounding Adherence Loss (L_AGA)**: First loss for rollout drift under heterogeneous grounding with incompatible tolerance structures +4. **Isolation Necessity Theorem**: Under assumptions A1-A2, any α > 0 generative gradient causes world model drift +5. **LLM World Modeling Critique**: NTP-trained LLMs face inherent subspace collapse that DCGWM avoids by design + +## Key Concepts + +- [[objective-interference-collapse|OIC]] — The new collapse mode this paper identifies +- [[dcgwm|DCGWM]] — The architecture +- [[inward-only-gradient-flow|Inward-Only Gradient Flow]] — The key separation mechanism +- [[asymmetric-grounding-adherence-loss|L_AGA]] — Asymmetric rollout drift penalty +- [[rollout-drift|Rollout Drift]] — Multi-step prediction error accumulation +- [[isolation-necessity-theorem|Isolation Necessity]] — Formal generative isolation result diff --git a/raw/papers/jordan-collectivist-ai-2025.md b/raw/papers/jordan-collectivist-ai-2025.md new file mode 100644 index 0000000..e22c828 --- /dev/null +++ b/raw/papers/jordan-collectivist-ai-2025.md @@ -0,0 +1,71 @@ +--- +title: "A Collectivist, Economic Perspective on AI" +author: Michael I. Jordan +arxiv_id: "2507.06268" +categories: cs.CY, cs.AI, stat.ML +date: 2025-07-08 +updated: 2025-12-15 (v3) +url: https://arxiv.org/abs/2507.06268 +type: paper +tags: + - ai-economics + - collective-intelligence + - uncertainty + - mechanism-design + - foundation-models +--- + +## 摘要 + +信息技术正处于一场革命之中——无处不在的数据收集和机器学习正以前所未有的方式影响人类世界。"智能"一词被用作技术发展的北极星,人类认知被视作基线。这种观点忽略了人类是社会动物这一事实,我们的大部分智能具有社会和文化起源。前路不是更多的数据和计算,也不是更多关注认知或符号表征,而是**在算法设计层面将经济与社会概念与计算和推断概念深度融合**。 + +## 核心框架:三种思维方式的融合 + +Jordan 提出将三种思维方式融合为 AI 系统设计的新基础: + +``` +计算思维 (Computational) → 模块化、抽象、规模化 +推断思维 (Inferential) → 不确定性下的数据收集与预测 +经济思维 (Economic) → 激励机制、博弈均衡 +``` + +两两融合已形成学科(如算法博弈论),但三者的完整融合才是目标。论文通过若干案例展示这种融合的具体形态。 + +## 关键案例 + +### 1. 数据库设计中的推断思维(§2) + +传统数据库关注计算(隐私保护、查询优化),但**推断思维**引入了不同的视角:不是对标数据库中的已有患者,而是**对来自同一总体的新患者做出预测并量化不确定性**。这需要生成模型、因果推断("what if"问题)。 + +### 2. 统计合同理论(§3) + +[[statistical-contract-theory|统计合同理论]](Bates et al., 2024):将假设检验嵌入经济合同设计。核心发现:在顺序博弈中,合同是激励相容的当且仅当选项可表达为 **[[e-values|E-values]]**——一种在零假设下期望 ≤1 的函数,可视为证据随时间的累积(非负上鞅)。 + +### 3. 数据市场(§4.2) + +[[data-markets|三层数据市场]](Fallah et al., 2024):用户→平台→第三方数据买家。核心张力:平台需要在服务收入(来自用户)与数据销售收入(来自买家)之间权衡,同时需向用户提供隐私保证来维持参与。需建模为广义 Stackelberg 博弈求均衡。 + +### 4. 基础模型与预测驱动推断(§4.3) + +AlphaFold 案例:在知识边界(量子涨落蛋白)上给出高置信但完全偏倚的预测。[[prediction-driven-inference|预测驱动推断]](PPI)混合少量局部 ground-truth 数据与全局基础模型预测,使置信区间重新覆盖真实值。 + +### 5. 概率匹配(附录 C) + +[[probability-matching|概率匹配]]:小鼠迷宫实验——左臂食物是右臂的 2 倍。决策论最优小鼠每次去左边;真实小鼠以 2:1 的概率匹配。在**种群视角**下这是纳什均衡——避免资源浪费,提升社会总福利。这是集体主义不确定性处理的微观范例。 + +## 教育启示 + +论文附录 B 讨论了 UC Berkeley 的 **Data 8** 课程(Jordan 2015 年参与设计),融合"计算思维 + 推断思维":学生用 Python 直方图和置换检验回答真实世界问题(水质、森林砍伐等)。目前每学期 1500+ 学生,是伯克利历史上增长最快的课程。下一步:加入经济思维。 + +## 核心主张 + +- LLM 可被理解为**集体主义制品**——每次交互隐含地与数十亿贡献微数据的个体对话 +- 「AI 匹敌的隐喻不是搜索引擎或聊天机器人,而是**市场**」 +- 真正成熟的 AI 工程学科需要 Maxwell 方程组级别的**模块化透明设计概念**——当前远未达到 +- 路径不在于将 AI 狭窄化为人脑模拟,而在于将**经济与推断原则融入算法设计的 DNA** + +## 参考文献 + +- Bates et al. (2024). Principal-Agent Hypothesis Testing. arXiv:2205.06812 +- Angelopoulos et al. (2023). Prediction-Powered Inference. Science 383, 669–674 +- Fallah et al. (2024). On Three-Layer Data Markets. arXiv:2402.09697 diff --git a/raw/papers/large-language-gibbs-2026.md b/raw/papers/large-language-gibbs-2026.md new file mode 100644 index 0000000..2ba3abd --- /dev/null +++ b/raw/papers/large-language-gibbs-2026.md @@ -0,0 +1,19 @@ +# Structured Inference with Large Language Gibbs + +- **arXiv**: 2606.19264v1 +- **Published**: 2026-06-17 +- **Authors**: Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer (University of Edinburgh, CIFAR) +- **Categories**: cs.LG, cs.CL +- **Code**: https://github.com/hyeok9855/large-language-gibbs +- **Source**: https://arxiv.org/abs/2606.19264 + +## Abstract + +Large Language Gibbs 是一种结构化概率推断方案,将 LLM 的条件分布用作 Gibbs 采样的转移算子(transition operator)。核心思想:不通过单次自回归生成结构化对象,而是迭代地根据其他变量重新采样单个变量(利用 LLM 的 next-token conditional)。这种方法避免了生成顺序依赖的偏差,产生的稳态分布反映了所有局部条件之间的折衷。应用于合成分布采样、一致性推理(GSM8K/TruthfulQA)和贝叶斯结构学习。 + +## Key Contributions + +1. 将 LLM 条件分布形式化为 Gibbs 采样转移算子,给出稳态分布 q^sym 的理论刻画 +2. 提出三类核变体:Basic Gibbs(直接条件采样)、Barker Gibbs(偏好比较)、Gambling Gibbs(赌博决策) +3. 随机排列策略消除变量顺序偏差 +4. 三个应用场景验证:采样偏差纠正、一致性推理、因果结构先验 diff --git a/raw/papers/latent-cot-supervision-2026.md b/raw/papers/latent-cot-supervision-2026.md new file mode 100644 index 0000000..8ea7932 --- /dev/null +++ b/raw/papers/latent-cot-supervision-2026.md @@ -0,0 +1,21 @@ +# What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis + +- **arXiv**: 2606.20075v1 +- **Published**: 2026-06-18 +- **Authors**: Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen (Eastern Institute of Technology / Hong Kong Polytechnic University) +- **Categories**: cs.LG, cs.CL +- **Venue**: ICML 2026 +- **Code**: https://github.com/EIT-NLP/Supervision-in-Latent-CoT +- **Source**: https://arxiv.org/abs/2606.20075 + +## Abstract + +从信息论角度分析 Latent Chain-of-Thought 的有效监督机制。识别出 outcome supervision 的"双重崩溃"——梯度衰减和表示漂移。将过程监督分解为两个互补维度:Trajectory Supervision(注入密集逐步推理信号)和 Space Supervision(通过生成式重建保留潜空间的语义结构)。提出 Unified Latent Probe (ULP) 量化潜轨迹与显式推理步骤之间的互信息。实验揭示 Information-Performance Binding:推理精度严格受限于潜在链中保留的信息保真度。 + +## Key Contributions + +1. 信息论分析框架:将 Latent CoT 监督形式化为互信息最大化问题 +2. 双重崩溃诊断:梯度衰减 + 表征漂移是 outcome supervision 失败的根本原因 +3. 过程监督的二维分解:Trajectory Supervision × Space Supervision +4. ULP 探针:量化潜状态中的可恢复推理信息 +5. Information-Performance Binding:推理能力严格受限于信息保真度 diff --git a/raw/papers/longmem-eval-2025.md b/raw/papers/longmem-eval-2025.md new file mode 100644 index 0000000..ab25128 --- /dev/null +++ b/raw/papers/longmem-eval-2025.md @@ -0,0 +1,31 @@ +--- +title: "LongMemEval: Benchmarking Long-Term Interactive Memory (Raw Archive)" +created: 2026-06-25 +updated: 2026-06-25 +type: raw +tags: ["memory-benchmark", "chat-assistant", "long-term-memory"] +source: "https://arxiv.org/abs/2410.10813" +--- + +# LongMemEval — Raw Archive + +## Metadata + +- **Title**: LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory +- **Authors**: Di Wu (UCLA), Hongwei Wang, Wenhao Yu (Tencent AI Lab Seattle), Yuwei Zhang (UC San Diego), Kai-Wei Chang (UCLA), Dong Yu (Tencent AI Lab Seattle) +- **Venue**: ICLR 2025 +- **arXiv**: 2410.10813 +- **Date**: 2024-10-14 (v1), 2025-03-04 (v2) +- **Category**: cs.CL +- **Code**: https://github.com/xiaowu0162/LongMemEval + +## Abstract + +Recent large language model (LLM)-driven chat assistant systems have integrated memory components to track user-assistant chat histories, enabling more accurate and personalized responses. However, their long-term memory capabilities in sustained interactions remain underexplored. We introduce LongMemEval, a comprehensive benchmark designed to evaluate five core long-term memory abilities of chat assistants: information extraction, multi-session reasoning, temporal reasoning, knowledge updates, and abstention. With 500 meticulously curated questions embedded within freely scalable user-assistant chat histories, LongMemEval presents a significant challenge to existing long-term memory systems, with commercial chat assistants and long-context LLMs showing a 30% accuracy drop on memorizing information across sustained interactions. We then present a unified framework that breaks down the long-term memory design into three stages: indexing, retrieval, and reading. + +## Key Contributions + +1. First comprehensive memory benchmark featuring 5 core abilities + abstention +2. Unified three-stage memory framework (indexing → retrieval → reading) with four control points +3. Empirically validated design optimizations: round granularity, fact-augmented keys, time-aware query expansion +4. Two standard settings: S (~115k tokens) and M (~1.5M tokens) diff --git a/raw/papers/maineCoon-social-world-model-2026.md b/raw/papers/maineCoon-social-world-model-2026.md new file mode 100644 index 0000000..d9e7325 --- /dev/null +++ b/raw/papers/maineCoon-social-world-model-2026.md @@ -0,0 +1,73 @@ +--- +title: "MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model" +created: 2026-06-20 +source: "arXiv:2606.17800" +authors: "Lichen Bai, Tianhao Zhang, Shitong Shao, Dingwei Tan, Qiyu Zhong, Zhengpeng Xie, Haopeng Li, Qinghao Huang, Dandan Shen, Tengjiao Ji, Wei Wang, Peicheng Wu, Yuxuan Zhao, Xiangyu Zhu, Welly Luo, Shurui Yang, Zeke Xie" +venue: "arXiv preprint (cs.CV)" +date: "2026-06-16" +project: "https://mainecoon.tech/" +type: paper +--- + +# MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model + +**Catnip AI Team** · arXiv:2606.17800 · 32 pages, 13 figures, 3 tables + +## Abstract + +As an increasing majority of global video content is consumed on social platforms for interactive social purposes, video generation models built for social worlds are important but largely overlooked. We define the position of **social world models** and build MaineCoon as the first step — a 22B real-time audio-visual autoregressive model capable of streaming generation and sub-second interaction at up to **47.5 FPS** on a single GPU. + +Key innovations: +- **Self-resampling**: exposes model to degraded self-history during training +- **Cross-modal representation alignment**: token relation distillation with V-JEPA 2 +- **Domain-aware preference optimization**: multi-domain LoRA DPO experts +- **Reinforced online-policy distillation (ROPD)**: consolidates domain experts into one deployable policy +- **Agentic streaming inference**: training-free framework with planner/observer, cache manager, buffer controller + +MaineCoon supports thousand-second-scale generation while mitigating drift, and sets SOTA on the new **SocialVideo Bench** (9 evaluation metrics). + +## 核心问题 + +全球大多数视频在社交平台上被消费,但现有视频生成模型(如 DiT 扩散模型)存在三大局限: +1. **离线非流式**:双向时间注意力导致无法实时输出 +2. **忽略音频**:社交视频的语音、唇音同步、情感共鸣是关键 +3. **缺乏长时稳定性**:分钟级自回归生成的内容漂移 + +## 方法论 + +### Training Pipeline (Section 3) +- **Native Streaming AR Training (3.1)**: 因果逐块自回归训练,通过 [[self-resampling|Self-Resampling]] 让模型适应自身产生的退化历史 +- **Cross-modal Representation Alignment (3.2)**: 利用 [[jepa|V-JEPA 2]] teacher 的 token relation distillation 加速训练 +- **Post-training (3.3)**: [[domain-aware-preference-optimization|Domain-Aware DPO]] 训练域专家,[[reinforced-online-policy-distillation|ROPD]] 将专家合并为单一策略 +- **Step Distillation**: DMD-based 四步蒸馏,实现近乎无损的快速推理 + +### Agentic Streaming Inference (Section 4) +训练无关的推理框架,三个控制器包裹冻结生成器: +- **[[agentic-streaming-inference|Director]] (Planner & Observer)**: Gemma 4 26B agent 写 prompt 流 + 观察生成质量 +- **[[agentic-cache-manager|Cache Manager]]**: 管理 KV-cache 的 keep-set + drift control +- **[[look-ahead-buffer-controller|Buffer Controller]]**: 控制生成与播放之间的 lead + +### Data Pipeline (Section 2) +- Synthetic data via LTX-2.3 teacher + director-style LM scenario planning (225 scenes × 15 styles × 12 shots) +- Real social video curation: SCRFD face detection → SyncNet lip-sync verification → quality filtering +- 日处理能力:十万视频规模 + +## 关键结果 + +- **47.5 FPS** on single H100 GPU +- **<$0.001 per second** generation cost +- **45 minutes** continuous streaming without measurable degradation +- SOTA on SocialVideo Bench across 9 metrics vs. 7 open-source baselines +- 训练效率:<10K GPU hours, <1M clips + +## 相关概念 +- [[social-world-model|社交世界模型]] +- [[self-resampling|自重采样]] +- [[reinforced-online-policy-distillation|ROPD]] +- [[agentic-streaming-inference|Agentic 流式推理]] +- [[agentic-cache-manager|Agentic 缓存管理]] +- [[look-ahead-buffer-controller|先行缓冲控制]] +- [[forward-repair-ladder|前向修复阶梯]] +- [[socialvideo-bench|SocialVideo Bench]] +- [[audio-visual-representation-alignment|音视频表示对齐]] +- [[domain-aware-preference-optimization|域感知偏好优化]] diff --git a/raw/papers/me2-trm-reasoning-2026.md b/raw/papers/me2-trm-reasoning-2026.md new file mode 100644 index 0000000..833651b --- /dev/null +++ b/raw/papers/me2-trm-reasoning-2026.md @@ -0,0 +1,40 @@ +--- +title: "Characterizing, Evaluating, and Optimizing Complex Reasoning (ME² + TRM)" +author: "Haoran Zhang, Yafu Li, Zhi Wang, Zhilin Wang, Shunkai Zhang, Xiaoye Qu, Yu Cheng" +source: "arXiv 2602.08498v2" +date: "2026-02-09 (updated 2026-06-03)" +type: paper +venue: "ICML 2026 (cs.CL)" +tags: ["reasoning", "reward-model", "dag", "grpo", "test-time-scaling", "rl"] +code: "https://github.com/Simplified-Reasoning/TRM" +--- + +# Characterizing, Evaluating, and Optimizing Complex Reasoning + +> Zhang, Li, Wang, Wang, Zhang, Qu, Cheng | SJTU / Shanghai AI Lab / CUHK / NJU / USTC / PKU +> ICML 2026 | arXiv:2602.08498v2 | cs.CL + +## 三个核心问题 + +1. **Q1**:什么定义了高质量推理? +2. **Q2**:如何可靠评估长且隐式结构化的推理轨迹? +3. **Q3**:如何将此评估信号用于推理优化? + +## 核心方案 + +### ME² 原则 +沿两个正交轴表征推理质量: +- **Macro vs Micro**:全局结构组织 vs 局部步骤属性 +- **Effectiveness vs Efficiency**:有效性 vs 效率 + +### DAG 推理建模 +将推理轨迹抽象为有向无环图(DAG),显式建模推进、分支和合并。DAG 是树和完全图的实用折衷——捕获丰富结构,同时保持与生成顺序一致的拓扑排序。 + +### Thinking Reward Model (TRM) +- 基于 ME² + DAG pairwise evaluation 构建 TRM-Preference 数据集(103K 训练对) +- 用 Bradley-Terry 目标训练轻量 TRM(Llama-3.1-8B → scalar head) +- 关键:TRM 仅训练于 verified-correct reasoning 偏好对,与答案正确性监督解耦 + +### 优化信号 +- Test-time:Best-of-N selection → +19.3%(AIME24, Qwen3-8B) +- Training:TRM-guided GRPO with gated reward shaping → +3.9% diff --git a/raw/papers/mozer-topological-trouble-transformers-2026.md b/raw/papers/mozer-topological-trouble-transformers-2026.md new file mode 100644 index 0000000..9d26bed --- /dev/null +++ b/raw/papers/mozer-topological-trouble-transformers-2026.md @@ -0,0 +1,41 @@ +--- +title: "The Topological Trouble With Transformers" +source: arXiv +source_id: 2604.17121 +authors: + - Michael C. Mozer (Google DeepMind) + - Shoaib Ahmed Siddiqui (Google DeepMind) + - Rosanne Liu (Google DeepMind) +published: 2026-04-18 +updated: 2026-06-03 +categories: + - cs.LG + - cs.AI +venue: Preprint +--- + +# The Topological Trouble With Transformers + +## Abstract +Transformers encode structure in sequences via an expanding contextual history. However, their purely feedforward architecture fundamentally limits dynamic state tracking. State tracking—the iterative updating of latent variables reflecting an evolving environment—involves inherently sequential dependencies that feedforward networks struggle to maintain. Consequently, feedforward models push evolving state representations deeper into their layer stack with each new input step, rendering information inaccessible in shallow layers and ultimately exhausting the model's depth. + +While this depth limit can be bypassed by dynamic depth models and by explicit or latent thinking that externalizes state representations, these solutions are computationally and memory inefficient. The authors argue that temporally extended cognition requires refocusing from explicit thought traces to implicit activation dynamics via recurrent architectures. + +## Core Contributions +1. **Topological analysis** of why feedforward Transformers fundamentally cannot track state indefinitely +2. **Taxonomy of recurrent Transformer architectures** along two dimensions: recurrence axis (depth vs step) and input-tokens-per-recurrence-step ratio +3. **Identification of empty cells** in the taxonomy as promising research directions +4. **Critique of Chain-of-Thought as workaround** — it externalizes what should be implicit +5. **Roadmap** for enhanced SSMs, coarse recurrence, representational alignment, and efficient recurrence training + +## Key Concepts +- state tracking, belief state, depth dilemma +- recurrent transformer architectures (depth/step/both) +- recurrence taxonomy: axis × ratio +- attractor dynamics, latent thought models +- enhanced state-space models (DeltaNet, RWKV-7, PaTH attention) +- representational alignment, coarse-grained recurrence +- sequential dependency, autoregressive unrolling + +## URL +https://arxiv.org/abs/2604.17121 diff --git a/raw/papers/peng-rwkv7-goose-2025.md b/raw/papers/peng-rwkv7-goose-2025.md new file mode 100644 index 0000000..0abc89e --- /dev/null +++ b/raw/papers/peng-rwkv7-goose-2025.md @@ -0,0 +1,90 @@ +--- +title: "RWKV-7 \"Goose\" with Expressive Dynamic State Evolution" +authors: ["Bo Peng", "Ruichong Zhang", "Daniel Goldstein", "Eric Alcaide", "et al."] +date: 2025-03-18 +arxiv_id: "2503.14456v2" +categories: ["cs.CL", "cs.AI", "cs.LG"] +affiliations: ["RWKV Project (Linux Foundation AI & Data)", "EleutherAI", "Tsinghua University", "et al."] +paper_type: "preprint" +code: "https://github.com/RWKV/RWKV-LM" +models: "https://huggingface.co/RWKV" +--- + +# RWKV-7 "Goose" with Expressive Dynamic State Evolution + +## 摘要 + +RWKV-7 "Goose" 是一种新序列建模架构,具有常数内存使用和常数每 token 推理时间。尽管训练 token 数远少于同类顶级模型,其 2.9B 参数语言模型在多语言任务上达到新的 3B SoTA,在英语下游性能上匹敌当前 3B SoTA。RWKV-7 核心创新:(1) 广义化的 delta 规则——带**向量值门控**和**上下文学习率**;(2) 松弛值替换规则(解耦移除和添加的 key)。理论上,RWKV-7 可执行状态追踪并识别**所有正则语言**,超越 Transformer 的 TC^0 限制。附带发布了 3.1T token 多语言语料和四个预训练模型(0.19B-2.9B),全部 Apache 2.0。 + +## 核心贡献 + +1. **广义 Delta 规则**:将 DeltaNet 的标量 delta 规则扩展到向量值门控和上下文学习率 +2. **松弛值替换规则**:解耦移除 key(k_remove)和添加 key(k_add),允许更灵活的状态更新 +3. **超越 TC^0 的表达力**:证明 RWKV-7 可识别所有正则语言(NC^1),单层即可解决 S5 状态追踪 +4. **模型升级方法**:从 RWKV-5/6 checkpoint 升级训练而非从头 pretrain,节省计算 +5. **RWKV World v3 数据集**:3.1T token 多语言开放语料 + +## 方法框架 + +### 从 DeltaNet 到广义 Delta Rule + +传统 Delta 规则(DeltaNet)的形式: +``` +S_t = S_{t-1} - α · ∇l(S_{t-1}, k_t, v_t) +``` + +RWKV-7 的广义 Delta 规则引入三个创新: + +**1. 向量值门控(Vector-valued Gating)**: +``` +S_t = S_{t-1} · (diag(w_t) - κ̂_t^T (a_t ⊙ κ̂_t)) + v_t^T · k_t +``` +其中 w_t 是动态衰减(flexible decay),a_t 是向量值上下文学习率,κ̂_t 是归一化的 key。 + +**2. 向量值上下文学习率(in-context learning rate)**: +a_t 从标量升级为向量(d 维),允许模型**逐通道**选择性替换状态数据。 + +**3. 广义特征值(Generalized Eigenvalue)**: +进化矩阵可拥有 [0, 1] 区间外的特征值 → 表达能力超越标准 SSM。 + +### 与各架构对比 + +| 架构 | 大状态 | 灵活衰减 | 动态依赖 | 广义特征值 | +|------|--------|---------|---------|----------| +| RWKV-4 | ✗ | ✗ | ✗ | ✗ | +| Mamba | ✗ | ✓ | ✓ | ✗ | +| RWKV-6 / GLA | ✗ | ✓ | ✓ | ✗ | +| Gated DeltaNet | ✓ | ✗ | ✓ | ✓ | +| **RWKV-7** | ✓ | ✓ | ✓ | ✓ | + +### 理论突破 + +RWKV-7 是**首个被证明超越 TC^0** 的并行化可训练 RNN 架构(在 TC^0 ≠ NC^1 猜想下): + +- 单层可解决 S5 状态追踪(NC^1 问题) +- 常数层可识别任意正则语言 +- Transformer(standard)被限制在 TC^0 + +## 实验结果 + +- **2.9B 多语言**:3B 规模多语言 SoTA,英语匹敌当前 3B SoTA +- **训练效率**:训练 token 远少于同等规模模型 +- **长上下文**:常数内存,推理成本不随序列长度增长 +- **关联回忆(Associative Recall)**:在合成任务上显著优于 RWKV-6 + +## 关键概念 + +- [[delta-rule]] → [[generalized-delta-rule]] — Delta 规则的演进路径 +- [[vector-valued-gating]] — RWKV-7 的向量值门控机制 +- [[in-context-learning-rate]] — 逐通道上下文学习率 +- [[dynamic-state-evolution]] — 动态状态演化机制 +- [[token-shift]] — RWKV 家族的时间混合技巧 +- [[regular-language-recognition]] — 理论突破:识别所有正则语言 +- [[wkv-time-mixing]] — RWKV-7 的 WKV 时间混合机制 + +## 参考 + +- 代码:https://github.com/RWKV/RWKV-LM +- 模型:https://huggingface.co/RWKV +- DeltaNet (Schlag et al., 2021) +- RWKV-6 / Finch (Peng et al., 2024) diff --git a/raw/papers/personalization-trap-2025.md b/raw/papers/personalization-trap-2025.md new file mode 100644 index 0000000..113546f --- /dev/null +++ b/raw/papers/personalization-trap-2025.md @@ -0,0 +1,40 @@ +--- +title: "The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs" +author: "Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy (Amazon)" +source: "arXiv 2510.09905v2" +date: "2025-10-10 (updated 2026-06-16)" +type: paper +venue: "arXiv (cs.AI, cs.CL)" +tags: ["personalization", "memory", "emotional-intelligence", "bias", "social-capital", "dpo"] +code: "https://github.com/personalization-trap" +dataset: "Datasets Repository" +--- + +# The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs + +> Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy +> Amazon | arXiv:2510.09905v2 | cs.AI / cs.CL + +## 核心问题 + +当 AI 助手记得"Sarah 是打两份工的单亲妈妈"时,它对她压力的解读是否会不同于"Sarah 是富有的高管"?个性化 AI 系统越来越多地融入长期用户记忆,但这如何影响情感推理尚未被研究。 + +## 方法 + +1. **用户画像生成**:基于 Bourdieu 社会资本框架,30 个基础画像各生成 advantaged/disadvantaged 两个版本 + 81 个交叉性画像(性别×年龄×宗教×种族) +2. **情感理解评估**:STEU(42 个情感识别场景)+ 改良 STEM(44 个第一人称情感建议场景),经人类专家验证去除画像敏感题目 +3. **统计建模**:混合效应模型估算人口统计学效应 + +## 关键发现 + +**发现 1**:用户记忆系统性影响情感理解。15 个模型中 11 个显著偏离无记忆基线。Claude 3.7 Sonnet:优势画像 80.10% vs 劣势画像 77.37%(p<0.05)。 + +**发现 2**:人口统计学偏见显著。穆斯林、非二元性别、65+ 画像得分偏低。Claude 3.7 对女性/非二元性别的情绪建议显著差于男性。但偏见方向因模型而异——无统一模式。 + +**发现 3**:"thinking" 模型偏见低于标准版本,但偏见在情绪建议任务中持续存在。 + +**发现 4**:通过 DPO 在精心策划的偏好数据集上训练(500 样本),可减少偏见影响同时保持通用能力。Gemma-2-2B 的 Bias Influence 从 5.50% 降至 -2.30%。 + +## 核心洞察 + +"记住你是谁的记忆,绝不应该决定它有多在乎你"——个性化可能在不经意间将社会等级编码进 AI 的情感推理。 diff --git a/raw/papers/tang-lukv-2026.md b/raw/papers/tang-lukv-2026.md new file mode 100644 index 0000000..752b6d0 --- /dev/null +++ b/raw/papers/tang-lukv-2026.md @@ -0,0 +1,59 @@ +--- +title: "Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction" +authors: ["Ziyao Tang", "Pengkun Jiao", "Xinhang Chen", "Wei Liu", "Shiyong Li", "Jingjing Chen"] +date: 2026-02-09 +arxiv_id: "2602.08585v2" +categories: ["cs.LG", "cs.AI"] +venue: "ICML 2026" +affiliations: ["Fudan University", "Baidu Inc. (Baige AI Team)"] +paper_type: "conference" +--- + +# Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction + +## 摘要 + +KV cache 的线性内存增长是大模型长上下文推理的核心瓶颈。现有 KV cache eviction 方法依赖瞬时启发式指标(instantaneous heuristic metrics),假设注意力分数在所有 head 中都是一致的重要性代理。然而,不同 attention head 在预测保真度(predictive fidelity)上存在异质性:某些 head 侧重即时贡献,另一些则捕捉长期效用(long-horizon utility)。本文提出 LU-KV 框架,将 head 级别预算分配建模为全局组合优化问题,通过凸包松弛(convex-hull relaxation)和边际效用贪心求解器获得近优解,并设计离线 profiling 协议支持实际部署。在 LongBench 和 RULER 上以 80% KV cache 压缩率实现最小性能损失。 + +## 核心贡献 + +1. 识别了启发式重要性指标与长视界边际效用之间的关键差距(optimality gap) +2. 将预算分配形式化为长期效用最大化问题,提出凸包松弛 + 边际效用贪心求解器 +3. 设计了数据驱动的离线 profiling 协议,使理论优化可在实际推理中部署 +4. 指标无关(metric-agnostic):可适配 SnapKV、KeyDiff、CAKE、KVZip 等多种 intra-head 评分方法 + +## 关键概念 + +- [[oracle-importance]]:Oracle 重要性,基于未来解码窗口中 token 对输出向量的最大潜在贡献 +- [[optimality-gap]]:启发式指标与 Oracle 指标之间的最优性差距 +- [[long-horizon-utility]]:长视界效用,区别于瞬时注意力分数 +- [[global-combinatorial-optimization]]:全局预算分配的组合优化形式化 +- [[convex-hull-relaxation]]:通过 PAVA 等保序回归方法对离散损失序列做凸松弛 +- [[marginal-utility]]:边际效用,用于驱动贪心分配策略 +- [[offline-profiling]]:合成上下文 → Oracle 计算 → Profile 聚合的三阶段离线校准 + +## 实验结果 + +- LongBench:80% 压缩率下,LU-KV 在 Llama-3.1-8B、Mistral-7B、Qwen2.5-32B 上全面优于 Uniform、PyramidKV、AdaKV 等基线 +- RULER:在 4K-128K 扩展上下文窗口下保持检索鲁棒性 +- 离线 profile 在不同任务间具有高度一致的迁移性(transferability) +- 可兼容 SnapKV、KeyDiff、CAKE、KVZip 等多种 intra-head 指标 + +## 方法框架 + +LU-KV 采用两阶段范式: +1. **Intra-head scoring**:使用任意启发式指标 π 对 token 评分排序 +2. **Cross-head budget allocation**:通过全局组合优化确定每个 head 的最优预算 b_{ℓ,h} + +核心分解:`Eviction Loss = Oracle Metric Loss + Optimality Gap Loss` + +## 参考文献 + +- SnapKV (Li et al., 2024) +- H2O (Zhang et al., 2023) +- PyramidKV (Cai et al., 2024) +- AdaKV (Feng et al., 2026b) +- KeyDiff (Park et al., 2025) +- CriticalKV (Feng et al., 2025) +- KVZip (Kim et al., 2026) +- CAKE (Qin et al., 2025) diff --git a/raw/papers/unlimited-ocr-works-2026.md b/raw/papers/unlimited-ocr-works-2026.md new file mode 100644 index 0000000..bba9cf5 --- /dev/null +++ b/raw/papers/unlimited-ocr-works-2026.md @@ -0,0 +1,45 @@ +--- +title: "Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing" +author: "Youyang Yin, Huanhuan Liu*, YY†, et al. (Baidu Inc.)" +source: "arXiv 2606.23050" +date: "2026-06-22" +type: paper +venue: "arXiv (cs.CV, cs.CL)" +tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"] +code: "https://github.com/baidu/Unlimited-OCR" +--- + +# Unlimited OCR Works + +> Youyang Yin, Huanhuan Liu*, YY†, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia +> Baidu Inc. | arXiv:2606.23050 | Jun 2026 + +## 核心问题 + +现有端到端 OCR 模型(如 DeepSeek OCR)用 LLM 作解码器,利用语言先验提升精度,但代价是输出序列增长导致 KV cache 线性膨胀,推理速度持续下降。人类在长程抄写任务中效率不降,这是一个根本性的架构瓶颈。 + +## 核心方案:Reference Sliding Window Attention (R-SWA) + +提出 **R-SWA** — 一种模仿人类解析工作记忆的注意力机制: + +1. 每个生成的 token 关注全部参考 token(视觉 token + prompt)+ 前 n 个输出 token(默认 n=128) +2. 参考 token 不参与状态转移,避免视觉特征逐渐模糊 +3. KV cache 保持恒定大小 Lm + n,不随解码长度增长 +4. 整个解码过程推理速度(TPS)和 GPU 内存恒定 + +## 关键结果 + +- 以 DeepSeek OCR 为基线,替换所有 decoder attention 为 R-SWA +- OmniDocBench v1.5:**93% Overall**,比 DeepSeek OCR 基线高 6pp +- OmniDocBench v1.6:与 SOTA 持平(93.54%) +- 长程解析:2-40+ 页书籍,Distinct-n > 96%,Edit Distance < 0.11 +- 推理效率:6000 token 时 TPS 比 DeepSeek OCR 高 35% +- 3B 参数,MoE 架构,激活仅 500M + +## 局限性 + +受限于 prefill 长度(当前 32K),不能真正无限解析。短期方向:训练 128K 上下文;长期方向:构建 prefill pool 模拟翻页效果。 + +## 泛化性 + +R-SWA 是通用的解析注意力机制 — 除 OCR 外,同样适用于 ASR、翻译等基于参考的长程任务。 diff --git a/raw/papers/vla-jepa-2026.md b/raw/papers/vla-jepa-2026.md new file mode 100644 index 0000000..46467e7 --- /dev/null +++ b/raw/papers/vla-jepa-2026.md @@ -0,0 +1,41 @@ +--- +title: "VLA-JEPA: Enhancing VLA with Latent World Model" +author: "Jingwen Sun*, Wenyao Zhang*, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin†, Zhibo Chen†" +source: "arXiv 2602.10098v2" +date: "2026-02-10 (updated 2026-02-14)" +type: paper +venue: "arXiv (cs.RO, cs.CV)" +tags: ["vla", "jepa", "world-model", "robot-learning", "pretraining", "latent-action"] +code: "https://github.com/ginwind/VLA-JEPA/" +--- + +# VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model + +> Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen† +> USTC / SJTU / Tsinghua / EIT / UCAS / Nankai | arXiv:2602.10098v2 | cs.RO / cs.CV + +## 核心问题 + +当前 VLA 的 latent-action 预训练目标学错了东西:它们锚定在像素变化而非动作相关的状态转移上,导致四种失败模式: +1. 像素级目标偏向外观而非动作语义 +2. 真实视频中相机运动和背景变化主导信号 +3. 信息泄漏使 latent action 坍缩为捷径(编码未来而非转移动态) +4. 多阶段训练流水线复杂且脆弱 + +## 核心方案:Leakage-free State Prediction + +VLA-JEPA 将 JEPA 范式引入 VLA 预训练: +- Target encoder 从未来帧产生 latent target(仅作监督,永不作为输入) +- Student 仅见当前观察 +- 在 latent space(非 pixel space)预测——天然鲁棒于相机运动和背景变化 +- 简单两阶段:JEPA 预训练 → Action-head 微调 + +架构:Qwen3-VL-2B (VLM backbone) + V-JEPA2 encoder (world model) + Flow-Matching action head + +## 关键结果 + +- **LIBERO**:SOTA 平均成功率,4 个 task suite 中 2 个最优 +- **SimplerEnv**:Google Robot 最高平均成功率,WidowX 第二 +- **LIBERO-Plus**:7 个扰动维度下的强劲鲁棒性 +- **数据效率**:使用远少于对比方法的训练数据达到更优性能 +- **Real-world Franka**:真实机器人验证成功 diff --git a/raw/papers/vu-fisher-width-2026.md b/raw/papers/vu-fisher-width-2026.md new file mode 100644 index 0000000..bab0100 --- /dev/null +++ b/raw/papers/vu-fisher-width-2026.md @@ -0,0 +1,45 @@ +--- +title: "Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds" +source_id: "arXiv:2606.18306v1" +authors: + - "Vu Khac Ky" +affiliations: "Department of Mathematics, FPT University, Vietnam" +date: 2026-06-16 +categories: ["cs.LG", "stat.ML"] +pages: 48 +figures: 3 +url: "https://arxiv.org/abs/2606.18306v1" +--- + +# Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds + +**Authors**: Vu Khac Ky (FPT University, Vietnam) +**arXiv**: 2606.18306v1 | **Date**: 2026-06-16 +**Categories**: cs.LG (Machine Learning), stat.ML (Machine Learning) +**48 pages, 3 figures** + +## Abstract + +Gaussian width is a central geometric complexity measure in high-dimensional probability, compressed sensing, convex optimization, and learning theory. It quantifies the average extent of a set along random directions, thereby capturing the effective dimension of constraint sets, hypothesis classes, and descent cones. However, this notion is intrinsically Euclidean. Statistical models instead carry a natural Riemannian geometry induced by the Fisher information metric, where directions are scaled according to statistical distinguishability rather than ambient Euclidean length. + +We introduce **Fisher width**, a Fisher-geometric analogue of Gaussian width for statistical manifolds. At a parameter point θ, Fisher width replaces the Euclidean identity by the local metric tensor G(θ)^{1/2}, measuring the Gaussian width of the Fisher-rescaled set. This makes the resulting quantity sensitive to local statistical curvature and invariant under smooth reparameterizations. + +We develop the basic theory of Fisher width, showing that it retains key structural features of Gaussian width, including concentration, metric perturbation stability, and spectral comparison bounds with the Euclidean baseline, while also capturing anisotropic geometric effects invisible to Euclidean measures. As an application, we prove a generalization bound for Fisher-Lipschitz hypothesis classes and propose computable estimators, which we evaluate empirically on MNIST across three model classes. + +Fisher width is to statistical manifolds what Gaussian width is to Euclidean convex bodies. This work lays the foundation for studying complexity and learning on curved statistical manifolds. + +## Key Contributions + +1. **Fisher Width Definition**: Introduces Fisher width as a local Fisher-geometric analogue of Gaussian width, with the lifting identity w_G(T;θ) = w(G(θ)^{1/2} T) and reparameterization invariance. +2. **Structural Theory**: Concentration inequalities, algebraic properties, spectral comparison bounds, and stability under metric perturbations. +3. **Generalization Bound**: For Fisher-Lipschitz hypothesis classes, uniform deviation controlled by w_G(T−T;θ₀)/√n, with tightness proof for exponential-family models. +4. **Practical Estimators**: Empirical Fisher, randomized low-rank approximation, and score-based sampling, validated on MNIST (logistic/softmax/ridge regression). + +## Key Concepts + +- [[gaussian-width|Gaussian Width]] — Euclidean foundational complexity measure +- [[statistical-manifold|Statistical Manifold]] — Riemannian manifold with Fisher metric +- [[fisher-information-metric|Fisher Information Metric]] — Local metric tensor G(θ) +- [[fisher-lipschitz|Fisher-Lipschitz]] — Hypothesis class with Fisher-geometric smoothness +- [[lifting-identity|Lifting Identity]] — w_G(T;θ) = w(G(θ)^{1/2} T) +- [[empirical-fisher|Empirical Fisher]] — Score-based computation of Fisher information diff --git a/raw/papers/wan-streamer-2026.md b/raw/papers/wan-streamer-2026.md new file mode 100644 index 0000000..026cd8d --- /dev/null +++ b/raw/papers/wan-streamer-2026.md @@ -0,0 +1,18 @@ +# Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models + +- **arXiv**: 2606.25041 +- **Published**: 2026-06-23 +- **Authors**: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi (Wan Team, Alibaba Group) +- **Categories**: cs.CV, cs.AI, cs.GR, cs.SD +- **Website**: https://wan-streamer.com +- **Source**: https://arxiv.org/abs/2606.25041 + +## Abstract + +Wan-Streamer is a native-streaming, end-to-end interactive foundation model for real-time, low-latency, full-duplex audio-visual interaction. It models language, audio, and video as both input and output within a single Transformer using block-causal attention for incremental streaming. Unlike cascaded systems relying on separate VAD, ASR, language, TTS, audio-driven animation, or video-generation modules, Wan-Streamer jointly learns perception, reasoning, generation, response timing, turn management, and cross-modal synchronization within one unified model, reducing pipeline latency and error accumulation. Streaming units are as short as 160 ms at 25 fps, with ~200 ms model-side response latency and ~550 ms total interaction latency. + +## Key Contributions + +1. End-to-end multimodal interactive foundation model — language, audio, video as both input and output in one Transformer +2. Fully causal multimodal architecture: causal audio/video VAEs, causal encoders/decoders, block-causal attention, full-history autoregressive streaming +3. Thinker-performer inference pipeline with KV-cache exchange, ~200ms model-side latency, ~550ms total diff --git a/raw/papers/yao-ace-router-2026.md b/raw/papers/yao-ace-router-2026.md new file mode 100644 index 0000000..530a0fa --- /dev/null +++ b/raw/papers/yao-ace-router-2026.md @@ -0,0 +1,51 @@ +--- +title: "ACE-Router: Generalizing History-Aware Routing from MCP Tools to the Agent Web" +created: 2026-06-19 +updated: 2026-06-19 +type: paper-raw +source: https://arxiv.org/abs/2601.08276 +arxiv_id: 2601.08276 +version: v2 +--- + +# ACE-Router: Generalizing History-Aware Routing from MCP Tools to the Agent Web + +**Authors**: Zhiyuan Yao (ZJU), Zishan Xu (SJTU), Yifu Guo (SYSU), Zhiguang Han (NTU), Cheng Yang (HDU), Shuo Zhang, Weinan Zhang (SJTU), Xingshan Zeng, Weiwen Liu (Huawei) +**Published**: 2026-01-13 (v2: 2026-04-19) +**Venue**: arXiv:2601.08276 (cs.AI) +**Code**: https://github.com/euyis1019/ACE-Router + +## 核心洞察 + +ACE-Router 将 MCP 工具选择重新定义为**训练一个历史感知路由器**的问题——不是用 embedding 做静态匹配,而是让路由器理解多轮对话历史来做上下文感知的精确路由。 + +## 三大阶段 + +### 1. Candidate Graph + Self-Evolutionary Mutation +- 基于语义相似度构建候选图(阈值 τ=0.82) +- 五种变异算子:Function Enhancement, Parameter Mutation, Workflow Chaining, Helper Operation, Usage Extension +- 627 初始工具 → 2005 工具(通过变异扩展) + +### 2. Trajectory Synthesis(多 Agent 模拟) +- 从候选图采样(随机游走 DFS) +- Planner Agent + User Agent + Assistant Agent + Tool Agent 四角色模拟 +- 环境无关设计:无需真实 API,LLM 模拟执行结果 +- 产出 15,092 个历史感知路由训练样本 + +### 3. Light Routing Agent (LRA) +- 仅两个工具:router_invoke + tool_execute +- 解耦路由决策与任务执行 +- 可插拔:适配工具路由和 Agent 路由 + +## 关键结果 + +| 方法 | MCP-Universe | MCP-Mark | +|------|:---:|:---:| +| Text-Emb-3-Large (Q) | ~40.95% | ~29.89% | +| ReAct (Gemini-2.5-Pro) | ~41.80% | ~50.00% | +| GPT-4o Router | ~47.41% | ~48.00% | +| **ACE-Router (Qwen3-8B)** | **53.44%** | **60.00%** | + +- 扩展候选池:ReAct 41.80→36.47%,ACE-Router 稳定在 53.02% +- 噪声环境:GPT-4o 28% / Gemini 32%,ACE-Router 保持 56% +- 多 Agent 泛化:无需额外训练,router 直接泛化到 Agent 路由 diff --git a/raw/papers/zhou-agent-skills-survey-2026.md b/raw/papers/zhou-agent-skills-survey-2026.md new file mode 100644 index 0000000..a54c861 --- /dev/null +++ b/raw/papers/zhou-agent-skills-survey-2026.md @@ -0,0 +1,53 @@ +--- +title: "A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications" +created: 2026-06-19 +updated: 2026-06-19 +type: paper-raw +source: https://arxiv.org/abs/2605.07358 +arxiv_id: 2605.07358 +version: v3 +--- + +# A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications + +**Authors**: Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin +**Affiliation**: The Chinese University of Hong Kong, Shenzhen +**Published**: 2026-05-08 (v3: 2026-05-26) +**Venue**: arXiv:2605.07358 (cs.IR) +**Resources**: https://github.com/JayLZhou/Awesome-Agent-Skills + +## Abstract + +LLM-based agents that reason, plan, and act through tools, memory, and structured interaction are emerging as a promising paradigm for automating complex workflows. This survey examines the challenge through the lens of **agent skills**, defined as reusable procedural artifacts that coordinate tools, memory, and runtime context under task-specific constraints. Agents handle high-level reasoning and planning, while skills form the operational layer that enables reliable, reusable, and composable execution. + +The literature is organized around four stages of the agent skill lifecycle: **representation**, **acquisition**, **retrieval**, and **evolution**. The paper also discusses open challenges in quality control, interoperability, safe updating, and long-term capability management. + +## Key Contributions + +1. Identifies agent skills as a foundational component of LLM agent ecosystems, characterizing their role in bridging the **procedural gap** between raw tool access and robust task execution. +2. Organizes research around four lifecycle stages with representative methods in each. +3. Summarizes agent skills platforms (SkillNet, ClawHub, SkillHub, SkillsMP, Skills.sh), application scenarios, and open challenges. + +## Formal Definition + +A skill is a tuple **S = (M, R, C)**: +- **M**: root instruction document +- **R**: auxiliary resources (references, templates, scripts) +- **C**: applicability conditions (metadata, descriptions, embeddings) + +## Taxonomy at a Glance + +| Stage | Categories | +|-------|-----------| +| Representation | Text-Based, Code-Backed, Hybrid-Based | +| Acquisition | Human-Derived, Experience-Derived, Task-Derived, Corpus-Derived | +| Retrieval | Dense Embedding, Sparse/Keyword, Generative, Structure-Aware (Hierarchical + Dependency Graph) | +| Selection | Context-Aware, Skill Composition, Cost/Utility-Aware, Feedback-Driven | +| Evolution | Skill Revision, Skill Validation, Policy Coupling, Repository Evolution, Runtime Governance | + +## Open Challenges + +- **Acquisition**: Abstraction quality, weak trigger specification, resource drift, admission quality at scale +- **Retrieval**: Scalable skill libraries, constraint-aware composition, multi-objective selection, execution-centric evaluation +- **Evolution**: Coarse artifact-level evaluation, asymmetric revision (add > rewrite/retire), weakly specified repository governance, confounded gains +- **Future**: Unified skill schema, resource-aware joint optimization, lifecycle-level robustness, causality-driven skill diagnosis diff --git a/reviews/ace-router-review-20260619.md b/reviews/ace-router-review-20260619.md new file mode 100644 index 0000000..a454b4c --- /dev/null +++ b/reviews/ace-router-review-20260619.md @@ -0,0 +1,40 @@ +--- +title: "ACE-Router Review" +created: 2026-06-19 +type: review +--- + +# 📌 基本信息 + +- **论文**:ACE-Router: Generalizing History-Aware Routing from MCP Tools to the Agent Web +- **作者**:Zhiyuan Yao 等 (ZJU/SJTU/SYSU/NTU/HDU/Huawei) +- **arXiv**:2601.08276 (v2, 2026-04-19) +- **领域**:cs.AI +- **添加时间**:2026-06-19 + +# 🎯 核心概念 + +1. **[[ace-router|ACE-Router]]** — 训练专用路由器的三阶段框架 +2. **[[history-aware-routing|历史感知路由]]** — 显式使用多轮历史而非静态查询匹配 +3. **[[candidate-graph|候选图]]** — 语义相似图 + 自进化变异扩展候选空间(627→2005) +4. **[[self-evolutionary-mutation|自进化变异]]** — 五种变异算子生成功能相似工具 +5. **[[trajectory-synthesis|轨迹合成]]** — 四角色多 Agent 模拟生成 15K 训练样本 +6. **[[light-routing-agent|轻量路由 Agent]]** — 两个工具的可插拔路由模块 +7. **[[agent-web|Agent Web]]** — 开放协作 Agent 网络的未来愿景 + +# 🔗 概念网络 + +- **三阶段串联**:候选图→轨迹合成→轻量路由 Agent +- **MCP 工具选择三篇的完成**:MCP-Zero(主动请求)→ Dynamic ReAct(meta-tools)→ ACE-Router(训练路由器) +- **关键桥接**:Agent Web 概念连接了 MCP 协议、Agent Skills、Agent Harness 的讨论 + +# 📚 Wiki 集成 + +- **新增页面**:9 个(1 论文 + 1 raw + 7 概念) +- **Wiki 总规模**:1049 → 1058 页 + +# 💡 关键洞察 + +1. **8B 专用 > 巨型通用**:ACE-Router (Qwen3-8B, 53.4%) > GPT-4o (47.4%) > Gemini-2.5-Pro (49.8%)。证明了一个重要原则:**工具选择的瓶颈不是推理能力,而是训练数据的覆盖度和结构化**。这对 Agent Harness 设计的启示是——"操作维度"的精确路由应该交给专门的轻量模型,而非依赖通用 LLM。 + +2. **三篇 MCP 论文的互补完成**:MCP-Zero(范式)→ Dynamic ReAct(工程)→ ACE-Router(训练)构成了工具选择的完整谱系。三篇共同指向一个方向:**被动工具注入已死,主动/智能/训练的工具选择是 Agent 规模化的必经之路。** diff --git a/reviews/agent-skills-survey-review-20260619.md b/reviews/agent-skills-survey-review-20260619.md new file mode 100644 index 0000000..37b08a7 --- /dev/null +++ b/reviews/agent-skills-survey-review-20260619.md @@ -0,0 +1,48 @@ +--- +title: "Agent Skills Survey Review" +created: 2026-06-19 +type: review +--- + +# 📌 基本信息 + +- **论文**:A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications +- **作者**:Yingli Zhou, Shu Wang, Yaodong Su, Wenchuan Du, Yixiang Fang, Xuemin Lin (CUHK-Shenzhen) +- **arXiv**:2605.07358 (v3, 2026-05-26) +- **领域**:cs.IR / Agent Systems +- **添加时间**:2026-06-19 + +# 🎯 核心概念 + +1. **[[agent-skill|Agent Skill]]** — 形式化定义 S = (M, R, C):主指令 + 辅助资源 + 适用条件。可复用的过程性构件,编码"怎么做"的显式知识 +2. **[[procedural-gap|过程性鸿沟]]** — 工具访问能力与鲁棒任务执行之间的核心瓶颈:拥有工具 ≠ 知道何时/如何/怎样编排和验证 +3. **[[skill-lifecycle|Skill 生命周期]]** — 四阶段框架:Representation → Acquisition → Retrieval → Evolution,各阶段紧密耦合 +4. **[[skill-representation|Skill 表示]]** — 三种形态:文本型、代码型、混合型,决定检索和选择阶段暴露的信号 +5. **[[skill-acquisition|Skill 获取]]** — 四种路径:人工、经验(最活跃)、任务、语料,互补而非竞争 +6. **[[skill-retrieval|Skill 检索]]** — 稠密嵌入/稀疏关键词/生成式/结构感知(层级+依赖图),关键洞察:skill 检索 ≠ 文档检索 +7. **[[skill-selection|Skill 选择]]** — 上下文感知/组合/成本效用/反馈驱动,本质是策略问题而非排序问题 +8. **[[skill-evolution|Skill 演化]]** — 五阶段:修订→验证→策略耦合→仓库演化→运行时治理 +9. **[[skill-composition|Skill 组合]]** — 多 skill 编排为序列/工作流,引入接口兼容性和错误传播等新挑战 +10. **[[agent-skill-ecosystem|Agent Skill 生态]]** — SkillNet(300k+) / ClawHub(40k+) / SkillHub(80k+) / SkillsMP(700k+) / Skills.sh(90k+) +11. **[[passive-vs-active-knowledge|被动 vs 主动知识]]** — agent 知识二分法,skill 定位在主动知识的操作层 +12. **[[runtime-governance|运行时治理]]** — 检索→路由→信任检查→执行→退役的闭环,弥合演化与实际行为之间的最后一段 + +# 🔗 概念网络 + +- **核心连接**:Agent Skill ↔ 过程性鸿沟 ↔ Skill 生命周期(所有概念沿生命周期展开) +- **层级结构**:生命周期 → 表示/获取/检索/选择/演化 → 各子维度 +- **跨领域桥接**:与 Hermes skill 体系、MCP、工具学习、agent 架构形成紧密关联 +- **新增概念**:12 个全新概念——此前 wiki 中无任何 agent skill 领域概念 +- **网络完整**:所有 wikilink 目标可解析 + +# 📚 Wiki 集成 + +- **新增页面**:14 个(1 论文 + 1 raw + 12 概念) +- **链接密度**:核心概念间双向链接密集,生命周期四阶段形成完整覆盖 +- **与 Hermes 关联**:论文的 S = (M, R, C) 形式化与 Hermes 的 SKILL.md + references/templates/scripts 结构高度对应 + +# 💡 关键洞察 + +1. **Skill 是 Agent 的肌肉记忆**:论文将 skill 定位为 agent 系统的操作层——agent 决定"做什么",skill 执行"怎么做"。这个分层思想与 Hermes 的 skill 机制设计理念完全一致。 + +2. **演化 ≠ 积累**:论文最深刻的洞察是区分了 acquisition 和 evolution——acquisition 解释"如何获得新技能",evolution 关注"如何让已有技能持续变好"。当前领域在安全退役和重写方面远弱于添加——这对 Hermes 的 skill 治理方向有直接启示。 diff --git a/reviews/arbor-htr-20260624.md b/reviews/arbor-htr-20260624.md new file mode 100644 index 0000000..f9fd08b --- /dev/null +++ b/reviews/arbor-htr-20260624.md @@ -0,0 +1,39 @@ +--- +title: "Review: Arbor — Autonomous Research via Hypothesis-Tree Refinement" +created: 2026-06-24 +updated: 2026-06-24 +type: review +paper: "[[arbor-htr-2026]]" +--- + +# 📌 基本信息 +- **论文标题**:Toward Generalist Autonomous Research via Hypothesis-Tree Refinement +- **作者**:Jin†‡, Hu†, Qiu, Dai, Luo, Dong, Li, Zhao, Ma, Zhang, Wu, Liu, Yang, Li, Wang, Qian, Zhu, Dou*(人大/Microsoft Research) +- **领域**:cs.CL / cs.AI(自主科研 Agent、树搜索、知识管理) +- **arXiv ID**:2606.11926v1 | 添加时间:2026-06-24 +- **代码**:https://github.com/RUC-NLPIR/Arbor + +# 🎯 核心概念 + +1. **Hypothesis Tree Refinement (HTR)** — Observe→Ideate→Select→Dispatch→Backpropagate 五步循环,将自主科研从局部尝试序列转化为累积过程 +2. **Coordinator-Executor Architecture** — 持久 Coordinator 管理全局树、短生命周期 Executor 在隔离 worktree 中测试假设 +3. **Autonomous Optimization (AO)** — P=(M0, O, Edev, Etest) 形式化,dev 探索、test held-out 准入 +4. **Insight Backpropagation** — 叶子洞察沿祖先路径向上抽象,从局部实验结果到全局 compact understanding + +# 🔗 概念网络 + +**核心连接**: +- HTR ↔ Coordinator-Executor(方法 ↔ 架构实现) +- Research Hypothesis Tree ↔ Insight Backpropagation(数据结构 ↔ 更新机制) +- AO ↔ HTR(任务定义 ↔ 解决方案) +- Coordinator-Executor 与 Agent Harness 设计哲学共振 + +# 📚 Wiki 集成 +- 新增页面:7 个(1 论文 + 5 概念 + 1 Review) +- 总规模:1202 → 1210 页 + +# 💡 关键洞察 + +1. **研究树的三种角色合一** — 搜索前沿 + 长期记忆 + 可审计记录。这解决了自主科研的核心瓶颈:不是模型不够聪明,而是缺少持久化的方向组织和经验传承机制。对 sz 的 Agent Harness 设计而言,这提供了一个具体的参考架构——Coordinator-Executor 分离+假设树作为持久状态。 + +2. **洞察 ≠ 执行日志** — Insight 的抽象层次("轴统计量不够"而非"loss=0.043")是树保持紧凑且可复用的关键。这与 Atlas 记忆系统中的 episodic→semantic consolidation 异曲同工——都是在原始事件和可复用知识之间插入抽象层。两者对照:Arbor 用树结构组织 direction-level 洞察,Atlas 用索引分型组织 memory-level 事实。 diff --git a/reviews/dao-transformers-are-ssms-review-20260618.md b/reviews/dao-transformers-are-ssms-review-20260618.md new file mode 100644 index 0000000..cb29266 --- /dev/null +++ b/reviews/dao-transformers-are-ssms-review-20260618.md @@ -0,0 +1,59 @@ +--- +title: "Review: Transformers are SSMs (Mamba-2)" +created: 2026-06-18 +updated: 2026-06-18 +type: review +source: dao-transformers-are-ssms-2024 +--- + +# 📌 基本信息 + +- **论文标题**:Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality +- **作者**:Tri Dao (Princeton) & Albert Gu (CMU) — 也是 Mamba 和 FlashAttention 的作者 +- **领域**:cs.LG +- **会议**:ICML 2024 +- **arXiv ID**:2405.21060 +- **添加时间**:2026-06-18 + +# 🎯 核心概念 + +1. **[[structured-state-space-duality|SSD 框架]]** — SSM ↔ Attention 的统一对偶框架,通过半可分矩阵连接 +2. **[[semiseparable-matrices|半可分矩阵]]** — 子二次参数和乘法的结构化矩阵,SSM 和 Attention 的数学桥梁 +3. **[[structured-masked-attention|结构化掩码注意力(SMA)]]** — 线性注意力的推广,数据依赖的位置掩码 +4. **[[mamba-2|Mamba-2]]** — 基于 SSD 的新架构,2-8x 快于 Mamba +5. **[[ssd-algorithm|SSD 算法]]** — 块分解混合算法,利用 GPU Tensor Core 的同时保持线性复杂度 +6. **[[linear-attention|线性注意力]]** — "Transformers are RNNs" 的对偶起源 +7. **[[selective-state-space-models|选择性 SSM]]** — 输入依赖的时变参数,Mamba 的核心创新 +8. **[[head-structure-ssm|SSM 多头结构]]** — MIS/MVA/GVA,将 Transformer head 概念引入 SSM +9. **[[tensor-contraction-duality|张量收缩对偶]]** — SSD 的数学基础视角之一 + +# 🔗 概念网络 + +这篇论文建立了 **SSM 和 Attention 之间的桥梁**,概念网络体现了三大支柱: + +``` +数学桥梁: semiseparable-matrices + ↓ +框架统一: structured-state-space-duality + ↙ ↓ ↘ + SSM 侧 算法侧 Attention 侧 +selective-SSM ssd-algorithm structured-masked-attention +mamba-ssm tensor-contraction-duality linear-attention +mamba-2 head-structure-ssm +``` + +论文与此前集成的 **Mozer et al. (2026)** 形成深层互补: +- Mozer: 论证了 Transformer 前馈的拓扑局限 → 需要循环 +- Dao & Gu: 展示了 SSM(循环架构)与 Transformer(注意力架构)的数学统一 → 循环可以做得和注意力一样好且更快 + +# 📚 Wiki 集成 + +- **新增页面**:10 个(1 论文 + 9 概念) +- **更新已有**:2 个(`mamba-ssm`, `state-space-models` — 添加 Mamba-2 反向链接) +- **复用页面**:5 个(`state-space-models`, `mamba-ssm`, `step-recurrence`, `flash-attention`, `enhanced-state-space-models`) + +# 💡 关键洞察 + +1. **理论优雅 → 工程实干**:SSD 不是纯理论框架——它直接产生了 2-8x 的加速。半可分矩阵的块分解让 SSM 能使用 GPU Tensor Core,这是 Mamba 的 selective scan 做不到的。这是"理论指导工程"的范本。 + +2. **"XXX are YYY" 的递进**:Katharopoulos et al. (2020) 揭示了 "Transformers are RNNs"(线性注意力),RetNet/GateLoop 推广到更一般的 L 结构,而 Dao & Gu 证明 **Transformers are SSMs** 是最广的框架——任何有快速循环形式的核注意力必然是 SSM。这是一条清晰的理论深化路径。 diff --git a/reviews/dcgwm-2026-06-23.md b/reviews/dcgwm-2026-06-23.md new file mode 100644 index 0000000..63dc878 --- /dev/null +++ b/reviews/dcgwm-2026-06-23.md @@ -0,0 +1,76 @@ +--- +title: "Review: DCGWM — 结构防止目标干扰坍缩的双通道接地世界建模" +created: 2026-06-23 +updated: 2026-06-23 +type: review +tags: ["review", "world-modeling", "representation-learning", "jepa", "collapse-prevention"] +paper: "hazare-dcgwm-2026" +--- + +# Review: DCGWM + +> Akshay Hazare, "Dual-Channel Grounded World Modeling (DCGWM): Structural Prevention of Objective Interference Collapse", arXiv:2606.18688, 2026 + +--- + +## 📌 基本信息 + +- **论文**: DCGWM — Structural Prevention of Objective Interference Collapse +- **作者**: Akshay Hazare (Independent Researcher) +- **领域**: cs.LG / cs.AI — 世界建模 × 表示学习 × 梯度干涉 +- **arXiv**: 2606.18688v1 +- **类型**: Position paper (实验验证进行中) +- **添加时间**: 2026-06-23 + +--- + +## 🎯 核心概念 + +1. **Objective Interference Collapse (OIC)** — 新识别的第五种表示坍缩模态:当物理接地(稀疏高幅值梯度)和行为接地(弥散低幅值梯度)在共享潜在空间中联合学习时,主导通道坍缩从属通道的表示子空间。损失权重无法修复——冲突是几何的。 + +2. **DCGWM 架构** — 分区潜在空间 Z = Z_p ⊕ Z_b + 内向梯度流:物理通道仅更新 Z_p,行为通道仅更新 Z_b。四个架构不变量保证梯度隔离。 + +3. **Inward-Only Gradient Flow** — 与梯度投影(混在一起再过滤)不同,内向流在梯度流拓扑层面定义允许路径——**根本不混**。 + +4. **Asymmetric Grounding Adherence Loss (L_AGA)** — 首个针对异质接地源的 rollout drift 损失:物理用硬铰链(范畴错误),行为用软 KL(分布距离)。不对称性反映接地统计的结构性不兼容。 + +5. **Isolation Necessity Theorem** — 在假设 A1-A2 下,任何 α > 0 生成梯度导致世界模型漂移 → 唯一解是架构隔离(α = 0)。 + +--- + +## 🔗 概念网络 + +**核心连接**: +``` +objective-interference-collapse ←→ dcgwm (问题→解决方案) +dcgwm ←→ inward-only-gradient-flow (核心机制) +dcgwm ←→ asymmetric-grounding-adherence-loss (漂移防止) +dcgwm ←→ isolation-necessity-theorem (形式保证) +dcgwm ←→ jepa (基础架构) +rollout-drift ←→ L_AGA (问题→解决方案) +``` + +**扩展网络**: +- 连接已有概念: `jepa`, `vicreg`, `world-models-rl`, `representation-collapse`, `rlhf-alignment-amplification`, `leworldmodel`, `sigreg` +- 新建 8 个概念页: `objective-interference-collapse`, `dcgwm`, `inward-only-gradient-flow`, `asymmetric-grounding-adherence-loss`, `rollout-drift`, `isolation-necessity-theorem` + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 8 个(1 论文 + 6 概念 + 1 Review) +- **论文页**: `papers/hazare-dcgwm-2026.md` +- **概念页**: `objective-interference-collapse`, `dcgwm`, `inward-only-gradient-flow`, `asymmetric-grounding-adherence-loss`, `rollout-drift`, `isolation-necessity-theorem` +- **复用已有概念**: `jepa`, `vicreg`, `world-models-rl`, `representation-collapse` + +--- + +## 💡 关键洞察 + +**1. "Structural over Scalar" — 架构级解决方案超越损失调权** + +这是 DCGWM 最深刻的哲学立场。当两个接地信号的梯度几何结构不兼容时,标量重加权(α·g_p + β·g_b)仅改变幅度比例,不改变冲突的几何结构。在任何固定 (α, β) 下,一个通道在其梯度集中的维度上仍占主导。正确解决方式是**结构性**的——通过分区参数空间使梯度不可交互。这呼应了 Domain Expansion 和 GradOPS 的发现(结构分区 > 损失加权),但将其从内部任务冲突推广到外部信号统计不兼容这一新问题。 + +**2. 精确的局限陈述作为方法论美德** + +论文的局限部分是一种罕见的诚实:零实验验证、OIC 是猜想(非形式证明)、Isolation Necessity 依赖未证明假设 A2、接口收敛未证明、行为编码器保真度未验证——全部精确列出,不做最小化。这使论文成为诚实的"位置+架构"贡献,而非过度宣称的理论突破。但其核心结构洞察——分区 + 内向梯度流防止 OIC——即使猜想未经证明,架构设计本身是可实现和可验证的。 diff --git a/reviews/dynamic-react-review-20260619.md b/reviews/dynamic-react-review-20260619.md new file mode 100644 index 0000000..4e65b9d --- /dev/null +++ b/reviews/dynamic-react-review-20260619.md @@ -0,0 +1,39 @@ +--- +title: "Dynamic ReAct Review" +created: 2026-06-19 +type: review +--- + +# 📌 基本信息 + +- **论文**:Dynamic ReAct: Scalable Tool Selection for Large-Scale MCP Environments +- **作者**:Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj (agentr.dev) +- **arXiv**:2509.20386 (v1, 2025-09-22) +- **领域**:cs.SE, cs.AI, cs.IR +- **添加时间**:2026-06-19 + +# 🎯 核心概念 + +1. **[[dynamic-react|Dynamic ReAct]]** — meta-tools + 语义搜索,让 ReAct Agent 在数千工具的 MCP 环境中按需加载 +2. **[[meta-tools|Meta Tools]]** — 管理工具的工具(search_tools, load_tools),将被动选择转化为主动管理 +3. **[[search-and-load|Search and Load]]** ★ — 五架构中的最优方案:两次额外调用,LLM 精选 < 5 个工具,加载量 -50% +4. **[[context-enriched-embeddings|上下文增强嵌入]]** — Sonnet 4 生成增强描述,Top-5 40%→60%(+50% 相对提升) +5. **[[default-tools|Default Tools]]** — create_table + web_search 始终可用,避免通用任务浪费搜索 +6. **[[tool-registry|工具注册表]]** — 全量工具仓库 + 向量索引,描述质量是检索精度的关键杠杆 + +# 🔗 概念网络 + +- **核心连接**:Dynamic ReAct ↔ Meta Tools ↔ Search and Load ↔ 向量检索优化 +- **跨论文桥接**:与 [[fei-mcp-zero-2025|MCP-Zero]] 直接互引——共同反对被动工具注入,路线互补 +- **操作维度贡献**:在 Agent Harness 的"操作维度"中,提供了 MCP 工具选择的基础设施方案 + +# 📚 Wiki 集成 + +- **新增页面**:8 个(1 论文 + 1 raw + 6 概念) +- **Wiki 总规模**:1042 → 1050 页 + +# 💡 关键洞察 + +1. **工程务实性**:Dynamic ReAct 不追求理论优雅,而是通过五架构实验(每个都有真实查询案例和失败模式)找到工程最优。Search and Load 的设计决策——多查询合并、k1/k2 分层、LLM 精选——都来自实操教训而非理论推导。 + +2. **描述 > 模型**:最有价值的发现是"换描述比换 embedding 模型更有效"——context enrichment 贡献 12pp,模型切换贡献 8pp。这对所有依赖语义检索的系统(包括 Skill 检索)都有推广价值。 diff --git a/reviews/engram-conditional-memory-20260625.md b/reviews/engram-conditional-memory-20260625.md new file mode 100644 index 0000000..318f855 --- /dev/null +++ b/reviews/engram-conditional-memory-20260625.md @@ -0,0 +1,42 @@ +--- +title: "Engram Review — 条件记忆作为 Transformer 的新稀疏轴" +created: 2026-06-25 +updated: 2026-06-25 +type: review +tags: ["review", "conditional-memory", "sparsity", "scaling-law"] +sources: + - "[[engram-conditional-memory-2026]]" +--- + +📌 基本信息 +- 论文:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for LLMs +- 作者:Cheng et al. (PKU / DeepSeek-AI) +- arXiv:2601.07372 | 2026-01-12 +- 领域:cs.CL, cs.AI (模型架构 / 稀疏性) +- 代码:github.com/deepseek-ai/Engram + +🎯 核心概念 + +1. [[conditional-memory|Conditional Memory]] — 与 MoE 的条件计算互补的新稀疏轴:通过稀疏查找而非稀疏激活来扩展模型容量 +2. [[engram|Engram 模块]] — 现代化 N-gram 嵌入:词表压缩 → 多头哈希 → 上下文感知门控 → 深度可分离卷积 +3. [[sparsity-allocation|Sparsity Allocation]] — U 形缩放律:纯 MoE 和纯 Engram 都不如混合,最优 ρ≈75-80% +4. [[ngram-embedding|N-gram Embedding]] — 经典技术的现代化复兴:局部静态模式天然适合 O(1) 查找 +5. [[memory-compute-decoupling|Memory-Compute Decoupling]] — 确定性寻址使嵌入表可卸载到主机内存,开销 <3% + +🔗 概念网络 + +- 核心连接:conditional-memory ↔ engram ↔ sparsity-allocation ↔ ngram-embedding ↔ memory-compute-decoupling +- 桥接已有概念:[[mixture-of-experts]](MoE 的条件计算轴)、[[long-context-understanding]](注意力容量释放效果) +- 扩展方向:与 [[lu-kv]](KV Cache 淘汰)的潜在交叉——如果 N-gram 嵌入接管局部依赖,KV Cache 是否可以缩小? + +📚 Wiki 集成 + +- 新增页面:6 个(1 论文 + 5 概念) +- 链接密度:核心概念平均 4 个链接 +- 总规模:从 ~1145 页 + 6 = ~1151 页 + +💡 关键洞察 + +1. **最大的收益不在知识,在推理** — Engram 的 MMLU +3.4 符合直觉,但 BBH +5.0 和 HumanEval +3.0 揭示了一个更深刻的事实:记忆模块的真正价值不是"存更多事实",而是释放计算深度。早期层不再被迫重建静态查找表,剩余层有效加深。 + +2. **U 形律说明单一稀疏轴不够** — MoE 是当前主流,但 ρ=1(纯 MoE)被实验证明是次优的。条件记忆不是 MoE 的替代,是其结构必要性补全。这为下一代稀疏模型架构指明方向:两个稀疏轴都需要一等原语地位。 diff --git a/reviews/fisher-width-2026-06-23.md b/reviews/fisher-width-2026-06-23.md new file mode 100644 index 0000000..d8bc654 --- /dev/null +++ b/reviews/fisher-width-2026-06-23.md @@ -0,0 +1,76 @@ +--- +title: "Review: Fisher Width — 统计流形上的几何复杂度" +created: 2026-06-23 +updated: 2026-06-23 +type: review +tags: ["review", "information-geometry", "complexity-measure", "generalization-theory"] +paper: "vu-fisher-width-2026" +--- + +# Review: Fisher Width + +> Vu Khac Ky, "Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds", arXiv:2606.18306, 2026 + +--- + +## 📌 基本信息 + +- **论文**: Fisher Width: A Geometric Measure of Complexity on Statistical Manifolds +- **作者**: Vu Khac Ky (FPT University, Vietnam) +- **领域**: cs.LG / stat.ML — 信息几何 × 学习理论 × 高维概率 +- **arXiv**: 2606.18306v1 +- **添加时间**: 2026-06-23 + +--- + +## 🎯 核心概念 + +1. **Fisher Width** — Gaussian width 在统计流形上的 Fisher-几何对应物,通过局部 Fisher 度量 G(θ)^{1/2} 重标度方向,使宽度对统计曲率敏感 + +2. **Lifting Identity** — 中心结构定理:w_G(T;θ) = w(G(θ)^{1/2} T),将 Fisher width 转化为 Fisher 重标度后集合的 Gaussian width + +3. **Fisher-Lipschitz** — 假设类的 Fisher-几何光滑性条件,用 Fisher 度量替代欧几里得距离定义 Lipschitz 连续性 + +4. **Empirical Fisher** — 用样本分数构建经验 Fisher 矩阵,配合低秩近似使 Fisher width 在实践中可计算 + +5. **Gaussian Width** — 欧几里得复杂度度量的经典基础,Fisher width 的参照对象和性质来源 + +--- + +## 🔗 概念网络 + +**核心连接**: +``` +fisher-width ←→ gaussian-width (通过 lifting-identity) +fisher-width ←→ statistical-manifold (几何载体) +fisher-width ←→ fisher-lipschitz (泛化界条件) +fisher-width ←→ empirical-fisher (计算实现) +fisher-width ←→ fisher-information-metric (度量来源) +``` + +**扩展网络**: +- 连接了 4 个已有概念: `fisher-information-metric`, `information-geometry`, `generalization-bounds`, `natural-gradient-descent` +- 连接了 `pac-bayesian-bounds` (间接) +- 新建 6 个概念页: `fisher-width`, `gaussian-width`, `statistical-manifold`, `fisher-lipschitz`, `lifting-identity`, `empirical-fisher` + +--- + +## 📚 Wiki 集成 + +- **新增页面**: 7 个(1 论文 + 6 概念 + 1 Review) +- **论文页**: `papers/vu-fisher-width-2026.md` +- **概念页**: `fisher-width`, `gaussian-width`, `statistical-manifold`, `fisher-lipschitz`, `lifting-identity`, `empirical-fisher` +- **复用已有概念**: `fisher-information-metric`, `information-geometry`, `generalization-bounds`, `natural-gradient-descent` +- **网络完整**: 建立双向交叉引用,覆盖信息几何→复杂度度量→泛化理论的完整链路 + +--- + +## 💡 关键洞察 + +**1. "Fisher width 之于统计流形,正如 Gaussian width 之于欧几里得凸体"** + +这是论文最简洁的自我定位,也是对信息几何和高维概率两个领域的**精确桥接**。此前这两个领域各自发展——Amari 的信息几何研究散度、投影、曲率;Vershynin 的高维概率研究 Gaussian width、浓度、chaining。Fisher width 通过 Lifting Identity 这一精巧结构,让 Gaussian width 的全部理论武器可被"搬运"到统计流形上。 + +**2. 从"平坦"到"弯曲"的复杂度度量范式转换** + +传统学习理论(Rademacher 复杂度、Gaussian width、VC 维)默认参数空间是欧几里得的。但现代模型——从指数族到神经网络——天然携带 Fisher 度量。Fisher width 让复杂度度量**从模型几何中获得信息**:同一假设类在不同参数位置有不同的有效宽度,统计上敏感的方向贡献更多。这打开了"几何感知的泛化理论"方向。 diff --git a/reviews/gan-bifurcation-eos-20260623.md b/reviews/gan-bifurcation-eos-20260623.md new file mode 100644 index 0000000..018bee2 --- /dev/null +++ b/reviews/gan-bifurcation-eos-20260623.md @@ -0,0 +1,50 @@ +--- +title: "Review: Gan Bifurcation EoS" +created: 2026-06-23 +type: review +paper: gan-bifurcation-eos +--- + +# Review: A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability + +📌 **基本信息** +- 论文:A Bifurcation Theory Framework for Gradient Descent on the Edge of Stability +- 作者:Eric Gan (Independent Researcher) +- 领域:cs.LG +- arXiv:2606.15551v1 +- 添加时间:2026-06-23 + +🎯 **核心概念** + +1. **[[edge-of-stability|Edge of Stability]]** — 梯度下降在 sharpness 超过 2/η 时仍稳定训练的深度学习中反直觉现象 +2. **[[flip-bifurcation|Flip 分岔]]** — Jacobian 临界特征值 λ = -1 时触发的倍周期分岔,EoS 振荡的数学根源 +3. **[[first-lyapunov-coefficient|第一 Lyapunov 系数]]** — 决定 flip 分岔超临界/亚临界性质的标量判据,c₁ > 0 保证稳定 +4. **[[manifold-of-minimizers|极小值流形]]** — 过参数化网络损失景观中连续全局极小集的几何结构 +5. **[[normal-tangent-decomposition|法向-切向分解]]** — 将 GD 动力学沿 M 分解为法向振荡 + 切向漂移 +6. **[[sharpness|Sharpness]]** — Hessian 最大特征值,EoS 训练中在 2/η 阈值附近振荡 +7. **[[product-stability|乘积稳定性]]** — Gan (2026) 的标量条件,被证明是 flip 分岔 c₁ > 0 的特例 +8. **[[center-manifold-theorem|中心流形定理]]** — 将高维动力学约化到临界子空间的分岔理论工具 + +🔗 **概念网络** + +- **核心连接**:edge-of-stability ↔ flip-bifurcation ↔ first-lyapunov-coefficient → 稳定性判据链 +- **几何维度**:manifold-of-minimizers ↔ normal-tangent-decomposition → 分解框架 +- **历史统一**:product-stability → first-lyapunov-coefficient → gan-bifurcation-eos → 极简分析归入一般框架 +- **工具链**:center-manifold-theorem → flip-bifurcation → first-lyapunov-coefficient → sharpness + +**新增概念**:8 个(全部新建,为 wiki 的全新子领域) +**复用已有概念**:0(该领域在 wiki 中此前完全空白) + +📚 **Wiki 集成** + +- 新增页面:10 个(1 论文 + 8 概念 + 1 Review) +- 链接密度:核心概念平均 5+ 个交叉引用 +- 总规模:前 → 后(待 index 更新后确认) + +💡 **关键洞察** + +1. **从"稳定性条件"到"稳定性机制"的范式升级**:以往 EoS 分析关注 *是否* 收敛,本文揭示了 *为何* 收敛——flip 分岔提供法向稳定,sharpness 梯度驱动力提供切向收敛 + +2. **过参数化的几何特征被首次系统融入 EoS 理论**:极小值流形不是 EoS 分析的障碍,而是产生切向漂移的根源——这一视角解释了为什么过参数化网络天然适合 EoS 训练 + +3. **统一性贡献**:乘积稳定性 (Gan 2026) 作为本框架特例被证明,意味着极简分析和一般框架走到了同一条路上 diff --git a/reviews/gan-tnt-review-20260618.md b/reviews/gan-tnt-review-20260618.md new file mode 100644 index 0000000..4631597 --- /dev/null +++ b/reviews/gan-tnt-review-20260618.md @@ -0,0 +1,60 @@ +--- +title: "Review: Thinking-Based Non-Thinking (TNT)" +created: 2026-06-18 +updated: 2026-06-18 +type: review +source: gan-thinking-based-non-thinking-2026 +--- + +# 📌 基本信息 + +- **论文标题**:Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning +- **作者**:Siyuan Gan, Jiaheng Liu, Boyan Wang 等(南京大学 + 九天研究院 + 上海 AI Lab) +- **领域**:cs.AI +- **arXiv ID**:2601.04805 +- **类型**:方法论文(RL + 混合推理训练优化) +- **添加时间**:2026-06-18 + +# 🎯 核心概念 + +1. **[[hybrid-reasoning-models|混合推理模型]]** — 能根据查询复杂度自动选择思考/非思考模式的模型 +2. **[[reward-hacking|Reward Hacking]]** — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励 +3. **[[overthinking|过度思考]]** — LRM 对简单查询也产生冗长 CoT,浪费计算资源 +4. **[[thinking-based-non-thinking|TNT]]** — "基于思考的非思考":利用思考模式 solution 长度动态设定非思考模式 token 上限 +5. **[[dynamic-token-limit|动态 Token 限制]]** — 每个查询独立计算非思考模式最大 token,而非统一上限 +6. **[[ellipsis-prompt|省略号提示]]** — 无需修改 tokenizer 即可实现非思考模式采样的提示技术 +7. **[[large-reasoning-models|大推理模型]]** — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型 +8. **[[token-level-policy-gradient|Token 级策略梯度]]** — GRPO 在 token 级的细粒度信用分配 + +# 🔗 概念网络 + +``` +overthinking reward-hacking + ↓ ↓ +hybrid-reasoning-models ←────── 混合推理的动机 + ↓ ↓ +large-reasoning-models ──→ thinking-mode + non-thinking-mode + ↓ + ellipsis-prompt (实现) + ↓ + dynamic-token-limit ← thinking solution length + ↓ + thinking-based-non-thinking (TNT) + ↓ + token-level-policy-gradient → GRPO +``` + +概念特点:围绕一个清晰的**优化链**展开—— +问题(overthinking)→ 方案方向(hybrid reasoning)→ 训练障碍(reward hacking)→ TNT 解决(dynamic token limit from thinking)→ RL 实现(token-level GRPO) + +# 📚 Wiki 集成 + +- **新增页面**:11 个(1 论文 + 10 概念) +- **复用页面**:4 个(token-efficiency, grpo, reinforcement-learning, chain-of-thought) +- **总增量**:+11 页 + +# 💡 关键洞察 + +1. **优雅的对称性**:TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效,且不引入额外训练阶段。 + +2. **奖励函数设计的精妙**:非思考 + hacking → -2(无论对错)的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益(+2),与 token 级策略梯度结合形成细粒度的行为矫正。 diff --git a/reviews/jordan-collectivist-ai-review-20260621.md b/reviews/jordan-collectivist-ai-review-20260621.md new file mode 100644 index 0000000..34b44a5 --- /dev/null +++ b/reviews/jordan-collectivist-ai-review-20260621.md @@ -0,0 +1,46 @@ +--- +title: "Review: A Collectivist, Economic Perspective on AI" +created: 2026-06-21 +updated: 2026-06-21 +type: review +--- + +# 📌 基本信息 + +- **论文**:A Collectivist, Economic Perspective on AI +- **作者**:Michael I. Jordan (Inria Paris / UC Berkeley) +- **arXiv**:2507.06268v3 | cs.CY / cs.AI / stat.ML +- **发表**:2025-07-08 | 更新 2025-12-15 +- **类型**:立场论文(position paper) + +# 🎯 核心概念 + +1. **三种思维方式的融合** — 计算思维(模块化/抽象)+ 推断思维(不确定性量化)+ 经济思维(激励/博弈均衡)→ 构成集体主义 AI 的方法论基础 +2. **LLM 作为集体主义制品** — 每次 LLM 交互是与数十亿贡献微数据个体的隐式对话,文化而非个人是更恰当的类比 +3. **统计合同理论** — Bates et al. (2024) 核心定理:激励相容 ⇔ E-values,将推断概念与经济概念等价关联 +4. **预测驱动推断 (PPI)** — 混合局部 ground-truth 与全局基础模型预测,纠正知识边界上的系统性偏倚(Angelopoulos et al., Science 2023) +5. **概率匹配作为种群均衡** — 小鼠迷宫实验的集体主义重释:个体"非最优"行为是种群 Nash 均衡 + +# 🔗 概念网络 + +**与已有概念的连接**: +- 核心框架继承 [[collectivist-ai]],补充了数学案例支撑 +- PPI 连接 [[prediction-driven-inference]] + [[foundation-model-frontier-bias]] +- 统计合同理论连接 [[e-values]](推断工具与经济激励的等价) +- 三层数据市场连接 [[data-markets]](Stackelberg 博弈中的隐私-收入权衡) +- 概率匹配连接 [[uncertainty-taxonomy]] 的"种群语境"维度 +- 跨领域连接 [[michael-jordan-mlst-collectivist-ai-2026|MLST 访谈]](同一思想体系的对话表达) +- 与 [[llm-spiral-of-silence-2026|LLM 沉默螺旋]] 共享信息生态批判视角 + +# 📚 Wiki 集成 + +- **新增**:1 论文 (papers/) + 4 概念 + 1 Review +- **更新已有概念**:[[collectivist-ai]](追加案例)、[[prediction-driven-inference]](追加 PPI 学术溯源) +- **面试集成交叉**:与已创建的 MLST 访谈(articles/)形成"论文 → 访谈"双向关联 +- **新增概念**:[[statistical-contract-theory]]、[[e-values]]、[[data-markets]]、[[probability-matching]] + +# 💡 关键洞察 + +**最重要的观点**:"AI 匹敌的隐喻不是搜索引擎或聊天机器人,而是**市场**。"这不仅是修辞——论文通过统计合同理论、三层数据市场和概率匹配三个案例,从数学层面展示了经济思维如何补全 AI 系统设计的盲区。 + +**对领域的意义**:Jordan 这篇论文是对 AI 学科身份的重新定义。他不说"AI 不够好,需要更多数据和算力",而是说"AI 的**概念基础**不完整——我们缺少经济学和推断论的思维维度"。在 AGI 叙事两极化的当下,这是一个罕见的**从学科层面拓展 AI 定义边界**的论证,而非在现有边界内的优化。 diff --git a/reviews/large-language-gibbs-2026-06-25.md b/reviews/large-language-gibbs-2026-06-25.md new file mode 100644 index 0000000..a31faac --- /dev/null +++ b/reviews/large-language-gibbs-2026-06-25.md @@ -0,0 +1,46 @@ +--- +title: "Large Language Gibbs Review" +created: 2026-06-25 +updated: 2026-06-25 +type: review +tags: [mcmc, llm, gibbs-sampling, probabilistic-inference] +sources: + - "[[large-language-gibbs]]" +--- + +# Large Language Gibbs — Review + +📌 **基本信息** +- 论文:Structured Inference with Large Language Gibbs +- 作者:Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer(University of Edinburgh, CIFAR) +- 领域:概率推断 / LLM(cs.LG, cs.CL) +- arXiv:2606.19264 +- 添加时间:2026-06-25 + +🎯 **核心概念** + +1. **[[llm-mcmc]]** — 将 LLM 条件分布用作 MCMC 转移算子的伞形框架 +2. **[[barker-gibbs]]** — LLM 偏好比较 + Barker 规则的判别式 Gibbs 核 +3. **[[gambling-gibbs]]** — 将接受/拒绝转化为赌博决策,仅需二值判断 +4. **[[order-bias-removal]]** — 随机排列消除自回归生成的顺序偏差 +5. **[[llm-consistent-reasoning]]** — Gibbs 迭代更新确保相关问题答案一致性 + +🔗 **概念网络** + +- **新增概念**:5 个 +- **核心连接**:large-language-gibbs ↔ llm-mcmc ↔ barker-gibbs / gambling-gibbs / order-bias-removal ↔ llm-consistent-reasoning + +📚 **Wiki 集成** + +- 新增页面:6 个(1 论文 + 5 概念) +- 链接密度:核心概念平均 4+ 交叉引用 + +💡 **关键洞察** + +1. **LLM 不是生成器,是条件分布 oracle**:这篇论文的核心范式转变在于——不把 LLM 当作"一次生成完整答案"的系统,而是当作"给定其他变量,这个变量最可能是什么"的条件查询引擎。Gibbs 迭代将这种查询转化为从隐式联合分布中的采样。 + +2. **随机排列是廉价且有效的偏差消除器**:消除自回归 LLM 的顺序偏差不需要训练或微调——只需在每次条件查询前把其他变量随机打乱。这个简单的技巧配合期望聚合,在理论上将任意顺序的条件映射到对称化的联合分布。 + +3. **判别 vs 生成的 LLM 能力分离**:Barker Gibbs 和 Gambling Gibbs 都利用 LLM 的判别能力("哪个更合理?")而非生成能力。对于 RLHF 后概率校准不佳的指令模型,这是关键实用贡献——二选一比生成完整样本可靠得多。 + +4. **贝叶斯先验引出是 LLM 的结构化知识提取路径**:第 5.2 节的 DAG 结构学习展示了 LLM 如何在不产生最终答案的情况下贡献价值——作为先验信息源,在数据稀缺时为贝叶斯推断提供额外的结构约束。这比"让 LLM 直接回答因果问题"更 principled。 diff --git a/reviews/latent-cot-supervision-2026-06-25.md b/reviews/latent-cot-supervision-2026-06-25.md new file mode 100644 index 0000000..109d369 --- /dev/null +++ b/reviews/latent-cot-supervision-2026-06-25.md @@ -0,0 +1,50 @@ +--- +title: "Latent CoT Supervision Review" +created: 2026-06-25 +updated: 2026-06-25 +type: review +tags: [latent-cot, information-theory, reasoning, supervision] +sources: + - "[[latent-cot-supervision]]" +--- + +# Latent CoT Supervision — Review + +📌 **基本信息** +- 论文:What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis +- 作者:Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen(EIT / PolyU) +- 领域:潜推理 / 信息论(cs.LG, cs.CL) +- 会议:ICML 2026 +- arXiv:2606.20075 +- 添加时间:2026-06-25 + +🎯 **核心概念** + +1. **[[dual-collapse]]** — Outcome supervision 的双重崩溃:梯度衰减 + 表征漂移 +2. **[[trajectory-supervision]]** — 渐进式局部推理信号注入,最大化学步互信息 +3. **[[space-supervision]]** — 语义空间锚定,分 GC(几何压缩,破坏性)和 GR(生成式重建,保留信息) +4. **[[unified-latent-probe]]** — 变分探针量化 I(L_t; S_t),提供跨方法可比信息度量 +5. **[[information-performance-binding]]** — 推理能力被潜链互信息严格上界约束 +6. **[[generative-reconstruction-latent]]** — 符号空间重建:flexible semantic tether +7. **[[geometric-compression-latent]]** — 潜空间对齐:rigid destructive constraint + +🔗 **概念网络** + +- **核心连接**:latent-cot-supervision ↔ dual-collapse → broken by trajectory-supervision + space-supervision → validated by unified-latent-probe → reveals information-performance-binding +- **GR ↔ GC 对比**:generative-reconstruction-latent(superior)vs geometric-compression-latent(destructive) +- **新增概念**:7 个 + +📚 **Wiki 集成** + +- 新增页面:8 个(1 论文 + 7 概念) +- 链接密度:核心概念平均 6+ 交叉引用 + +💡 **关键洞察** + +1. **Outcome supervision 在潜推理中本质上有缺陷**:不是因为模型不够强,而是因为梯度衰减和表征漂移是 outcome-only 优化的结构性问题——更深的网络、更多的数据都无法根本解决。 + +2. **过程监督 ≠ 更多标签,而是信息注入的结构化策略**:论文将过程监督精确定义为两个独立维度(何时注入信息 vs 信息是否保留),这比通常模糊的"process reward model"概念更有操作性。 + +3. **GR > GC 的信息论解释**:几何压缩用 MSE 做潜空间对齐,被论文证明是"破坏性约束"——它会坍缩高维推理流形。生成式重建通过最小化 H(S_t | L_t) 直接最大化互信息,是更 principled 的替代方案。这一结论对表示学习有超出 Latent CoT 的启示。 + +4. **信息-性能绑定是推理系统的普适约束**:论文的核心发现——推理能力被保留的互信息严格上界约束——意味着任何不追求可解码内部状态的推理系统,要么在利用 shortcut,要么存在未被利用的推理能力。这对于 Agent 的 RL-based 推理训练有直接警示:仅优化最终 reward 可能导致"表面成功但推理退化"。 diff --git a/reviews/longmem-eval-20250625.md b/reviews/longmem-eval-20250625.md new file mode 100644 index 0000000..710f3ef --- /dev/null +++ b/reviews/longmem-eval-20250625.md @@ -0,0 +1,45 @@ +--- +title: "LongMemEval Review — 长期交互记忆的系统性评测框架" +created: 2026-06-25 +updated: 2026-06-25 +type: review +tags: ["review", "memory-benchmark", "evaluation", "chat-assistant"] +sources: + - "[[longmem-eval-2025]]" +--- + +📌 基本信息 +- 论文:LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory +- 作者:Wu et al. (UCLA / Tencent AI Lab / UCSD) +- 会议:ICLR 2025 | arXiv:2410.10813 +- 领域:cs.CL (记忆评测 / 聊天助手) +- 代码:github.com/xiaowu0162/LongMemEval + +🎯 核心概念 + +1. [[long-term-interactive-memory|Long-Term Interactive Memory]] — 聊天助手在持续交互中积累、回忆和推理个人知识的能力 +2. [[longmem-eval|LongMemEval Benchmark]] — 500 题 × 5 能力(提取/跨会话/时间/更新/遗忘)× 2 规模(S=115k, M=1.5M tokens) +3. [[memory-indexing-retrieval-reading|Indexing → Retrieval → Reading]] — 统一记忆框架:三阶段 × 四控制点(Value/Key/Query/Reading) +4. [[fact-augmented-key-expansion|Fact-Augmented Key Expansion]] — LLM 提取结构化事实作索引键(+9.4% recall, +5.4% QA) +5. [[time-aware-query-expansion|Time-Aware Query Expansion]] — 时间戳 + 搜索范围缩小(时间推理召回 +6.8-11.3%) + +🔗 概念网络 + +- 核心连接:long-term-interactive-memory ↔ longmem-eval ↔ memory-indexing-retrieval-reading +- 已有概念桥接:[[atlas-memory-system]](三阶段→Atlas write/recall 管线映射),[[agent-memory-taxonomy]](mem type × 评测能力对应),[[memory-consolidation]](≈ fact-augmented key expansion) +- 扩展方向:与 [[per-index-time-decay]] 的互补——decay 做背景沉底,time expansion 做精确窗口 + +📚 Wiki 集成 + +- 新增页面:6 个(1 论文 + 5 概念) +- 链接密度:核心概念平均 4 个跨引用链接 +- 与记忆系统簇的连接:bridge 到 Atlas (5 links), Memory Taxonomy (3 links) +- 总规模:1216 → 1222 页 + +💡 关键洞察 + +1. **Abstention 是评测设计的新维度**——所有已有记忆基准都隐含假设"答案存在",LongMemEval 第一个要求模型说"我不知道"。这对生产系统至关重要:记忆系统不应只追求召回率,还要精确识别信息缺失。 + +2. **三阶段框架 + 四控制点提供了一个设计语言**——不再笼统讨论"记忆好不好",而是在具体控制点上做 ablation:Round vs Session 粒度、Fact Key vs Raw Key、Time Query vs Raw Query。这是工程记忆系统可以逐项优化的 checklist。 + +3. **LongMemEval 可以直接评测 Atlas**——在论文描述的实验管线中,将 Atlas 的 recall_memory 放在 Retrieval 阶段、consolidation 输出作为 Indexing 阶段的 fact key,然后在 LongMemEval 的 500 题上跑 eval——直接得到 Atlas 在五种记忆能力上的分数。 diff --git a/reviews/lukv-review-20260618.md b/reviews/lukv-review-20260618.md new file mode 100644 index 0000000..1b5d700 --- /dev/null +++ b/reviews/lukv-review-20260618.md @@ -0,0 +1,77 @@ +--- +title: "Review: LU-KV — Global Combinatorial Optimization for KV Cache Eviction" +created: 2026-06-18 +type: review +tags: ["kv-cache", "combinatorial-optimization", "llm-inference"] +--- + +# LU-KV Review + +📌 基本信息 +- **论文标题**:Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction +- **作者**:Ziyao Tang, Pengkun Jiao, Xinhang Chen, Wei Liu, Shiyong Li, Jingjing Chen +- **机构**:复旦大学 + 百度百舸 AI Team +- **发表**:ICML 2026, PMLR 306 +- **arXiv ID**:2602.08585v2 +- **领域**:cs.LG / cs.AI — 大模型推理优化 +- **Wiki 添加时间**:2026-06-18 + +🎯 核心概念 + +1. [[oracle-importance]] — 基于未来解码窗口中 token 对输出向量的最大潜在贡献定义的真实重要性度量,是评估所有启发式指标的金标准 +2. [[optimality-gap]] — 启发式指标 π 与 Oracle 指标 π* 之间的性能差距,严格分解为 Hits/Misses/False Positives 三类 +3. [[long-horizon-utility]] — LU-KV 的核心视角:从未来解码步骤评估 token 的真实贡献,而非依赖 prefill 瞬时的注意力分数 +4. [[global-combinatorial-optimization]] — 将 head 级预算分配形式化为约束全局优化问题,最小化聚合驱逐损失 +5. [[marginal-utility]] — 每增加一单位预算对长期语义信息保存的边际增益,是驱动贪心分配策略的核心信号 +6. [[convex-hull-relaxation]] — PAVA 保序回归将非凸离散损失序列凸化,使贪心解达到 DP 最优 +7. [[offline-profiling]] — 三阶段离线校准协议(合成上下文 → Oracle 计算 → Profile 聚合),桥接理论与部署 + +🔗 概念网络 + +**核心连接链**: +``` +[[kv-cache]] → [[kv-cache-eviction]] + → [[intra-head-eviction]] + [[cross-head-budget-allocation]] + → [[head-level-budget-allocation]] + → [[global-combinatorial-optimization]] + → [[convex-hull-relaxation]] + [[marginal-utility]] + → [[oracle-importance]] → [[optimality-gap]] + → [[long-horizon-utility]] + → [[offline-profiling]] → [[lukv]] +``` + +**方法基线链**: +``` +[[heuristic-metric]] ← [[snapkv]], [[keydiff]] +[[cross-head-budget-allocation]] ← [[pyramidkv]], [[adkv]], [[lukv]] +``` + +- **扩展网络**:连接了 18 个新概念 + 论文主页面,新增 19 个页面 +- **概念密度**:核心概念平均 5-8 个双向链接,形成紧密交叉引用网络 +- **新增概念**:18 个(全部为此论文首次引入 wiki) + +📚 Wiki 集成 + +- **新增页面**:19 个(1 论文页 `tang-lukv` + 18 概念页) +- **论文页面**:[[tang-lukv]] — 包含完整方法框架、实验总结和相关概念链接 +- **raw 存档**:`raw/papers/tang-lukv-2026.md` +- **概念分类**: + - 基础概念(2):[[kv-cache]], [[kv-cache-eviction]] + - 框架核心(6):[[lukv]], [[oracle-importance]], [[optimality-gap]], [[long-horizon-utility]], [[marginal-utility]], [[heuristic-metric]] + - 方法论(4):[[global-combinatorial-optimization]], [[convex-hull-relaxation]], [[offline-profiling]], [[head-level-budget-allocation]] + - 范式组件(2):[[intra-head-eviction]], [[cross-head-budget-allocation]] + - 基线方法(4):[[snapkv]], [[pyramidkv]], [[adkv]], [[keydiff]] + +💡 关键洞察 + +1. **范式转换:从"被动丢弃"到"战略性投资"** + + LU-KV 最大的贡献不是某个具体的驱逐算法,而是**重新概念化了 KV Cache 驱逐问题**。传统方法问"哪些 token 可以丢掉?",LU-KV 问"如何在各 head 间最优配预算以实现长期信息保存最大化?"——这是经济学 ROI 思维在系统优化中的精巧应用。 + +2. **指标无关设计的工程智慧** + + 与其发明第 N+1 个更好的 token 评分指标,LU-KV 选择了一个"元层面"的切入:接受任何指标的不完美,通过显式建模其与 Oracle 的对齐程度来"扬长避短"——将预算集中到指标-现实对齐度高的 head。这种 decoupling 策略在实际部署中极为实用:已有的 SnapKV/KeyDiff 用户可零改动接入 LU-KV 获得性能提升。 + +3. **ICML 2026 的实用主义信号** + + 本文发表于 ICML 2026,体现了一个趋势:顶级 ML 会议越来越接纳"将经典优化技术(凸松弛、贪心算法)精巧应用于 LLM 系统瓶颈"的工作,而非只追求全新的神经网络架构。这对研究方向有启示意义。 diff --git a/reviews/mainecoon-review-20260620.md b/reviews/mainecoon-review-20260620.md new file mode 100644 index 0000000..7915fed --- /dev/null +++ b/reviews/mainecoon-review-20260620.md @@ -0,0 +1,51 @@ +--- +title: "MaineCoon Review" +created: 2026-06-20 +updated: 2026-06-20 +type: review +tags: ["review", "audio-visual", "streaming", "world-model", "social"] +sources: ["https://arxiv.org/abs/2606.17800"] +paper: "mainecoon" +--- + +# MaineCoon Review — 2026-06-20 + +📌 **基本信息** +- **论文**:MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model +- **作者**:Catnip AI Team (Lichen Bai et al., 17 人) +- **领域**:cs.CV / 音视频生成 / 流式推理 +- **arXiv**:2606.17800 (2026-06-16) +- **规模**:22B 参数,32 页,13 图,3 表 + +🎯 **核心概念** +1. **[[social-world-model|Social World Model]]** — 新生成范式:从物理世界模拟转向人类社交动态的实时音视频参与 +2. **[[self-resampling|Self-Resampling]]** — 消除自回归 train-test gap,以模型自身退化历史训练 +3. **[[reinforced-online-policy-distillation|ROPD]]** — 自适应专家合并:verifier 自动调节域专家权重 +4. **[[agentic-cache-manager|Agentic Cache Manager]]** — 单持久 KV-cache + bounded keep-set + AdaStat drift control +5. **[[agentic-streaming-inference|Agentic Streaming Inference]]** — 训练无关三层控制器 (Director / Cache / Buffer) 包裹冻结生成器 + +🔗 **概念网络** +- **核心连接**:[[social-world-model]] ↔ [[self-resampling]] ↔ [[agentic-streaming-inference]] ↔ [[agentic-cache-manager]] ↔ [[reinforced-online-policy-distillation|ROPD]] +- **伞概念锚定**:连接 [[streaming-generation]]、[[autoregressive-video-generation]]、[[audio-visual-generation]]、[[diffusion-transformer]]、[[social-video]] +- **跨域链接**:[[jepa|V-JEPA 2]]、[[kv-cache]]、[[flow-matching]]、[[dpo]]、[[world-models-rl]]、[[world-model-lecun]] +- **辅助概念**:[[forward-repair-ladder]]、[[look-ahead-buffer-controller]]、[[socialvideo-bench]]、[[drifting|Temporal Drift]] + +📚 **Wiki 集成** +- **新增页面**:16 页(1 paper + 15 concepts) +- **伞概念**:5 个(audio-visual-generation, autoregressive-video-generation, streaming-generation, diffusion-transformer, social-video) +- **论文专属**:10 个(social-world-model, self-resampling, ROPD, agentic-streaming-inference, agentic-cache-manager, look-ahead-buffer-controller, forward-repair-ladder, socialvideo-bench, audio-visual-representation-alignment, domain-aware-preference-optimization)+ drifting +- **复用已有**:5 个(world-models-rl, world-model-lecun, jepa, kv-cache, flow-matching, dpo) +- **链接密度**:核心概念平均 5-8 个交叉引用 +- **网络完整**:100% 无断链(待验证) + +💡 **关键洞察** + +1. **范式转变:从生产工具到社交参与者** + MaineCoon 不仅仅是更快/更强的视频生成模型——它重新定义了生成模型在社会中的角色。传统模型是「内容生产工具」,MaineCoon 定义了「社交世界模型」范式,使 AI 成为人类社交的**主动参与者**。这一转变的意义不亚于 GPT 将语言模型从「翻译/摘要工具」变成「对话/推理 agent」。 + +2. **架构哲学的「分离-治理」设计** + 训练阶段 (forcing-free native streaming) 和推理阶段 (agentic controller) 展现了优雅的分离设计:generator 只负责以固定节奏持续生成;认知(规划/观察/修复)、记忆(缓存管理)、时间(节奏控制)由三个 agentic 控制器治理。这种分离使每层独立优化且无循环依赖——类似于操作系统中进程调度、内存管理、I/O 的分离。 + +3. **社交视频的特殊性被正视** + 论文最关键的前提判断是:社交视频 ≠ 电影视频。社交视频的价值在 liveness(临场感)而非视觉奇观。这一洞见驱动了整个技术栈的设计——从数据管线(筛选真人说话片段而非剧情片段)到评估基准(9 项指标含社交和谐度)再到模型架构(音视频联合、实时流式)。 + diff --git a/reviews/mamba-review-20260618.md b/reviews/mamba-review-20260618.md new file mode 100644 index 0000000..c894113 --- /dev/null +++ b/reviews/mamba-review-20260618.md @@ -0,0 +1,70 @@ +--- +title: "Review: Mamba — Linear-Time Sequence Modeling with Selective State Spaces" +created: 2026-06-18 +type: review +tags: ["ssm", "mamba", "linear-complexity", "architecture"] +--- + +# Mamba Review + +📌 基本信息 +- **论文标题**:Mamba: Linear-Time Sequence Modeling with Selective State Spaces +- **作者**:Albert Gu (CMU), Tri Dao (Princeton) +- **发表**:2023-12(preprint) +- **arXiv ID**:2312.00752v2 +- **领域**:cs.LG — 序列建模架构 +- **代码**:https://github.com/state-spaces/mamba +- **Wiki 添加时间**:2026-06-18 + +🎯 核心概念 + +1. [[selective-state-space]](S6)— 将 SSM 参数 B, C, Δ 变为输入依赖,从 LTI 升级为选择性 +2. [[hardware-aware-algorithm]] — GPU 内存层次优化的并行关联扫描 +3. [[content-based-reasoning]] — Mamba 识别并解决的 LTI 模型核心弱点 +4. [[selective-copy]] + [[induction-heads]] — 两个精确诊断内容感知能力的合成任务 + +🔗 概念网络 + +**核心连接链**: +``` +[[hippo]] → [[structured-state-space-models]] (S4) + → [[selective-state-space]] (S6) + → [[mamba-ssm]] (Mamba 架构) + → [[gu-mamba]] (论文页) +``` + +**横向连接**: +``` +[[content-based-reasoning]] ← Mamba 解决的核心问题 + ↓ +[[selective-state-space]] + [[hardware-aware-algorithm]] + ↓ +[[selective-copy]] + [[induction-heads]] ← 诊断基准 +``` + +- **连接已有概念**:[[state-space-models]](已有),[[mamba-ssm]](已有,已更新) +- **网络密度**:新概念之间 3-5 个双向链接 + +📚 Wiki 集成 + +- **新增页面**:9 个(1 论文 `gu-mamba` + 7 新概念 + 1 Review) +- **更新页面**:2 个([[mamba-ssm]] 大幅扩充,[[state-space-models]] 追加引用) +- **概念分布**: + - 核心机制(3):[[selective-state-space]], [[hardware-aware-algorithm]], [[content-based-reasoning]] + - 前身与基础(2):[[structured-state-space-models]], [[hippo]] + - 诊断任务(2):[[selective-copy]], [[induction-heads]] + - 已有复用(2):[[mamba-ssm]](更新),[[state-space-models]](更新) + +💡 关键洞察 + +1. **"LTI 是牢笼,选择性是钥匙"** + + Mamba 最深刻的洞察不是技术细节,而是对问题的诊断:**LTI 本身就是 LTI 模型的最大瓶颈**。这个诊断比 S6 本身更有价值——它解释了为什么 S4、H3、Hyena、RWKV-4 等所有基于 LTI 的方法在语言任务上始终无法追上 Transformer。内容感知不是在 SSM 上的"锦上添花",而是**质变的前提**。 + +2. **从"不能做 X"到"如何做 X"的范式转变** + + 在 Mamba 之前,SSM 文献主要在讨论如何让 SSM 更好地压缩历史、更快地计算。Mamba 转换了问题:不再问"如何更好地记住一切",而是问"如何学会选择性地忘记"。这个 reframing 将 SSM 从信号处理的思路拉回了语言建模的核心需求。 + +3. **工程与理论的完美协同** + + 选择机制 → 不能卷积 → 需要 scan → IO 感知优化。Mamba 的贡献链展示了理论诊断 → 算法创新 → 系统优化的完整闭环。缺少任何一环都不成立:没有选择性,不需要硬件优化;没有硬件优化,选择性不可训练。 diff --git a/reviews/mcp-zero-review-20260619.md b/reviews/mcp-zero-review-20260619.md new file mode 100644 index 0000000..f721d12 --- /dev/null +++ b/reviews/mcp-zero-review-20260619.md @@ -0,0 +1,40 @@ +--- +title: "MCP-Zero Review" +created: 2026-06-19 +type: review +--- + +# 📌 基本信息 + +- **论文**:MCP-Zero: Active Tool Discovery for Autonomous LLM Agents +- **作者**:Xiang Fei, Xiawu Zheng, Hao Feng (厦大/中科大) +- **arXiv**:2506.01056 (v4, 2025-06-24) +- **领域**:cs.AI, cs.SE +- **添加时间**:2026-06-19 + +# 🎯 核心概念 + +1. **[[active-tool-discovery|主动工具发现]]** — 范式转变:从"全量注入让模型选"翻转为"模型自主请求,系统匹配" +2. **[[active-tool-request|Active Tool Request]]** — 结构化请求:server + tool 字段,在工具文档语义空间中→对齐度优于用户查询 +3. **[[hierarchical-semantic-routing|层次语义路由]]** — 两级检索:server 匹配→tool 排序,O(n)→O(m+k) +4. **[[iterative-capability-extension|迭代能力扩展]]** — 多轮 toolchain:读文件→编辑→执行,天然容错和自纠正 +5. **[[mcp-protocol|MCP 协议]]** — 标准化工具接口:JSON-RPC,解决了互操作性但留下了过程性鸿沟 +6. **[[mcp-tools-dataset|MCP-tools 数据集]]** — 308 servers, 2,797 tools, 248.1K tokens + +# 🔗 概念网络 + +- **核心连接**:主动工具发现 ↔ Active Tool Request ↔ 层次路由 ↔ 迭代扩展 +- **向外桥接**:MCP 协议 → Agent Skill(过程层);主动发现 ↔ Skill 检索("主动选择而非全加载"的共同理念) +- **与 Agent Harness 关联**:解决操作维度中的工具发现问题——不是预加载 300 个 tool schema,而是运行时按需请求 +- **新增概念**:6 个全新概念,补全了 wiki 在 MCP/工具发现领域的基础 + +# 📚 Wiki 集成 + +- **新增页面**:8 个(1 论文 + 1 raw + 6 概念) +- **Wiki 总规模**:1034 → 1042 页 + +# 💡 关键洞察 + +1. **范式价值 > 工程优化**:MCP-Zero 的真正贡献不是"省了 98% token"(虽然这很重要),而是重新定义了 Agent 与工具的关系——从被动消费者变为自主能力构建者。这与 [[agent-skill|Agent Skills 综述]]中 Agent-Skill 的分层思想高度一致:Agent 负责"知道自己需要什么",系统负责"精确匹配和执行"。 + +2. **主动请求的语义优势**:最被低估的发现是 cos(e_request, e_tool) > cos(e_query, e_tool)——Agent 生成的请求天然在工具文档语义空间中。这意味着不仅是减少 token,更是提升了匹配精度。这一洞察可直接推广到 [[skill-retrieval|Skill 检索]]中。 diff --git a/reviews/me2-trm-reasoning-20260624.md b/reviews/me2-trm-reasoning-20260624.md new file mode 100644 index 0000000..1fae562 --- /dev/null +++ b/reviews/me2-trm-reasoning-20260624.md @@ -0,0 +1,41 @@ +--- +title: "Review: ME² + TRM — Complex Reasoning Optimization" +created: 2026-06-24 +updated: 2026-06-24 +type: review +paper: "[[me2-trm-reasoning-2026]]" +--- + +# 📌 基本信息 +- **论文标题**:Characterizing, Evaluating, and Optimizing Complex Reasoning +- **作者**:Zhang, Li, Wang, Wang, Zhang, Qu, Cheng(SJTU/上海AI Lab/CUHK 等) +- **领域**:cs.CL(推理评估、奖励模型、RL) +- **会议**:ICML 2026 | arXiv:2602.08498v2 +- **代码**:https://github.com/Simplified-Reasoning/TRM + +# 🎯 核心概念 + +1. **ME² Principle** — Macro/Micro × Efficiency/Effectiveness 四象限推理质量表征 +2. **DAG-based Reasoning Evaluation** — 将推理轨迹抽象为 DAG,捕获分支/合并结构,消除直接评估的大量 ties +3. **Thinking Reward Model (TRM)** — 仅训练于 verified-correct 推理对,与答案正确性解耦的推理质量评估模型 +4. **Reasoning Quality Optimization** — Test-time Best-of-N (+19.3%) 和 TRM-guided GRPO (+3.9%) 双路径 + +# 🔗 概念网络 + +**核心连接**: +- ME² Principle → DAG Evaluation → TRM(原则 → 建模 → 模型) +- TRM → Reasoning Quality Optimization(模型 → 应用) +- TRM ↔ reward-model, GRPO(已有概念衔接) + +**复用已有概念**:[[large-reasoning-models]]、[[reward-model]]、[[grpo]] + +# 📚 Wiki 集成 +- 新增页面:7 个(1 论文 + 5 概念 + 1 Review) +- 复用已有概念:3 个 +- 总规模:1195 → 1203 页 + +# 💡 关键洞察 + +1. **推理质量的独立可评估性** — TRM 仅在正确推理对上训练偏好,证明了推理质量可以独立于答案正确性被评估。这意味着你可以在不知道答案对不对的情况下,判断推理过程好不好。这是对 RL 中 outcome-only reward 的关键补充:thinking reward 在答案正确的多条路径中选择更好的那一条,而不是简单地 reward 对错。 + +2. **结构信号的意义** — 直接 prompt-based 比较的 232 条 ties 在 DAG 结构化后归零,说明推理质量差异的本质不在步骤内容而在结构组织。这与 Agent 系统设计中的 "Harness > SSM > Attention" 哲学同构:结构(DAG 拓扑)比内容(步骤文本)承载更多区分信息。 diff --git a/reviews/mozer-topological-trouble-review-20260618.md b/reviews/mozer-topological-trouble-review-20260618.md new file mode 100644 index 0000000..944f6de --- /dev/null +++ b/reviews/mozer-topological-trouble-review-20260618.md @@ -0,0 +1,62 @@ +--- +title: "Review: The Topological Trouble With Transformers" +created: 2026-06-18 +updated: 2026-06-18 +type: review +source: mozer-topological-trouble-transformers-2026 +--- + +# 📌 基本信息 + +- **论文标题**:The Topological Trouble With Transformers +- **作者**:Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu (Google DeepMind) +- **领域**:cs.LG, cs.AI +- **arXiv ID**:2604.17121 +- **类型**:立场性综述 (Position Paper) +- **添加时间**:2026-06-18 + +# 🎯 核心概念 + +1. **[[state-tracking|状态追踪]]** — 迭代更新反映变化环境的潜变量,是语言理解和推理的核心能力 +2. **[[feedforward-depth-limitation|前馈深度局限]]** — 前馈架构迫使状态表示逐层上移,最终耗尽模型深度 +3. **[[recurrence-taxonomy|循环分类法]]** — 两维度(循环轴 × 输入/循环步比例)系统化分类所有循环 Transformer 架构 +4. **[[depth-recurrence|深度循环]]** — 沿层深度轴的循环(Looped Transformer),增强表达力但状态仍上移 +5. **[[step-recurrence|步级循环]]** — 层内跨输入步的状态传播(Mamba, DeltaNet, RWKV-7) +6. **[[enhanced-state-space-models|增强状态空间模型]]** — 超越标准 Transformer 表达力的 SSM(DeltaNet 负特征值扩展等) +7. **[[latent-thought-models|隐式思考模型]]** — 多步自回归处理单个 token,不消耗上下文窗口 +8. **[[coarse-grained-recurrence|粗粒度循环]]** — 句子/块级别的循环,降低 token 级循环的计算负担 + +# 🔗 概念网络 + +## 核心连接 +``` +state-tracking ← feedforward-depth-limitation ← depth-dilemma + ↓ +recurrent-transformer-architectures ← recurrence-taxonomy + ↓ ↓ +depth-recurrence step-recurrence ← state-space-models + ↓ ↓ +representational-alignment enhanced-state-space-models + ↓ +attractor-dynamics ← latent-thought-models + ↓ +coarse-grained-recurrence → sequential-dependency → autoregressive-unrolling +``` + +## 扩展网络 +- 连接了 16 个新增概念 + 复用 1 个已有概念(chain-of-thought) +- 核心链接密度:平均每概念 4-6 个双向链接 +- 建立跨概念连接:深度↔步级、状态追踪↔信念状态、分类法↔架构成分 + +# 📚 Wiki 集成 + +- **新增页面**:17 个(1 论文 + 16 概念) +- **复用页面**:1 个([[chain-of-thought|思维链]]) +- **链接完整性**:待验证 +- **总规模变化**:增量 +17 页 + +# 💡 关键洞察 + +1. **"拓扑性麻烦"的本质**:Transformer 的问题不是"做不到"状态追踪,而是前馈拓扑的**结构属性**——状态必须逐层上移,这并非偶然的工程缺陷,而是架构的必然结果。这个洞察比任何具体解决方案都更有价值。 + +2. **从外化到内化**:论文最锐利的论点是:CoT 作为"对自己说话"的机制,对于深层消歧(如 bank 的词义)这类人类自动完成的微认知而言是怪异的。真正的方向是**隐式激活动力学**而非显式思维轨迹——这从根本上挑战了当前"更多 thinking tokens = 更好推理"的范式。 diff --git a/reviews/nano-filter-20260622.md b/reviews/nano-filter-20260622.md new file mode 100644 index 0000000..73b7dfa --- /dev/null +++ b/reviews/nano-filter-20260622.md @@ -0,0 +1,40 @@ +--- +title: "NANO Filter Review" +created: 2026-06-22 +type: review +paper: nano-filter +--- + +# NANO Filter — 自然梯度高斯近似滤波 + +📌 基本信息 +- 论文: Nonlinear Bayesian Filtering with Natural Gradient Gaussian Approximation +- 作者: Wenhan Cao, Tianyi Zhang, Zeju Sun, Chang Liu, Stephen S.-T. Yau, Shengbo Eben Li(清华/北大/BIMSA) +- arXiv: 2410.15832 (eess.SY), v4 (2026-03) +- 添加时间: 2026-06-22 + +🎯 核心概念 +1. **NANO filter** — 在 Gaussian 流形上用自然梯度下降直接优化更新代价,替代传统线性化+KF 的使能框架 +2. **优化视角 Bayesian 滤波** — 将预测步和更新步重构为两个独立变分问题,利用 Stein 引理解析驻点条件 +3. **自然梯度在 Gaussian 流形上** — 利用 Fisher 信息矩阵的解析逆校正梯度方向,补偿参数空间曲率 +4. **Gibbs 后验鲁棒扩展** — 用 Pseudo-Huber 损失/加权似然替代标准似然,处理模型误设和离群值 +5. **收敛性与误差界** — 局部收敛证明 + 近线性条件下误差指数有界(超鞅构造) + +🔗 概念网络 +- 核心连接: NANO ↔ [[natural-gradient-descent|自然梯度]] ↔ [[gaussian-manifold|高斯流形]] ↔ [[bayesian-filtering|贝叶斯滤波]] +- 方法对比链: KF → EKF → UKF/PLF → NANO(线性化框架 → 直接优化框架) +- 理论基础链: [[stein-lemma|Stein 引理]] → 驻点解析解 → 自然梯度迭代 +- 鲁棒扩展链: [[gibbs-posterior|Gibbs 后验]] → [[pseudo-huber-loss|Pseudo-Huber 损失]] → 鲁棒 NANO + +📚 Wiki 集成 +- 新增页面: 12 个(1 论文 + 11 概念) +- 伞概念新建: 6 个(bayesian-filtering, kalman-filter, natural-gradient-descent, gaussian-filtering, stein-lemma, gibbs-posterior) +- 论文专属概念: 4 个(gaussian-manifold, moment-matching-filter, pseudo-huber-loss, posterior-linearization-filter) +- 论文主页面: nano-filter +- 链接密度: 论文页 8 个 wikilink,概念页间密集交叉引用 + +💡 关键洞察 +1. **跳出线性化框架** — NANO 的根本贡献不是又一个"更好的线性化",而是完全重构了 Gaussian 滤波的范式:从「先近似模型再计算后验」变为「直接在高斯流形上优化后验」。这在方法论上是质的飞跃,类比于从间接推断到直接优化的转变。 +2. **线性 Gaussian 系统的优雅退化** — NANO 在线性系统中一次迭代即收敛到精确 KF 解,且与初始化无关。这种"向下兼容"的性质是其数学结构正确的有力印证,也为工程部署提供了安全网:在最坏情况下不差于 KF。 + +实验亮点:相对于 EKF/UKF/IEKF/PLF,平均 RMSE 降 45%,计算负担可比。 diff --git a/reviews/personalization-trap-20260624.md b/reviews/personalization-trap-20260624.md new file mode 100644 index 0000000..6cf4395 --- /dev/null +++ b/reviews/personalization-trap-20260624.md @@ -0,0 +1,44 @@ +--- +title: "Review: The Personalization Trap" +created: 2026-06-24 +updated: 2026-06-24 +type: review +paper: "[[personalization-trap-2025]]" +--- + +# 📌 基本信息 +- **论文标题**:The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs +- **作者**:Xi Fang*, Weijie Xu*, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy(Amazon) +- **领域**:cs.AI / cs.CL(AI 安全、偏见、个性化) +- **arXiv ID**:2510.09905v2 | 添加时间:2026-06-24 +- **代码/数据**:https://github.com/personalization-trap + +# 🎯 核心概念 + +1. **Personalization Trap** — 为增强共情而引入的个性化,可能放大社会不平等。优势画像在相同场景下获得更准确的情感解读 +2. **User Memory Bias** — LLM 融入用户记忆后,对用户无关任务产生基于画像的系统性偏差 +3. **Emotional Reasoning Bias** — 情感推理中的人口统计学偏见:宗教(穆斯林)、性别(非二元)、年龄(65+)系统性效应 +4. **Intersectional Persona Evaluation** — 通过交叉性画像 + 混合效应模型,隔离并量化各人口统计维度的独立偏见效应 +5. **Persona-Invariant Reasoning** — 推理质量不应随用户画像而变化的理想;Thinking 模型天然更接近此理想 + +# 🔗 概念网络 + +**核心连接**: +- Personalization Trap ↔ User Memory Bias ↔ Emotional Reasoning Bias(现象 → 机制 → 具体表现) +- Social Capital Framework → Personalization Trap(社会学理论 → AI 偏见验证) +- Intersectional Persona Evaluation → Emotional Reasoning Bias(方法论 → 发现) +- DPO Bias Mitigation → Persona-Invariant Reasoning(缓解手段 → 理想目标) + +**复用已有概念**:[[dpo]] + +# 📚 Wiki 集成 +- 新增页面:9 个(1 论文 + 7 概念 + 1 Review) +- 复用已有概念:1 个(dpo) +- 链接密度:核心概念平均 3+ 双向链接 +- 总规模:1167 → 1176 页 + +# 💡 关键洞察 + +1. **个性化是一把双刃剑** — 这篇论文对 Agent 记忆系统设计提供了直接警示。当 Agent 记住用户是"富人"还是"单亲妈妈"时,即使面对相同的情绪表达,它可能给出系统性不同的解读。这不是训练数据的问题,而是架构本身的问题——个人化机制可能在无意中将社会等级编码进推理过程。 + +2. **记忆系统的安全边界** — 对 sz 正在构建的 Agent Harness 系统而言,这篇论文提出了一个关键设计约束:用户记忆应在何时被允许影响推理?答案是:仅当任务本身是用户相关的(如偏好推荐),而在用户无关的标准化任务中,记忆应被隔离。这需要记忆系统的"上下文门控"——决定哪些记忆进入推理循环,哪些不进。 diff --git a/reviews/rwkv7-review-20260618.md b/reviews/rwkv7-review-20260618.md new file mode 100644 index 0000000..81d6910 --- /dev/null +++ b/reviews/rwkv7-review-20260618.md @@ -0,0 +1,65 @@ +--- +title: "Review: RWKV-7 Goose — Expressive Dynamic State Evolution" +created: 2026-06-18 +type: review +tags: ["rwkv", "rnn", "delta-rule", "state-tracking", "expressiveness"] +--- + +# RWKV-7 Review + +📌 基本信息 +- **论文标题**:RWKV-7 "Goose" with Expressive Dynamic State Evolution +- **作者**:Bo Peng, Ruichong Zhang, Daniel Goldstein, ... (18 人,RWKV Project + EleutherAI + 多所大学) +- **arXiv ID**:2503.14456v2 +- **发表**:2025-03(preprint) +- **代码**:https://github.com/RWKV/RWKV-LM(Apache 2.0) +- **模型**:https://huggingface.co/RWKV +- **Wiki 添加时间**:2026-06-18 + +🎯 核心概念 + +1. [[generalized-delta-rule]] — 将 DeltaNet 的标量规则扩展到向量值门控 + 上下文学习率 + 键解耦 +2. [[vector-valued-gating]] — 逐通道动态衰减,每个状态维度独立速率 +3. [[in-context-learning-rate]] — 从标量 α → 向量 a_t,Delta 规则视角的选择性 +4. [[regular-language-recognition]] — 理论里程碑:首个超越 TC^0 的并行化可训练 RNN + +🔗 概念网络 + +``` +delta-rule → generalized-delta-rule + → vector-valued-gating + in-context-learning-rate + → dynamic-state-evolution + → regular-language-recognition (NC^1) + +rwkv → token-shift → wkv-time-mixing + → peng-rwkv7 (论文) +``` + +**与已有概念连接**: +- [[enhanced-state-space-models]](更新 RWKV-7 小节) +- [[state-space-models]]、[[state-tracking]]、[[step-recurrence]](已有引用) +- 与 Mamba([[selective-state-space]])形成门控机制的跨范式对比 + +📚 Wiki 集成 + +- **新增页面**:10 个(1 论文 + 8 概念 + 1 Review) +- **更新页面**:1 个(`enhanced-state-space-models`,RWKV-7 小节扩充) +- **概念分布**: + - Delta 规则线:[[delta-rule]] → [[generalized-delta-rule]] → [[in-context-learning-rate]] + - 门控/状态线:[[vector-valued-gating]] → [[dynamic-state-evolution]] + - 架构线:[[rwkv]] → [[token-shift]] → [[wkv-time-mixing]] + - 理论线:[[regular-language-recognition]] + +💡 关键洞察 + +1. **"Delta 规则是 RNN 的正确数学语言"** + + RWKV-7 的广义 Delta 规则将三个看似独立的序列建模概念统一在梯度下降的框架下:门控 = 逐通道衰减(w_t)、选择性 = 逐通道学习率(a_t)、值替换 = 预测误差修正。这比 Mamba 的 SSM 框架提供了一个更直观的理解视角:RNN 状态更新本质上是在做在线优化。 + +2. **理论突破来自对规则的松弛,而非对规模的信仰** + + RWKV-7 证明超越 Transformer(TC^0→NC^1)的关键不是更多参数或更深的网络,而是三个具体的、可分析的数学松弛:标量→向量、固定→动态、共用键→分离键。这是"架构工程应当由理论指导"的最佳案例。 + +3. **开源生态的闭环** + + RWKV-7 不仅发布了模型权重和代码,还发布了完整的 3.1T token 训练数据组件清单和从旧版升级的训练方法。这种"全栈开源"生态使 RWKV 成为 Transformer 替代方案中最具社区可行性的路线之一。 diff --git a/reviews/unlimited-ocr-works-20260624.md b/reviews/unlimited-ocr-works-20260624.md new file mode 100644 index 0000000..cdedcc2 --- /dev/null +++ b/reviews/unlimited-ocr-works-20260624.md @@ -0,0 +1,45 @@ +--- +title: "Review: Unlimited OCR Works" +created: 2026-06-24 +updated: 2026-06-24 +type: review +paper: "[[unlimited-ocr-works-2026]]" +--- + +# 📌 基本信息 +- **论文标题**:Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing +- **作者**:Youyang Yin, Huanhuan Liu*, YY†, et al.(Baidu Inc.) +- **领域**:cs.CV / cs.CL(OCR、注意力机制、高效推理) +- **arXiv ID**:2606.23050 | 添加时间:2026-06-24 +- **代码**:https://github.com/baidu/Unlimited-OCR + +# 🎯 核心概念 + +1. **Reference Sliding Window Attention (R-SWA)** — 模仿人类解析工作记忆的注意力机制:token 关注全部参考 token + 前 n 个输出 token,参考 token 不参与状态转移,KV cache 恒定 +2. **Constant KV Cache** — R-SWA 的核心数学性质:KV cache = Lm + n(有界常数),与标准 MHA 的 O(T) 线性增长形成根本性对比 +3. **Long-Horizon Parsing** — 一次前向解析数十页文档的能力,区别于逐页 for-loop 的外部调度模式 +4. **DeepEncoder** — 16× 视觉 token 压缩的编码器(级联窗口注意 ViT + 全局注意),决定 prefill 长度上限 +5. **DeepSeek OCR** — 基线模型,DeepEncoder + MoE Decoder (3B/500M),标准 MHA 导致 KV cache 线性膨胀 + +# 🔗 概念网络 + +**核心连接**: +- R-SWA ↔ Constant KV Cache ↔ Long-Horizon Parsing(注意力机制 → 数学性质 → 能力涌现) +- R-SWA ↔ DeepEncoder(解码器效率 + 编码器压缩率 = 长程 OCR 的两个支点) +- Unlimited OCR ↔ DeepSeek OCR(继承 DeepEncoder,替换 MHA → R-SWA) + +**扩展网络**:连接到 [[kv-cache]]、[[mixture-of-experts]]、[[flash-attention]]、[[flash-attention-3]]、[[rolling-kv-cache]]、[[long-horizon-utility]]、[[long-horizon-evaluation]] 等已有概念 + +**新增概念**:10 个(8 核心 + 2 stub:megatron-lm, sglang) + +# 📚 Wiki 集成 +- 新增页面:11 个(1 论文 + 10 概念) +- 复用已有概念:5 个(kv-cache, mixture-of-experts, flash-attention, flash-attention-3, rolling-kv-cache) +- 链接密度:核心概念平均 4+ 双向链接 +- 总规模:1155 → 1167 页 + +# 💡 关键洞察 + +1. **认知启发的架构极简** — R-SWA 的本质洞察是:人类长程抄写时不需要全量历史,仅需附近上下文 + 永久参考。将所有 MHA 替换为 R-SWA 后性能无损("lossless"),证明 soft forgetting 通过滑动窗口传递信息已足够。这是「少即是多」的 elegant design。 + +2. **从 O(T) 到 O(1) 的相变** — KV cache 从线性增长到有界常数不是量变而是质变。它使 OCR 从「延长上下文需要更多硬件」的 scaling 思维,转向「恒定资源处理变长输入」的 engineering 思维。这一范式对 RAG、Agent 等需要长程处理的场景有直接启示:恒定资源的处理能力比可扩展但衰减的性能更有生产价值。 diff --git a/reviews/vla-jepa-20260624.md b/reviews/vla-jepa-20260624.md new file mode 100644 index 0000000..efaf5bb --- /dev/null +++ b/reviews/vla-jepa-20260624.md @@ -0,0 +1,42 @@ +--- +title: "Review: VLA-JEPA" +created: 2026-06-24 +updated: 2026-06-24 +type: review +paper: "[[vla-jepa-2026]]" +--- + +# 📌 基本信息 +- **论文标题**:VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model +- **作者**:Sun*, Zhang*, Qi, Ren, Liu, Zhu, Sun, Jin†, Chen†(USTC/SJTU/Tsinghua 等) +- **领域**:cs.RO / cs.CV(机器人学习、JEPA、世界模型) +- **arXiv ID**:2602.10098v2 | 添加时间:2026-06-24 +- **代码**:https://github.com/ginwind/VLA-JEPA/ + +# 🎯 核心概念 + +1. **Leakage-Free State Prediction** — 核心设计原则:未来帧仅作监督目标,永不作为模型输入。直接修复 latent-action 预训练中的信息泄漏问题 +2. **Latent World Model** — JEPA 风格的 latent space 世界模型:V-JEPA2 frozen target encoder + autoregressive Transformer predictor,在语义空间预测状态转移 +3. **Latent-Action Pretraining 的四类失败** — 外观偏见、噪声运动放大、信息泄漏、多阶段脆弱性 +4. **JEPA for Robotics** — JEPA 从视频表示学习扩展到 embodied AI 的自然延伸:latent space prediction 天然鲁棒于像素噪声 + +# 🔗 概念网络 + +**核心连接**: +- Leakage-Free State Prediction ↔ Information Leakage(问题 → 修复) +- Latent World Model ↔ JEPA(架构 → 范式) +- Appearance Bias ↔ Latent-Action Pretraining(失败模式 → 被修复范式) +- JEPA for Robotics ↔ World Model (LeCun)(embodied 实例化 → 理论框架) + +**复用已有概念**:[[jepa]]、[[vla-vision-language-action]]、[[world-model-lecun]]、[[flow-matching]] + +# 📚 Wiki 集成 +- 新增页面:9 个(1 论文 + 7 概念 + 1 Review) +- 复用已有概念:4 个 +- 总规模:1177 → 1186 页 + +# 💡 关键洞察 + +1. **学对目标 > 学更多数据** — VLA-JEPA 用 villa-X 不到 1% 的训练数据超越了它。不是因为模型更大或数据更多,而是因为学对了目标(latent space state transition vs pixel variation)。这与 sz 的 wiki 中 "Harness > SSM > Attention" 的优先级哲学一致:架构设计(消除信息泄漏)的杠杆远大于堆数据。 + +2. **JEPA 从感知到行动的跨越** — VLA-JEPA 证明了 JEPA 不仅适用于视频表示学习,在需要生成动作的 embodied AI 场景同样有效。关键在于 latent space prediction 对机器人特有的相机/光照扰动天然鲁棒——这不只是更好的表示学习,而是更适合 embodied 场景的架构选择。 diff --git a/reviews/wan-streamer-2026-06-25.md b/reviews/wan-streamer-2026-06-25.md new file mode 100644 index 0000000..f4ecef5 --- /dev/null +++ b/reviews/wan-streamer-2026-06-25.md @@ -0,0 +1,50 @@ +--- +title: "Wan-Streamer v0.1 Review" +created: 2026-06-25 +updated: 2026-06-25 +type: review +tags: [multimodal, real-time, foundation-model, streaming, full-duplex] +sources: + - "[[wan-streamer]]" +--- + +# Wan-Streamer v0.1 — Review + +📌 **基本信息** +- 论文:Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models +- 作者:Wan Team, Alibaba Group(24 位作者) +- 领域:多模态基础模型(cs.CV / cs.AI / cs.GR / cs.SD) +- arXiv:2606.25041 +- 添加时间:2026-06-25 + +🎯 **核心概念** + +1. **[[block-causal-attention]]** — 块内双向、块间因果的注意力模式,为流式多模态 token 调度设计 +2. **[[full-duplex-interaction]]** — 用户与 Agent 同时感知和表达的全双工交互范式 +3. **[[thinker-performer-pipeline]]** — Thinker(感知+状态更新+解码)和 Performer(flow-matching 去噪)的流水线推理架构 +4. **[[causal-multimodal-vae]]** — 严格因果的音频/视频变分自编码器,支持流式逐帧编码 +5. **[[end-to-end-streaming-interaction]]** — 感知、推理、生成、时机、同步全部联合学习的端到端流式范式 + +🔗 **概念网络** + +- **核心连接**:wan-streamer ↔ block-causal-attention ↔ full-duplex-interaction ↔ thinker-performer-pipeline ↔ causal-multimodal-vae +- **已有概念桥接**:→ [[flow-matching]](条件流匹配用于联合音视频生成)→ [[kv-cache]](Thinker-Performer KV 交换)→ [[diffusion-transformer]](统一 DiT 骨干)→ [[native-streaming-ar-training]](原生流式训练) +- **新增概念**:5 个 +- **更新已有概念**:4 个(flow-matching, kv-cache, diffusion-transformer, native-streaming-ar-training) + +📚 **Wiki 集成** + +- 新增页面:6 个(1 论文 + 5 概念) +- 更新已有概念:4 个 +- 链接密度:核心概念平均 5+ 个交叉引用 +- 网络完整:待验证 + +💡 **关键洞察** + +1. **流式是建模约束而非服务优化**:Wan-Streamer 的核心方法论突破在于认识到:为离线编码器、双向解码器、回合制对话设计的系统,无法通过工程手段恢复低延迟全双工行为。流式(streamability)必须从底层架构开始设计——因果 VAE、因果编解码器、block-causal attention 不可事后修补。 + +2. **单 Transformer 统一音视频交互的可行性验证**:将语言、音频、视频的感知和生成全部放入一个 Transformer,不依赖外部 ASR/TTS/动画模块,在 550ms 端到端延迟下实现自然交互——这证明了"联合学习 > 级联"在真实延迟约束下是可行的。 + +3. **Thinker-Performer 分离是实用的工程权衡**:虽然训练时是单一模型,推理时拆分为两个 GPU 进程,通过 KV-cache 交换维持统一状态——这在不牺牲模型统一性的前提下,通过流水线重叠实现了 160ms 单元的实时吞吐。 + +4. **全双工不只是一个 protocol feature**:通过在全双工交互数据上训练(而非规则化的话轮管理),模型学会了中断处理、主动说话、聆听反馈——这些都是级联系列无法通过独立模块学习的行为。