Iron Moon Blog

AI / Systems / Security

Co Scientist 这个系统构造了一个带有 self-play 性质的自我改进闭环:不断生成假设、审查假设、让假设彼此竞争、再从竞争结果中继续演化出更好的假设和研究提案。论文里把这种过程概括成一种更贴近科研流程的 generate -> debate -> ra...

阅读全文 »

AI scientist 对于现在的 AI research,主要有两种方式: 一种是纯粹的 workflow。 另外一种是 agent 协作模式。多个 agent 分别执行不同 role,来实现半自动甚至全自动的协作模式。 另外还有 Agent 虚拟实验室。 根据 survey...

阅读全文 »

本文知识点来源于FAISS Johnson-Lindenstrauss引理:如果有一组高维空间中的点,可以把它们随机映射到一个较低维空间中,并且点与点之间的距离几乎保持不变。 Faiss 优化的是“在给定距离度量下,尽量快、尽量省内存地找近邻”;但最终业务效果还取决于 embed...

阅读全文 »

协同过滤 ItemCF 基于物品相似度的协同过滤 核心假设: 用户的兴趣具有连贯性,喜欢某个物品的用户往往会对相似的物品感兴趣 物品相似度计算 \[ w_{ij} = \frac{C[i][j]}{\sqrt{|N(i)\cdot |N(j)|}} \] 其中 \(N(i)\)表...

阅读全文 »

方法 数学公式 参数说明 适用特点 皮尔逊相关系数 $r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2}\sqrt{\sum (y_i - \bar{y})^2}}$...

阅读全文 »

数据科学生命周期 1. 提问 - 核心:提出好问题,问题类型(描述、探索、推理、预测)决定分析方向。 - 关键:将宽泛问题转化为可被数据回答的具体问题,明确所需数据与分析路径。 2. 获取数据 - 来源:昂贵(需精确协议)或廉价(如在线数据)。 - 重点:检查数据质量(缺失、异常...

阅读全文 »

智能体 Agent是一个能感知环境、做出决策、执行动作,并通过经验学习改进自身行为的自主实体。 现在LLM出来过后,Agent的研究领域基本上采取大模型来作为大脑构建LLM + Agent 这个的话我知道的有Reflection和RAG等机制 Reflection机制为自我反思机...

阅读全文 »

成员推理攻击(membership inference attack) 首先该攻击是指在已经知道模型和一个数据的情况下,去判断这个数据是否用于模型的训练。 ## 影子数据集的构建方法 第一种方法使用对目标模型的黑盒访问来合成这些数据。第二种方法使用关于从中提取目标训练数据集的总体...

阅读全文 »
0%