鲁班模锤1
LV.1
基于开源技术生态,跟踪与普及人工智能、隐私计算、区块链等技术
声望 71
关注 0
粉丝 0
私信
主帖 5
回帖
由于对大型语言模型,人工智能从业者经常被问到这样的问题:如何训练自己的数据?回答这个问题远非易事。生成式人工智能的最新进展是由具有许多参数的大规模模型驱动的,而训练这样的模型LLM需要昂贵的硬件(即许多具有大量内存的昂贵GPU)和花哨的训练技术(例如,完全分片的数据并行训练)。幸运的是,这些模型通常分两个阶段进行训练——预训练和微调。其中前一个阶段(要)昂贵得多。鉴于高质量的预训练LLMs很容易在网上获...
2天前 92浏览 0点赞 0回复 0收藏
人工智能在第四次工业革命发挥着至关重要的作用,它广泛的融入日常生活,例如Google助手、Siri、智能手机摄像头、社交媒体过滤器、自动标记、医疗成像、导航等,所有这些技术都切实的改进和增强日常活动的便利性和习惯。大模型技术发展到现在已经趋于稳定,而加入视觉的多模态大模型才开始兴起,它除了日常生活,还会广泛的融入到工业智造、无人驾驶和机器人等领域。这里计算机视觉就十分重要,它在捕获实时图像、提炼知识以及...
4天前 142浏览 0点赞 0回复 0收藏
扩散模型在生成高质量图像、视频、声音等方面表现突出。它们与物理学中的自然扩散过程相似而得名,自然扩散过程描述了分子如何从高浓度区域移动到低浓度区域。在机器学习的背景下,扩散模型通过逆转扩散过程来生成新数据。主要的思想是向数据添加随机噪声,然后反过来从噪声数据中推理和获取原始数据。“是先有雕像,还是先有石头,其实雕像已经早在石头里面!”1.DiffusionModelDiffusionModel(扩散模型)其实理解起来不难,...
8天前 218浏览 0点赞 0回复 0收藏
大型语言模型(LLM)已在各种软件工程和编码任务中展现出卓越的能力。然而,它们在代码和编译器优化领域的应用仍未得到充分探索。训练LLM需要大量资源,需要大量的GPU时间和大量的数据收集。Meta语言模型编译器(LLMCompiler),这是一套专为代码优化任务设计的强大、公开可用的预训练模型。LLMCompiler建立在CodeLlama的基础上,增强了对编译器中间表示(IR)、汇编语言和优化技术的理解。该模型已在546B的LVMIR和汇编代码的庞大语料...
2024-07-01 10:30:18 240浏览 0点赞 0回复 0收藏
稀疏自动编码器(SAE)最近因机器学习模型的可解释性而变得流行(尽管SAE自1997年以来一直存在)。机器学习模型正在使LLMs变得越来越强大和有用,但它们仍然是黑匣子,如何看穿LLM的灵魂,且若能理解它们是如何工作的,那对于大模型的进化有足够的帮助和启示意义。使用SAE,可以开始将模型的计算分解为可理解的组件。本文将简介的介绍下SAE的工作原理,然后读者可以回头去温习“大模型的灵魂解读:AnthropicAI的Claude3Sonnet可...
2024-06-27 15:06:43 307浏览 0点赞 0回复 0收藏
获得成就
已积累 260 人气
获得 0 个点赞
获得 0 次收藏