반응형 Machine Learning16 "처음부터 대규모 언어 모델(LLM) 만들기" 안녕하세요, 여러분! 오늘은 제가 최근 발견한 흥미로운 자료를 공유하고자 합니다. 바로 "처음부터 대규모 언어 모델 만들기(Build a Large Language Model from Scratch)"라는 책인데요, 이 책은 LLM(Large Language Models)에 대한 깊이 있는 이해와 실제 구현 방법을 단계별로 안내해줍니다. GPT와 유사한 디코더 스타일의 모델을 구축하는 데 집중하는 책에 대한 이야기인데요, 이 책은 코딩, 사전 훈련, 미세 조정과정을 거쳐 모델을 구축하는 과정을 단계별로 설명합니다. 이 책의 접근 방식은 GPT와 같은 모델을 처음부터 끝까지 직접 구축하고자 하는 분들에게 매우 유용할 것입니다. 특히, 모델 구축 과정에서 발생하는 다양한 문제들을 실제로 해결해보면서, 이론과.. Machine Learning/DL - NLP 2024. 1. 28. ChatGPT 창의성과 정확도를 높이는 3가지 방법으로 GPT를 커스터마이징 하세요! 나 : 프롬프트 잘 입력하기 위한 방법 알려줘 GPT → 프롬프트를 잘 [입력, 작성, 쓰기, ... ⬅️ GPT가 답할 후보군]... 위해서는 ~~~ Temperature (온도) GPT가 다음 단어를 말하는 데에는 여러가지 잠재적인 후보군이 있음 후보군 각각의 순위가 매겨져 있을텐데, 설정을 1에 가깝게 할 수록 발생할 수 있는 확률을 점점 더 비슷하게 가져가겠다 라고 설정하는것임 → 창의성을 더 올리고 싶다면 1에 가깝게가면 여러가지 우리가 상상하지 못한 단어들이 후보군으로 지정되어 답변하게 되는것임 그치만 너무 말도 안되는 이야기를 한다면 Temp를 낮게 가져가면 됨 0에 가깝게, 이건 대화해보면서 감을 잡으면 됨 Temperature는 온도가 높을 수록 (최대 1) 후보군 각각의 단어 모두에 대.. Machine Learning/DL - NLP 2024. 1. 27. PEFT 기법 (LoRA, IA3) PEFT (Parameter Effcient Fine-Tuning) LLM 모델 튜닝, 하나의 GPU로 가능할까? Parameter Efficient Fine-Tuning(PEFT)을 소개합니다! PEFT 기법 prompt tuning prefix tuning LoRA 적용 사례 : Stable diffusion, LLaMA, Alpaca MSFT에서 공개 구현 https://github.com/huggingface/peft https://github.com/NVIDIA/NeMo https://github.com/NVIDIA/NeMo/commit/cb2793c0c7bb352e1dfd8c349a96efc1dd260179 IA3 LoRA 보다 개선 개선된 점 : etc… 모델의 모든 파라미터를 튜닝하는 것이.. Machine Learning/DL - NLP 2023. 7. 7. 로컬 LLM 정리 (feat. KoAlpaca) 로컬 LLM을 사용하려는 이유? 토큰에 대해 걱정을 덜 하면서 모델에 추가적인 지식을 넣되 유출 가능성이 낮으면서도 내부망에 서빙이 가능할까~? 토큰에 대해 즉 사용량같은 것들에 대해 걱정을 좀 덜 하면서 모델에 우리 도메인에만 알고 있는 지식을 추가적으로 넣어주면서 유출이 낮은 내부망의 서빙이 가능할까 즉 외부로 데이터가 유출되지 않으면서 서비스 하는게 될까 라는 질문 토큰에 대해 걱정을 덜 하면서 GPT-4 기준 1k tokens에 0.04$ 모델에 추가적인 지식을 넣되 LM에 추가적인 지식을 넣어주는 Finetune LLM API도 Fine-tune을 지원 하지만 학습도 비용, Inference는 더 비싼 비용 (OpenAI) LLM Finetune도 Full Finetune 아닌 일부만 학습 AP.. Machine Learning/DL - NLP 2023. 6. 28. 구글 PaLM 2 정리 PaLM 2 소개 PaLM 2는 다양한 목표를 사용하여 학습된 Transformer 기반 모델 영어 및 다국어 언어, 추론 작업에 대한 광범위한 평가를 통해 PaLM 2는 다양한 모델 규모에 걸쳐 다운스트림 작업의 품질을 크게 개선하는 동시에 PaLM에 비해 더 빠르고 효율적인 추론을 수행한다는 것을 입증 GPT-4 와 경쟁력 있음, 전체적으로 GPT-4보다는 덜 똑똑한데 어떤면에서는 더 낫다고 함 PaLM 2는 향상된 다중 언어와 추론 능력, 그리고 코딩 능력을 갖춘 최첨단 언어 모델이다. 100개 이상의 언어를 학습하고, 과학논문과 수학적 표현을 이해하고, 다양한 프로그래밍 언어로 코드를 생성할 수 있다. PaLM 2는 더 빠르고, 효율적이며, 유능한 모델을 다양한 규모로 제작할 수 있다는 점에서 획.. Machine Learning/DL - NLP 2023. 6. 27. KoAlpaca 랭체인(langchain) 활용하기 모델 정보 기본 방식 https://github.com/Beomi/KoAlpaca GitHub - Beomi/KoAlpaca: KoAlpaca: 명령어를 이해하는 한국어 언어모델 KoAlpaca: 명령어를 이해하는 한국어 언어모델. Contribute to Beomi/KoAlpaca development by creating an account on GitHub. github.com import torch from transformers import pipeline, AutoModelForCausalLM MODEL = 'beomi/KoAlpaca-Polyglot-5.8B' model = AutoModelForCausalLM.from_pretrained( MODEL, torch_dtype=torch.flo.. Machine Learning/DL - NLP 2023. 6. 13. Chroma(Vector DB) and Sentence Transformer Chroma 원리 파악해보자 궁금한점 : 문단 또는 문장 유사도가 vectorstore에 들어갈때 측정되는 것인지 retriever가 retrive 할때 문장유사도가 쿼리로 부터 뭘로 측정 되는지가 궁금하다 sentence transformer 로 문장 유사도로 할때 성능이 더 좋은걸로 보이는데, openai 의 임베딩을 활용하면 유사도를 무엇으로 구하는지 궁금하다 LangChain + Chroma 참고 https://github.com/chroma-core/chroma DeepL번역: LangChain - 인공지능 네이티브 개발자 툴킷 저희는 인공지능 네이티브 애플리케이션을 개발하기 위한 모듈식 유연한 프레임워크를 구축하기 위해 LangChain을 시작했습니다. 즉시 떠오른 몇 가지 사용 사례는 채팅 .. Machine Learning/DL - NLP 2023. 5. 30. LLaMA 모델의 간략한 역사 A brief history of LLaMA models 참조: A brief history of LLaMA models - AGI Sphere LLaMA 기본 모델은 2023년 2월에 출시되었습니다. 이제 미세 조정된 새로운 LLaMA 모델이 몇 가지 출시되었습니다. 말 그대로 짧은 역사이지만 확실히 많은 일이 일어났습니다. 그럼 간단히 살펴보겠습니다. 모델에 대한 몇 가지 발전 사항과 도구에 대해 간략히 살펴보겠습니다. LLaMA base model Alpaca model Vicuna model Koala model GPT4-x-Alpaca model WizardLM model OpenAssistant model Software to run LLaMA models locally Below is an .. Machine Learning/DL - NLP 2023. 5. 23. AI Deep Dive 수학편 혁펜하임님의 강의를 들으면 미분 강의시간 고작 15분..!? 이라고 생각하시면 안됩니다;; ㅎㅎ 강의를 들으면 강좌 제목처럼 Deep Dive를 경험하게 됩니다..! 혁펜님의 수학 설명의 깊이를 체감함과 동시에, 강의를 일시정지 하며 처음 보는 깊이를 아이패드에 정리하면서 보다보면 어느세 30분이 지나있다는것을 체감하시게 됩니다..! 혁펜하임님이 오래 고민하시고 끓여서 걸쭉한 강의를 오마카세 해주시는걸 소화시키다 보면, 강의 한그릇 한그릇이 모두 진국임을 느끼게 됩니다..! 강사님께서 스토리 있는 딥러닝 요리를 만들지, 코스메뉴처럼 강의 목차를 어떻게 구성할지 많이 고민 한 게 느껴지는 명강의였습니다..! 수학 목차는 다음과 같습니다. 1 함수와 다변수 함수 2 로그 함수 3 벡터와 행렬 4 전치와 내적.. Machine Learning/DL - basics 2023. 1. 30. NLP모델 파라미터 수 알아보기(feat. number of parameters of DNN models) import torch from transformers import AutoModel electra_small = AutoModel.from_pretrained("monologg/koelectra-small-v3-discriminator") electra_base = AutoModel.from_pretrained("monologg/koelectra-base-v3-discriminator") klue_roberta_large = AutoModel.from_pretrained("klue/roberta-large") xlm_roberta_large = AutoModel.from_pretrained("xlm-roberta-large") gpt2 = AutoModel.from_pretrained("gpt2") g.. Machine Learning/DL - NLP 2023. 1. 12. 국립국어원 말뭉치 개체 추출 import os, glob import json import pandas as pd from tqdm.auto import tqdm tqdm.pandas() # 폴더 안에 파일들을 각각 읽기 위함 DATA_PATH = './kor_ner_data' folders = os.listdir(DATA_PATH) folder_1_path = os.path.join(DATA_PATH, folders[0]) folder_2_path = os.path.join(DATA_PATH, folders[1]) folder_1_file_list = os.listdir(folder_1_path) folder_2_file_list = os.listdir(folder_2_path) # 확실히 800MB가 넘는 파일들을 다루다보니 주.. Machine Learning/DL - NLP 2022. 12. 26. eXplainable AI 핵심 및 이해 (설명 가능한 인공지능이란) 참고하기 좋은 사이트: aaai_2021_xai_tutorial.pdf (inria.fr) Explainable AI (xaitutorial2021.github.io) Explainable AI Presenters Freddy Lecue Freddy Lecue (PhD 2008, Habilitation 2015) is the Chief Artificial Intelligence (AI) Scientist at CortAIx (Centre of Research & Technology in Artificial Intelligence eXpertise) @Thales in Montreal, Canada. He is also a research asso xaitutorial2021.github.io AAAI21.. Machine Learning/XAI 2022. 12. 15. 이전 1 2 다음 💲 Google Ads. 반응형