반응형 Machine Learning/DL - NLP12 "처음부터 대규모 언어 모델(LLM) 만들기" 안녕하세요, 여러분! 오늘은 제가 최근 발견한 흥미로운 자료를 공유하고자 합니다. 바로 "처음부터 대규모 언어 모델 만들기(Build a Large Language Model from Scratch)"라는 책인데요, 이 책은 LLM(Large Language Models)에 대한 깊이 있는 이해와 실제 구현 방법을 단계별로 안내해줍니다. GPT와 유사한 디코더 스타일의 모델을 구축하는 데 집중하는 책에 대한 이야기인데요, 이 책은 코딩, 사전 훈련, 미세 조정과정을 거쳐 모델을 구축하는 과정을 단계별로 설명합니다. 이 책의 접근 방식은 GPT와 같은 모델을 처음부터 끝까지 직접 구축하고자 하는 분들에게 매우 유용할 것입니다. 특히, 모델 구축 과정에서 발생하는 다양한 문제들을 실제로 해결해보면서, 이론과.. Machine Learning/DL - NLP 2024. 1. 28. ChatGPT 창의성과 정확도를 높이는 3가지 방법으로 GPT를 커스터마이징 하세요! 나 : 프롬프트 잘 입력하기 위한 방법 알려줘 GPT → 프롬프트를 잘 [입력, 작성, 쓰기, ... ⬅️ GPT가 답할 후보군]... 위해서는 ~~~ Temperature (온도) GPT가 다음 단어를 말하는 데에는 여러가지 잠재적인 후보군이 있음 후보군 각각의 순위가 매겨져 있을텐데, 설정을 1에 가깝게 할 수록 발생할 수 있는 확률을 점점 더 비슷하게 가져가겠다 라고 설정하는것임 → 창의성을 더 올리고 싶다면 1에 가깝게가면 여러가지 우리가 상상하지 못한 단어들이 후보군으로 지정되어 답변하게 되는것임 그치만 너무 말도 안되는 이야기를 한다면 Temp를 낮게 가져가면 됨 0에 가깝게, 이건 대화해보면서 감을 잡으면 됨 Temperature는 온도가 높을 수록 (최대 1) 후보군 각각의 단어 모두에 대.. Machine Learning/DL - NLP 2024. 1. 27. PEFT 기법 (LoRA, IA3) PEFT (Parameter Effcient Fine-Tuning) LLM 모델 튜닝, 하나의 GPU로 가능할까? Parameter Efficient Fine-Tuning(PEFT)을 소개합니다! PEFT 기법 prompt tuning prefix tuning LoRA 적용 사례 : Stable diffusion, LLaMA, Alpaca MSFT에서 공개 구현 https://github.com/huggingface/peft https://github.com/NVIDIA/NeMo https://github.com/NVIDIA/NeMo/commit/cb2793c0c7bb352e1dfd8c349a96efc1dd260179 IA3 LoRA 보다 개선 개선된 점 : etc… 모델의 모든 파라미터를 튜닝하는 것이.. Machine Learning/DL - NLP 2023. 7. 7. 로컬 LLM 정리 (feat. KoAlpaca) 로컬 LLM을 사용하려는 이유? 토큰에 대해 걱정을 덜 하면서 모델에 추가적인 지식을 넣되 유출 가능성이 낮으면서도 내부망에 서빙이 가능할까~? 토큰에 대해 즉 사용량같은 것들에 대해 걱정을 좀 덜 하면서 모델에 우리 도메인에만 알고 있는 지식을 추가적으로 넣어주면서 유출이 낮은 내부망의 서빙이 가능할까 즉 외부로 데이터가 유출되지 않으면서 서비스 하는게 될까 라는 질문 토큰에 대해 걱정을 덜 하면서 GPT-4 기준 1k tokens에 0.04$ 모델에 추가적인 지식을 넣되 LM에 추가적인 지식을 넣어주는 Finetune LLM API도 Fine-tune을 지원 하지만 학습도 비용, Inference는 더 비싼 비용 (OpenAI) LLM Finetune도 Full Finetune 아닌 일부만 학습 AP.. Machine Learning/DL - NLP 2023. 6. 28. 구글 PaLM 2 정리 PaLM 2 소개 PaLM 2는 다양한 목표를 사용하여 학습된 Transformer 기반 모델 영어 및 다국어 언어, 추론 작업에 대한 광범위한 평가를 통해 PaLM 2는 다양한 모델 규모에 걸쳐 다운스트림 작업의 품질을 크게 개선하는 동시에 PaLM에 비해 더 빠르고 효율적인 추론을 수행한다는 것을 입증 GPT-4 와 경쟁력 있음, 전체적으로 GPT-4보다는 덜 똑똑한데 어떤면에서는 더 낫다고 함 PaLM 2는 향상된 다중 언어와 추론 능력, 그리고 코딩 능력을 갖춘 최첨단 언어 모델이다. 100개 이상의 언어를 학습하고, 과학논문과 수학적 표현을 이해하고, 다양한 프로그래밍 언어로 코드를 생성할 수 있다. PaLM 2는 더 빠르고, 효율적이며, 유능한 모델을 다양한 규모로 제작할 수 있다는 점에서 획.. Machine Learning/DL - NLP 2023. 6. 27. KoAlpaca 랭체인(langchain) 활용하기 모델 정보 기본 방식 https://github.com/Beomi/KoAlpaca GitHub - Beomi/KoAlpaca: KoAlpaca: 명령어를 이해하는 한국어 언어모델 KoAlpaca: 명령어를 이해하는 한국어 언어모델. Contribute to Beomi/KoAlpaca development by creating an account on GitHub. github.com import torch from transformers import pipeline, AutoModelForCausalLM MODEL = 'beomi/KoAlpaca-Polyglot-5.8B' model = AutoModelForCausalLM.from_pretrained( MODEL, torch_dtype=torch.flo.. Machine Learning/DL - NLP 2023. 6. 13. Chroma(Vector DB) and Sentence Transformer Chroma 원리 파악해보자 궁금한점 : 문단 또는 문장 유사도가 vectorstore에 들어갈때 측정되는 것인지 retriever가 retrive 할때 문장유사도가 쿼리로 부터 뭘로 측정 되는지가 궁금하다 sentence transformer 로 문장 유사도로 할때 성능이 더 좋은걸로 보이는데, openai 의 임베딩을 활용하면 유사도를 무엇으로 구하는지 궁금하다 LangChain + Chroma 참고 https://github.com/chroma-core/chroma DeepL번역: LangChain - 인공지능 네이티브 개발자 툴킷 저희는 인공지능 네이티브 애플리케이션을 개발하기 위한 모듈식 유연한 프레임워크를 구축하기 위해 LangChain을 시작했습니다. 즉시 떠오른 몇 가지 사용 사례는 채팅 .. Machine Learning/DL - NLP 2023. 5. 30. LLaMA 모델의 간략한 역사 A brief history of LLaMA models 참조: A brief history of LLaMA models - AGI Sphere LLaMA 기본 모델은 2023년 2월에 출시되었습니다. 이제 미세 조정된 새로운 LLaMA 모델이 몇 가지 출시되었습니다. 말 그대로 짧은 역사이지만 확실히 많은 일이 일어났습니다. 그럼 간단히 살펴보겠습니다. 모델에 대한 몇 가지 발전 사항과 도구에 대해 간략히 살펴보겠습니다. LLaMA base model Alpaca model Vicuna model Koala model GPT4-x-Alpaca model WizardLM model OpenAssistant model Software to run LLaMA models locally Below is an .. Machine Learning/DL - NLP 2023. 5. 23. NLP모델 파라미터 수 알아보기(feat. number of parameters of DNN models) import torch from transformers import AutoModel electra_small = AutoModel.from_pretrained("monologg/koelectra-small-v3-discriminator") electra_base = AutoModel.from_pretrained("monologg/koelectra-base-v3-discriminator") klue_roberta_large = AutoModel.from_pretrained("klue/roberta-large") xlm_roberta_large = AutoModel.from_pretrained("xlm-roberta-large") gpt2 = AutoModel.from_pretrained("gpt2") g.. Machine Learning/DL - NLP 2023. 1. 12. 국립국어원 말뭉치 개체 추출 import os, glob import json import pandas as pd from tqdm.auto import tqdm tqdm.pandas() # 폴더 안에 파일들을 각각 읽기 위함 DATA_PATH = './kor_ner_data' folders = os.listdir(DATA_PATH) folder_1_path = os.path.join(DATA_PATH, folders[0]) folder_2_path = os.path.join(DATA_PATH, folders[1]) folder_1_file_list = os.listdir(folder_1_path) folder_2_file_list = os.listdir(folder_2_path) # 확실히 800MB가 넘는 파일들을 다루다보니 주.. Machine Learning/DL - NLP 2022. 12. 26. 사전학습 언어모델 추가학습 (feat. KoElectra, GCP) Intro. 자연어 처리 일을 하다보면 모델의 파인튜닝(아랫물) 성능을 올리기 위해 데이터 처리, 하이퍼파라미터 튜닝 등 대부분의 작업을 통해 이룰 수 있는 성능에는 한계가 있다. 성능을 1~2퍼 센트라도 더 올리기 위해서는 파인튜닝시 활용하는 사전학습 언어모델(윗물)에 Task의 도메인을 추가 학습하여 성능 향상을 기대해 볼 수 있지만, 왠만한 컴퓨팅 사양으로는 한계가 있다. 파인 튜닝 성능의 향상을 도모하기 위해 사전학습 언어모델에 추가학습을 함으로 써 윗물을 조금 더 맑게 해보고 싶었다. "윗물이 맑아야 아랫물이 맑다" - 한국어 임베딩 (이기창 저) 사전학습 언어모델을 추가학습을 하기 위해서는 GPU성능이 좋을 수록 좋은데 이를 위해서는 Google Cloud Platform(GCP)과 Tenso.. Machine Learning/DL - NLP 2022. 10. 3. Got me looking for attention (feat. Self-attention) Introduction A-T-T-E-N-T-I-ON Attention is what I want - 뉴진스 (링크) 음악 들으면서 읽어보세요~! ㅎㅎ Transformer - Attention is all you need 의 셀프 어텐션(self-attention) 메커니즘을 다루는 글 입니다. Attention -> NLP에서 매우 많이 쓰이는데 이제는 컴퓨터 비전분야에도 적용됨 Attention Mechanism (Dzmitry Bahdanau et al. 2014) (엄희상. "어텐션 메커니즘 기반 딥러닝 알고리즘을 이용한 연속적 혈압 추정 연구." 국내석사학위논문 광운대학교 대학원, 2020. 서울) Attention Mechanism의 핵심 원리는 모델이 학습될 때 관심 영역(region of.. Machine Learning/DL - NLP 2022. 9. 19. 이전 1 다음 💲 Google Ads. 반응형