본문 바로가기

AI

(9)

생물학적 뉴런과 인공 신경망 Neuron(신경세포) 인공신경망을 이해하는 첫 단계는 사람의 뇌를 아는 것입니다. 사람의 뇌는 약 1000억 개의 neuron(뉴런)으로 구성되어 있으며, neuron(뉴런)은 신경계와 신경조직을 이루는 기본단위입니다. neuron(뉴런)은 일반 세포와 달리 크고 비대칭적이며 수많은 돌기로 이루어져 있습니다. 1000억 개의 neuron이 뇌에서 하는 일은, 쉴 새 없이 흥분시키는 것인데요. neuron의 동작 방식을 자세히 알아봅시다. 1. 뉴런의 동작 방식 뉴런은 양쪽 끝에 나와있는 돌기들을 통해 흥분 신호를 주고받습니다.Dendrites(가지돌기)(=수상돌기)는 input(입력)을 담당하고, Axon(축삭돌기)는 output(출력)을 담당합니다. Dendrites(가지돌기)로 들어온 입력은..

Transformer (Multi-head Attention) Transformer의 Attention은 모두 Multi-head attention이 쓰였습니다. 트랜스포머 연구진은 한 번의 어텐션을 하는 것보다 여러번의 어텐션을 병렬로 사용하는 것이 더 효과적이라고 판단하였는데요. 한번 살펴봅시다. Multi-head AttentionSelf-Attention의 모델을 먼저 살펴봅시다. Self-Attention 모델Self-Attention에서는 하나의 Sequence에 각각 하나씩의 Query, Key, Value값을 구하고, Attention을 수행하였습니다. Multi-head Attention에서는 여러번의 어텐션을 병렬로 사용하는데요. Multi-head Attention 모델 Multi-head Attention을 보시면 여러번의 어텐션이 병렬로 연상..

Transformer (Self-Attention) 1편과 이어서 Transformer에 대해서 설명드리겠습니다. 이전에 Transformer의 구조를 한번더 복습하고 진행하겠습니다. 1. Transformer의 structure 보기 input Embedding과 Positional Encoding 층을 지나면 Attention을 만나볼 수 있는데요. 트랜스포머의 인코더와 디코더에서 사용하고 있는 개념인 어텐션에 대해서 알아보겠습니다. (Attention의 등장 배경과 짧은 설명은 transformer 1편에 설명되어 있습니다.)2. 트랜스포머에서 사용된 Attention 트랜스포머는 총 세 가지의 어텐션이 사용되는데요, 세가지 어텐션에 대해서 간단히 정리해 보면 아래와 같습니다. Encoder Self-Attentiondecoder Masked Se..

Transformer - Structure, Posititonal Encoding Transformer에 앞서, Attention 매커니즘 이란? 어텐션 메커니즘(Attention Mechanism)은 인공 신경망 모델이 입력 데이터의 특정 부분에 더 집중하도록 하는 기술로, 인간이 정보를 처리할 때 중요한 부분에 집중하는 것과 유사하게, 모델이 입력 시퀀스의 모든 부분을 동일하게 처리하는 대신, 특정 부분에 더 많은 가중치를 부여하여 중요한 정보를 효과적으로 추출하고 처리하는 방법입니다. 1) Attention 매커니즘의 등장 배경 RNN 기반의 기존 Seq2Seq 기반의 번역, 요약 방식은 3가지 문제점이 있었습니다.학습시간(🐢 느림) : RNN은 순차적으로 입력을 처리해야하기에 병렬화가 불가능했고, 대규모의 데이터셋의 경우 학습 시간이 지나치게 길어졌습니다.정보소실(🕳️ 까..

LSTM의 Cell State와 Gate별 특징 LSTM NetworkRNN와 LSTM의 차이를 그림을 통해 살펴보면, RNN과 다르게 LSTM은 셀의 값을 얼마나 기억할지 결정하는 것이 가능한 게이트를 가지고 있어서 필요한 정보만 기억할 수 있도록 제어하는 특징을 가지고 있다. 입력 게이트(Input Gate), 망각 게이트 (Forget Gate), 출력 게이트 (Output Gate) 세 가지 게이트로 cell state정보를 변경할 수 있다.1. cell stateLSTM의 핵심 아이디어로, 모듈 그림에서 수평으로 그어진 윗 선에 해당한다. 이전 상태에서 현재 상태까지 유지되는 정보의 흐름이며, 이를 통해 LSTM은 오래된 정보를 기억하고 새로운 정보를 적절하게 갱신할 수 있다. Cell state는 자기 자신에게 피드백을 하게 되는데, Ce..

RNN(Recurrent Neural Networks) 유튜브 신박 AI 님의 RNN 영상을 정리해서 작성하였습니다.RNN(Recurrent Neural Networks)RNN은 순차 데이터나 시계열 데이터를 이용하는 인공 신경망의 유형으로, 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 갖고있다. 그림을 보면, 뉴럴넷 덩어리 A 가 있고, Xt 는 입력값, ht의 결과값 이다. A의 결과는 다시 A로 들어가서 루프를 만들어 주는 원리인데, 이렇기 때문에 현재의 상태(state)가 그 다음 상태(state)에 영향을 미치게 된다. 입력 X 가 있으면 RNN을 연산을 통해 상태(state)를 계산하고 그 상태(state)가 자기 입력이 되게 되고, 각 상태(state..

시퀀스-투-시퀀스(Sequence-to-Sequence) 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)?1. Seq2Seq Architecture 2개의 모듈, Encoder와 Decoder로 구성되어 있어서 Encoder-Decoder 모델이라고도 부른다. 시퀀스-투-시퀀스(Sequence-to-Sequence)는 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 다양한 분야에서 사용되는 모델로 예를 들어 챗봇(Chatbot)과 기계 번역(Machine Translation)가 대표적인 사용 예이다. 아키텍쳐의 내부를 살펴보면 두 개의 RNN 아키텍처로, 입력 문장을 받는 RNN 셀을 인코더라고 하고, 출력 문장을 출력하는 RNN 셀을 디코더라고 한다. 또한 인코더와 디코더 내부는 LSTM 셀 또는 GRU 셀들로 구성된다. 인..

케라스 하이퍼파라미터 튜닝(Keras hyperparameter Tuning) feat. 케창딥 13장 AIFFEL을 진행하며 케창딥 13장 케라스 하이퍼 파라미터 튜닝을 학습하고 실습하였다. 하이퍼 파라미터 튜닝 Flow케라스 창시자에게 배우는 딥러닝에서 소개하는 하이퍼 파라미터 튜닝을 포함한 모델 훈련의 Flow는 아래와 같다. hp 인수를 포함한 모델 구축 함수 정의Tuner 정의(RandomSearch, Bayesian Optimization, hyperband)데이터 준비(training, validation, testing)최상의 하이퍼파라미터 설정 확인하기 (call back 함수 설정) 최적의 epoch 찾기최종 모델 훈련 및 평가 1. 모델 구축 함수 정의케라스 창시자에게 배우는 딥러닝에서 소개하는 모델 구축방법은 2가지로 함수형 접근 방식, HyperModel 클래스 접근 방식이 있다...

이전 1 2 다음

티스토리툴바