재구성 가능한 사운드 인식을 위한 Hopf 물리적 저장소 컴퓨터

Scientific Reports 13권, 기사 번호: 8719(2023) 이 기사 인용

271 액세스

3 알트메트릭

측정항목 세부정보

Hopf 발진기는 한계 사이클 동작을 나타내는 비선형 발진기입니다. 이 저장소 컴퓨터는 발진기의 진동 특성을 활용하므로 재구성 가능한 소리 인식 작업에 이상적인 후보입니다. 본 논문에서는 소리 인식을 수행하는 Hopf 저장소 컴퓨터의 기능을 체계적으로 입증합니다. 이 작업은 Hopf 저장소 컴퓨터가 레거시 접근 방식(예: Mel 스펙트럼 + 기계 학습 접근 방식)에 비해 뛰어난 사운드 인식 정확도를 제공할 수 있음을 보여줍니다. 더 중요한 것은 소리 인식 시스템으로 작동하는 Hopf 저수지 컴퓨터는 오디오 전처리가 필요하지 않으며 설정이 매우 간단하면서도 여전히 높은 수준의 재구성성을 제공한다는 것입니다. 이러한 기능은 저전력 에지 장치의 소리 인식을 위해 물리적 저장소 컴퓨팅을 적용하는 방법을 제시합니다.

특히 음성 인식의 경우 오디오 신호 분류 방법이 유비쿼터스적으로 존재합니다1,2. 그러나 머신러닝은 IoT(사물 인터넷)3에서의 광범위한 보급을 방해하는 몇 가지 단점을 안고 있습니다. 첫째, 기계 학습, 특히 심층 신경망(DNN)은 클라우드 인프라를 사용하여 모델 훈련과 추론을 위한 대규모 계산을 수행합니다. GPT-3과 같은 최첨단(SOTA) 딥 러닝 모델은 1,750억 개가 넘는 매개변수와 3.14 \(\times\) \(10^{23}\) FLOPS(부동 작업)의 교육 요구 사항을 가질 수 있습니다. 초당)4,5. SOTA 음성 전사 모델인 Whisper의 훈련에서는 한 사람이 77년 동안 지속적으로 말할 수 있는 단어 수만큼 단어 라이브러리를 사용했습니다6. 언급된 기술 요구 사항 중 어느 것도 IoT용 엣지 장치로 충족될 수 없습니다. 따라서 클라우드 인프라는 DNN 작업에 필수적입니다. 둘째, 기계 학습을 위해 클라우드 컴퓨팅에 의존하면 보안 및 개인정보 보호에 큰 위험이 따릅니다. 이전 보안 위반의 60% 이상이 머신러닝을 위한 클라우드와 엣지 간의 원시 데이터 통신 중에 발생했습니다7. 또한 각 위반으로 인해 평균 424만 달러의 손실이 발생하며 이 수치는 지속적으로 증가하고 있습니다8. 개인 정보 보호에 대한 우려는 스마트 장치 사용자들 사이에 불신을 야기하고 스마트 장치의 포기를 초래합니다9,10. 셋째, 클라우드 인프라를 통해 DNN 구현이 환경에 미치는 영향은 종종 간과되지만 무시할 수는 없습니다. 2억 1,300만 개의 매개변수로 변압기 모델을 훈련하면 전체 수명 동안 미국 제조업체 차량의 4배에 해당하는 이산화탄소 배출량이 생성됩니다11. 따라서 차세대 스마트 IoT 장치는 엣지에서 머신러닝이나 딥러닝을 작동할 수 있는 충분한 컴퓨팅 성능을 보유해야 합니다.

기계 학습을 엣지 장치에 도입하려는 노력 중 저장소 컴퓨팅, 특히 물리적 저장소 컴퓨팅은 지난 20년 동안 초기 성공을 거두었습니다. 연구자들은 액체 상태 기계와 반향 상태 네트워크의 개념에서 출발하여 물통 표면의 소리로 인한 잔물결이 오디오 신호 인식을 수행하는 데 사용될 수 있음을 시연했습니다12. 간단히 말해서 저장소 컴퓨팅은 물리적 시스템의 본질적인 비선형성을 활용하여 신경망의 노드 연결 프로세스를 복제하여 기계 인식을 위한 시계열 신호에서 특징을 추출합니다13,14. 저장소 컴퓨팅은 물리적 시스템을 사용하여 아날로그 방식으로 직접 계산을 수행하므로 별도의 데이터 저장, 구성 및 기계 학습 인식의 필요성이 크게 제거됩니다. 특히 저장소 컴퓨팅은 시계열 신호의 하위 집합인 오디오 처리 작업에 자연스럽게 적합합니다.

연구자들은 시간적 신호 처리를 위한 저장소 컴퓨터로 작동할 수 있는 많은 물리적 시스템을 탐색했습니다. 이러한 시스템에는 FPGA(Field-Programmable Gate Array)15, 화학 반응16, 멤리스터17, 초상자성 터널 접합18, 스핀트로닉스19, 특수 매체20, MEMS(마이크로 전자 기계 시스템)21 및 기타13,22의 레이저 파장 감쇠가 포함됩니다. 이러한 연구를 통해 저장소 컴퓨팅이 오디오 신호 처리를 처리할 수 있음이 입증되었지만 컴퓨팅을 위한 물리적 시스템은 일반적으로 매우 번거롭고20 모두 Mel 스펙트럼과 같은 방법을 사용하여 원본 오디오 클립을 전처리해야 합니다. 저장소 컴퓨팅을 통한 기계 학습의 컴퓨팅 요구 사항. 더 중요한 것은 계산 능력을 높이기 위해 기존 저장소 컴퓨팅 기술은 디지털에서 아날로그로의 변환을 통해 얻은 시간 지연 피드백을 사용하며23 시간 지연 피드백은 저장소 컴퓨팅의 처리 속도를 방해하는 동시에 컴퓨팅을 위한 에너지 소비 범위를 크게 증가시킵니다. . 우리는 물리적 저장소 컴퓨팅의 만족스럽지 못한 성능이 주로 이전 연구에서 선택한 컴퓨팅 시스템의 계산 능력이 부족하여 발생한다고 제안합니다.

94% of the FLOPS (floating operations per second) for high sampling rate readout and Mel spectrum computation and \(\sim {90\%}\) of the audio pieces for training./p> 99% accuracy, with the confusion matrix depicted in the right portion of Fig. 7. Note that the number of parameters trained for this experiment is about 35,000, which accounts for about 300 KB dynamic memory for 8-bit input with a batch size of 531,32, demonstrating the feasibility of running the training of the machine learning readout on low-level edge devices consuming Li-Po battery level of power./p> 99% accuracy using the exact readout machine learning algorithm by only retraining the MLP. This implies that the Hopf reservoir computer will enable inference and reconfiguration on the edge for the sound recognition system. Additionally, compared to other reservoir computing systems (e.g.,15,16,17,22), the spoken digit dataset yields superior performance without the need of using complex preprocessing, multiple physical devices, or mask functions; in addition, we have also conducted our benchmarking experiments on far more realistic datasets (i.e., the 10-class urban sound recognition dataset and the 4-class wake words dataset). We demonstrate boosted performance of audio signal processing by changing the activation signal strength of the Hopf oscillator, which implies that there are more degrees of freedom for reconfiguring physical reservoir computers as compared to other reservoir implementations./p>

소식

재구성 가능한 사운드 인식을 위한 Hopf 물리적 저장소 컴퓨터