IEEE/ACM Transactions on Audio, Speech and Language Processing Papers Published by Researchers in Japan

This webpage may contain errors. Please do NOT trust the following list, although the maintainer has tried his best to correct the mistakes. If you find an error, please contact the maintainer via email at “contact [at] ishikawa.cc”.

Highly contributed researchers

In recent 10 years: Junichi Yamagishi (20)

Hiroshi Saruwatari (18) / Tomoki Toda (16) / Hirokazu Kameoka (14) / Satoshi Nakamura (14) / Kazuyoshi Yoshii (14)

Since 1993: Junichi Yamagishi (28)

Hiroshi Saruwatari (25) / Tomohiro Nakatani (24) / Satoshi Nakamura (21) / Tomoki Toda (21)

Statistics

2024

Improving Speech Translation Accuracy and Time Efficiency With Fine-Tuned wav2vec 2.0-Based Speech Segmentation

Authors: Ryo Fukuda, Katsuhito Sudoh, Satoshi Nakamura

RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction

Authors: Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

ZMM-TTS: Zero-Shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-Supervised Discrete Speech Representations

Authors: Cheng Gong, Xin Wang, Erica Cooper, Dan Wells, Longbiao Wang, Jianwu Dang, Korin Richmond, Junichi Yamagishi

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks

Authors: Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami

VoiceGrad: Non-Parallel Any-to-Many Voice Conversion With Annealed Langevin Dynamics

Authors: Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, Shogo Seki

Unequally Spaced Sound Field Interpolation for Rotation-Robust Beamforming

Authors: Shuming Luan, Yukoh Wakabayashi, Tomoki Toda

EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning

Authors: Zhuoyuan Mao, Chenhui Chu, Sadao Kurohashi

Causal and Relaxed-Distortionless Response Beamforming for Online Target Source Extraction

Authors: Yoshiki Masuyama, Kouei Yamaoka, Yuma Kinoshita, Taishi Nakashima, Nobutaka Ono

Efficient Joint Optimization of Sampling Rate Offsets Using Entire Multichannel Signal

Authors: Yoshiki Masuyama, Kouei Yamaoka, Takao Kawamura, Nobutaka Ono

Multi-Layer Combined Frequency and Periodicity Representations for Multi-Pitch Estimation of Multi-Instrument Music

Authors: Tomoki Matsunaga and Hiroaki Saito

Masked Modeling Duo: Towards a Universal Audio Pre-Training Framework

Authors: Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance

Authors: Tsubasa Ochiai, Kazuma Iwamoto, Marc Delcroix, Rintaro Ikeshita, Hiroshi Sato, Shoko Araki, Shigeru Katagiri

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation

Authors: Michele Panariello, Natalia A. Tomashenko, Xin Wang, Xiaoxiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas W. D. Evans, Emmanuel Vincent, Junichi Yamagishi

Sound Field Estimation Based on Physics-Constrained Kernel Interpolation Adapted to Environment

Authors: Juliano G. C. Ribeiro, Shoichi Koyama, Ryosuke Horiuchi, Hiroshi Saruwatari

Automatic Disfluency Detection From Untranscribed Speech

Authors: Amrit Romana, Kazuhito Koishida, Emily Mower Provost

Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis

Authors: Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari

Waveform-Domain Speech Enhancement Using Spectrogram Encoding for Robust Speech Recognition

Authors: Hao Shi, Masato Mimura, Tatsuya Kawahara

PHAIN: Audio Inpainting via Phase-Aware Optimization With Instantaneous Frequency

Authors: Tomoro Tanaka, Kohei Yatabe, Yasuhiro Oikawa

Blind and Spatially-Regularized Online Joint Optimization of Source Separation, Dereverberation, and Noise Reduction

Authors: Tetsuya Ueda, Tomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Shoko Araki, Shoji Makino

Refining Synthesized Speech Using Speaker Information and Phone Masking for Data Augmentation of Speech Recognition

Authors: Sei Ueno, Akinobu Lee, Tatsuya Kawahara

Pretraining and Adaptation Techniques for Electrolaryngeal Speech Recognition

Authors: Lester Phillip Violeta, Ding Ma, Wen-Chin Huang, Tomoki Toda

Dual-Channel Target Speaker Extraction Based on Conditional Variational Autoencoder and Directional Information

Authors: Rui Wang, Li Li, Tomoki Toda

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

Authors: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka

On Semi-Blind Source Separation-Based Approaches to Nonlinear Echo Cancellation Based on Bilinear Alternating Optimization

Authors: Xianrui Wang, Yichen Yang, Andreas Brendel, Tetsuya Ueda, Shoji Makino, Jacob Benesty, Walter Kellermann, Jingdong Chen

Overview of the Tenth Dialog System Technology Challenge: DSTC10

Authors: Koichiro Yoshino, Yun-Nung Chen, Paul A. Crook, Satwik Kottur, Jinchao Li, Behnam Hedayatnia, Seungwhan Moon, Zhengcong Fei, Zekang Li, Jinchao Zhang, Yang Feng, Jie Zhou, Seokhwan Kim, Yang Liu, Di Jin, Alexandros Papangelis, Karthik Gopalakrishnan, Dilek Hakkani-Tur, Babak Damavandi, Alborz Geramifard, Chiori Hori, Ankit Shah, Chen Zhang, Haizhou Li, Joo Sedoc, Luis F. D'Haro, Rafael E. Banchs, Alexander Rudnicky

2023

Amplitude Matching for Multizone Sound Field Control

Authors: Takumi Abe, Shoichi Koyama, Natsuki Ueno, Hiroshi Saruwatari

SoundBeam: Target Sound Extraction Conditioned on Sound-Class Labels and Enrollment Clues for Increased Performance and Continuous Learning

Authors: Marc Delcroix, Jorge Bennasar Vzquez, Tsubasa Ochiai, Keisuke Kinoshita, Yasunori Ohishi, Shoko Araki

PoP-IDLMA: Product-of-Prior Independent Deeply Learned Matrix Analysis for Multichannel Music Source Separation

Authors: Takuya Hasumi, Tomohiko Nakamura, Norihiro Takamune, Hiroshi Saruwatari, Daichi Kitamura, Yu Takahashi, Kazunobu Kondo

Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors

Authors: Shota Horiguchi, Shinji Watanabe, Paola Garca, Yuki Takashima, Yohei Kawaguchi

Complex-Domain Pitch Estimation Algorithm for Narrowband Speech Signals

Authors: Yuya Hosoda, Arata Kawamura, Youji Iiguni

Alignment Knowledge Distillation for Online Streaming Attention-Based Speech Recognition

Authors: Hirofumi Inaguma and Tatsuya Kawahara

Sound Source Localization Inside a Structure Under Semi-Supervised Conditions

Authors: Shunsuke Kita and Yoshinobu Kajikawa

FastMVAE2: On Improving and Accelerating the Fast Variational Autoencoder-Based Source Separation Algorithm for Determined Mixtures

Authors: Li Li, Hirokazu Kameoka, Shoji Makino

Music Theory-Inspired Acoustic Representation for Speech Emotion Recognition

Authors: Xingfeng Li, Xiaohan Shi, Desheng Hu, Yongwei Li, Qingchen Zhang, Zhengxia Wang, Masashi Unoki, Masato Akagi

A Discriminative Feature Representation Method Based on Cascaded Attention Network With Adversarial Strategy for Speech Emotion Recognition

Authors: Yang Liu, Haoqin Sun, Wenbo Guan, Yuqi Xia, Yongwei Li, Masashi Unoki, Zhen Zhao

ASVspoof 2021: Towards Spoofed and Deepfake Speech Detection in the Wild

Authors: Xuechen Liu, Xin Wang, Md. Sahidullah, Jose Patino, Hctor Delgado, Tomi Kinnunen, Massimiliano Todisco, Junichi Yamagishi, Nicholas W. D. Evans, Andreas Nautsch, Kong Aik Lee

Decoupling Speaker-Independent Emotions for Voice Conversion via Source-Filter Networks

Authors: Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa, Hiroshi Ishiguro

Refining History for Future-Aware Neural Machine Translation

Authors: Xinglin Lyu, Junhui Li, Min Zhang, Chenchen Ding, Hideki Tanaka, Masao Utiyama

Improving Semi-Supervised Differentiable Synthesizer Sound Matching for Practical Applications

Authors: Naotake Masuda and Daisuke Saito

Online Phase Reconstruction via DNN-Based Phase Differences Estimation

Authors: Yoshiki Masuyama, Kohei Yatabe, Kento Nagatomo, Yasuhiro Oikawa

Harmonic-Net: Fundamental Frequency and Speech Rate Controllable Fast Neural Vocoder

Authors: Keisuke Matsubara, Takuma Okamoto, Ryoichi Takashima, Tetsuya Takiguchi, Tomoki Toda, Hisashi Kawai

Speaker Anonymization Using Orthogonal Householder Neural Network

Authors: Xiaoxiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Natalia A. Tomashenko

Segment-Less Continuous Speech Separation of Meetings: Training and Evaluation Criteria

Authors: Thilo von Neumann, Keisuke Kinoshita, Christoph Bddeker, Marc Delcroix, Reinhold Haeb-Umbach

BYOL for Audio: Exploring Pre-Trained General-Purpose Audio Representations

Authors: Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

Mask-Based Neural Beamforming for Moving Speakers With Self-Attention-Based Tracking

Authors: Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Shoko Araki

A Perceptually Evaluated Signal Model: Collisions Between a Vibrating Object and an Obstacle

Authors: Samuel Poirot, Stefan Bilbao, Mitsuko Aramaki, Slvi Ystad, Richard Kronland-Martinet

Multi-Frame Full-Rank Spatial Covariance Analysis for Underdetermined Blind Source Separation and Dereverberation

Authors: Hiroshi Sawada, Rintaro Ikeshita, Keisuke Kinoshita, Tomohiro Nakatani

Inter-Frequency Phase Difference for Phase Reconstruction Using Deep Neural Networks and Maximum Likelihood

Authors: Nguyen Binh Thien, Yukoh Wakabayashi, Kenta Iwai, Takanobu Nishiura

Sound Field Interpolation for Rotation-Invariant Multichannel Array Signal Processing

Authors: Yukoh Wakabayashi, Kouei Yamaoka, Nobutaka Ono

Noisy-to-Noisy Voice Conversion Under Variations of Noisy Condition

Authors: Chao Xie and Tomoki Toda

Rotor Noise-Aware Noise Covariance Matrix Estimation for Unmanned Aerial Vehicle Audition

Authors: Benjamin Yen, Yameizhen Li, Yusuke Hioka

High-Fidelity and Pitch-Controllable Neural Vocoder Based on Unified Source-Filter Networks

Authors: Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda

Unsupervised Deep Unfolded Representation Learning for Singing Voice Separation

Authors: Weitao Yuan, Shengbei Wang, Jianming Wang, Masashi Unoki, Wenwu Wang

The PartialSpoof Database and Countermeasures for the Detection of Short Fake Speech Segments Embedded in an Utterance

Authors: Lin Zhang, Xin Wang, Erica Cooper, Nicholas W. D. Evans, Junichi Yamagishi

2022

Integrating Prior Translation Knowledge Into Neural Machine Translation

Authors: Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita

Generalized Fast Multichannel Nonnegative Matrix Factorization Based on Gaussian Scale Mixtures for Blind Source Separation

Authors: Mathieu Fontaine, Kouhei Sekiguchi, Aditya Arie Nugraha, Yoshiaki Bando, Kazuyoshi Yoshii

End-to-End Task-Oriented Dialog Modeling With Semi-Structured Knowledge Management

Authors: Silin Gao, Ryuichi Takanobu, Antoine Bosselut, Minlie Huang

Deep Learning Approaches in Topics of Singing Information Processing

Authors: Chitralekha Gupta, Haizhou Li, Masataka Goto

Encoder-Decoder Based Attractors for End-to-End Neural Diarization

Authors: Shota Horiguchi, Yusuke Fujita, Shinji Watanabe, Yawen Xue, Paola Garca

Exploiting Adapters for Cross-Lingual Low-Resource Speech Recognition

Authors: Wenxin Hou, Han Zhu, Yidong Wang, Jindong Wang, Tao Qin, Renjun Xu, Takahiro Shinozaki

Optimizing Tandem Speaker Verification and Anti-Spoofing Systems

Authors: Anssi Kanervisto, Ville Hautamki, Tomi Kinnunen, Junichi Yamagishi

Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations

Authors: Gaku Kotani, Daisuke Saito, Nobuaki Minematsu

RODA: Reverse Operation Based Data Augmentation for Solving Math Word Problems

Authors: Qianying Liu, Wenyu Guan, Sujian Li, Fei Cheng, Daisuke Kawahara, Sadao Kurohashi

Switching Independent Vector Analysis and its Extension to Blind and Spatially Guided Convolutional Beamforming Algorithms

Authors: Tomohiro Nakatani, Rintaro Ikeshita, Keisuke Kinoshita, Hiroshi Sawada, Naoyuki Kamo, Shoko Araki

A Machine Speech Chain Approach for Dynamically Adaptive Lombard TTS in Static and Dynamic Noise Environments

Authors: Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura

Region-to-Region Kernel Interpolation of Acoustic Transfer Functions Constrained by Physical Properties

Authors: Juliano G. C. Ribeiro, Natsuki Ueno, Shoichi Koyama, Hiroshi Saruwatari

Sampling-Frequency-Independent Convolutional Layer and its Application to Audio Source Separation

Authors: Koichi Saito, Tomohiko Nakamura, Kohei Yatabe, Hiroshi Saruwatari

Autoregressive Moving Average Jointly-Diagonalizable Spatial Covariance Analysis for Joint Source Separation and Dereverberation

Authors: Kouhei Sekiguchi, Yoshiaki Bando, Aditya Arie Nugraha, Mathieu Fontaine, Kazuyoshi Yoshii, Tatsuya Kawahara

Use of Speaker Recognition Approaches for Learning and Evaluating Embedding Representations of Musical Instrument Sounds

Authors: Xuan Shi, Erica Cooper, Junichi Yamagishi

Privacy and Utility of X-Vector Based Speaker Anonymization

Authors: Brij Mohan Lal Srivastava, Mohamed Maouche, Md. Sahidullah, Emmanuel Vincent, Aurlien Bellet, Marc Tommasi, Natalia A. Tomashenko, Xin Wang, Junichi Yamagishi

Singer Diarization for Polyphonic Music With Unison Singing

Authors: Hitoshi Suda, Daisuke Saito, Satoru Fukayama, Tomoyasu Nakano, Masataka Goto

Loudness-Level-Chasing Algorithm for Multiformat Live Audio Production

Author: Takehiro Sugimoto

Modeling Unsupervised Empirical Adaptation by DPGMM and DPGMM-RNN Hybrid Model to Extract Perceptual Features for Low-Resource ASR

Authors: Bin Wu, Sakriani Sakti, Jinsong Zhang, Satoshi Nakamura

Self-Supervised Contrastive Learning for Singing Voices

Authors: Hiromu Yakura, Kento Watanabe, Masataka Goto

End-to-End Dereverberation, Beamforming, and Speech Recognition in a Cocktail Party

Authors: Wangyou Zhang, Xuankai Chang, Christoph Bddeker, Tomohiro Nakatani, Shinji Watanabe, Yanmin Qian

Which Apple Keeps Which Doctor Away? Colorful Word Representations With Visual Oracles

Authors: Zhuosheng Zhang, Haojie Yu, Hai Zhao, Masao Utiyama

Word-Region Alignment-Guided Multimodal Neural Machine Translation

Authors: Yuting Zhao, Mamoru Komachi, Tomoyuki Kajiwara, Chenhui Chu

2021

Flexibly Focusing on Supporting Facts, Using Bridge Links, and Jointly Training Specialized Modules for Multi-Hop Question Answering

Authors: Tareq Alkhaldi, Chenhui Chu, Sadao Kurohashi

Modeling Future Cost for Neural Machine Translation

Authors: Chaoqun Duan, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Conghui Zhu, Tiejun Zhao

Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System

Authors: Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda

Pretraining Techniques for Sequence-to-Sequence Voice Conversion

Authors: Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda

A Joint Diagonalization Based Efficient Approach to Underdetermined Blind Audio Source Separation Using the Multichannel Wiener Filter

Authors: Nobutaka Ito, Rintaro Ikeshita, Hiroshi Sawada, Tomohiro Nakatani

Many-to-Many Voice Transformer Network

Authors: Hirokazu Kameoka, Wen-Chin Huang, Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, Tomoki Toda

Preordering Encoding on Transformer for Translation

Authors: Yuki Kawara, Chenhui Chu, Yuki Arase

Overview of the Eighth Dialog System Technology Challenge: DSTC8

Authors: Seokhwan Kim, Michel Galley, R. Chulaka Gunasekara, Sungjin Lee, Adam Atkinson, Baolin Peng, Hannes Schulz, Jianfeng Gao, Jinchao Li, Mahmoud Adada, Minlie Huang, Luis A. Lastras, Jonathan K. Kummerfeld, Walter S. Lasecki, Chiori Hori, Anoop Cherian, Tim K. Marks, Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta

Editorial: Special Issue on the Eighth Dialog System Technology Challenge

Authors: Seokhwan Kim, Hannes Schulz, R. Chulaka Gunasekara, Chiori Hori, Abhinav Rastogi, Luis Fernando D'Haro

Spatial Active Noise Control Based on Kernel Interpolation of Sound Field

Authors: Shoichi Koyama, Jesper Brunnstrm, Hayato Ito, Natsuki Ueno, Hiroshi Saruwatari

$F_0$-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model

Authors: Yongwei Li, Jianhua Tao, Donna Erickson, Bin Liu, Masato Akagi

Multi-Metric Optimization Using Generative Adversarial Networks for Near-End Speech Intelligibility Enhancement

Authors: Haoyu Li and Junichi Yamagishi

Coupling a Generative Model With a Discriminative Learning Framework for Speaker Verification

Authors: Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai

Sound Field Reproduction With a Cylindrical Loudspeaker Array Using First Order Wall Reflections

Authors: Natsuko Maeda, Filippo Maria Fazi, Falk-Martin Hoffmann

Corruption Is Not All Bad: Incorporating Discourse Structure Into Pre-Training via Corruption for Essay Scoring

Authors: Farjana Sultana Mim, Naoya Inoue, Paul Reisert, Hiroki Ouchi, Kentaro Inui

Multichannel Blind Source Separation Based on Evanescent-Region-Aware Non-Negative Tensor Factorization in Spherical Harmonic Domain

Authors: Yuki Mitsufuji, Norihiro Takamune, Shoichi Koyama, Hiroshi Saruwatari

Harmonic-Temporal Factor Decomposition for Unsupervised Monaural Separation of Harmonic Sounds

Authors: Tomohiko Nakamura and Hirokazu Kameoka

Time-Domain Audio Source Separation With Neural Networks Based on Multiresolution Analysis

Authors: Tomohiko Nakamura, Shihori Kozuka, Hiroshi Saruwatari

Gamma Boltzmann Machine for Audio Modeling

Authors: Toru Nakashika and Kohei Yatabe

Perceptual-Similarity-Aware Deep Speaker Representation Learning for Multi-Speaker Generative Modeling

Authors: Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari

Vocal Tract Length Estimation Using Accumulated Means of Formants and Its Effects on Speaker-Normalization

Authors: Tadashi Sakata, Naomitsu Ikeda, Yuichi Ueda, Akira Watanabe

Subword-Based Compact Reconstruction for Open-Vocabulary Neural Word Embeddings

Authors: Shota Sasaki, Jun Suzuki, Kentaro Inui

Ambisonic Signal Processing DNNs Guaranteeing Rotation, Scale and Time Translation Equivariance

Authors: Ryotaro Sato, Kenta Niwa, Kazunori Kobayashi

An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning

Authors: Berrak Sisman, Junichi Yamagishi, Simon King, Haizhou Li

Quasi-Periodic Parallel WaveGAN: A Non-Autoregressive Raw Waveform Generative Model With Pitch-Dependent Dilated Convolution Neural Network

Authors: Yi-Chiao Wu, Tomoki Hayashi, Takuma Okamoto, Hisashi Kawai, Tomoki Toda

Quasi-Periodic WaveNet: An Autoregressive Raw Waveform Generative Model With Pitch-Dependent Dilated Convolution Neural Network

Authors: Yi-Chiao Wu, Tomoki Hayashi, Patrick Lumban Tobing, Kazuhiro Kobayashi, Tomoki Toda

Tackling Perception Bias in Unsupervised Phoneme Discovery Using DPGMM-RNN Hybrid Model and Functional Load

Authors: Bin Wu, Sakriani Sakti, Jinsong Zhang, Satoshi Nakamura

Time-Frequency-Bin-Wise Linear Combination of Beamformers for Distortionless Signal Enhancement

Authors: Kouei Yamaoka, Nobutaka Ono, Shoji Makino

Determined BSS Based on Time-Frequency Masking and Its Application to Harmonic Vector Analysis

Authors: Kohei Yatabe and Daichi Kitamura

Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice Separation

Authors: Weitao Yuan, Bofei Dong, Shengbei Wang, Masashi Unoki, Wenwu Wang

2020

Customer Satisfaction Estimation in Contact Center Calls Based on a Hierarchical Multi-Task Model

Authors: Atsushi Ando, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono, Tomoki Toda

Towards More Diverse Input Representation for Neural Machine Translation

Authors: Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Tiejun Zhao, Muyun Yang, Hai Zhao

Cross-Lingual Transfer Learning of Non-Native Acoustic Modeling for Pronunciation Error Detection and Diagnosis

Authors: Richeng Duan, Tatsuya Kawahara, Masatake Dantsuji, Hiroaki Nanjo

Wave-Domain Residual Echo Reduction Using Subspace Tracking

Author: Satoru Emura

Nonparallel Voice Conversion With Augmented Classifier Star Generative Adversarial Networks

Authors: Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo

ConvS2S-VC: Fully Convolutional Sequence-to-Sequence Voice Conversion

Authors: Hirokazu Kameoka, Kou Tanaka, Damian Kwasny, Takuhiro Kaneko, Nobukatsu Hojo

End-to-End Speech Translation With Transcoding by Multi-Task Learning for Distant Language Pairs

Authors: Takatomo Kano, Sakriani Sakti, Satoshi Nakamura

Tandem Assessment of Spoofing Countermeasures and Automatic Speaker Verification: Fundamentals

Authors: Tomi Kinnunen, Hctor Delgado, Nicholas W. D. Evans, Kong Aik Lee, Ville Vestman, Andreas Nautsch, Massimiliano Todisco, Xin Wang, Md. Sahidullah, Junichi Yamagishi, Douglas A. Reynolds

Massive Exploration of Pseudo Data for Grammatical Error Correction

Authors: Shun Kiyono, Jun Suzuki, Tomoya Mizumoto, Kentaro Inui

Optimizing Source and Sensor Placement for Sound Field Control: An Overview

Authors: Shoichi Koyama, Gilles Chardon, Laurent Daudet

Blind Speech Extraction Based on Rank-Constrained Spatial Covariance Matrix Estimation With Multivariate Generalized Gaussian Distribution

Authors: Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari

NAUTILUS: A Versatile Voice Cloning System

Authors: Hieu-Thi Luong and Junichi Yamagishi

Spherical-Harmonic-Domain Feedforward Active Noise Control Using Sparse Decomposition of Reference Signals from Distributed Sensor Arrays

Authors: Yu Maeno, Yuki Mitsufuji, Prasanga N. Samarasinghe, Naoki Murata, Thushara D. Abhayapala

Multichannel Non-Negative Matrix Factorization Using Banded Spatial Covariance Matrices in Wavenumber Domain

Authors: Yuki Mitsufuji, Stefan Uhlich, Norihiro Takamune, Daichi Kitamura, Shoichi Koyama, Hiroshi Saruwatari

Independent Low-Rank Matrix Analysis Based on Time-Variant Sub-Gaussian Source Model for Determined Blind Source Separation

Authors: Shinichi Mogami, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo, Nobutaka Ono

Jointly Optimal Denoising, Dereverberation, and Source Separation

Authors: Tomohiro Nakatani, Christoph Bddeker, Keisuke Kinoshita, Rintaro Ikeshita, Marc Delcroix, Reinhold Haeb-Umbach

Bayesian Singing Transcription Based on a Hierarchical Generative Model of Keys, Musical Notes, and F0 Trajectories

Authors: Ryo Nishikimi, Eita Nakamura, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii

Multi-Source Neural Machine Translation With Missing Data

Authors: Yuta Nishimura, Katsuhito Sudoh, Graham Neubig, Satoshi Nakamura

Microphone Array Wiener Post Filtering Using Monotone Operator Splitting

Authors: Kenta Niwa, Hironobu Chiba, Noboru Harada, Guoqiang Zhang, W. Bastiaan Kleijn

A Flow-Based Deep Latent Variable Model for Speech Spectrogram Modeling and Enhancement

Authors: Aditya Arie Nugraha, Kouhei Sekiguchi, Kazuyoshi Yoshii

Fast Multichannel Nonnegative Matrix Factorization With Directivity-Aware Jointly-Diagonalizable Spatial Covariance Matrices for Blind Source Separation

Authors: Kouhei Sekiguchi, Yoshiaki Bando, Aditya Arie Nugraha, Kazuyoshi Yoshii, Tatsuya Kawahara

Knowledge Distillation-Based Representation Learning for Short-Utterance Spoken Language Identification

Authors: Peng Shen, Xugang Lu, Sheng Li, Hisashi Kawai

Unsupervised Neural Machine Translation With Cross-Lingual Language Representation Agreement

Authors: Haipeng Sun, Rui Wang, Kehai Chen, Masao Utiyama, Eiichiro Sumita, Tiejun Zhao

Machine Speech Chain

Authors: Andros Tjandra, Sakriani Sakti, Satoshi Nakamura

Corrections to "Machine Speech Chain"

Authors: Andros Tjandra, Sakriani Sakti, Satoshi Nakamura

Bayesian Melody Harmonization Based on a Tree-Structured Generative Model of Chord Sequences and Melodies

Authors: Hiroaki Tsushima, Eita Nakamura, Kazuyoshi Yoshii

Neural Source-Filter Waveform Models for Statistical Parametric Speech Synthesis

Authors: Xin Wang, Shinji Takaki, Junichi Yamagishi

A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural F0 Model for Statistical Parametric Speech Synthesis

Authors: Xin Wang, Shinji Takaki, Junichi Yamagishi, Simon King, Keiichi Tokuda

Multi-Subspace Echo Hiding Based on Time-Frequency Similarities of Audio Signals

Authors: Shengbei Wang, Weitao Yuan, Masashi Unoki

Semi-Supervised Neural Chord Estimation Based on a Variational Autoencoder With Latent Chord Labels and Features

Authors: Yiming Wu, Tristan Carsault, Eita Nakamura, Kazuyoshi Yoshii

2019

Neural Machine Translation With Sentence-Level Topic Context

Authors: Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Tiejun Zhao

Statistical Regression Models for Noise Robust F0 Estimation Using Recurrent Deep Neural Networks

Authors: Akihiro Kato and Tomi H. Kinnunen

Semi-Supervised Multichannel Speech Enhancement With a Deep Speech Prior

Authors: Kouhei Sekiguchi, Yoshiaki Bando, Aditya Arie Nugraha, Kazuyoshi Yoshii, Tatsuya Kawahara

Shape Control of Discrete Generalized Gaussian Distributions for Frequency-Domain Audio Coding

Authors: Ryosuke Sugiura, Yutaka Kamamoto, Takehiro Moriya

Three-Dimensional Sound Field Reproduction Based on Weighted Mode-Matching Method

Authors: Natsuki Ueno, Shoichi Koyama, Hiroshi Saruwatari

Emotional Voice Conversion Using Dual Supervised Adversarial Networks With Continuous Wavelet Transform F0 Features

Authors: Zhaojie Luo, Jinhui Chen, Tetsuya Takiguchi, Yasuo Ariki

Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation

Authors: Naoki Makishima, Shinichi Mogami, Norihiro Takamune, Daichi Kitamura, Hayato Sumino, Shinnosuke Takamichi, Hiroshi Saruwatari, Nobutaka Ono

ACVAE-VC: Non-Parallel Voice Conversion With Auxiliary Classifier Variational Autoencoder

Authors: Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo

Statistical Parametric Speech Synthesis Using Deep Gaussian Processes

Authors: Tomoki Koriyama and Takao Kobayashi

Unsupervised Speech Enhancement Based on Multichannel NMF-Informed Beamforming for Noise-Robust Automatic Speech Recognition

Authors: Kazuki Shimada, Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

Positive Emotion Elicitation in Chat-Based Dialogue Systems

Authors: Nurul Lubis, Sakriani Sakti, Koichiro Yoshino, Satoshi Nakamura

Articulatory and Spectrum Information Fusion Based on Deep Recurrent Neural Networks

Authors: Jianguo Yu, Konstantin Markov, Tomoko Matsui

Many-to-Many and Completely Parallel-Data-Free Voice Conversion Based on Eigenspace DNN

Authors: Tetsuya Hashimoto, Daisuke Saito, Nobuaki Minematsu

Acoustic Topic Model for Scene Analysis With Intermittently Missing Observations

Authors: Keisuke Imoto and Nobutaka Ono

Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra

Authors: Toru Nakashika, Shinji Takaki, Junichi Yamagishi

Unsupervised Detection of Anomalous Sound Based on Deep Learning and the Neyman-Pearson Lemma

Authors: Yuma Koizumi, Shoichiro Saito, Hisashi Uematsu, Yuta Kawachi, Noboru Harada

Evolution-Strategy-Based Automation of System Development for High-Performance Speech Recognition

Authors: Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh

2018

Dirichlet Process Mixture of Mixtures Model for Unsupervised Subword Modeling

Authors: Michael Heck, Sakriani Sakti, Satoshi Nakamura

Sequence-to-Sequence Models for Emphasis Speech Translation

Authors: Quoc Truong Do, Sakriani Sakti, Satoshi Nakamura

DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score

Authors: Yuma Koizumi, Kenta Niwa, Yusuke Hioka, Kazunori Kobayashi, Yoichi Haneda

Sentence Selection and Weighting for Neural Machine Translation Domain Adaptation

Authors: Rui Wang, Masao Utiyama, Andrew M. Finch, Lemao Liu, Kehai Chen, Eiichiro Sumita

A Comparison Between STRAIGHT, Glottal, and Sinusoidal Vocoding in Statistical Parametric Speech Synthesis

Authors: Manu Airaksinen, Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku

End-to-End Waveform Utterance Enhancement for Direct Evaluation Metrics Optimization by Fully Convolutional Neural Networks

Authors: Szu-Wei Fu, Taowei Wang, Yu Tsao, Xugang Lu, Hisashi Kawai

Single-Channel Speech Enhancement With Phase Reconstruction Based on Phase Distortion Averaging

Authors: Yukoh Wakabayashi, Takahiro Fukumori, Masato Nakayama, Takanobu Nishiura, Yoichi Yamashita

Text-Independent Speaker Verification Based on Triplet Convolutional Neural Network Embeddings

Authors: Chunlei Zhang, Kazuhito Koishida, John H. L. Hansen

Speech Enhancement of Noisy and Reverberant Speech for Text-to-Speech

Authors: Cassia Valentini-Botinhao and Junichi Yamagishi

Autoregressive Neural F0 Model for Statistical Parametric Speech Synthesis

Authors: Xin Wang, Shinji Takaki, Junichi Yamagishi

Mel-Cepstrum-Based Quantization Noise Shaping Applied to Neural-Network-Based Speech Waveform Synthesis

Authors: Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda

Nonnegative Matrix Factorization With Basis Clustering Using Cepstral Distance Regularization

Authors: Hirokazu Kameoka, Takuya Higuchi, Mikihiro Tanaka, Li Li

Context Adaptive Neural Network Based Acoustic Models for Rapid Adaptation

Authors: Marc Delcroix, Keisuke Kinoshita, Atsunori Ogawa, Christian Huemmer, Tomohiro Nakatani

Bayesian Multichannel Audio Source Separation Based on Integrated Source and Spatial Models

Authors: Kousuke Itakura, Yoshiaki Bando, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara

Residual Echo Reduction for Multichannel Acoustic Echo Cancelers With a Complex-Valued Residual Echo Estimate

Author: Satoru Emura

Boundary Matching Filters for Spherical Microphone and Loudspeaker Arrays

Authors: Csar D. Salvador, Shuichi Sakamoto, Jorge Trevio, Yiti Suzuki

Speech Enhancement Based on Bayesian Low-Rank and Sparse Decomposition of Multichannel Magnitude Spectrograms

Authors: Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Tatsuya Kawahara, Hiroshi G. Okuno

A Neural Approach to Source Dependence Based Context Model for Statistical Machine Translation

Authors: Kehai Chen, Tiejun Zhao, Muyun Yang, Lemao Liu, Akihiro Tamura, Rui Wang, Masao Utiyama, Eiichiro Sumita

Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks

Authors: Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari

2017

Articulatory Controllable Speech Modification Based on Statistical Inversion and Production Mappings

Authors: Patrick Lumban Tobing, Kazuhiro Kobayashi, Tomoki Toda

Duration-Controlled LSTM for Polyphonic Sound Event Detection

Authors: Tomoki Hayashi, Shinji Watanabe, Tomoki Toda, Takaaki Hori, Jonathan Le Roux, Kazuya Takeda

Translation Quality Estimation Using Only Bilingual Corpora

Authors: Lemao Liu, Atsushi Fujita, Masao Utiyama, Andrew M. Finch, Eiichiro Sumita

Note Value Recognition for Piano Transcription Using Markov Random Fields

Authors: Eita Nakamura, Kazuyoshi Yoshii, Simon Dixon

Simultaneous Optimization of Multiple Tree-Based Factor Analyzed HMM for Speech Synthesis

Authors: Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda

Compensation for Nonlinear Distortion of the Frequency Modulation-Based Parametric Array Loudspeaker

Authors: Yuta Hatano, Chuang Shi, Yoshinobu Kajikawa

Spatial Cepstrum as a Spatial Feature Using a Distributed Microphone Array for Acoustic Scene Analysis

Authors: Keisuke Imoto and Nobutaka Ono

Introduction to the Special Section on Sound Scene and Event Analysis

Authors: Gal Richard, Tuomas Virtanen, Juan Pablo Bello, Nobutaka Ono, Herv Glotin

Maximum-a-Posteriori-Based Decoding for End-to-End Acoustic Models

Authors: Naoyuki Kanda, Xugang Lu, Hisashi Kawai

Sentence Selection Based on Extended Entropy Using Phonetic and Prosodic Contexts for Statistical Parametric Speech Synthesis

Authors: Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga

Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR

Authors: Takuya Higuchi, Nobutaka Ito, Shoko Araki, Takuya Yoshioka, Marc Delcroix, Tomohiro Nakatani

Informative Acoustic Feature Selection to Maximize Mutual Information for Collecting Target Sources

Authors: Yuma Koizumi, Kenta Niwa, Yusuke Hioka, Kazunori Kobayashi, Hitoshi Ohmuro

Rhythm Transcription of Polyphonic Piano Music Based on Merged-Output HMM for Multiple Voices

Authors: Eita Nakamura, Kazuyoshi Yoshii, Shigeki Sagayama

Preserving Word-Level Emphasis in Speech-to-Speech Translation

Authors: Quoc Truong Do, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura

Associative Memory Model-Based Linear Filtering and Its Application to Tandem Connectionist Blind Source Separation

Authors: Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi

2016

Estimating Speech Recognition Accuracy Based on Error Type Classification

Authors: Atsunori Ogawa, Takaaki Hori, Atsushi Nakamura

Singing Voice Separation and Vocal F0 Estimation Based on Mutual Combination of Robust Principal Component Analysis and Subharmonic Summation

Authors: Yukara Ikemiya, Katsutoshi Itoyama, Kazuyoshi Yoshii

Non-Parallel Training in Voice Conversion Using an Adaptive Restricted Boltzmann Machine

Authors: Toru Nakashika, Tetsuya Takiguchi, Yasuhiro Minami

Transition-Based Dependency Parsing Exploiting Supertags

Authors: Hiroki Ouchi, Kevin Duh, Hiroyuki Shindo, Yuji Matsumoto

Optimal Microphone Array Observation for Clear Recording of Distant Sound Sources

Authors: Kenta Niwa, Yusuke Hioka, Kazunori Kobayashi

Efficient Implementation of Global Variance Compensation for Parametric Speech Synthesis

Author: Takashi Nose

Near and Far Field Speech-in-Noise Intelligibility Improvements Based on a Time-Frequency Energy Reallocation Approach

Authors: Tudor-Catalin Zorila, Yannis Stylianou, Tatsuma Ishihara, Masami Akamine

Determined Blind Source Separation Unifying Independent Vector Analysis and Nonnegative Matrix Factorization

Authors: Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari

Semi-Supervised Acoustic Model Training by Discriminative Data Selection From Multiple ASR Systems' Hypotheses

Authors: Sheng Li, Yuya Akita, Tatsuya Kawahara

Multiple Non-Negative Matrix Factorization for Many-to-Many Voice Conversion

Authors: Ryo Aihara, Tetsuya Takiguchi, Yasuo Ariki

Postfilters to Modify the Modulation Spectrum for Statistical Parametric Speech Synthesis

Authors: Shinnosuke Takamichi, Tomoki Toda, Alan W. Black, Graham Neubig, Sakriani Sakti, Satoshi Nakamura

Anti-Spoofing for Text-Independent Speaker Verification: An Initial Database, Comparison of Countermeasures, and Human Performance

Authors: Zhizheng Wu, Phillip L. De Leon, Cenk Demiroglu, Ali Khodabakhsh, Simon King, Zhen-Hua Ling, Daisuke Saito, Bryan Stewart, Tomoki Toda, Mirjam Wester, Junichi Yamagishi

Non-Negative Group Sparsity with Subspace Note Modelling for Polyphonic Transcription

Authors: Ken O'Hanlon, Hidehisa Nagano, Nicolas Keriven, Mark D. Plumbley

Real-Time Audio-to-Score Alignment of Music Performances Containing Errors and Arbitrary Repeats and Skips

Authors: Tomohiko Nakamura, Eita Nakamura, Shigeki Sagayama

2015

Convolutive Blind Source Separation Using an Iterative Least-Squares Algorithm for Non-Orthogonal Approximate Joint Diagonalization

Authors: Shinya Saito, Kunio Oishi, Toshihiro Furukawa

A Deep Generative Architecture for Postfiltering in Statistical Parametric Speech Synthesis

Authors: Ling-Hui Chen, Tuomo Raitio, Cassia Valentini-Botinhao, Zhen-Hua Ling, Junichi Yamagishi

Summarizing a Document by Trimming the Discourse Tree

Authors: Tsutomu Hirao, Masaaki Nishino, Yasuhisa Yoshida, Jun Suzuki, Norihito Yasuda, Masaaki Nagata

High-Precision Harmonic Distortion Level Measurement of a Loudspeaker Using Adaptive Filters in a Noisy Environment

Authors: Toyota Fujioka, Yoshifumi Nagata, Masato Abe

Optimal Coding of Generalized-Gaussian-Distributed Frequency Spectra for Low-Delay Audio Coder With Powered All-Pole Spectrum Estimation

Authors: Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, Takehiro Moriya

Summarization Based on Task-Oriented Discourse Parsing

Authors: Xun Wang, Yasuhisa Yoshida, Tsutomu Hirao, Katsuhito Sudoh, Masaaki Nagata

AutoGuitarTab: Computer-Aided Composition of Rhythm and Lead Guitar Parts in the Tablature Space

Authors: Matt McVicar, Satoru Fukayama, Masataka Goto

Bilingual Continuous-Space Language Model Growing for Statistical Machine Translation

Authors: Rui Wang, Hai Zhao, Bao-Liang Lu, Masao Utiyama, Eiichiro Sumita

Generative Modeling of Voice Fundamental Frequency Contours

Authors: Hirokazu Kameoka, Kota Yoshizato, Tatsuma Ishihara, Kento Kadowaki, Yasunori Ohishi, Kunio Kashino

Multichannel Signal Separation Combining Directional Clustering and Nonnegative Matrix Factorization with Spectrogram Restoration

Authors: Daichi Kitamura, Hiroshi Saruwatari, Hirokazu Kameoka, Yu Takahashi, Kazunobu Kondo, Satoshi Nakamura

Voice Conversion Using RNN Pre-Trained by Recurrent Temporal Restricted Boltzmann Machines

Authors: Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki

Automatic Speech Recognition for Mixed Dialect Utterances by Mixing Dialect Language Models

Authors: Naoki Hirayama, Koichiro Yoshino, Katsutoshi Itoyama, Shinsuke Mori, Hiroshi G. Okuno

Automatic Expressive Opinion Sentence Generation for Enjoyable Conversational Systems

Authors: Yoichi Matsuyama, Akihiro Saito, Shinya Fujie, Tetsunori Kobayashi

Resolution Warped Spectral Representation for Low-Delay and Low-Bit-Rate Audio Coder

Authors: Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, Takehiro Moriya

2014

AutoMashUpper: automatic creation of multi-song music mashups

Authors: Matthew E. P. Davies, Philippe Hamel, Kazuyoshi Yoshii, Masataka Goto

Nonparametric Bayesian dereverberation of power spectrograms based on infinite-order autoregressive processes

Authors: Akira Maezawa, Katsutoshi Itoyama, Kazuyoshi Yoshii, Hiroshi G. Okuno

Multichannel sound source dereverberation and separation for arbitrary number of sources based on Bayesian nonparametrics

Authors: Takuma Otsuka, Katsuhiko Ishiguro, Takuya Yoshioka, Hiroshi Sawada, Hiroshi G. Okuno

Harmonic/percussive sound separation based on anisotropic smoothness of spectrograms

Authors: Hideyuki Tachibana, Nobutaka Ono, Hirokazu Kameoka, Shigeki Sagayama

Simultaneous Optimization of Acoustic Echo Reduction, Speech Dereverberation, and Noise Reduction against Mutual Interference

Authors: Masahito Togami and Yohei Kawaguchi

Wave Field Reconstruction Filtering in Cylindrical Harmonic Domain for With-Height Recording and Reproduction

Authors: Shoichi Koyama, Ken'ichi Furuya, Yusuke Hiwasaki, Yoichi Haneda, Yiti Suzuki

A Synthesis Model With Intuitive Control Capabilities for Rolling Sounds

Authors: Simon Conan, Olivier Derrien, Mitsuko Aramaki, Slvi Ystad, Richard Kronland-Martinet

Dependency Parse Reranking with Rich Subtree Features

Authors: Mo Shen, Daisuke Kawahara, Sadao Kurohashi

Bayesian Nonparametrics for Microphone Array Processing

Authors: Takuma Otsuka, Katsuhiko Ishiguro, Hiroshi Sawada, Hiroshi G. Okuno

Location Feature Integration for Clustering-Based Speech Separation in Distributed Microphone Arrays

Authors: Mehrez Souden, Keisuke Kinoshita, Marc Delcroix, Tomohiro Nakatani

A MAP-based Online Estimation Approach to Ensemble Speaker and Speaking Environment Modeling

Authors: Yu Tsao, Shigeki Matsuda, Chiori Hori, Hideki Kashioka, Chin-Hui Lee

Alaryngeal Speech Enhancement Based on One-to-Many Eigenvoice Conversion

Authors: Hironori Doi, Tomoki Toda, Keigo Nakamura, Hiroshi Saruwatari, Kiyohiro Shikano

Singing Voice Enhancement in Monaural Music Signals Based on Two-stage Harmonic/Percussive Sound Separation on Multiple Resolution Spectrograms

Authors: Hideyuki Tachibana, Nobutaka Ono, Shigeki Sagayama

2013

Dominance Based Integration of Spatial and Spectral Features for Speech Enhancement

Authors: Tomohiro Nakatani, Shoko Araki, Takuya Yoshioka, Marc Delcroix, Masakiyo Fujimoto

Diffused Sensing for Sharp Directive Beamforming

Authors: Kenta Niwa, Yusuke Hioka, Ken'ichi Furuya, Yoichi Haneda

Scalable Speech Coding for IP Networks: Beyond iLBC

Authors: Koji Seto and Tokunbo Ogunfunmi

Non-Negative Temporal Decomposition of Speech Parameters by Multiplicative Update Rules

Author: Sadao Hiroya

Feature Enhancement With Joint Use of Consecutive Corrupted and Noise Feature Vectors With Discriminative Region Weighting

Authors: Masayuki Suzuki, Takuya Yoshioka, Shinji Watanabe, Nobuaki Minematsu, Keikichi Hirose

Noise Model Transfer: Novel Approach to Robustness Against Nonstationary Noise

Authors: Takuya Yoshioka and Tomohiro Nakatani

Sound Source Localization Using Joint Bayesian Estimation With a Hierarchical Noise Model

Authors: Futoshi Asano, Hideki Asoh, Kazuhiro Nakadai

Dynamic Bayesian Networks for Symbolic Polyphonic Pitch Modeling

Authors: Stanislaw Andrzej Raczynski, Emmanuel Vincent, Shigeki Sagayama

A Multichannel MMSE-Based Framework for Speech Source Separation and Noise Reduction

Authors: Mehrez Souden, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani, Hiroshi Sawada

Optimized Speech Dereverberation From Probabilistic Perspective for Time Varying Acoustic Transfer Function

Authors: Masahito Togami, Yohei Kawaguchi, Ryu Takeda, Yasunari Obuchi, Nobuo Nukaga

Underdetermined Sound Source Separation Using Power Spectrum Density Estimated by Combination of Directivity Gain

Authors: Yusuke Hioka, Ken'ichi Furuya, Kazunori Kobayashi, Kenta Niwa, Yoichi Haneda

Multichannel Extensions of Non-Negative Matrix Factorization With Complex-Valued Data

Authors: Hiroshi Sawada, Hirokazu Kameoka, Shoko Araki, Naonori Ueda

Analytical Approach to Wave Field Reconstruction Filtering in Spatio-Temporal Frequency Domain

Authors: Shoichi Koyama, Ken'ichi Furuya, Yusuke Hiwasaki, Yoichi Haneda

Articulatory Control of HMM-Based Parametric Speech Synthesis Using Feature-Space-Switched Multiple Regression

Authors: Zhen-Hua Ling, Korin Richmond, Junichi Yamagishi

2012

Generalization of Multi-Channel Linear Prediction Methods for Blind MIMO Impulse Response Shortening

Authors: Takuya Yoshioka and Tomohiro Nakatani

Audio Watermarking Using Spatial Masking and Ambisonics

Author: Ryouichi Nishimura

A Ray Tracing Simulation of Sound Diffraction Based on the Analytic Secondary Source Model

Authors: Masashi Okada, Takao Onoye, Wataru Kobayashi

Statistical Voice Conversion Techniques for Body-Conducted Unvoiced Speech Enhancement

Authors: Tomoki Toda, Mikihiro Nakagiri, Kiyohiro Shikano

Structural Classification Methods Based on Weighted Finite-State Transducers for Automatic Speech Recognition

Authors: Yotaro Kubo, Shinji Watanabe, Takaaki Hori, Atsushi Nakamura

Evaluation of Speaker Verification Security and Detection of HMM-Based Synthetic Speech

Authors: Phillip L. De Leon, Michael Pucher, Junichi Yamagishi, Inma Hernez, Ibon Saratxaga

Musical-Noise-Free Speech Enhancement Based on Optimized Iterative Spectral Subtraction

Authors: Ryoichi Miyazaki, Hiroshi Saruwatari, Takayuki Inoue, Yu Takahashi, Kiyohiro Shikano, Kazunobu Kondo

Reproducing Virtual Sound Sources in Front of a Loudspeaker Array Using Inverse Wave Propagator

Authors: Shoichi Koyama, Ken'ichi Furuya, Yusuke Hiwasaki, Yoichi Haneda

Statistical Voice Conversion Based on Noisy Channel Model

Authors: Daisuke Saito, Shinji Watanabe, Atsushi Nakamura, Nobuaki Minematsu

Bitext Dependency Parsing With Auto-Generated Bilingual Treebank

Authors: Wenliang Chen, Jun'ichi Kazama, Min Zhang, Yoshimasa Tsuruoka, Yujie Zhang, Yiou Wang, Kentaro Torisawa, Haizhou Li

Topic-Dependent-Class-Based $n$-Gram Language Model

Authors: Welly Naptali, Masatoshi Tsuchiya, Seiichi Nakagawa

An Efficient Time-Frequency Method for Synthesizing Noisy Sounds With Short Transients and Narrow Spectral Components

Authors: Damin Marelli, Mitsuko Aramaki, Richard Kronland-Martinet, Charles Verron

Speaker Identification and Verification by Combining MFCC and Phase Information

Authors: Seiichi Nakagawa, Longbiao Wang, Shinji Ohtsuka

Round-Robin Duel Discriminative Language Models

Authors: Takanobu Oba, Takaaki Hori, Atsushi Nakamura, Akinori Ito

A Nonparametric Bayesian Multipitch Analyzer Based on Infinite Latent Harmonic Allocation

Authors: Kazuyoshi Yoshii and Masataka Goto

Product of Experts for Statistical Parametric Speech Synthesis

Authors: Heiga Zen, Mark J. F. Gales, Yoshihiko Nankaku, Keiichi Tokuda

Errata to "Using Steady-State Suppression to Improve Speech Intelligibility in Reverberant Environments for Elderly Listeners"

Authors: Takayuki Arai, Nao Hodoshima, Keiichi Yasu

Low-Latency Real-Time Meeting Recognition and Understanding Using Distant Microphones and Omni-Directional Camera

Authors: Takaaki Hori, Shoko Araki, Takuya Yoshioka, Masakiyo Fujimoto, Shinji Watanabe, Takanobu Oba, Atsunori Ogawa, Kazuhiro Otsuka, Dan Mikami, Keisuke Kinoshita, Tomohiro Nakatani, Atsushi Nakamura, Junji Yamato

Probabilistic Speaker Diarization With Bag-of-Words Representations of Speaker Angle Information

Authors: Katsuhiko Ishiguro, Takeshi Yamada, Shoko Araki, Tomohiro Nakatani, Hiroshi Sawada

Integrating Additional Chord Information Into HMM-Based Lyrics-to-Audio Alignment

Authors: Matthias Mauch, Hiromasa Fujihara, Masataka Goto

Introduction to the Special Section on Deep Learning for Speech and Language Processing

Authors: Dong Yu, Geoffrey E. Hinton, Nelson Morgan, Jen-Tzung Chien, Shigeki Sagayama

2011

Estimating Direct-to-Reverberant Energy Ratio Using D/R Spatial Correlation Matrix Model

Authors: Yusuke Hioka, Kenta Niwa, Sumitaka Sakauchi, Ken'ichi Furuya, Youichi Haneda

Improving Performance of Hybrid Active Noise Control Systems for Uncorrelated Narrowband Disturbances

Authors: Muhammad Tahir Akhtar and Wataru Mitsuhashi

Diffuse Noise Suppression Using Crystal-Shaped Microphone Arrays

Authors: Nobutaka Ito, Hikaru Shimizu, Nobutaka Ono, Shigeki Sagayama

An Attempt to Calibrate Headphones for Reproduction of Sound Pressure at the Eardrum

Authors: Ryouichi Nishimura, Parham Mokhtari, Hironori Takemoto, Hiroaki Kato

Theoretical Analysis of Musical Noise in Generalized Spectral Subtraction Based on Higher Order Statistics

Authors: Takayuki Inoue, Hiroshi Saruwatari, Yu Takahashi, Kiyohiro Shikano, Kazunobu Kondo

Musical Noise Controllable Algorithm of Channelwise Spectral Subtraction and Adaptive Beamforming Based on Higher Order Statistics

Authors: Hiroshi Saruwatari, Yohei Ishikawa, Yu Takahashi, Takayuki Inoue, Kiyohiro Shikano, Kazunobu Kondo

Beyond Timbral Statistics: Improving Music Classification Using Percussive Patterns and Bass Lines

Authors: Emiru Tsunoo, George Tzanetakis, Nobutaka Ono, Shigeki Sagayama

Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment

Authors: Hiroshi Sawada, Shoko Araki, Shoji Makino

Controlling the Perceived Material in an Impact Sound Synthesizer

Authors: Mitsuko Aramaki, Mireille Besson, Richard Kronland-Martinet, Slvi Ystad

Continuous Stochastic Feature Mapping Based on Trajectory HMMs

Authors: Heiga Zen, Yoshihiko Nankaku, Keiichi Tokuda

HMM-Based Speech Synthesis Utilizing Glottal Inverse Filtering

Authors: Tuomo Raitio, Antti Suni, Junichi Yamagishi, Hannu Pulakka, Jani Nurminen, Martti Vainio, Paavo Alku

Blind Separation and Dereverberation of Speech Mixtures by Joint Optimization

Authors: Takuya Yoshioka, Tomohiro Nakatani, Masato Miyoshi, Hiroshi G. Okuno

2010

Time-Frequency Synthesis of Noisy Sounds With Narrow Spectral Components

Authors: Damin Marelli, Mitsuko Aramaki, Richard Kronland-Martinet, Charles Verron

Using Steady-State Suppression to Improve Speech Intelligibility in Reverberant Environments for Elderly Listeners

Authors: Takayuki Arai, Nao Hodoshima, Keiichi Yasu

Robust Speech Recognition Based on Dereverberation Parameter Optimization Using Acoustic Model Likelihood

Authors: Randy Gomez and Tatsuya Kawahara

Introduction to the Special Issue on Processing Reverberant Speech: Methodologies and Applications

Authors: Tomohiro Nakatani, Walter Kellermann, Patrick A. Naylor, Masato Miyoshi, Biing-Hwang Juang

Speech Dereverberation Based on Variance-Normalized Delayed Linear Prediction

Authors: Tomohiro Nakatani, Takuya Yoshioka, Keisuke Kinoshita, Masato Miyoshi, Biing-Hwang Juang

Statistical Transformation of Language and Pronunciation Models for Spontaneous Speech Recognition

Authors: Yuya Akita and Tatsuya Kawahara

Penalized Logistic Regression With HMM Log-Likelihood Regressors for Speech Recognition

Authors: ystein Birkenes, Tomoko Matsui, Kunio Tanabe, Sabato Marco Siniscalchi, Tor Andr Myrvoll, Magne Hallstein Johnsen

Analysis and Recognition of NAM Speech Using HMM Distances and Visual Information

Authors: Panikos Heracleous, V.-A. Tran, Takayuki Nagai, Kiyohiro Shikano

Speech Activity Detection for Multi-Party Conversation Analyses Based on Likelihood Ratio Test on Spatial Magnitude

Authors: Kentaro Ishizuka, Shoko Araki, Tatsuya Kawahara

Speech Spectrum Modeling for Joint Estimation of Spectral Envelope and Fundamental Frequency

Authors: Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama

Blind Source Separation With Parameter-Free Adaptive Step-Size Method for Robot Audition

Authors: Hirofumi Nakajima, Kazuhiro Nakadai, Yuji Hasegawa, Hiroshi Tsujino

A 3-D Immersive Synthesizer for Environmental Sounds

Authors: Charles Verron, Mitsuko Aramaki, Richard Kronland-Martinet, Grgory Pallone

Optimum Loss Factor for a Perfectly Matched Layer in Finite-Difference Time-Domain Acoustic Simulation

Authors: Parham Mokhtari, Hironori Takemoto, Ryouichi Nishimura, Hiroaki Kato

Introduction to the Special Section on Voice Transformation

Authors: Yannis Stylianou, Tomoki Toda, Chung-Hsien Wu, Alexander Kain, Olivier Rosec

Synthesis of Child Speech With HMM Adaptation and Voice Conversion

Authors: Oliver Watts, Junichi Yamagishi, Simon King, Kay Berkling

Thousands of Voices for HMM-Based Speech Synthesis-Analysis and Application of TTS Systems Built on Various ASR Corpora

Authors: Junichi Yamagishi, Bela Usabaev, Simon King, Oliver Watts, John Dines, Jilei Tian, Yong Guan, Rile Hu, Keiichiro Oura, Yi-Jian Wu, Keiichi Tokuda, Reima Karhila, Mikko Kurimo

Editorial for the Special Issue on Signal Models and Representations of Musical and Environmental Sounds

Authors: Bertrand David, Masataka Goto, Laurent Daudet, Paris Smaragdis

A Modeling of Singing Voice Robust to Accompaniment Sounds and Its Application to Singer Identification and Vocal-Timbre-Similarity-Based Music Information Retrieval

Authors: Hiromasa Fujihara, Masataka Goto, Tetsuro Kitahara, Hiroshi G. Okuno

Predictor-Corrector Adaptation by Using Time Evolution System With Macroscopic Time Scale

Authors: Shinji Watanabe and Atsushi Nakamura

2009

Music Recommendation Based on Acoustic Features and User Access Patterns

Authors: Bo Shao, Mitsunori Ogihara, Dingding Wang, Tao Li

Integrating Articulatory Features Into HMM-Based Parametric Speech Synthesis

Authors: Zhen-Hua Ling, Korin Richmond, Junichi Yamagishi, Ren-Hua Wang

Robust Speaker-Adaptive HMM-Based Text-to-Speech Synthesis

Authors: Junichi Yamagishi, Takashi Nose, Heiga Zen, Zhen-Hua Ling, Tomoki Toda, Keiichi Tokuda, Simon King, Steve Renals

Beamforming With a Maximum Negentropy Criterion

Authors: Ken'ichi Kumatani, John W. McDonough, Barbara Rauch, Dietrich Klakow, Philip N. Garner, Weifeng Li

Suppression of Late Reverberation Effect on Speech Signal Using Long-Term Multiple-step Linear Prediction

Authors: Keisuke Kinoshita, Marc Delcroix, Tomohiro Nakatani, Masato Miyoshi

Frequency-Domain Pearson Distribution Approach for Independent Component Analysis (FD-Pearson-ICA) in Blind Source Separation

Authors: Hiroko Kato Solvang, Yuichi Nagahara, Shoko Araki, Hiroshi Sawada, Shoji Makino

Blind Spatial Subtraction Array for Speech Enhancement in Noisy Environment

Authors: Yu Takahashi, Tomoya Takatani, Keiichi Osako, Hiroshi Saruwatari, Kiyohiro Shikano

Static and Dynamic Variance Compensation for Recognition of Reverberant Speech With Dereverberation Preprocessing

Authors: Marc Delcroix, Tomohiro Nakatani, Shinji Watanabe

Indeterminacy Free Frequency-Domain Blind Separation of Reverberant Audio Sources

Authors: Leandro E. Di Persia, Diego H. Milone, Masuzo Yanagida

Integrated Speech Enhancement Method Using Noise Suppression and Dereverberation

Authors: Takuya Yoshioka, Tomohiro Nakatani, Masato Miyoshi

Binaural Localization Based on Weighted Wiener Gain Improved by Incremental Source Attenuation

Authors: Yoshifumi Nagata, Satoshi Iwasaki, Takahiko Hariyama, Toyota Fujioka, Tomita Obara, Takayuki Wakatake, Masato Abe

Analysis of Speaker Adaptation Algorithms for HMM-Based Speech Synthesis and a Constrained SMAPLR Adaptation Algorithm

Authors: Junichi Yamagishi, Takao Kobayashi, Yuji Nakano, Katsumi Ogata, Juri Isogai

2008

Speech Dereverberation Based on Maximum-Likelihood Estimation With Time-Varying Gaussian Source Model

Authors: Tomohiro Nakatani, Biing-Hwang Juang, Takuya Yoshioka, Keisuke Kinoshita, Marc Delcroix, Masato Miyoshi

Stochastic Analysis of the FXLMS-Based Narrowband Active Noise Control System

Authors: Yegui Xiao, Akira Ikuta, Liying Ma, Khashayar Khorasani

Efficient Acoustic Echo Cancellation With Reduced-Rank Adaptive Filtering Based on Selective Decimation and Adaptive Interpolation

Authors: Masahiro Yukawa, Rodrigo C. de Lamare, Raimundo Sampaio Neto

Specmurt Analysis of Polyphonic Music Signals

Authors: Shoichiro Saito, Hirokazu Kameoka, Keigo Takahashi, Takuya Nishimoto, Shigeki Sagayama

A Quick Search Method for Audio Signals Based on a Piecewise Linear Representation of Feature Trajectories

Authors: Akihiro Kimura, Kunio Kashino, Takayuki Kurozumi, Hiroshi Murase

Computational Models of Similarity for Drum Samples

Authors: Elias Pampalk, Perfecto Herrera, Masataka Goto

An Efficient Hybrid Music Recommender System Using an Incrementally Trainable Probabilistic Generative Model

Authors: Kazuyoshi Yoshii, Masataka Goto, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno

A Cascaded Broadcast News Highlighter

Authors: Heidi Christensen, Yoshihiko Gotoh, Steve Renals

A Method for Automatic Detection of Vocal Fry

Authors: Carlos Toshinori Ishi, Ken-Ichi Sakakibara, Hiroshi Ishiguro, Norihiro Hagita

2007

Adaptive Beamforming With a Minimum Mutual Information Criterion

Authors: Ken'ichi Kumatani, Tobias Gehrig, Uwe Mayer, Emilian Stoimenov, John W. McDonough, Matthias Wlfel

Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory

Authors: Tomoki Toda, Alan W. Black, Keiichi Tokuda

Dereverberation and Denoising Using Multichannel Linear Prediction

Authors: Marc Delcroix, Takafumi Hikichi, Masato Miyoshi

Spatio-Temporal FastICA Algorithms for the Blind Separation of Convolutive Mixtures

Authors: Scott C. Douglas, Malay Gupta, Hiroshi Sawada, Shoji Makino

Robust Speech Dereverberation Using Multichannel Blind Deconvolution With Spectral Subtraction

Authors: Ken'ichi Furuya and Akitoshi Kataoka

Grouping Separated Frequency Components by Estimating Propagation Model Parameters in Frequency-Domain Blind Source Separation

Authors: Hiroshi Sawada, Shoko Araki, Ryo Mukai, Shoji Makino

Adaptive Parallel Quadratic-Metric Projection Algorithms

Authors: Masahiro Yukawa, Konstantinos Slavakis, Isao Yamada

Multichannel Bin-Wise Robust Frequency-Domain Adaptive Filtering and Its Application to Adaptive Beamforming

Authors: Wolfgang Herbordt, Herbert Buchner, Satoshi Nakamura, Walter Kellermann

Efficient WFST-Based One-Pass Decoding With On-The-Fly Hypothesis Rescoring in Extremely Large Vocabulary Continuous Speech Recognition

Authors: Takaaki Hori, Chiori Hori, Yasuhiro Minami, Atsushi Nakamura

Single and Multiple F0 Contour Estimation Through Parametric Spectrogram Modeling of Speech in Noisy Environments

Authors: Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Alain de Cheveign, Shigeki Sagayama

A Multipitch Analyzer Based on Harmonic Temporal Structured Clustering

Authors: Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama

Single-Mixture Audio Source Separation by Subspace Decomposition of Hilbert Spectrum

Authors: M. Khademul Islam Molla and Keikichi Hirose

On Active Noise Control Systems With Online Acoustic Feedback Path Modeling

Authors: Muhammad Tahir Akhtar, Masahide Abe, Masayuki Kawamata

Precise Dereverberation Using Multichannel Linear Prediction

Authors: Marc Delcroix, Takafumi Hikichi, Masato Miyoshi

Geometrically Constrained Independent Component Analysis

Authors: Mirko Knaak, Shoko Araki, Shoji Makino

Two-Dimensional DOA Estimation of Sound Sources Based on Weighted Wiener Gain Exploiting Two-Directional Microphones

Authors: Yoshifumi Nagata, Toyota Fujioka, Masato Abe

Out-of-Domain Utterance Detection Using Classification Confidences of Multiple Topics

Authors: Ian R. Lane, Tatsuya Kawahara, Tomoko Matsui, Satoshi Nakamura

Discriminative Training for Large-Vocabulary Speech Recognition Using Minimum Classification Error

Authors: Erik McDermott, Timothy J. Hazen, Jonathan Le Roux, Atsushi Nakamura, Shigeru Katagiri

Harmonicity-Based Blind Dereverberation for Single-Channel Speech Signals

Authors: Tomohiro Nakatani, Keisuke Kinoshita, Masato Miyoshi

Drum Sound Recognition for Polyphonic Audio Signals by Adaptation and Matching of Spectrogram Templates With Harmonic Structure Suppression

Authors: Kazuyoshi Yoshii, Masataka Goto, Hiroshi G. Okuno

2006

A Dynamic Compressive Gammachirp Auditory Filterbank

Authors: Toshio Irino and Roy D. Patterson

Speech Segregation Using an Auditory Vocoder With Event-Synchronous Enhancements

Authors: Toshio Irino, Roy D. Patterson, Hideki Kawahara

Impairment Factor Framework for Wide-Band Speech Codecs

Authors: Sebastian Mller, Alexander Raake, Nobuhiko Kitawaki, Akira Takahashi, Marcel Wltermann

Fast Implementation of KLT-Based Speech Enhancement Using Vector Quantization

Authors: Yoshifumi Nagata, K. Mitsubori, T. Kagi, Toyota Fujioka, Masato Abe

Blind Extraction of Dominant Target Sources Using ICA and Time-Frequency Masking

Authors: Hiroshi Sawada, Shoko Araki, Ryo Mukai, Shoji Makino

Objective Assessment Methodology for Estimating Conversational Quality in VoIP

Authors: Akira Takahashi, Atsuko Kurashima, Hideaki Yoshino

A New Robust Narrowband Active Noise Control System in the Presence of Frequency Mismatch

Authors: Yegui Xiao, Liying Ma, Khashayar Khorasani, Akira Ikuta

Performance Estimation of Speech Recognition System Under Noise Conditions Using Objective Quality Measures and Artificial Voice

Authors: Takeshi Yamada, Masakazu Kumakura, Nobuhiko Kitawaki

Lossless Audio Coding Using the IntMDCT and Rounding Error Shaping

Authors: Yoshikazu Yokotani, Ralf Geiger, G. D. T. Schuller, Soontorn Oraintara, K. R. Rao

A chorus section detection method for musical audio signals and its application to a music listening station

Author: Masataka Goto

Comparative study on corpora for speech translation

Authors: Gen-ichiro Kikui, Seiichi Yamamoto, Toshiyuki Takezawa, Eiichiro Sumita

Sinusoidal model based on instantaneous frequency attractors

Authors: Toshihiko Abe and Masaaki Honda

Modeling the effects of emphasis and question on fundamental frequency contours of Cantonese utterances

Authors: Wentao Gu, Keikichi Hirose, Hiroya Fujisaki

Stereo width control using interpolation and extrapolation of time-frequency representation

Authors: T. Umayahara, Haruhide Hokari, Shoji Shimada

Reliable methods for estimating relative vocal tract lengths from formant trajectories of common words

Authors: Akira Watanabe and Tadashi Sakata

Automatic determination of acoustic model topology using variational Bayesian estimation and clustering for large vocabulary continuous speech recognition

Authors: Shinji Watanabe, Atsushi Sako, Atsushi Nakamura

A new variable step size LMS algorithm-based method for improved online secondary path modeling in active noise control systems

Authors: Muhammad Tahir Akhtar, Masahide Abe, Masayuki Kawamata

Common-acoustical-pole and residue model and its application to spatial interpolation and extrapolation of a room transfer function

Authors: Yoichi Haneda, Yutaka Kaneda, Nobuhiko Kitawaki