日本語の自然な話しことばのコーパス。国立国語研究所、情報通信研究機構、東京外国語大学が共同開発。モノローグ(独白)を中心として、約660時間、700万語の話しことばを集積しており、音声コーパスとしては世界最大規模。自然音声をエ学的に処理する技術開発の成果といえよう。音声データは書き起こされ、テキスト化されている。これには品詞分析がなされている。また、本コーパスの一部(約45時間、50万語)はコアと呼ばれ、書き起こしと品詞分析に加え、分節音ラべルとイントネーションラべルが付加されている。他にも重要な分析情報が追加されつつある。なお、現在、本コーパスはモノローグに限定されているが、いずれは対話や会話のデータも取り込む予定。