Naoaki Okazaki

岡崎 直観

教授,博士(情報理工学)

東京工業大学 情報理工学院 情報工学系 知能情報コース

  •  

ごあいさつ

東京工業大学で自然言語処理,人工知能,機械学習に関する研究をしています. 自然言語処理,すなわち言葉を理解する計算機を真に実現するには,人間の持つ常識的な知識を大量の言語データから自動的に学習する仕組みが欠かせません. そこで,単語や句の意味表現の学習,関係知識や因果関係知識の自動獲得,知識の柔軟な検索,知識の自動集約などの研究テーマに取り組んでいます. さらに,こうした研究をデータからの社会観測,特に,言語ビッグデータから人々の文脈や意見を分析するという応用に展開しています. 研究・応用の基盤技術として,確率モデルや深層ニューラル・ネットワークなどの機械学習に関する研究開発も進めています.

研究室では,研究すなわち「研ぎ澄まし究めること」の楽しさを,学生さんと一緒に体験することを重視しています. 研究では,テーマ設定,文献調査,計画立案,手法の開発,データ作成,評価実験,研究発表,論文執筆など,様々な段階を乗り越える必要があります. これらの段階を一通り体験することで,課題設定力やコミュニケーション能力といった素養を身に着けながら,アカデミアや産業界で活躍する人材を輩出したいと考えています.

幸いなことに,自然言語処理や人工知能の研究は産業応用との距離が近く,研究で身につけた技術やスキルを活かせる機会がたくさんあります. 講演や言語処理100本ノック等の活動を通して,自然言語処理やデータ分析技術の普及を推進するとともに,共同研究,技術的なアドバイス,学生のインターンシップ等を通して,産学の交流を継続していきたいと考えています.

略歴

  • 2017年 教授, 東京工業大学 情報理工学院 情報工学系 知能情報コース(岡崎研究室)
  • 2011年 准教授, 東北大学 大学院情報科学研究科(乾・岡崎研究室)
  • 2009年 特任研究員, 東京大学 大学院情報学環(辻井研究室)
  • 2007年 特任研究員, 東京大学 大学院情報理工学系研究科(辻井研究室)
  • 2005年 リサーチフェロー, 英国国立テキストマイニングセンター(マンチェスター大学)
  • 2007年 東京大学大学院 情報理工学系研究科 電子情報学専攻 博士課程修了
  • 2003年 東京大学大学院 情報理工学系研究科 電子情報学専攻 修士課程修了
  • 2001年 東京大学工学部 電子情報工学科 卒業
  • 1997年 栃木県立宇都宮高等学校 普通科 卒業

講義

  • 情報基礎学第一・第二 (V5.6) (2017-)
  • 情報伝達学 (2011-2016) ※ 過去の講義 東北大学大学院情報科学研究科
  • プログラミング演習A (2011-2017) ※ 過去の講義 東北大学工学部
  • 電気・通信・電子・情報工学実験C (2013-2016) ※ 過去の講義 東北大学工学部
  • Basic Computer Science (2013-2016) ※ 過去の講義 東北大学工学部

ソフトウェア

CRFsuite

CRFSuiteは,条件付き確率場(CRF: Conditional Random Fields)に基づく系列ラベリングの実装です. このソフトウェアの最大の目標は,メモリ使用量やソースコードの汎用性を犠牲にする代わりに,CRF確率モデルの訓練とタグ付けをできるだけ高速化することです. CRFsuiteはC++を用いた既存の実装と比べ,5.4倍から61.8倍のスピードで確率モデルの訓練を行うことができます.

libLBFGS

libLBFGSは,準ニュートン法である Limited-memory Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) のC言語ライブラリです. FORTRANで記述されたソースコード(J. Nocedal氏作)を手作業でC言語に移植したもので,C言語としてのコードの読みやすさを追求しています. コールバックインタフェースによるスレッドセーフ化,SSE/SSE2対応など,独自の改良・最適化が施されています. L-BFGSを用いたアプリケーションの開発から,L-BFGS法の学習に向いています.

SimString

SimStringは,類似文字列検索のための高速かつシンプルなライブラリです. 類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列との類似度が閾値以上のものを,見つけ出す操作です. クエリ文字列と完全に一致しなくても,データベース中の似ている文字列を検索することができるので,スペル訂正,あいまい計算,柔軟な辞書マッチング,重複レコード検出,データベース統合など,様々なアプリケーションを構築できます.

Classias

Classiasは,分類のための機械学習アルゴリズムの実装です. 今のところ,L1/L2正則化ロジスティック回帰(最大エントロピー法),L1/L2正則化L1損失線形カーネルサポートベクトルマシン(SVM),平均化パーセプトロンに基づく分類モデルをサポートしています. 分類器を学習するアルゴリズムとして,Averaged perceptron,L-BFGS法,OWL-QN法,Pegasos,Truncated Gradientを実装しています.

C++ implementation of Constant Database (CDB++)

C++ implementation of Constant Database (CDB++) は,軽量な静的ハッシュデータベース・ライブラリです 一つのヘッダファイル (cdbpp.h) をインクルードするだけで,コンパクトなデータベースを高速に構築・検索できます. ただし,CDB++は動的な要素の更新・削除をサポートしません. CDB++は更新頻度の少ない大規模データベースを構築し,検索を頻繁に行うアプリケーションに向いています.

Static Double Array Trie (DASTrie)

Static Double Array Trie (DASTrie) は,静的ダブル配列に基づくトライのテンプレート・ライブラリです. DASTrieは,キーの辞書順に整列されたレコードから,静的なダブル配列を構築することに焦点を絞り,実装を簡素化・効率化しています. ライブラリのヘッダファイルをインクルードするだけで,STLのstd::mapのような連想配列,std::setのような集合を,任意のデータ型で実装できます.通常のダブル配列の実装では,トライのノードを8バイトで表現することが多いのに対し,DASTrieはノードを4バイト,もしくは5バイトで表現し,データベースをコンパクトにします.

学会活動(国際)

Executives

  • Members-at-Large (MAL), Asian Federation of Natural Language Processing (AFNLP), 2017-2018.

Editor for international journals

  • Editorial board, Computational Intelligence, January 2015 to December 2017.
  • Standing reviewer team, Transactions of the Association for Computational Linguistics, November 2014 to June 2018.

Reviewer for international journals

  • AI Communications (2014)
  • American Society for Information Science and Technology (2009)
  • Applied Clinical Informatics (2014)
  • Bioinformatics (2016, 2017)
  • BMC Bioinformatics (2010)
  • Cheminformatics (2014)
  • Computational Intelligence (2011, 2012, 2013)
  • Computers in Industry (2015)
  • Data and Knowledge Engineering (2016)
  • IEICE Transaction on Information and Systems (2010, 2012, 2016)
  • IEEE Transaction on Neural Networks and Learning Systems (2016)
  • Information Processing (2015)
  • Information Processing and Management (2011)
  • Information Sciences (2011)
  • Journal of Cheminformatics (2014)
  • Language Resources and Evaluation (2012)
  • Machine Learning Research (2009, 2012, 2015, 2016)
  • Transactions of the Association for Computational Linguistics (2014, 2015, 2016, 2017)
  • Transactions on Knowledge and Data Engineering (2012)
  • Transactions on Management Information Systems (2013)
  • Journal of Medical Internet Research (2017)

International conferences

  • General co-chairs, Young Researchers Symposium on Natural Language Processing 2016 (YRSNLP 2016)
  • Area co-chairs, ACL 2012 (for Lexical Semantics)
  • Area co-chairs, ACL 2016 (for Machine Learning)
  • Workshop co-chairs, IJCNLP 2013
  • Publication chair, EMNLP-CoNLL 2012
  • Program committee, AAAI 2011, 2014, 2015, 2017
  • Program committee, ACL 2009, 2010, 2013, 2015, 2016, 2017
  • Program committee, BigComp 2015, 2016
  • Program committee, BioNLP 2011, 2013, 2015, 2016, 2017
  • Program committee, BioTxtM 2012, 2014, 2016
  • Program committee, Coling 2008, 2010, 2012, 2014, 2016
  • Program committee, CoNLL 2014, 2015
  • Program committee, DTMBIO 2012
  • Program committee, EACL 2012, 2014, 2017
  • Program committee, EDB 2016
  • Program committee, EMNLP 2010, 2012, 2013, 2014, 2015, 2016, 2017
  • Program committee, IJCAI 2011, 2016
  • Program committee, IJCNLP 2011, 2017
  • Program committee, KIKE 2016
  • Program committee, NAACL 2016
  • Program committee, SMBM 2010, 2012
  • Program committee, W-NUT 2016, 2017

学会活動(国内)

役員等

  • NLP若手の会 共同運営委員長, 2015-2017年
  • 情報処理学会東北支部 広報幹事, 2012-2013年度

ジャーナル論文の編集委員

  • 情報処理学会論文誌データベース (TOD) 編集委員, 2015-2016年度
  • 人工知能学会誌・論文誌 編集委員, 2013年6月-2017年5月
  • 言語処理学会論文誌 編集委員, 2012年10月-2014年9月
  • 人工知能学会誌 学生編集委員, 2005-2007年度

ジャーナル論文の査読

  • 言語処理学会論文誌 (2011,2012,2013,2014,2016,2017)
  • 情報処理学会論文誌 (2008,2011,2012,2013)
  • 情報処理学会論文誌データベース (TOD) (2008,2010,2011,2012)
  • 情報処理学会デジタルプラクティス (2012)
  • 人工知能学会論文誌 (2008,2009,2010,2012,2013,2014,2016)
  • 電子情報通信学会論文誌 (2010,2015)

国内会議の運営

  • 情報処理学会 自然言語処理研究会 (NL) 幹事, 2014年度-2017年度
  • 第23回言語処理学会年次大会 プログラム委員, 2017年
  • 第22回言語処理学会年次大会 実行委員, 2016年
  • 第13回情報科学技術フォーラム(FIT 2014) 研究会担当委員, 2014年
  • 情報処理学会第75回全国大会 実行委員, 2013年
  • 第16回言語処理学会年次大会 実行委員, 2010年
  • NLP若手の会第4回シンポジウム プログラム委員, 2009年
  • NLP若手の会第3回シンポジウム プログラム委員, 2008年

公的機関への協力

  • 量子科学技術研究開発機構 放射線影響・放射線防護ナレッジベース運用委員会委員, 2017年度
  • 量子科学技術研究開発機構 放射線防護基準等の情報収集・発信事業検討委員会委員, 2016年度
  • 放射線医学総合研究所 放射線影響・放射線防護に関する知見の収集・整理委員会委員, 2014-2015年度
  • 国家公務員総合職試験工学区分(情報工学分科会)の試験専門委員(情報工学(ソフトウェア)), 2015-2016年試験実施分