2021年6月末に豊橋技術科学大学を退職し,7月より筑波大学のビジネスサイエンス系(経営学学位プログラム)に所属しています。

English version: researchmap

研究内容

ウェブ(インターネット)を便利に利用するための技術を研究しています。ウェブ工学(Web Engineering),ウェブサイエンス(Web Science),計算社会科学(Computational Social Science),自然言語処理(Natural Language Processing)と呼ばれる研究領域に興味があり,主にソーシャルメディアの分析及び活用に関する研究に携わっています。ツイートの内容(テキスト)からその投稿位置を推定したり,どのような学術文献(論文)が流行しているかを分析したりしています。ウェブ検索エンジンにおける検索頻度をオープンデータで推定し,ウェブ上のトレンドのメカニズムを解析する研究にも取り組んでいます。

以前はニュースやブログをはじめとするウェブページのコンテンツを自動抽出する研究を行っていました。ウェブページのコンテンツを抽出する事により,ウェブ検索エンジンの性能向上,ウェブページの研究利用促進などが期待されます。民間企業との共同研究を通じ,成果の一部は製品(ウェブサービス)に導入されています。

研究と開発は両輪であると考えています。ウェブサービスの開発もしており、現存する日本語のロボット型ニュース検索エンジンとしては最古となる Ceek.jp News や、日本語の学術文献の社会的インパクトを測定する Ceek.jp Altmetrics などの運用を続けています。

共同研究を積極的に進めています。内容は多岐にわたりますが,ウェブクローリング,研究成果のプロトタイプシステムの構築で貢献できると思います。お気軽にご連絡下さい。現在,Twitterのサンプルストリーム(全言語:2020年1月1日~),位置情報付きツイート(日本国内:2011年5月20日~,全世界:2014年7月25日~,ほぼ全てをカバー),公式リツイート(日本語・英語:2013年7月2日~,その他の言語:2017年6月23日~),引用リツイート(日本語:2020年12月21日~,その他の言語:2020年12月8日~),ソーシャルグラフ月次観測(2014年1月~,計400万ユーザ程度を定点観測),日本語Webニュースデータ(2004年4月~)などの収集を継続しています。

民間企業との共同研究も積極的に実施しており,特に新規事業のための研究開発に携わるケースが多いです(自身も起業経験があり,会社代表を兼業しています)。共同研究の進め方や支援内容については「Gunosyが挑む産学連携~企業としてなぜ研究開発に注力するのか?」にまとまっています。

論文・講演など

図書

  1. 計算社会科学入門
    • 鳥海不二夫(編著), 石井晃, 岡田勇, 上東貴志, 小林哲郎, 榊剛史, 笹原和俊, 高野雅典, 瀧川裕貴, 常松淳, 三浦麻子, 水野貴之, 山本仁志, 吉田光男
    • 担当:第4章 データ収集・公開データセット
    • 丸善出版
    • 2021年1月
    • サポートページ

学術論文(学術雑誌・査読有り)

  1. Japanese conservative messages propagate to moderate users better than their liberal counterparts on Twitter
  2. Cross-Country Analysis of User Profiles for Graph-based Location Estimation
  3. Unified Likelihood Ratio Estimation for High- to Zero-frequency N-grams
  4. インターネット上のユーザの行動データを用いた論文の普遍性の分析手法
  5. ソーシャルメディアを用いた新型コロナ禍における感情変化の分析
  6. ソーシャルグラフによる居住地推定のためのユーザプロフィール分析
  7. VR system for spatio-temporal visualization of tweet data and support of map exploration
  8. Twitterからの言及数が多い論文は言及されたことのない論文と比べてタイトルが「面白い」
    • 佐藤翔, 石橋柚香, 南谷涼香, 奥田麻友, 保志育世, 吉田光男
    • 情報知識学会誌. vol.29, no.3, pp.268-283, 2019.
    • 2019年10月15日
  9. 観測頻度に基づくゆう度比の保守的な直接推定
  10. Profiling the Spatial Structure of London: From Individual Tweets to Aggregated Functional Zones
  11. Extraction of Tourist Destinations and Comparative Analysis of Preferences Between Foreign Tourists and Domestic Tourists on the Basis of Geotagged Social Media Data
  12. 講師のシルエットを透過表示した板書映像の生成とライブビューシステム
  13. ジオタグ付きツイートを用いた交通路の抽出法
  14. 条件付き確率の保守的な推定
  15. 日本の学協会誌掲載論文のオルトメトリクス付与状況
  16. 日本における居住地推定に利用するためのフォロー関係の調査
  17. トレンドキーワードに関するウェブリソースの横断的分析
  18. ツイート投稿位置推定のための単語フィルタリング手法
  19. ラベル伝搬によるトレンドクエリのカテゴリ推定
  20. ブログページ集合からのポストおよびコメント自動分離抽出手法
  21. 教師情報を必要としないニュースページ群からのコンテンツ自動抽出

解説論文等(招待論文)

  1. ソーシャルデータ分析のためのデータ収集
    • 吉田光男
    • Estrela. no.330, pp.2-7, 2021.
    • 2021年9月10日
  2. OS-1計算社会科学
  3. COVID-19流行下でのインフォデミック ―Twitterで流れたGoToトラベルに関する情報―
  4. COVID-19流行下におけるソーシャルメディア ―日本での状況と研究動向・公開データセット―
  5. 集合知による新たな研究評価
  6. レファレンス協同データベースの登録事例から垣間見る日本のレファレンスサービス
  7. ソーシャル言及数で論文に新たな評価軸
  8. オルトメトリクスは論文評価を変えるか -ソーシャルメディアで算出する新たな指標-
  9. 計量書誌学の新たな挑戦 -国産オルトメトリクス計測サービスの開発-
  10. ソーシャルメディアの政治的活用 ―活用事例と分析事例から―

国際会議・ワークショップ(査読有り・予稿集有り)

  1. Comparison of Indicators of Location Homophily Using Twitter Follow Graph
  2. Feature Selective Likelihood Ratio Estimator for Low- and Zero-frequency N-grams
  3. Comparing Two Counting Methods in Estimating Probabilities of Strings
  4. Visual Linking of Feature Values in Immersive Graph Visualization Environment
  5. Visualization of sub-network sets by iterative graph sampling from large scale networks
  6. Analysis of Short Dwell Time in Relation to User Interest in a News Application
  7. The metrics of keywords to understand the difference between Retweet and Like in each category
  8. Improving Association Rule Mining for Infrequent Items Using Direct Importance Estimation
  9. Improving Estimation of Conditional Probability for Determining Importance of a Bigram
  10. User's Centrality Analysis for Home Location Estimation
  11. Usefulness of Instructor Annotations on Flipped Learning Preparation Video System
  12. 3D Visualization of Network Including Nodes with Labels
  13. Tourist Behavior Analysis Using Instagram Hashtags
  14. Analysis of the Influence of Internet TV Station on Wikipedia Page Views
  15. Analysis of User Dwell Time on Non-News Pages
  16. Analysis of Bias in Gathering Information Between User Attributes in News Application
  17. Analysis of Information Polarization During Japan's 2017 Election
  18. Analysis of Political Party Twitter Accounts' Retweeters During Japan's 2017 Election
  19. Analysis of User Dwell Time by Category in News Application
  20. Journal Name Extraction from Japanese Scientific News Articles [DOI]
  21. Information Diffusion Power of Political Party Twitter Accounts During Japan's 2017 Election
  22. Non-overlapping Counting of String Using Suffix Array
  23. Direct Estimation of Likelihood Ratio for the Analysis of Context
  24. Response Collector: A Video Learning System for Flipped Classrooms
  25. VR System for Spatio-Temporal Visualization of Tweet Data
  26. Visualization of diffusion behavior pattern of influencers by genre on SNS
  27. Visualization of diffusion behavior patterns on Twitter
  28. Spatio-Temporal Visualization of Tweet Data Using VR
  29. Temporal Analysis of Online Social Graph by Home Location
  30. Spatio-Temporal Visualization of Tweet Data around Tokyo Disneyland Using VR
  31. Feature Selection for Composer Classification Method using Quantity of Information
  32. When Do Users Change Their Profile Information on Twitter?
  33. Home Location Estimation Using Weather Observation Data
  34. Computing Information Quantity as Similarity Measure for Music Classification Task
  35. Finding Association Rules by Direct Estimation of Likelihood Ratios
  36. Can We Estimate Others' Friendships with a Single Interaction Features on Twitter?
  37. Polysemy Detection in Distributed Representation of Word Sense
  38. Uncovering Information Flow Among Users by Time-Series Retweet Data: who is a friend of whom on Twitter?
  39. Preliminary Investigation for Japanese Comic Analysis using Wikipedia
  40. Analysis of Home Location Estimation with Iteration on Twitter Following Relationship
  41. Improving Compression Based Dissimilarity Measure for Music Score Analysis
  42. Realizing Half-Diminished Reality from Video Stream of Manipulating Objects
  43. Using Conservative Estimation for Conditional Probability instead of Ignoring Infrequent Case
  44. Decision Tree Analysis of Tourists' Preferences Regarding Tourist Attractions Using Geotag Data from Social Media (note)
  45. Confidence Interval of Probability Estimator of Laplace Smoothing
  46. Wikipedia Page View Reflects Web Search Trend
  47. Patterns in Interactive Tagging Networks
  48. Why Do You Follow Him? Multilinear Analysis on Twitter [DOI]
  49. Exploiting Twitter for Spiking Query Classification

国際会議・ワークショップ(査読有り・予稿集無し)

  1. Is User's Centrality Related to Hardness of Location Estimation?
  2. Conditional probability as Importance of Bigram
  3. Diversity of Political Information Received by Political Detachment Users on Social Media
  4. Do Political Detachment Users Receive Various Political Information on Social Media?

国内会議・ワークショップ(査読有り)

  1. 学術情報検索における閲覧論文の文献種別による分析
  2. 物体を操作する映像におけるHalf-Diminished Realityの実現 (ショート発表)
  3. トレンドキーワードに関するウェブリソースの横断的分析
  4. Webニュースを用いた未来情報年表の自動構築 (ポスター発表)
  5. CSSセレクタで表現されたコンテンツ抽出ルールの自動獲得

国内会議・ワークショップ(査読無し・受賞関係のみ抜粋)

  1. Twitter上のarXivプレプリントに関する学術情報流通のキーパーソンの特性分析
    • 嶋田恭助, 風間一洋, 吉田光男, 大向一輝, 佐藤翔, 桂井麻里衣
    • ARG 第16回Webインテリジェンスとインタラクション研究会
    • 2020年11月27日(金)~28日(土) at オンライン
    • 萌芽研究賞
  2. ソーシャルグラフにおけるユーザの中心性と居住地推定の難しさとの関係
    • 廣中詩織, 吉田光男, 梅村恭司
    • ARG 第14回Webインテリジェンスとインタラクション研究会
    • 2019年6月28日(金)~29日(土) at 兵庫県立大学神戸商科キャンパス(兵庫県神戸市)
    • スタートアップ賞
  3. ツイッターにおける政党公式アカウントのフォロワー特性分析
    • 鳥海不二夫, 吉田光男
    • ARG 第12回Webインテリジェンスとインタラクション研究会
    • 2018年6月17日(日)~18日(月) at 大久野島休暇村(広島県竹原市)
    • 優秀研究賞
  4. 検索行動量を用いた状態空間モデルによる自動車販売台数の予測
  5. NGA2015におけるユーザの情報収集と回遊行動の分析
  6. 重力モデルとTF-IDFを用いたジオタグ付きTwitterデータからの観光地抽出と魅力の評価
  7. Twitter位置情報・テキスト情報を用いた人の移動モデル構築と観光地推薦手法の提案
  8. 対象サービスに特化した日本語Webスペルチェッカーの開発 (データチャレンジ)
  9. 教師情報を必要としないWebページ群のコンテンツ自動抽出ツールの提案

その他の発表は researchmap の Misc をご覧ください

招待講演等

  1. Web・ソーシャルメディアを対象とするデータ収集・分析
  2. 社会現象を理解するためのデータの収集・分析
  3. ウェブデータの収集と学術情報分析
  4. ウェブマイニングのためのデータ収集と学術情報分析
  5. 産学連携によるコンテンツマーケティング技術の研究開発
  6. NGA2015におけるユーザの情報収集と回遊行動の分析
  7. Twitter位置情報・テキスト情報を用いた人の移動モデル構築と観光地推薦手法の提案
  8. ウェブマイニングのためのデータ収集と保存
  9. 不揃いなデータ達の分析を行う前のTips ― ウェブデータの収集と保存 ―
  10. トレンドと検索頻度とWikipediaページビューの三角関係
  11. 楽しい楽しい研究開発
  12. オルトメトリクスとは何か
    • 吉田光男
    • 平成26年度茨城県図書館協会大学図書館部会研修会
    • 2014年11月27日(木) at 筑波大学(茨城県つくば市)
  13. ソーシャルメディア上での学術文献の流通
  14. 学際的な研究とスタートアップ企業との産学連携
  15. 情報技術者・研究者の生きる道
    • 吉田光男
    • お茶の水女子大学附属高等学校 総合的な学習の時間「図書館情報メディア研究」
    • 2014年2月19日(水) at お茶の水女子大学附属高等学校(東京都文京区)
  16. 文献管理Tipsセミナー ―Mendeleyを使って―
    • 吉田光男
    • 筑波大学附属図書館 図書館講習会
    • 2013年7月16日(火) at 筑波大学(茨城県つくば市)
  17. 研究者から見た Mendeley
  18. 自然言語処理における企業と大学と学生の関係
  19. 開発運営を続ける楽しさ ~ニュース検索サイト CEEK.JP NEWS の開発を通じて~
  20. Web検索エンジンと共に
  21. 技術系サービスができるまで“日本発の検索エンジン”
    • 第2回WAZA CTOセミナー
    • 2006年7月29日(土) at 東京国際フォーラム(東京都千代田区)

学位論文

  1. ウェブ検索エンジンのためのテキスト種別特定に関する研究
  2. ブログページ集合からのポスト及びコメント自動分離抽出手法の研究
  3. 教師情報を必要としないWebページ群のコンテンツ自動抽出

ソフトウェア・デモシステム

  1. ExtractUniqueBlock - コンテンツ抽出(本文抽出) Perl モジュール

その他

  1. 日本学術振興会特別研究員(DC1)申請書
    • 2011年
  2. 第17回WI2研究会 学生参加報告

受賞・表彰

  1. Ryosuke Homma, Yoshifumi Seki, Mitsuo Yoshida, Kyoji Umemura. The 2020 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology, Best in Practice Paper Award, December 2020.
  2. 嶋田恭助, 風間一洋, 吉田光男, 大向一輝, 佐藤翔, 桂井麻里衣. 第16回Webインテリジェンスとインタラクション研究会, スタートアップ賞, 2020年11月.
  3. 廣中詩織, 吉田光男, 梅村恭司. 第14回Webインテリジェンスとインタラクション研究会, スタートアップ賞, 2019年6月.
  4. Hayato Okumoto, Mitsuo Yoshida, Kyoji Umemura, Yuko Ichikawa. The 2018 International Conference On Advanced Informatics: Concepts, Theory And Application, Best Paper Award, August 2018.
  5. 鳥海不二夫, 吉田光男. 第12回Webインテリジェンスとインタラクション研究会, 優秀研究賞, 2018年6月.
  6. 佐藤翔, 吉田光男. 情報知識学会, 第15回論文賞, 2018年5月.
  7. 山口太一, 角田孝昭, 吉田光男, 津川翔, 山本幹雄. 第3回コミュニケーションクオリティCQ基礎講座ワークショップ, 最優秀研究賞, 2017年1月.
  8. 前田高志ニコラス, 吉田光男, 鳥海不二夫, 大橋弘忠. 第9回Webインテリジェンスとインタラクション研究会, ステージ発表賞, 2016年12月.
  9. 吉田光男, 荒瀬由紀. 第9回 Webとデータベースに関するフォーラム, 論文賞 runners-up, 2016年9月.
  10. 前田高志ニコラス, 吉田光男, 鳥海不二夫, 大橋弘忠. 人工知能学会, 研究会優秀賞, 2016年6月.
  11. 風間一洋, 谷直樹, 榊剛史, 吉田光男. 第7回Webインテリジェンスとインタラクション研究会, 萌芽研究賞, 2015年11月.
  12. 前田高志ニコラス, 吉田光男, 鳥海不二夫, 大橋弘忠. 第7回Webインテリジェンスとインタラクション研究会, 学生奨励賞, 2015年11月.
  13. 吉田光男. 日本学生支援機構, 特に優れた業績による返還免除(半額), 2011年5月.
  14. 吉田光男. 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻, 専攻長表彰, 2011年3月.
  15. 角田孝昭, 澤田健都, 吉田光男. 第3回楽天研究開発シンポジウム, 最優秀データチャレンジ賞, 2010年12月.
  16. 吉田光男, 乾孝司, 山本幹雄. 楽天研究開発シンポジウム2009, 優秀論文賞, 2009年11月.
  17. 吉田光男, 山本幹雄. 第1回データ工学と情報マネジメントに関するフォーラム, 優秀インタラクティブ賞, 2009年3月.

研究資金(外部資金)

競争的外部資金(科研費)

  1. 日本学術振興会, 科学研究費補助金(基盤研究(B)・代表). 利用者の研究練度に応じた多様な観点を統合する学術情報システム. 2019年4月-2023年3月.
  2. 日本学術振興会, 科学研究費補助金(若手研究(B)・代表). ソーシャルメディアにおける学術文献言及量予測モデルの構築. 2016年4月-2018年3月. (2019年3月まで延長)
  3. 日本学術振興会, 科学研究費補助金(特別研究員奨励費・代表). 時空間メタデータ検索をキーワード検索に統合したウェブ検索エンジンの実現. 2011年4月-2014年3月.
  1. 日本学術振興会, 科学研究費補助金(基盤研究(B)・分担). 報道・議論の視点に着目した情報獲得支援に関する研究. 2021年4月-2025年3月.
  2. 日本学術振興会, 科学研究費補助金(基盤研究(C)・分担). 地方議会会議録を核とした発言地域情報付きテキストコーパスの定量分析. 2017年4月-2020年3月. (2018年から参加)
  3. 日本学術振興会, 科学研究費補助金(基盤研究(C)・分担). ソーシャルメディアにおける情報伝達現象理解のためのネットワーク解析と可視化. 2017年4月-2020年3月.
  4. 日本学術振興会, 科学研究費補助金(基盤研究(B)・分担). 議論の背景・過程・結果を関連づける地方政治コーパスの構築とその学際的応用. 2016年4月-2020年3月.
  5. 日本学術振興会, 科学研究費補助金(基盤研究(B)・分担). 歴史認識・領土問題を巡る世論とメディア環境に関する学際的日韓比較研究. 2015年7月-2019年3月. (2016年から参加)

競争的外部資金(科研費以外)

  1. 国立情報学研究所, 2020年度国立情報学研究所公募型共同研究. GIS・SNSデータを用いた重要伝統的建造物群保存地区の分析. 2020年4月-2021年3月.
  2. 国立情報学研究所, 2019年度国立情報学研究所公募型共同研究. 科学報道記事分析のための典拠論文データセットの構築. 2019年4月-2020年3月.
  3. 国立情報学研究所, 平成30年度国立情報学研究所公募型共同研究. 科学報道記事の信頼性分析のための典拠文献自動探索. 2018年4月-2019年3月.
  4. 国立情報学研究所, 平成29年度国立情報学研究所公募型共同研究. ウェブにおける言及行動をもとにした学術雑誌の評価. 2017年4月-2018年3月.
  5. 国立情報学研究所, 平成28年度国立情報学研究所公募型共同研究. 学術情報サービスにおける閲覧行動とウェブにおける言及行動を横断した文献注目度の分析. 2016年4月-2017年3月.
  6. 楽天技術研究所, 研究奨励金(楽天研究開発シンポジウム2009). CSSセレクタで表現されたコンテンツ抽出ルールの自動獲得. 2009年11月.
  1. 科学技術振興機構, 未来社会創造事業 探索加速型 「超スマート社会の実現」領域(異分野共創型のAI・シミュレーション技術を駆使した健全な社会の構築). 社会リスク可視化システム、及び社会リスクに適切に対応する意思決定システムの開発. 2020年11月-2023年3月.

競争的資金(学内)

  1. 豊橋技術科学大学, 平成30年度高専連携教育研究プロジェクト. 学校間の関係性を明示するシラバス横断閲覧システムの開発(長野工業高等専門学校 苅米志帆乃). 2018年6月-2019年3月.
  2. 豊橋技術科学大学, 平成29年度高専連携教育研究プロジェクト. ニューラルネットワークによる顔文字の原形推定(明石工業高等専門学校 奥村紀之). 2017年6月-2018年3月.
  3. 豊橋技術科学大学, 平成28年度高専連携教育研究プロジェクト. シラバスに対する高度検索閲覧システムの開発(長野工業高等専門学校 苅米志帆乃). 2016年7月-2017年3月.
  4. 豊橋技術科学大学, 平成27年度教育研究活性化経費. ソーシャルメディアを用いた学術文献評価指標の開発. 2015年7月-2016年3月.

民間企業等共同研究(共同研究費あり)・寄付金

プロジェクト参画(研究協力者等)

  1. 科学技術振興機構, 社会技術研究開発センター(RISTEX)「科学技術の倫理的・法制度的・社会的課題(ELSI)への包括的実践研究開発プログラム」. 現代メディア空間におけるELSI構築と専門知の介入. 2020年9月-2024年3月.
  2. 科学技術振興機構, 社会技術研究開発センター(RISTEX)「人と情報のエコシステム(HITE)」. PATH-AI:人間-AIエコシステムにおけるプライバシー、エージェンシー、トラストの文化を超えた実現方法. 2020年1月-2022年12月.

太字は継続中の研究資金です。民間企業との共同研究も積極的に実施しており,特に新規事業のための研究開発に携わるケースが多いです(自身も起業経験があり,会社代表を兼業しています)。お気軽にお問い合わせください。共同研究の進め方や支援内容については「豊橋技術科学大学とGunosyの共同研究~産学連携は何をもたらすのか」にまとまっています。

メディア掲載

メディア報道 - researchmap

他にもサービス(Ceek.jp, Ceek.jp News など)が雑誌にて多数紹介されています。

教育関係

教育職員免許状

連絡先

E-Mail
mitsuo [at] gssm {dot} otsuka [dot] tsukuba {dot} ac [dot] jp

所属・活動

筑波大学

有限会社てっくてっく

国立情報学研究所

理化学研究所 革新知能統合研究センター

豊橋技術科学大学

学会・研究会

太字は継続中の委員です。

国際会議・ワークショップ・特集号

太字は継続中の委員です。

査読経験

座長経験

その他

外部サイト