テキストマイニングでいつもと違うひらめき

テキストマイニングとは

今回は少し趣を変えて数値ではなく、「テキスト」にスポットを当てる。D-NETの「工事内容」を用いて『テキストマイニング』にかけてみた。『テキストマイニング』とは何かというと、文字列を対象としたデータマイニングのことである。「テキストデータを単語や文節で区切り、それらの出現頻度や共出現の相関、出現の傾向などを解析することで有用な情報を取り出す分析方法である。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(発見的)な知識獲得が可能であるという期待を含意していることが多い。(ウィキペディアより)」とあり、おしなべて言うのなら「ひらめき」を導きやすくする手法と言える。

D-NETの工事内容をマイニングしてみた

D-NETのデータベースから2020年1月から12月までの公告を対象。工事内容の項目を抽出し、テキストマイニングにかけた。今回は株式会社ユーザーローカルが公開しているマイニングツールを使用。
まずは図1だが、使われた頻度が高いワードの〇が大きく、その関係性が強いワードが太い線で結ばれている。右図では「道路」にカーソルを合わせているので「道路」を中心に関係性が強いワードが視覚化された。「舗装」や「土工」など思いつきやすいワードもあるが、撤去や補修など新設すること以外のワードもあり、「それもあったか」と思わされた。工事内容の文章だけとは違い、グラフィカルに表現されると見えてくるものの印象が違ってくる。
次に図2だが、頻度が算出されているが「スコア」が付与され特徴度が数値化されている。多くの工事にも当てはまる「仮設」が出現頻度、スコアとも高い数値となっている。エクセル上で一つずつキーワードを検索するよりも、他のワードを含めて頻度や重要度がわかるのがポイントだ。あくまでマイニング上での結果であるが、「掘削」や「盛土」といった工事の概要を表すワードが出現頻度に比べスコアが低く算出されていたのが意外であった。
データによる数値化や傾向を出すのはD-NET、KJ-NETの得意とするところだ。数値は客観性が強みであるが、それをどう受け取り営業活動や計画にアウトプットするかが難しい。テキストマイニングで現れるキーワードが切り口の違うひらめきに変わるかもしれない。

(担当:片岡 優介)

全国土木工事情報サービス「D-NET」は、国土交通省発注の土木工事入札情報(入札公告・落札情報)を週1回メールでお届けするサービスです。
建設マーケティングのプロフェッショナルが入札情報を建設・マーケティングの視点で整理した土木工事入札情報は、発注者詳細・ICT活用工事・工事内容など、工事に関わる情報はエクセルにすべて表示。貴社での内容確認作業の手間を大幅に軽減できます。
カテゴリー弊社が収集・分析した建設業界に関するデータや市場動向の情報、ちょっと一息タイムにご覧いただけるコラムなど建設関連の情報収集に役立つコンテンツを集めたライブラリーです
全国建築計画物件情報「KJ-NET」概要
全国建築計画物件情報「KJ-NET」基本活用編
TOP